Big Data : Un défi pour les infrastructures informatiques

La conception et le déploiement d’un système d’analyse big data n’est pas une tâche triviale. Comme l’indique l’une de ses définitions, le Big Data est au-delà de la capacité des plates-formes matérielles et logicielles actuelles. Les nouvelles plates-formes matérielles et logicielles demandent à leur tour de nouvelles infrastructures et modèles pour faire face au large éventail des défis du big data. De récents travaux [1], [2], [3] ont évoqué les obstacles potentiels à la croissance des grandes applications de données.

Dans cet article, je vais essayer de classer ces défis en trois catégories : la collecte et la gestion des données, l’analyse de données, et les problématiques liées aux systèmes.

Collecte et gestion des données

La collecte et la gestion des données traitent des quantités massives de données hétérogènes et complexes. Les défis suivants du big data doivent être remplis :

La représentation des données : Beaucoup de jeux de données sont hétérogènes au niveau de leur type, leur structure, leur sémantique, leur organisation, leur granularité et leur accessibilité. Une présentation des données cohérente devrait être conçue pour refléter la structure, la hiérarchie et la diversité des données, de même qu’une technique d’intégration pour permettre des opérations efficaces à travers différents jeux de données.
Réduction de la redondance et compression des données : En règle générale, il y a un grand nombre de données redondantes dans les ensembles de données brutes. La réduction de la redondance et la compression des données sans sacrifier une valeur potentielle sont des moyens efficaces pour diminuer la surcharge du système global.
Gestion du cycle de vie des données : La détection et le calcul omniprésent génèrent les données à un rythme et une échelle sans précédent qui dépasse les nombreuses petites avancées dans les technologies des systèmes de stockage. Par conséquent, les systèmes de stockage actuels ne peuvent pas héberger ces données massives, ce qui constitue l’un des défis majeur. En général, la valeur dissimulée dans le big data dépend de la fraîcheur des données; par conséquent, nous devrions mettre en place le principe de l’importance de données associé à la valeur de l’analyse afin de décider quelles parties des données doivent être archivées et quelles parties doivent être jetées.
Confidentialité des données et sécurité : Avec la prolifération des services en ligne et des téléphones mobiles, les problèmes de confidentialité et de sécurité concernant l’accès et l’analyse des renseignements personnels augmentent. Il est essentiel de comprendre quel soutien de la vie privée doit être fourni au niveau de la plate-forme pour éliminer les fuites de ces informations concernant notre vie privée et faciliter les différentes analyses.

Analyse des données

Il y aura un impact significatif dû aux progrès effectués dans l’analyse des données massives, y compris l’interprétation, la modélisation, la prédiction et la simulation. Ces quantités massives de données, les structures de données hétérogènes et leurs diverses applications présentent des défis énormes :

Analyses approximatives : Comme les ensembles de données augmentent et l’exigence de temps réel devient presque impérative, l’analyse de l’ensemble des données est de plus en plus compliquée. Une manière de résoudre potentiellement ce problème est de fournir des résultats approximatifs, par exemple par l’intermédiaire d’une requête d’approximation. La notion de l’approximation a deux dimensions: l’exactitude du résultat et les groupes omis de la sortie.
Connexion des médias sociaux : Les médias sociaux possèdent des propriétés uniques, telles que l’immensité, la redondance statistique et la disponibilité de la rétroaction des utilisateurs (user feedback). Diverses techniques d’extraction ont été utilisées avec succès pour identifier des références à partir des médias sociaux pour des noms de produits spécifiques, des lieux, ou des personnes sur des sites Web. En connectant des données inter-domaines avec les médias sociaux, les applications peuvent atteindre des niveaux élevés de précision et des points de vue distincts.
Analyse en profondeur (deep analytics): L’une des choses les plus excitante concernant le Big Data est la possibilité de gagner de nouvelles opportunités. Des technologies analytiques sophistiquées, telles que le machine Learning, sont nécessaires pour débloquer ces idées. Cependant, tirer efficacement parti de ces outils d’analyse nécessite une maîtrise des probabilités et des statistiques. Les piliers potentiels des mécanismes de confidentialité et de sécurité sont le contrôle d’accès obligatoire, la communication en matière de sécurité, le contrôle d’accès multi-granularité, l’exploration et l’analyse des données, et le stockage et la gestion de la sécurité.

Problématiques systèmes

Les systèmes parallèles à grande échelle confrontent généralement plusieurs questions d’intérêt commun; Cependant, l’émergence du Big Data a amplifié les défis suivants :

Gestion de l’énergie : La consommation d’énergie des systèmes informatiques à grande échelle est l’une des grandes préoccupations économique et environnemental. La transmission des données, le stockage et le traitement consommeront inévitablement de plus en plus d’énergie avec l’augmentation du volume de données et la demande d’analyses.
Évolutivité : Un système d’analyse de données massives doit être capable de supporter de très grands ensembles de données. Tous les composants dans les systèmes big data doivent être capables d’évoluer pour répondre à la taille croissante des ensembles de données complexes.
Collaboration : L’analyse des données massives est un domaine de recherche interdisciplinaire qui nécessite des spécialistes de plusieurs domaines professionnels qui doivent collaborer pour tirer les valeurs cachées. Une cyber infrastructure big data complète est nécessaire pour permettre à une large communauté de scientifiques et d’ingénieurs d’accéder aux données diverses, d’appliquer leurs expertises respectives, et de coopérer pour atteindre les objectifs de l’analyse.

Dans mon prochain article, je vous propose de nous concentrer sur la collecte de données à travers les différentes sources de données existantes.

[1] E. B. S. D. D. Agrawal et al., « Challenges and opportunities with big data : A community white paper developed by leading researchers across the united states, » The Computing Research Association, CRA White Paper, Feb. 2012.
[2] A. Labrinidis and H. V. Jagadish, « Challenges and opportunities with big data, » Proc. VLDB Endowment, vol. 5, no. 12, pp. 20322033, Aug. 2012.
[3] S. Chaudhuri, U. Dayal, and V. Narasayya, « An overview of business intelligence technology, » Commun. ACM, vol. 54, no. 8, pp. 8898, 2011.

Big Data : Un défi pour les systèmes d’analyses de données massives

Collecte et gestion des données

Analyse des données

Problématiques systèmes

Laisser un commentaire Annuler la réponse

Product Owner : ressources et outils pour une gestion agile et efficac...

Tech Trends 2020 : les tendances tech & digital à suivre

Account Manager : L'Interlocuteur Privilégié du Client

Big Data : Un défi pour les systèmes d’analyses de données massives

Collecte et gestion des données

Analyse des données

Problématiques systèmes

Laisser un commentaire Annuler la réponse

Voir aussi

Product Owner : ressources et outils pour une gestion agile et efficac...

Tech Trends 2020 : les tendances tech & digital à suivre

Account Manager : L'Interlocuteur Privilégié du Client