Facebook EmaiInACirclel
Cloud – big data

L’émergence des Data Products

PentaGuy
PentaGuy
Blogger

Si le Big Data ne recouvre aucune autre réalité qu’un énième avatar de la BI d’entreprise et si tout cela n’est que du baratin (voir ici et ), pourquoi en faire tant de cas ? Parce que derrière tout le buzz, il y a des réalités concrètes qu’une entreprise ne peut ignorer. Mais pour discerner ces réalités, il nous manque encore les instruments d’exploration. C’est l’ambition de cet article de vous donner les clés d’interprétation nécessaires pour convaincre le lecteur de la nécessité d’une stratégie d’application de l’Advanced Business Intelligence pour l’entreprise numérique du XXIème siècle.

Le besoin d’une nouvelle métaphore

La BI traditionnelle est représentée par la métaphore de l’entrepôt (data warehouse) et de la place de marché (datamart) dans lesquels l’utilisateur peut trouver des données sous une forme plus ou moins raffinée. Ce que ne dit pas cette métaphore dans le cas de la BI c’est exactement ce qu’elle laisse supposer lorsqu’elle n’est plus une métaphore. Si vous imaginez un entrepôt réel ou une place de marché, qui sont ses utilisateurs ? Des professionnels. Uniquement des professionnels. Or, la BI d’entreprise doit servir tous les utilisateurs sans préjuger de leur compétence sous peine de voir, dans le meilleur des cas, l’utilisation des outils de BI se restreindre aux analystes ou devenir, dans le pire des cas, un système que personne n’utilise.

Un autre aspect des entrepôts et des places de marché concrets est qu’ils mettent à disposition des matières premières, des produits semi-finis ou des pièces détachées. Pour obtenir des produits complexes prêts à être utilisés, il faut vous adresser ailleurs, aller dans une boutique spécialisée ou dans un restaurant (du moins si vous voulez manger correctement). La BI traditionnelle correspond encore bien à la métaphore car les données qui y sont stockées ne servent finalement qu’à l’élaboration de rapports et de tableaux de bord que les utilisateurs finaux consommeront selon leurs besoins et leurs compétences. Ce processus d’élaboration des données s’arrête en règle générale à ce stade du moins pour sa partie purement automatique. La suite du processus telle qu’elle est illustrée dans la figure suivante comporte une phase d’analyse des données et une phase de décision qui restent, en BI traditionnelle, des activités purement humaines. L’effet de rétroaction (feedback) qu’illustre cette figure est d’une importance cruciale sur laquelle nous reviendrons.

Hélas, le constat que nous pouvons faire est que, lorsque nous intervenons chez nos clients au titre de nos missions de conseil, nous constatons que les données des entrepôts sont peu, pas ou mal exploitées, que les utilisateurs en reviennent toujours à Excel (qui est le symptôme et non le mal) et que finalement, la direction se trouve toujours aussi mal informée car l’information n’est pas fiable, arrive trop tard ou n’a pas de valeur intrinsèque (elle n’apporte pas de connaissance nouvelle).

On peut filer la métaphore et décrire cette situation en ces termes : confrontés à l’absence d’un restaurateur compétent et à une matière première de pauvre qualité, les utilisateurs prennent la décision de faire eux-mêmes leur tambouille de données. Bien entendu, la situation réelle n’est pas si grave lorsque les entreprises prennent conscience de la valeur intrinsèque que possèdent les données mais qui ne peut s’exprimer que par une exploitation analytique poussée, ce qui nous amène à formuler une autre métaphore.

Une nouvelle métaphore, Data is Crude Oil

Le pétrole brut (crude oil) a une valeur d’usage très élevée que ne reflète pas sa valeur comptable. Il est la source d’énergie principale des économies développées et le substrat de toutes les molécules importantes de l’industrie chimique.

Appliquée aux données, cette métaphore implique que les données brutes disponibles ont une valeur d’usage plus importante que celle liée à leur collecte et à leur stockage mais qu’il est nécessaire de les raffiner pour accéder à cette valeur d’usage. Dans ce modèle, la donnée retrouve sa valeur intrinsèque, sa valeur d’usage au détriment de la vue (rapport, dashboard, etc.).

La valeur que les investisseurs accordent à des entreprises comme Facebook ou Twitter ou encore l’insolent succès de Netflix s’expliquent essentiellement par la conclusion que ces entreprises sont des entreprises de données qui ont compris que les données avaient de la valeur mais qu’il convenait de les raffiner pour pouvoir produire de l’échange et donc du cash.

De la métaphore à la réalité

Ces entreprises ont conçu des algorithmes et des systèmes qui se basent sur des données pour produire de l’information qui, utilisée, produit en retour plus de données. Les moteurs de recommandation d’Amazon ou de Netflix, les analyseurs de graphe social de Facebook ou LinkedIn ou le détecteur de tendances de Twitter sont des systèmes de ce type, des data products.

Classiquement, un composant logiciel est un programme dont le comportement se base sur une modélisation ad hoc et qui a pour fonction de traiter des données. Même si la configuration et le comportement de tels composants peuvent largement être dépendants de données externes, elles ne dépendent pas des données que ce composant traite. Un data product est différent. Plutôt que d’être conçu à partir d’un modèle ad hoc, un composant logiciel peut voir son comportement et sa configuration modifiés par les données qui y transitent. Si nous prenons l’exemple des moteurs de recommandation, leur dynamique est une fonction de données passés, construite et mise à jour à l’aide d’algorithmes d’apprentissage de manière à faire converger leur sortie vers les goûts supposés d’un utilisateur. De plus, ces systèmes incorporent toute la chaîne de traitement de l’information telle qu’elle est décrite dans le schéma exposé plus haut, y compris et c’est la toute la force des data products, la boucle de rétroaction. Ceci a pour conséquence que les data products deviennent des systèmes autonomes.

Les applications des data products sont récentes et diverses. Et le propre des data products est de se faire oublier car quel utilisateur des sites des entreprises que nous venons de mentionner s’imagine qu’il est en train de manipuler (ou de se faire « manipuler ») par un data product ?

Une idée que nous défendons chez Pentalog est que les informations dont un salarié a besoin pour faire son travail et qu’il allait chercher au petit bonheur la chance dans la jungle des outils de BI de son entreprise devrait lui être mises à disposition par un ou plusieurs data products qui permettraient à ce salarié de se concentrer sur les étapes de décision et de conduite des actions plutôt que sur la collecte, l’évaluation et l’analyse des données.

La question qui vient à l’esprit maintenant est : qui conçoit des data products et comment ? Nous pouvons tout de suite répondre à la première interrogation en disant que les data products sont conçus par un data scientist, ce qui nous permet de trouver habilement un débouché à ce nouveau métier dont l’existence supposée fait couler beaucoup d’encre. Mais ce sera pour le prochain article de cette série.


Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.