Le Big Data au service de la montée en puissance de l’I. A. Partie 2/4 : Qu’est-ce qu’un projet Big Data ?

Les données en entreprise sont souvent comparées à une nouvelle matière première. Pour expliquer comment la rendre utile, Louis-David Benyayer, chercheur à l’ESCP Europe, utilise dans un article de mai 2016 deux métaphores. D’une part, les données brutes sont à l’image du pétrole : plus les données sont raffinées, travaillées, analysées, plus elles prennent de la valeur par rapport aux données brutes. D’autre part, elles offrent autant de possibilités que le blé après une récolte : il est possible de le transformer tout de suite, ou alors de le stocker pour ressemer l’année d’après. Louis-David Benayer conclut que ce n’est pas la rareté des données qui fait leur valeur mais leur abondance. La donnée demande à être réutilisée. Comment intégrer cette matière première qu’est la donnée dans les projets menés en entreprise ? Il s‘agit d’exploiter les caractéristiques essentielles des Big Data, que l’on peut appeler les 5V.

Volume :

Par définition, les Big Data représentent un important volume de données. Ainsi, IBM estime à 2,5 trillions de gigabits de données le volume que nous créons chaque jour. Cette estimation augmente par ailleurs de plus de 50% d’année en année.

De plus, les nouveaux formats de données et les nouvelles sources contribuent à générer de nouveaux besoins. D’une part, la gestion de la donnée demande certaines compétences. Le datascientist, emploi phare du Big Data, est ainsi devenu le nouveau Graal du recruteur car il aussi bien demandé en startup qu’en entreprise traditionnelle. D’autre part, la gestion de la donnée demande à ce que les données soient stockées. En conséquence, les emplois, les architectures et les solutions doivent nécessairement s’adapter.

Les premiers confrontés à des problématiques de gros volumes, les géants du web, aussi appelés les GAFA [1], ont été les premiers à mettre en place de nouvelles technologies de stockage. En effet, les solutions traditionnelles de gestion des données ont trouvé leurs limites. Un bon exemple est celui des bases de données relationnelles. Amazon, Google et consorts ont profité de ce constat pour faire leur business model autour du stockage de données. Amazon réalise la plus grosse partie de son chiffre d’affaire autour d’Amazon Web Service : l’entreprise supporte les couts fixes énormes des datacenters et propose une offre modulable à la demande de ses clients. On comprend pourquoi ces entreprises cherchent par tous les moyens à vendre des prestations Big Data même quand les entreprises n’en ont pas besoin : sans elles, pas besoin d’espaces de stockages si grands et, donc, la fin de leur empire qui repose sur ces espaces de stockage.

Vélocité :

La vélocité est une autre caractéristique des systèmes Big Data : elle qualifie le débit du flux

de données et la fréquence à laquelle elles sont traitées. Face aux grands volumes cités précédemment, les architectures doivent permettre d’exploiter les données, sans quoi le stockage seul serait inutile.

Avant l’avènement du Big Data, les données étaient soit traitées par un batch [2] quotidien durant la nuit applicative [3], soit à intervalles réguliers au sein des systèmes d’information d’entreprises. Les contraintes techniques relatives à un traitement en temps réel étaient trop importantes pour ces systèmes classiques.

Avec les Big Data, les données sont traitées en temps réel. Avec les datawarehouses, entrepôts où sont stockées des données de l’entreprise, on voit la donnée de façon gelée, à un instant T, dans l’objectif de produire un reporting. Au contraire, avec le Big Data, on capte la donnée en temps réel, notamment avec les interactions ayant lieu sur les sites web. Cette caractéristique associée avec les deux nouvelles composantes que sont l’algorithmie (text mining, indexation) et les Application Programing Interface (Interface permettant l’accès au programme ou à la base de données par un système extérieur), va conférer à la donnée une mobilisation de plus en plus rapide, tendant vers le temps réel.

Ajouter la composante « temps réel » constitue un défi technique mais ouvre de nouvelles perspectives. Il est nécessaire que la disponibilité des données soit permanente pour assurer la continuité des process : elles doivent pouvoir être fédérées et les systèmes doivent gérer à la fois l’instantané et l’historique. C’est pourquoi certaines solutions comme Apache Beam, mélangent les deux modes de traitement : par lot et en flux.

Pierre-Yves Lastic, Chief Privacy Officer chez Sanofi, explique :

« Nous travaillons en collaboration avec divers acteurs de la santé, un domaine où le temps réel a une importance cruciale – on s’en doute puisque c’est la vie de personnes qui est en jeu ! Lorsque nous travaillons sur des applications d’assistance aux personnes âgées, par exemple, on ne peut se permettre de ne pas être en temps réel. »

Variété

Faisant référence à la multiplication des sources et des formats de données, la variété se révèle également être une caractéristique essentielle du phénomène Big Data. En effet, le projet Big Data ne traite pas seulement des données relationnelles structurées mais également de données complexes, brutes et qui nécessitent d’être organisées pour être utilisées : emails, photos, vidéos…

Les interactions et profils sur les réseaux sociaux, la consultation des sites de e-commerce et les objets connectés permettent de collecter toujours plus de données. Dès lors, l’analyse devient plus complexe car elle prend en compte les associations entre ces éléments de natures différentes.

Véracité

La véracité constitue une nouvelle composante et un défi supplémentaire pour le Big Data. Elle est relative à la fiabilité, à la précision et à la pertinence des informations. Toutes les phases de vie de la donnée sont concernées par cette problématique. Les données erronées, périmées ou doublons, peuvent être traitées de la même façon que les autres. Il est donc nécessaire de garantir l’intégrité de la donnée pour ne pas altérer l’analyse.

Une enquête réalisée par IBM a révélé que près de 27% des entreprises interrogées confessent ne pas être certaines de l’exactitude des données collectées par leurs systèmes d’information. De même, un chef d’entreprise sur trois utilise les données pour prendre des décisions, mais n’a pas vraiment confiance en celles-ci. Selon la Harvard Business Review, ce manque de véracité et de qualité des données coûte environ 3,1 trillions de dollars par an aux États-Unis.

Si le Big Data constitue une révolution, ce n’est pas une innovation radicale puisque la Business Intelligence résout bon nombre de ses problématiques pour le traitement de données structurées. La multiplication des données et des sources de cette donnée implique de faire des Big Data une exigence majeure.

Valeur

De nombreux projets Big Data échouent sans que les entreprises en comprennent la cause. Avant toute démarche, il est nécessaire de comprendre qu’un projet Big Data nécessite des ressources particulières, en infrastructures, en personnel, etc. Cette démarche peut être comparée à une démarche de recherche, dont le Retour sur Investissement (ROI) n’est pas assuré à l’avance. Les cas d’usages du Big Data étant très nombreux, il peut être facile de croire qu’il s’agit d’une solution miracle. En complément de la véracité, l’interrogation de la valeur des données et de la plus-value apportée par le projet est une étape clé pour la réussite d’un projet Big Data.

Dans les projets menés en entreprise, tirer parti des Big Data implique d’intégrer à la fois volume, vélocité, variété, véracité et valeur des données considérées.

[1] Google Amazon Facebook Apple

[2] Processus de traitement automatique de données

[3] Tranche horaire durant la nuit où les systèmes d’informations ne sont pas ou peu utilisés

Retrouvez la première partie de l’article ici.

Retrouvez les fiches métiers liées au Big Data et à l’Intelligence Artificielle ici.