Les Big Data au service de la montée en puissance de l’IA – Partie 1/4 : Un peu d’histoire

Avant de commencer à comprendre le Big Data, il est nécessaire de rappeler la définition d’une donnée, cœur de la valeur ajoutée du domaine de l’informatique et notion qui nous suivra tout au long de ce premier article.

En informatique, une donnée ou data est la représentation d’une information. Au même titre que l’Intelligence Economique, le Big Data peut-être comparé à une science du traitement de l’information via des technologies informatiques.

Elles peuvent être conservées et classées sous différentes formes, structurées ou non. Ainsi on peut retrouver les données structurées, comme les données textuelles (chaîne) ou numériques, ou le données non-structurées, comme les images, les sons, etc. Les données peuvent donc être enregistrées depuis de nombreux capteurs : traitement interne, clavier, Internet of Things…

De l’histoire de la notion de Big Data

Selon Gil Press, écrivain de la Très courte histoire du Big Data, le Big Data serait né grâce à l’amélioration des systèmes de stockage, d’analyse et de fouille de l’information, que ce soit au niveau du volume de données mais aussi de la rapidité d’exécution. On parle d’ailleurs d’un « Big Bang de l’information stockée ».

Ainsi, l’expression Big Data est apparue il y a une vingtaine d’années, en octobre 1997, selon les archives de la bibliothèque numérique de l’Association for Computing Machinery – une organisation internationale dédiée à l’informatique, fondée aux Etats-Unis. On le retrouve dans des articles sur les nouvelles technologies pour la visualisation des grands ensembles de données (graphiques…). L’histoire du Big Data comme outil des technologies de l’information est donc assez récente.

Pourtant, si le terme reste relativement récent, on observe les prémisses du Big Data dès la Seconde Guerre mondiale, à travers le croisement de domaines philosophiques et scientifiques comme la cybernétique, la science des mécanismes autogouvernés et du contrôle. Cette nouvelle dynamique explique que l’homme et le monde représentent « des ensembles informationnels, dont la seule différence avec la machine est leur niveau de complexité. La vie deviendrait alors une suite de 0 et de 1, programmable et prédictible », explique V. Tréguier.

Ainsi, le Big Data est un concept qui a plus de vingt ans. Mais il faudra attendre les années 2000 pour voir apparaître les premières définitions complètes et parfois complexes du terme. Cependant, les spécialistes ne s’accordent pas forcément sur la caractérisation de cette notion. Cela est notamment dû au fait qu’historiquement, les évolutions du Big Data et de ses algorithmes ont été très rapides et cela, de façon exponentielle. C’est pourquoi, aujourd’hui, il est impossible de pronostiquer son devenir à moyen ou long terme.

Néanmoins, nous allons donc essayer de la décrire au mieux.

Sept « V » caractérisent le Big Data, bien que généralement seuls les cinq principaux soient exploités. A ses débuts, le Big Data était caractérisé par les trois premiers : Volumétrie, Vitesse et Variété auxquels se sont rajoutés d’autres « V » suite à l’évolution du concept. Ce sont donc d’énormes volumes de données non-structurées (images, vidéos, sons, réseaux sociaux) qui arrivent en temps réel. Si ces données sont censées posséder une valeur propre, ce n’est le cas que si elles sont traitées en temps réel ce qui permet des actions immédiates. Nous nous y intéresserons plus en détail dans le prochain article.

Le Big Data se définit donc, de prime abord, comme la profusion des données liée à l’accélération de leur production. Mais certains scientifiques nous font part de leur définition du terme « Big » qui, selon eux, tire son intérêt dans les interfaces et liaisons entre les données et non dans la quantité. Cela soutient ainsi l’importance de la construction d’un « maillage » de données immense. L’exploitation intelligente d’information est l’essence même de la discipline.

En revanche, tous s’accordent à dire que demain le monde sera gouverné par des hommes qui s’appuieront sur des analyses fines et spécifiques par traitement informatique.

Le Big Data ou le contrôle de la machine Big Brother

Aujourd’hui, sa place est au cœur des entreprises. L’analyse et la gestion d’un volume de données important constituent une préoccupation majeure pour celles-ci. Quelques chiffres clés permettent d’arriver aisément à ces conclusions :

– 90% des données, récoltées depuis le début de l’humanité, l’ont été ces deux dernières années

– Chaque jour, 2.500.000.000.000.000.000 octets de données (2.5 quintillions) sont créés. Cela correspond à 10 millions de disques Blu-ray qui, empilés l’un sur les autres, atteindraient la hauteur de 4 Tour Eiffel

– Les données stockées augmentent quatre fois plus vite que l’économie mondiale

En 1965, Gordon Moore, co-fondateur d’INTEL, prédisait déjà que la puissance informatique doublerait tous les 18 ou 25 mois. Cette prophétie s’est révélée exacte : l’étude IDC-EMC, Extracting value from chaos, prédit même qu’en 2020, les données numériques créées dans le monde s’élèveront à 40 zettaoctets (10²¹ octets). Le marché du Big Data des entreprises en France en 2017 représente 652 millions d’euros ; il était de 285 millions en 2014, soit une hausse de 129%.

Le Big Data est la nouvelle réalité de l’économie numérique. Il représente à la fois un monde meilleur mais aussi la peur d’un possible Big Brother.

Rendue populaire par le roman dystopique 1984 de George Orwell, l’expression « Big Brother » est utilisée pour qualifier toutes les institutions ou pratiques portant atteinte aux libertés fondamentales et à la vie privée des populations ou des individus. Les opportunités sont nombreuses : que ce soit en entreprise ou dans la société civile, il faut comprendre et apprivoiser la donnée en se l’appropriant. Le stade ultime de cette évolution semble aujourd’hui être Data driven, c’est-à-dire que notre activité soit dirigée en direct par les données des utilisateurs et clients.

Nous pouvons classifier les enjeux du Big Data sous cinq grands thèmes.

– La qualité des données

Au vu de leur masse, la qualité des données doit être la priorité. Il faut ainsi identifier et nettoyer systématiquement la donnée utilisée. Pour répondre aux standards requis, il faut corriger les erreurs pouvant être commises par les utilisateurs, ou créées par les solutions adoptées. Ainsi, tout projet Big Data devrait réaliser un audit sur la qualité des données, afin de mettre en place des actions de gouvernance.

– Le traitement des données

Comme expliqué ci-dessus, pour certains, le Big Data est d’abord une affaire de traitement de la donnée plutôt que de volume. Les solutions de gestion et de traitement deviennent donc indispensables pour favoriser l’intelligence de celle-ci et pour atteindre leur analyse en temps réel.

– La protection des données

Pour l’avenir du Big Data, la question de la sécurité autour des données privées est déterminante. En effet, la relation de confiance entretenue entre une entreprise et ses clients est directement liée à leur utilisation. Avec les objets connectés et les réseaux sociaux en pleine croissance, l’anonymisation et la protection des données privées sont au cœur du débat. Le scandale du Cambridge Analytica de début 2018, c’est-à-dire la fuite de données personnelles de Facebook et Google, prouve à quel point le sujet est important pour les citoyens.

– L’image de la donnée

La datavisualisation vit depuis quelques années une transformation totale pour répondre aux attentes et limites des différents publics. L’algorithme ne suffit plus. C’est le défi que doivent relever aujourd’hui les experts dans le traitement des données, que ce soit au niveau des graphiques mais aussi au niveau des outils d’accès à l’information. Cet enjeu s’est développé à une rapidité telle que certains considèrent aujourd’hui que le V de datavisualisation est un des grands V du Big Data.

– L’humanité des données

Il ne faut pas oublier que derrière cette donnée, il y a des utilisateurs, des clients, des entreprises. Il est important de garder un aspect humain afin que la data puisse créer un lien entre tous les acteurs de ce processus, dans le respect le plus total. Les données doivent nous accompagner intelligemment dans la relation entre ceux qui les produisent et ceux qui les exploitent.

La semaine prochaine, nous irons creuser ces 5V pour comprendre comment l’évolution de ces outils ont fait sortir de la business intelligence classique pour aller vers une autre dimension, celle du Big Data.

Pierre-Alexandre CLAYET (Club Big data et Intelligence Artificielle)