Dans le cadre de notre coopération avec la CCI Paris Ile-de-France, Denis Deschamps, responsable du département Innovation et Intelligence Économique, nous livre la deuxième partie de son analyse sur le Big Data et notre entrée dans un nouveau paradigme. Le Big Data est aujourd’hui le « grand tout » !
Comme on peut le constater au quotidien en utilisant Siri d’Apple ou bien Google now, le Big Data constitue une véritable innovation de rupture dans le domaine de l’information, mais également et surtout au-delà.
En permettant, grâce à des machines de plus en plus puissantes, la convergence en un temps record de bases de données différentes et qui constituent un ensemble de méga-données, en même temps variées et structurées, représentant un volume considérable à traiter, le Big Data va en effet bien plus loin en complexité que le Data Mining « de papa », souvent focalisé sur une source unique.
Les données sont de fait partout, de différentes natures (vidéo, audio, image, texte…) et / ou de diverses provenances (Twitter, Youtube, Google..), et peuvent être récupérées sur des plateformes d’utilisation variée – réseaux sociaux (par exemple avec FB : recherche possible avec mots-clefs sur indexation des mises à jour publiques de statuts), open data public, objets connectés et métadonnées de géolocalisation…- pour être mises en ligne, on ne sait au juste trop où, « sur le Cloud.»…
Le Big Data est ce qui permet le traitement en temps réel (High Velocity / Fast Data) de ces informations différentes (High Variety), mais interdépendantes (avec des corrélations sans nécessaires liens de causalité), qui sont stockées (fermes de serveurs / Cloud) et structurées en lots (High Volume) pour être travaillées / exploitées grâce à la statistique et le code / algorithme.
Ainsi, du schéma habituel qui, de la Data faisait de l’Information qui contribuait à la Connaissance, le Big Data inverse la logique pour partir de l’Information produisant de la Data conduisant à la Connaissance…
Le Big Data devient ensuite de la Smart Data grâce notamment à l’amélioration de l’expérience utilisateur (avec, par exemple, une focalisation sur la connaissance du client…par la segmentation, la personnalisation en temps réel) qui suppose bien une intervention humaine permettant de donner un sens à la donnée (gestion des interactions avec transformation de la donnée immatérielle pour les usages que l’on compte en faire).
On parle alors d’Analyse, qui consiste en fait le plus souvent à re-contextualiser la donnée par une sémantique spécifique, comme par exemple :
- Analyse économique : la donnée est traduite en langage statistique, avec des indices et indicateurs qui permettent le passage de la micro-économie à la macro-économie… Inversement, l’analyse peut aussi servir à désagréger de grandes données pour les appliquer au terrain économique.
- Analyse logique : la donnée est soumise à un ensemble de calculs qui permettent d’en faire une ressource exploitable pour opérer des comparaisons, classements.
Comme cela a été dit plus haut (« la donnée n’est pas donnée »), la donnée n’est pas la réalité mais véritablement une construction à partir d’une ressource d’information disponible et manipulable. De ce point de vue, il convient alors de distinguer les process :
- Le crowdsourcing possible à partir de données simples, lorsqu’on intervient sur des populations connues ou reconnues, qui permettent la modélisation et une analyse statistique non exhaustive, moyennant le clustering ou l’échantillonage, pour permettre en définitive une individualisation des traitements ;
- Le Big Data avec une analyse « Data Driven », qui fait intervenir des algorithmes linéaires sophistiqués pour traiter des données pour lesquelles on ne dispose d’aucune connaissance a priori sur les populations analysées (c’est-à-dire avec des règles reconnues ou des hypothèses fiables).
Quand on sait tout cela, on peut conclure que le Big Data (ou ce qui lui succèdera ou qui lui a sans doute déjà succédé, tant les choses vont vite dans ce domaine… avec plus particulièrement le développement d’une nouvelle vague d’innovation avec le « transhumanisme » / homme connecté et bien sûr les NBIC / nanotechs, biotechs, informatiques et sciences cognitives, comme l’intelligence artificielle…), par essence disruptif, risque encore de prendre encore plus d’importance avec le développement de l’Internet des objets, qui permet la collecte en continu de données comportementales..
On annonce ainsi 80 milliards d’objets connectés en 2020 (contre 20 milliards aujourd’hui) et on est très certainement bien en dessous de ce qui va très certainement se produire… compte tenu du décuplement des données à prévoir (« Infodéluge » ?) avec des machines qui produisent déjà bien plus de données que les humains (avec des métadonnées qui, autour de la donnée, s’ajoutent à la donnée elle-même : localisation, traçage et donc surveillance) : M2M (machine to machine), M2P (machine to people)… Avec des besoins en analyse / corrélation qui vont nécessairement s’accroître par rapport à cette « informatique en nuage », alors même que les résultats de recherche via Google sont d’évidence biaisés …
La ressource humaine sera donc toujours indispensable pour faire une exploitation raisonnée du Big Data qui comprend ainsi de plus en plus des données fausses, tronquées ou encore non-exhaustives…. et auxquelles il faut pouvoir donner un sens par une ingénierie utilisant des techniques statistiques, une pratique professionnelle de la lecture et de l’agrégation de données, ainsi que des connaissances en code.
Denis Deschamps
Diplômé de Sciences-Po Paris (1989), Denis Deschamps dirige depuis 2006 l’ARIST Paris Ile-de-France (Agence régionale d’information stratégique et technologique) et est par ailleurs responsable du département innovation et intelligence économique de la CCI Paris Ile-de-France. Entre 2000 et 2006, il a été Secrétaire général du CROCIS (Centre régional d’observation du commerce, de l’industrie et des services), puis responsable du pôle études régionales, information stratégique et technologique de la CCIP.