Big Data et sécurité 1/2 : Point de vue de la Gendarmerie sur les données

Le 05 janvier 2017 se tenait à l’École de Guerre Économique une conférence sur le thème de la sécurité rapportée aux Big Data par le Colonel de Gendarmerie Patrick Perrot, Titulaire d’un doctorat en Intelligence Artificielle et Machine Learning. La présentation de cette intervention fournie est divisée en deux parties. La première partie vise à une familiarisation avec les concepts en jeux dans le Big Data ; la seconde présentera les usages du Big Data de la Gendarmerie nationale.

Le colonel Perrot considère qu’il faut être maître des cartes et comprendre les fondements du Big Data afin d’anticiper tous les usages soulevés par cette innovation.

7 V pour une conceptualisation du Big Data

Le terme Big Data est apparu en 2008 au sein du cabinet Gartner, un cabinet de référence en IT, désignant l’océan informationnel que nos sociétés connectées produisent. Il s’agit d’une entité vague, informe, énorme, et d’une certaine manière, hostile. Cette multitude de données que l’homme créée et qu’il commence à peine à maitriser, est couramment définie selon 3 qualités que sont : le Volume, la Variété et la Vélocité, plus communément appelé les 3V.

Le Volume désigne la grande quantité d’informations produites. La Variété repose sur la diversité des données utilisées. Elles ne proviennent pas toutes de la même source et ne se présentent pas toutes sous la même forme. On distingue des données structurées, semi-structurées et non-structurées. La Vélocité désigne la temporalité à laquelle les données sont collectées. Elles peuvent être collectées instantanément, quotidiennement, ou être issues d’études, dans le cas de données socio-économiques.

Le Colonel Perrot conceptualise les enjeux du Big Data en s’appuyant sur 4 autres V : la Véracité, la Valeur, la Visualisation, et la Volatilité.

La Véracité se comprend comme une interrogation sur l’information transmise. La Valeur comme une réflexion sur la pertinence de l’information sur l’usage final de l’exploitation des Big Data. La Visualisation consiste à penser la représentation finale, à destination des personnes qui ne sont pas des data scientists. La Volatilité fait référence au caractère éphémère de ses données qui ne sont pas systématiquement archivées, et dont le traitement nécessite une sauvegarde.

4 piliers pour les exploiter

Ces 7 V permettent de se représenter ce qu’est le Big Data. Mais cette simple présentation ne suffit pas pour les manipuler. Son exploitation repose sur 4 piliers de base que sont :

La donnée, qui est le matériau de base des Big Data. Celui-ci n’est qu’un amas de données, et le nettoyage de la donnée, afin de la normaliser pour son exploitation, est essentiel. De nouvelles formes de calcul sont mobilisées pour un traitement plus efficient comme le calcul parallélisé, ou distribué.

La mathématique, qui est comprise comme l’ensemble des méthodes de tris, d’analyses et de classification que l’opérateur peut mettre en place pour agencer les données, et en extraire une information pertinente. C’est ici qu’une part essentielle de la complexité réside et que des savoir-faire de nombreuses entreprises sont inscrits car qui sait extraire l’information pertinente saura établir des modèles prédictifs, et donc baisser son incertitude quant aux futures données acquises.

La technologie, et plus particulièrement le développement du Machine Learning, et désormais du Deep Learning. C’est la capacité à développer par des relations entre diverses données par rapport à la réussite d’une fonction. La technologie et l’augmentation des objets connectés représente une source d’information à traiter. Avec une multitude de capteurs, d’objets connectés, le Big Data devient une source d’information quotidienne pour nombre d’entre nous.

La datavisualisation qui désigne la capacité de synthétiser et représenter un problème complexe de manière simple. La visualisation des données est la prise en compte de l’utilisateur final. Il est vital de développer des moyens de représentations qui permettent de faire ressortir les informations pertinentes du bruit, des données non-pertinentes relevées au cours de processus de collecte, ainsi que les variations des informations jugées pertinente.

En possédant les connaissances, les bases à l’exploitation de cette technologie, la gendarmerie adopte une posture d’aplomb sur cette technologie. Cette posture est nécessaire pour une institution séculaire consciente qu’elle ne peut adopter une méthode purement agile, qui suivrait chaque tendance soulevée par les Big Data.

Une révolution informationnelle à maitriser

Les Big Data et leurs méthodes de manipulation sont apparues en raison de l’explosion du nombre de données produites actuellement. Pour procéder à l’indexation et l’exploitation de ces données, il faut les collecter, les nettoyer, les traiter, pour les exploiter. Nous pouvons illustrer, toute proportion gardée, ce procédé avec l’enregistrement d’un nouveau document dans une bibliothèque. Le document doit être défini par son état, s’il a besoin d’être restauré, puis par sa nature, si c’est un livre, par ce qu’il est : provenance, auteur, sujet, puis archivé dans la base de données de la bibliothèque. En relevant les domaines qu’il aborde, cette information peut être utilisée dans l’établissement d’une bibliographie. A cette image, le traitement des Big Data permet de faire un lien entre l’universel et le particulier. Il permet de dégager une vision globale puis de cibler en faisant apparaitre des corrélations entre différentes données.

Avec ce traitement des données, le Big Data permet l’élaboration de modèles, propre à rendre compte d’une réalité, et de permettre l’élaboration de modèles prédictifs. Le Big Data fait le lien entre l’a priori et l’a posteriori. Les prédictions, en anticipant des tendances, permettent de s’y préparer, d’aider une décision, d’anticiper un choc, de perfectionner une stratégie. Dans le domaine de l’aide à la décision, les Big Data se révèlent un appui précieux, si bien qu’il est tentant de s’en remettre à l’outil pour prendre une décision. La machine fournissant une justification par l’ensemble des données traitées. Il faut garder à l’esprit qu’un programme a la capacité d’analyse quantitative, mais que la faculté de juger de l’adéquation de la solution proposée reste celle de l’homme derrière la machine. Il faut prendre garde à ne pas rester enfermer dans une sphère particulière de représentation.

A l’heure de la démocratie participative, une exigence de transparence est revendiquée par le public. Des données sont déjà disponibles pour tous par les initiatives du mouvement de l’Open Data. La collaboration de diverses compétences permet de développer des solutions pertinentes pour des problèmes précis. Les solutions déployées sont partageables. Cependant, le Colonel Perrot note que toutes les données ne sont pas bonnes à partager. En Angleterre, les données relatives aux cambriolages sont relevées et utilisées par des acteurs privés. Ainsi, pour l’achat d’un appartement, il est possible de consulter les données relatives à un quartier. L’exploitation de telles données par un organisme privé est dangereuse pour la sécurité des individus. Nous ne pouvons pas être certains que les contrôles nécessaires à l’anonymisation seront dûment respectés. Il serait alors possible, par négligence, d’être identifié par des services tiers. La protection de la vie privée de l’individu est alors en jeu. En France, de telles données ne peuvent être utilisées car elles désignent le lieu précis du cambriolage. La gendarmerie pour modéliser des modèles prédictifs, doit alors utiliser des cartes par nuages de chaleur, rendant l’identification particulière impossible.

Vous pouvez lire le second article: Bigdata et Sécurité 2/2 : L'application au sein de la Gendarmerie Nationale.