Veille et dataviz au sein du gouvernement

Mathieu Andro est l’animateur du réseau de veille documentaire à la direction des services administratifs et financiers de la Première ministre. Louis Caldas est conseiller presse, communication et opinion de Dominique Faure, ministre déléguée chargée des Collectivités territoriales et de la Ruralité. Entre veille et data visualization, retour sur une conférence donnée à l’École de Guerre Économique sur l’utilité de ces domaines pour le gouvernement.La veille au sein du gouvernement.

Afin de repérer les opportunités, détecter les menaces et se tenir à jour sur les évolutions technologiques, l’État a mis en place un système de veille s’articulant principalement autour des outils Inoreader et KBcrawl. Ce choix se justifie à la suite de l’étude menée par Mathieu Andro, récemment publiée dans la revue i2D, qui identifie une liste de plateformes de veille ainsi que leurs spécialités.

Le premier outil, Inoreader, est un agrégateur de flux RSS, avec les problèmes que posent ces derniers puisque parfois, le flux fonctionne mal, envoyant peu, ou pas, d’informations. De plus, les flux RSS ne remontent souvent que les titres et quelques phrases d’article, le tri par mot clé se fait donc seulement là-dessus et non sur l’article entier. Enfin, il n’est pas possible avec Inoreader de lire les articles demandant une connexion à un compte. Il est toutefois intéressant de noter que l’outil étant particulièrement ergonomique, la prise en main peut se faire à la fois depuis un téléphone comme d’un ordinateur.

Afin de pallier les défauts d’Inoreader, le service utilise donc aussi un robot via KBcrawl. Ce dernier peut ainsi se connecter à un site à une heure donnée en entrant l’identifiant et le mot de passe, crawler l’article – soit analyser son contenu – et l’envoyer à Inoreader via un flux RSS qu’il crée. À cela s’ajoute sa capacité à lire et analyser une vidéo en faisant du speech to text, soit la retranscription écrite d’un audio.

De plus, toujours dans une logique d’optimisation du temps, Mathieu Andro teste actuellement la technologie RPA (robotic process automation), déjà utilisée pour répondre automatiquement aux mails. L’intérêt ici est de remplacer l’humain dans le travail rébarbatif de collecte et de tri des données par des robots, permettant ainsi de se concentrer sur l’analyse.

Des veilles qui commencent à s’interconnecter et s’internationaliser

Afin d’affranchir les services de veille du gouvernement de leurs silos d’informations, notamment créés par les newsletters envoyées par mail, Mathieu Andro a lancé une plateforme commune de partage des informations récoltées et analysées. Créée via WordPress, elle permet d’obtenir des statistiques de lecture, contrairement à une newsletter, et d’avoir une meilleure visibilité sur l’impact de la veille diffusée. Connectée à l’interface Inoreader des veilleurs, il est ainsi possible d’y retrouver leurs analyses et leurs sources. La concentration de l’information, facilement disponible, permet donc à ses utilisateurs de capitaliser sur la connaissance accumulée et d’ainsi toucher la presque totalité des collaborateurs des différents services concernés.

Cependant, il est possible d’observer, par rapport au monde universitaire et académique, le manque de sources anglaises ou écrites en langues étrangères. Dans la veille juridique et politique, les sources sont ainsi bien souvent d’origine nationale ; or, que ce soit dans la veille ou dans l’intelligence économique, ne travailler que dans la littérature nationale amène parfois à « rater le coche ». Veiller sur un pays étranger ou dans une langue étrangère n’est pourtant plus si compliqué. Grâce au modèle de langage BERT (Bidirectional Encoder Representations from Transformers) développé par Google en 2018, il est désormais possible d’analyser des phrases en différentes langues et de les résumer via d’énormes modules de traduction. Interconnectables, ils permettent de basculer d’une langue à une autre et de traduire en plusieurs langues un même sujet.

La veille tend donc de plus en plus vers une collaboration entre les robots et les humains. Les premiers ont pour but de surveiller le web, collecter les données intéressantes et les trier pour l’utilisateur, tout en facilitant une première analyse des informations reçues. Tout ceci permet à l’humain de gagner du temps pour réaliser ses analyses et tisser des liens entre les différentes informations afin d’aboutir à un produit final compréhensible. Cette collaboration intervient aussi dans des domaines connexes à la veille. L’information collectée et triée permet, par exemple, d’obtenir une cartographie Geotrend. La data visualization (dataviz) obtenue permet ainsi de détecter les différentes entités nommées (lieux, organisation, concept) et de reconnaître à quels secteurs, encore inconnus il est nécessaire de s’intéresser.

Observer la formation d’une polémique grâce à la dataviz

De l’avis même de Louis Caldas, conseiller presse, communication et opinion de Dominique Faure – ministre déléguée chargée des Collectivités territoriales et de la Ruralité -, le produit de la veille est fortement utilisé dans la data visualization. Plus généralement, les flux RSS et l’information collectée permettent de faire de l’influence, et c’est d’ailleurs dans le service d’influence de l’équipe de campagne d’Emmanuel Macron que l’intervenant s’est formé au domaine de la visualisation de données.

L’affaire #SciencesPorcs est une excellente illustration de la manière dont se crée et explose une polémique. Alors qu’une publication Facebook sur un groupe privé accuse l’école de protéger les violeurs et les agresseurs, le 28 janvier 2022, le post est rapidement repris sur un groupe public et se propage de communauté en communauté, sortant de sa sphère d’origine. Moins de deux semaines plus tard, c’est par la publication d’un meme sur Instagram, qui utilise la mécanique du hashtag avec #SciencesPorcs, que naît ce dernier. Le lendemain, sur Twitter, la polémique explose. En seulement trois jours, le hashtag SciencesPorcs comptabilise 50 000 publications et 200 millions de vues, créant – de ce fait – un corpus de sources intéressantes pour comprendre le phénomène de polémique sur les réseaux sociaux.

En effet, bien que cette dernière ait débuté avant le 28 janvier, date à laquelle sa première trace est disponible, les révélations n’ont pris de l’ampleur sur les réseaux sociaux que 12 jours plus tard, le 8 février. Ce n’est qu’à ce moment précis qu’il est possible de parler d’influence puisque la polémique sort des réseaux sociaux pour s’inviter dans le débat public via les médias, reprenant l’information et lui permettant une diffusion plus large.

Dans ce cadre, l’utilisation de Gephi – outil permettant de faire du network analysis (analyse de réseaux sociaux) – prend tout son sens. Appliqué à Twitter, il permet de visualiser les différentes communautés et sphères à l’œuvre dans la construction d’une polémique telle que celle-ci, ainsi que leurs potentiels liens grâce à la théorie des graphes, où chaque nœud représente un compte. Chaque nœud concentrant des relations et des interactions – mentions, abonnements, like, retweet – qui lient les utilisateurs les uns aux autres, l’enjeu est donc de les interconnecter. Les comptes les plus influents – comportant généralement un grand nombre d’abonnés ou reconnus dans un domaine – forment des nœuds plus importants autour desquels s’agrègent les utilisateurs et communautés Twitter. C’est ainsi que sont repérés les utilisateurs influents à surveiller. Cependant, il convient de garder à l’esprit que l’influence d’un compte peut s’appliquer à un contexte particulier ou une audience précise, et n’est donc pas généralisée. L’influence sur Twitter ne s’évalue d’ailleurs pas selon le nombre de mentions ou de likes, mais bien en prenant compte un ensemble de paramètres variés (nombre conséquent de retweets ou de mentions pour un petit compte, originalité du sujet, etc.) .

La prise en compte de ces éléments permet aussi, via la dataviz quotidienne voire horaire, de noter la diffusion de l’information. En fonction des paramètres choisis, il est ainsi possible de constater rapidement l’augmentation des mentions d’un compte (généralement le signe que quelque chose se produit autour d’un utilisateur, d’une marque….). Clustériser les groupes devient ainsi un réflexe important pour identifier une ou plusieurs caractéristiques communes aux membres, qui s’organisent autour de centres d’intérêt similaires.

Ces nœuds communiquent d’ailleurs parfois avec d’autres communautés, grâce à des « passeurs », soit des comptes assurant un « pont » entre plusieurs communautés. Un enseignant de Sciences Po, investi politiquement, crée ainsi une passerelle entre deux communautés : celle de Sciences Po et celle de sa famille politique. Les spécialistes de la data visualization définissent ainsi les grandes tendances sur un sujet, via un graphe où les points les plus éloignés illustrent l’opposition entre des utilisateurs, leurs idées et leurs communautés.

Comme évoqué précédemment, cette méthode peut s’appliquer à tout type de temporalité. Pour une polémique telle que celle étudiée, il convient de suivre les tweets affiliés au hashtag heure par heure, afin de mieux comprendre comment, en quatre heures, le #SciencesPorcs est déjà connu des journalistes qui s'emparent du sujet. De plus, cette méthodologie permet d’établir la manière dont le sujet s’est diffusé aussi rapidement auprès de communautés différentes, afin de mieux comprendre les convictions de ces dernières.

La nécessaire maîtrise et compréhension des données

Ce que l’on pourrait alors nommer la data opinion peut aussi se faire grâce aux réseaux sociaux, qui vivent dans l’instantanéité et dont le mouvement est difficile à endiguer comme à anticiper, contrairement aux médias qui s’inscrivent sur le temps long.

Pour cette raison, il est difficile de prévoir le moment précis où une polémique apparaît sur les réseaux sociaux. Pour l’exemple cité précédemment, à partir du moment où le #SciencesPorcs commence à être diffusé, le 8 février 2022, l’école aurait dû activer une cellule de crise. Généralement, le seul moment où il est possible d’intervenir pour la cellule intervient entre l’instant où le hashtag se lance et son explosion. Pour voir venir la polémique, il faut alors observer le grossissement des nœuds. Amazon le fait très bien en observant scrupuleusement les microévolutions au sein des communautés qui concernent l’entreprise, afin de remonter aux origines du problème et apporter une solution avant la naissance d’une polémique.

Dans ces graphiques, observer groupe très éloigné du centre du sujet, de l’entreprise ou bien du sujet concerné et très gros en termes d’influence est ce qui inquiète le plus les analystes. Ce phénomène s’observe régulièrement lors de fake news et se révèle bien souvent le résultat de l’action de robots. Cela peut aussi s’illustrer si deux sphères opposées s’emparent du sujet, amplifiant l’aspect transverse de ce dernier ainsi que son impact. Il est tout de même essentiel de garder à l’esprit qu’il existe parfois des nœuds massifs autour d’un compte qui pourtant mentionne, like, follow ou retweet peu : ce sont généralement les comptes au centre de la polémique ou fortement liés à cette dernière.

Il existe aujourd’hui un véritable intérêt à maîtriser les données en ligne disponible. Il devient même nécessaire, au niveau politique, d’avoir des équipes dédiées à la dataviz durant les campagnes politiques pour faire remonter une vision de l’opinion publique à travers les réseaux sociaux. Cela permet également de déterminer le profil de l’attaquant et sa manière de procéder, éléments essentiels afin de bâtir une stratégie de contre-attaque. Aidées de ces outils, plusieurs réactions sont désormais possibles : attendre que la polémique s’apaise pour réagir, la laisser enfler pour identifier la communauté la plus active afin de la cibler, répondre en amont avant qu’elle éclate… Néanmoins, il est essentiel de ne pas oublier qu’il est possible de faire dire ce que l’on veut aux données. Il faut donc conserver une certaine méfiance quant aux représentations étudiées et se renseigner sur la méthodologie de l’étude, les paramètres utilisés et son auteur. Tout ce travail s’accomplit grâce à des outils de collecte de données comme Visibrain, mais aussi par le résultat de collecte et d’analyse menées en amont par un service de veille, essentiel pour établir une base de données permettant de comprendre, au mieux, les différents mouvements observés et d’approfondir certains thèmes et notions.

Ronan Le Goascogne pour le club OSINT & Veille de l'AEGE

Pour aller plus loin :