Analyse

Méthode d’analyse de gros volumes de données sur Twitter : le cas Airbus

Le 10 juillet 2018 par Guillaume Sylvestre

Cette seconde analyse des tweets concernant Airbus met l’accent sur les méthodologies d’analyse de gros volumes de donnés par la datavisualisation. Le discours marketing très orienté Big Data, IA, etc., incite à s’intéresser aux outils plutôt qu’à ce qu’on en fait : collecter toujours plus d’informations qualifiée ou non pour essayer d’en extraire quelque chose d’utile. Pour autant, nous verrons que l’essentiel est d’abord de savoir ce que l’on cherche, en définissant une méthodologie adaptée, pour donner du sens à l’analyse de grands volumes de données. Une bonne analyse Twitter nécessitera de croiser les metrics issus de la plateforme de veille Visibrain, et les insights de datavizs réalisées avec ces données via Gephi, logiciel de cartographie relationnelle. La période choisie est celle du 1er janvier au 31 mai 2018, avec les tweets en français et en anglais mentionnant Airbus, soit un corpus total de 888 500 tweets collectés.

Définir méthodologie claire et transparente et répondre à des questions précises

Nous analysons donc un volume de tweets très importants en deux langues, ce qui permet d’affiner les questions auxquelles répondre via ce corpus. Ces hypothèses nous amèneront à définir une méthodologie d’analyse précise. Par exemple :

Quelles sont les principales communautés actives en français et en anglais sur Airbus ? Peut-on identifier des logiques / stratégies d’influence en ligne, et qui les dirige ?

  • Ces communautés échangent-elles ou ont-elles chacune leurs thématiques il faut visualiser la dynamique des échanges, selon le modèle du Pew Research Center.
  • Des leaders de communautés apparaissent-ils ? en fonction de la position dans le réseau et de l’importance de leurs connections.
  • Des relais d’informations sont-ils présents ? avec l’application d’un calcul d’influence de Gephi.
  • Des robots sont-ils utilisés via l’apparition de communautés déconnectées des échanges

Pour ce type d’analyse, il faut disposer d’un export des mentions / relations entre les comptes twitter actifs sur Airbus, qui inclura la totalité des tweets de la période donnée (sinon l’analyse sera biaisée, voire fausse). Il est préférable d’utiliser un outil dédié à la cartographie relationnelle tel que Gephi plutôt qu’un plugin intégré à une plateforme de veille : les résultats seront bien plus pertinents.

Nous allons donc nous intéresser aux logiques d’influences et à la détection de thématiques, pour répondre à deux questions simples: le groupe Airbus est-il au centre des tweets le mentionnant, et les thématiques les plus reprises via les hashtags sont-elles cohérentes avec sa communication ?

@Airbus et @AvgeeksFR leaders des tweets francophones sur Airbus

Du 1er janvier au 31 mai 2018, la plateforme Visibrain a identifié 95 000 tweets en français envoyés par 39 000 comptes différents. C’est une masse considérable d’information, bien qu’en réalité une grande partie des tweets n’apporte rien au débat, si ce n’est du bruit. S’il est utile de calculer les relations de communautés sur l’ensemble d’un réseau pour en comparer le poids respectif avec une vision de l’ensemble des tweets, le visuel final doit être nettoyé pour une analyse fine et précise.

C’est le premier intérêt de la cartographie de relation via le logiciel Gephi : trier les données et séparer les comptes twitter au cœur des échanges de ceux qui certes font partie d’une communauté, mais qui n’ont pas d’influence sur les échanges autre que de renforcer le ou les leaders de leur communauté.

Quand on parle d’une entreprise, la logique voudrait, comme le montre cette analyse sur Veolia, que le compte corporate se retrouve au centre des relations. Attention, cela ne veut pas dire que l’entreprise est forcément très influente : cela peut également signifier que personne ne s’intéresse à elle pour tweeter sur son activité … A contrario, si, comme pour la Société Générale, ce sont d’autres comptes qui sont influents (ici un ancien salarié ayant un sérieux contentieux avec le groupe), il y a un vrai défi en termes d’influence et de réputation à protéger.

Ensuite, selon le secteur d’activité, des journalistes, des spécialistes, des partenaires ou concurrents pourront apparaitre, en relations plus ou moins directes selon l’actualité et selon leur stratégie d’influence. Voyons ce qu’il en est en filtrant les comptes twitter les plus mentionnés :

 

L’algorithme « modularity class » de Gephi permet d’identifier des communautés au sein d’un réseau. Dans le cas d’un corpus de tweets, ces communautés vont correspondre à des comptes twitter qui échangent plus entre eux qu’avec le reste du corpus, en général autour d’un ou de plusieurs leaders. On constate ici que la communauté rose, la plus importante avec 13 % du total des comptes, tourne autour d’Airbus. Un autre compte important est celui de @AvGeeksFR, qui a la valeur la plus importante du calcul de « betweeness centrality » après @Airbus : il s’agit des entités qui relient des communautés entre elles. Ces deux comptes ont par ailleurs publié très peu de tweets et totalisent 74 retweets sur la période. C’est donc leur capacité à être repris et mentionnés par d’autres communautés qui est importante, avec un total de 16 015 mentions.

Autre élément de lecture, le top tweet, élément incontournable des plateformes de veille. Ici, on constate que tous les principaux tweets sont isolés des échanges, leurs thématiques ne sont reprises que ponctuellement, et n’influent donc pas sur les débats. C’est par ailleurs une bonne illustration du phénomène du buzz : beaucoup de mentions sur un temps court, mais peu d’impact sur la réputation d’un groupe ou d’une marque, sauf exception. Bien des experts mettent en évidence que c’est l’émotion qui fait réagir le plus sur les réseaux sociaux mais c’est moins souvent un critère d’évaluation de produits.

 

L’export de Visibrain intègre la timeline des tweets. En suivant l’évolution du réseau des comptes twitter par mois, on observe un réseau toujours présent autour d’Airbus en rose, et ponctuellement l’apparition de mini communautés autour du top tweet :

En utilisant la méthodologie simple d’analyse des échanges sur Twitter du Pew Research Center, on peut conclure que les échanges sur Airbus sont structurés autour d’un réseau de soutien à l’entreprise, ponctué de communautés isolées autour de comptes twitter très mentionnés mais peu influents sur les échanges. Il n’y a donc pas d’expert ou de personne influente en dehors des passionnés d’avions qui semblent se démarquer, alors même qu’il y a beaucoup de tweets identifiables sur Airbus.

 

#AvGeek, #innovation, #aéronautique, des hashtags qui correspondent à des mentions valorisantes

Les hashtags correspondants aux mentions des deux comptes influenceurs @AvGeeksFR et @Airbus semblent valoriser les avions d’Airbus, ce qui renforcent l’idée que @Airbus maitrise sa réputation en ligne :

 

On peut également faire une analyse relationnelle des hashtags pour mieux comprendre ce qui se dit sur Airbus, et pourquoi la firme semble maitriser sa réputation en ligne. Cette analyse via Gephi sera effectuée sans prendre en compte les retweets, afin de ne pas déséquilibrer l’interprétation des relations entre les hashtags utilisés par l’influence des comptes ayant twitté.

 

Certains hashtags liés à la corruption sont identifiables en rouge en haut de la dataviz, mais ils sont peu visibles et éloignés du cœur des échanges. Airbus bénéficie donc sur cette période d’une visibilité positive sur Twitter, via :

  • La valorisation de ses avions par la communauté de passionnés #AvGeek (en vert)
  • La communication sur ses investissements en innovation, notamment le taxi-drone Vahana
  • Les ventes réalisées à travers le monde (en bleu)
  • L’attractivité de l’entreprise et de son secteur en tant qu’employeur (en orange).

À noter que sur une étude de long terme, il serait intéressant de cartographier les hashtags moins mentionnés mais néanmoins visibles pour suivre l’apparition de tendances éventuelles dans les tweets sur Airbus.

@Airbus au centre des comptes Twitter des compagnies utilisant ses avions sur les tweets en anglais

Les tweets anglais sur cette période sont très nombreux, 523 000 en tout. Nous allons aussi les analyser pour savoir si le groupe Airbus est au centre des tweets le mentionnant, et si les thématiques les plus reprises via les hashtags sont cohérentes avec l’analyse des influenceurs.

 

@Airbus est clairement au centre des échanges, les comptes les plus mentionnés sont principalement identifiables dans sa communauté et correspondent à des compagnies aériennes. Celles-ci sont associées aux avions d’Airbus via ses tweets notamment :

 

Les #hashtags autour de l’innovation plus populaires que les avions

Contrairement à l’analyse des liens entre les hashtags les plus utilisés dans les tweets français, on notera ici des communautés variées mais interconnectées, et qui semblent surtout montrer l’intérêt pour les tweets parlant d’innovation :

Les enjeux politiques liés à l’Iran se détachent du reste des conversations, sans avoir un point trop important. Le Brexit est également mentionné (en orange, en haut à droite), suite à la menace d’Airbus de délocaliser ses usines britanniques faute d’un accord avec l’Union Européenne.

 

Airbus reste un fleuron industriel et technologique sur Twitter

En dépit des investigations anti-corruption et des problèmes de gouvernance qui avaient amené Alain Juillet à tirer la sonnette d’alarme dans Challenges en janvier 2018, les échanges sur Twitter concernant Airbus restent positifs pour l’entreprise, en France comme à l’étranger. Le carnet de commande est plein, les projets innovants font leur chemin, et les communautés #AvGeek contribuent à faire connaitre les nouveaux avions du groupe.

La valeur ajoutée d’une méthodologie d’analyse des données transparente et définie par rapport à un objectif clair est ici démontrée : outre la réponse aux questions posées, on peut identifier dans la masse des données des thématiques ou des communautés intéressantes à surveiller. Tout collecter, si on a les bons outils et les ressources suffisantes, a du sens si l’on n’oublie pas que c’est une fraction de la masse des données qui est vraiment intéressante pour l’analyse. En ajoutant aux informations des tweets celles des comptes twitter, Visibrain permet de pointer plus précisément les analyses en ciblant des zones géographiques, des profils utilisateurs, etc., afin d’imaginer un affinage des tendances et des signaux à faire remonter.