Attaque vs défense : qui bénéficie le plus de l’IA dans le cyberespace ?

La cybercriminalité concerne au premier plan les structures et organisations du quotidien : entreprises, services publics… Les ransomwares, ces logiciels spécialisés dans le vol de données contre rançon, sont à l’origine de dégâts subis par les entreprises, chiffrés à plusieurs milliards de dollars. Il est nécessaire d’investir fortement dans des technologies de pointe pour optimiser les protections, au premier rang desquelles figure l’intelligence artificielle. Néanmoins, ces technologies peuvent tout autant servir d’armes aux mains des hackers informatiques. Aussi, il paraît primordial d’aborder le rôle de l’IA d’un point de vue aussi bien défensif qu’offensif.

Pourquoi utiliser l’IA en défense ?

Les entreprises sensibilisées ou ayant déjà subi une attaque, et qui ont investi dans la cybersécurité, se sont pourvues de Security Operation Center (SOC). Il s’agit d’équipes chargées de surveiller en continu le réseau. Ces experts en cyber défense reçoivent des notifications à chaque suspicion d’intrusion, mais le nombre de « faux positifs » provenant des logiciels de surveillance classique reste particulièrement élevé. Traiter la totalité de ces alertes est particulièrement chronophage et peu efficace. Cela risque surtout de favoriser la dissimulation de la véritable attaque dans un flot d’informations non pertinentes et de leurrer l’attention de l’opérateur, le rendant ainsi plus vulnérable à un véritable danger.

IBM a publié une étude sur les avancées que l’IA pouvait apporter à la cybersécurité. Le machine learning permettrait une approche plus fine dans la détection d’intrusions en comparaison avec les logiciels de surveillance classique. Cette finesse d’analyse réduirait le nombre de fausses notifications d’intrusions et permettrait de focaliser l’attention des membres de l’équipe SOC sur les vraies menaces. Les tâches les plus chronophages et fastidieuses seraient ainsi gérées par la machine, limitant la fatigue et les pertes de temps des équipes qui pourraient alors se concentrer sur les actions à forte valeur ajoutée.

De manière plus large, on peut imaginer que l’intelligence artificielle soit chargée de la protection prédictive et réactive des entreprises. La protection prédictive consiste à enrichir les algorithmes d’antivirus avec une IA entraînée à discriminer les codes en “malware” et “goodware”. Les entreprises les mieux positionnées dans ce domaine sont, sans surprise, Microsoft avec GitHub, Apple avec l’AppStore, ou Google avec le Playstore. Elles disposent chacune d’énormément de données concernant de “bons” et de “mauvais” logiciels sur leurs plateformes et disposent ainsi d’une grande quantité de DATA pour nourrir leurs algorithmes de machine learning.

Cependant, dans le cas où la protection prédictive ne fonctionne pas efficacement, et que l’antivirus ne détecte pas le code malveillant, il faut alors compter sur la protection réactive. Celle-ci analyse le comportement du logiciel une fois que celui-ci commence à fonctionner, afin de stopper sa progression. La startup française Daspren propose une IA qui détecte l’activation d’un rançongiciel et bloque le cryptage en direct.

Exemples d’utilisations défensives

L’utilisation de l’intelligence artificielle dans la cybersécurité n’est plus au stade purement expérimental. On peut constater que cette technologie s'intègre d’ores et déjà dans de nombreux systèmes.

L’exemple le plus évident et commun est l’utilisation de l’IA dans le système de face ID d’Apple. Il s’agit du système de reconnaissance faciale sur les IPhones et Ipads mis en place depuis 2018. Ce dernier utilise un réseau de neurones profonds permettant d’utiliser un visage comme clé de déverrouillage plutôt qu’un mot de passe pouvant être volé, deviné ou parfois déduit (ex : prénoms des enfants…).

Ensuite, l’IA est très utilisée dans la détection de spam. Google a commencé à utiliser le deep learning en 2015 pour sa messagerie Gmail et a annoncé en 2019 avoir atteint une précision de 99,99% dans le blocage des spams envoyés sur les boîtes mails de ses utilisateurs. Aujourd'hui, Google utilise l’IA avec Google Play Protect dans le cadre de la protection prédictive, ce système analyse les menaces dans les programmes et crée des alertes protégeant ainsi le playstore depuis 2015. Dans le champ de la protection réactive, l’entreprise Darktrace utilise son IA pour sonder et apprendre les comportements sur le réseau de l’entreprise afin d’y détecter des anomalies.

Les attaques par déni de service (DDoS) font partie des attaques cybers les plus connues et les plus répandues. Grâce au machine learning, Google permet aux sites hébergés sur son cloud de bénéficier d’une protection spécifique contre les attaques DDOS. Leur algorithme détecte les comportements suspects de connexions et les bloque avant qu’elles aient pu atteindre les systèmes des entreprises à la manière d’un proxy intelligent.

L’engouement pour l’intelligence artificielle dans le domaine de la cybersécurité est à la fois justifié par la promesse d’une meilleure protection et d’un gain de temps et d’argent, en prenant en charge les tâches chronophages, fastidieuses et répétitives. Cependant, comme toute technologie, l’IA a des limites.

Les limites de l’IA en défense

Les protections prédictives et réactives peuvent être très convaincantes mais le plus efficace reste la protection préventive. On y retrouve par exemple la cryptographie, qui est aujourd’hui la technologie de choix pour protéger les données. Heureusement, ces technologies sont complémentaires et peuvent être associées pour augmenter le niveau de protection. Une erreur serait donc de faire l’impasse sur la cryptographie sous prétexte de disposer de l’IA, alors qu’il est au contraire judicieux de tirer parti de leurs synergies.

Nous avons également établi que l’IA pouvait réduire la charge de travail des équipes du SOC, cependant la machine n’est pas (encore ?) capable de remplacer l’humain. C’est pourquoi il faut absolument maintenir un duo humain-machine pour une efficacité maximale. L’intelligence artificielle a le potentiel de remplacer totalement l’humain uniquement sur certaines tâches ultra spécialisées de la cybersécurité. Mettre l’humain de côté expose au risque de manquer de contexte et de se laisser berner par des leurres que l’humain aurait détectés.

Enfin, l’apprentissage de l’IA nécessite une récolte de données. Ces dernières pouvant être récupérées en open source, le risque mis en avant par l’ANSSI réside dans l’empoisonnement des bases de données. Imaginez une base de données avec du code étiqueté honnêtement par la communauté comme “Bienveillant” ou “Malveillant”, puis, que des pirates décident d’y insérer leurs propres codes et de les qualifier de codes bienveillants. Une IA entraînée sur cette base polluée, laissera passer le code des pirates sans rien soupçonner, c’est toute la limite de son “intelligence”.

Pourquoi utiliser l’IA dans les cyberattaques ?

Mettons-nous cette fois-ci à la place de l’attaquant. Sans vraiment y réfléchir, il peut paraître évident que l’intelligence artificielle puisse intéresser les hackers. Cependant en poussant un peu plus loin la réflexion, la plupart de leurs tâches chronophages, comme scanner une machine et trouver les failles non patchées, sont finalement automatisables sans avoir besoin de faire appel à l’IA.

L’utilisation de l’intelligence artificielle en attaque n’est pas une évidence : il convient donc de bien cerner les possibilités offertes par cette technologie. Une fois entraîné, un réseau de neurones permet d’effectuer une tâche spécifique avec peu d’efforts et à grande échelle, avec des performances pouvant excéder celle d’un humain. Néanmoins ces tâches doivent être très spécialisées et l’entraînement nécessite une grande quantité de données.

Contrairement à la récupération de données en cyberdéfense, il est difficile de constituer une base de données indispensable à l’entraînement d’une IA vouée à la production d’attaques. En outre, les connaissances et compétences nécessaires à sa mise en application peuvent être un frein à l'adaptation de ces techniques pour de nombreux hackers. Il est néanmoins possible de réutiliser un système d’IA, commercial ou en libre-service, pour une utilisation malveillante. Par exemple, on peut réutiliser le deepfake ou un équivalent vocal pour tromper des cibles. Ainsi, il est possible d’utiliser des productions de l’IA sans avoir besoin de la créer et de l'entraîner.

L’utilisation ou la réutilisation d’IA peut être particulièrement redoutable. Elle permet de doter des personnes peu qualifiées de capacités d'attaque qui demandent théoriquement un haut niveau de connaissance. Prenons l’exemple des logiciels de traduction comme Google Translate qui permettent à un attaquant de déployer du phishing en chinois ou arabe sans aucune compétence linguistique.

Les exemples d’attaques augmentées

Une des attaques classiques qui bénéficie le plus de l’IA est le spearfishing. C’est une technique très chronophage qui consiste à récupérer des informations sur la personne ciblée et produire un message personnalisé afin de mieux la tromper. L’IA est alors utilisée pour sélectionner les cibles vulnérables grâce aux données des réseaux sociaux, mais également pour les prioriser et toucher les plus rentables selon le niveau de vie identifié par l’IA grâce aux photos ou encore au vocabulaire utilisé dans les commentaires écrits par la cible.

Un autre type d’attaque pouvant être améliorée par l’IA est le déni de service (DDOS). L’IA en défense peut servir à différencier les comportements de navigation d’une machine de ceux d’un humain. Cependant, il est possible d'entraîner une IA attaquante contre une IA défensive pour reproduire le comportement d’un humain dans ses schémas de clics et dans sa vitesse de navigation, ce qui bernera l’IA de défense.

Certains aspects périphériques des attaques peuvent aussi être simplifiés par les techniques d’IA, comme après une attaque avec un ransomware. Il est possible d’utiliser l’IA pour ce que l’on pourrait appeler le « service post hacking », comme utiliser un chatbot capable de gérer le dialogue avec la victime et de prendre en charge le paiement de la rançon. Ce genre d’utilisation de l’intelligence artificielle peut renforcer l'anonymat et la distance psychologique entre l’attaquant et la victime.

Les campagnes de désinformation à grande échelle

Les outils à base d’IA disponibles gratuitement et pouvant être réutilisés à des fins malveillantes sont majoritairement des outils capables de créer du contenu. Il est ainsi possible de créer une campagne de désinformation de grande échelle avec finalement peu de moyens.

Aujourd'hui, grâce à la recherche menée par l’entreprise OpenIA, de nombreux outils spécialisés dans la création de contenu par l’IA sont à notre disposition. On peut y retrouver GPT3 qui permet d’écrire des articles avec quelques mots clés et DALL.E 2 de générer des images. On peut aussi citer les applications comme les Deepfakes et Faceapps/filtres pour la création de vidéo.

Ensuite, grâce à une analyse des réseaux sociaux par l'IA, il est possible d'identifier les principaux influenceurs sur un sujet donné, pour ensuite les approcher avec des offres malveillantes ou les cibler avec de la désinformation. On peut citer le scandale de Cambridge Analytica qui a confirmé la puissance de l’analyse des groupes sur les réseaux sociaux.

Enfin, les attaques de génération d'informations à grande échelle dirigées par des robots peuvent être utilisées pour inonder les canaux d'information de bruit, c'est-à-dire de fausses informations ou simplement distrayantes, ce qui rend plus difficile l'acquisition d'informations réelles. Un attaquant très à l’aise avec l’IA peut aller jusqu’à mettre en place un système d'attaque d’ingénierie sociale automatique. En récupérant les informations des victimes et de leur entourage sur le web, une IA peut générer un site web malveillant et des spams personnalisés sur lesquels la victime est susceptible de cliquer. Les spams peuvent imiter le vocabulaire de leur entourage et l’IA peut mener une discussion avec la victime pour l’amener à cliquer sur un lien.

Conclusion

Distinguer et comparer l’utilisation de l’intelligence artificielle en cyber défense et en cyberattaque permet de se rendre compte de l’asymétrie des moyens et des intérêts. D’un côté, les entreprises perdent beaucoup d'argent avec les attaques cybers et sont obligées d’investir dans des solutions fiables pour se protéger, l’IA est une réponse pour gagner en performance et sur les coûts. De l’autre, les cyber attaquants n’ont besoin que de peu de moyens si ce ne sont des efforts techniques et scientifiques très limités. Ils n’ont d’ailleurs pas encore besoin de passer aux techniques d’IA pour commettre leurs méfaits, car les techniques classiques fonctionnent encore très bien et le marché criminel est croissant.

Les cyber attaquants n’utiliseront les techniques d’IA que lorsque les techniques classiques auront perdu leur efficacité. Cependant, cela n’aura lieu que si les victimes potentielles adoptent des techniques de défense haut de gamme. Incorporer l’intelligence artificielle aux attaques peut être encore perçu comme une complication inutile.

N’y a-t-il alors pas de risque de voir se développer l’IA chez les attaquants ? Un point qui ne doit pas être oublié est que la recherche en intelligence artificielle se diffuse majoritairement en Open source, et un hackeur néophyte peut mettre la main sur le code d’une IA défensive et la réutiliser à des fins malveillantes. Enfin, restons très vigilants, car c’est l’ensemble des solutions utilisant de l’IA, même sans vocation défensive, qui peuvent être détournées, avec un peu de créativité, en outils offensifs. Il serait donc pertinent et prudent de se questionner sur le détournement potentiellement malveillant des intelligences artificielles avant leurs publications et diffusions.

Joë Larue pour le club DATA de l’AEGE

Pour aller plus loin :