L’intelligence artificielle permet aujourd’hui de générer des textes qui ressemblent à s’y méprendre à ceux écrits par les humains, de générer des conversations crédibles avec des robots conversationnels (chatbot). Le succès du dernier robot développé par OpenAI, ChatGPT, qui dépasse le million d’utilisateurs alors qu’il est toujours en phase de test, illustre bien le phénomène.
Avant de répondre à la question de l’apport de l’intelligence artificielle à la recherche d’information, revenons sur les grands phénomènes qui ont bouleversés cette discipline.
Les premiers outils de recherche ont été des annuaires (directories). Les sites y étaient recensés par des humains dans une arborescence. Ces outils fournissaient aux premiers internautes de grands répertoires de sources, classés par catégories. Mais l’internaute cherchant la simplicité et la rapidité a laissé tomber les annuaires. Finis les Lycos, voilà, Nomade, même l’Open Directory où les contributeurs étaient bénévoles sur le modèle participatif de Wikipédia. Le premier né d’entre eux, Yahoo ! a finalement cessé l’indexation de son annuaire en 2014, après 25 ans de bons et loyaux services. La pratique d’annuaire est toutefois toujours pratiquée par toute personne qui effectue de la recherche d’information en sources ouvertes. Une des qualités demandées dans ce métiers est de bénéficier et de mettre à jour un répertoire de sources sur lesquelles mener ses investigations. Alors, si les annuaires généralistes sont morts, tout bon "OSINTeur" dispose de son répertoire personnel de sources et notamment de bases de données dont les résultats ne sont pas indexés par les moteurs de recherche.
Avec l’aide active des internautes, ce sont les algorithmes qui ont eu raison des annuaires généralistes. Les moteurs de recherche comme Altavista puis Google, Bing, Yandex ou Baidu ont proposé des solutions plus rapides et simples pour l’internaute : un robot crawle le web et indexe des millions de pages. L’internaute y accède par un requêteur qui permet d’effectuer des recherches avancées et de trier les résultats. On reproche à ces outils de pouvoir paramétrer leur algorithme pour limiter ou centrer les résultats (vers certains qui auraient payés, d’autres qui défendent telle idéologie au détriment de telle autre, ou encore vers ceux que l’internaute aurait tendance à préférer en fonction de ses habitudes). Malgré tout, l’utilisation avancée des moteurs de recherche permet de gagner du temps dans ses recherches d’informations en sources ouvertes. Mais si la grande majorité des internautes se contente de l’usage de ces moteurs, et le plus souvent d’un seul, ces outils ne sont pas suffisants pour effectuer une recherche d’information en sources ouvertes. La clé de la recherche efficace d’informations pertinentes en sources ouvertes réside dans la construction d’un plan de recherche, d’une méthode d’investigation. Si celle-ci peut avoir un tronc commun pour beaucoup de recherches, elle doit être adaptée au sujet, aux sources et aux premiers résultats obtenus. On parle beaucoup de stratégie de rebond en OSINT, soit le fait de savoir rebondir sur l’information trouvée, ou une absence d’information, pour mener une nouvelle investigation.
Depuis quelques années, on ne parle plus en effet de recherche d’informations en sources ouvertes ou de cyber documentation, mais d’OSINT (pour Open Sources INTelligence). Si cette nouvelle dénomination n’est pas véritablement venue bouleverser le métier, elle a largement contribué à en démocratiser la pratique et la rendre plus désirable. Sans aller jusqu’à un phénomène de mode, on a vu se multiplier les annuaires de sources OSINT et les exemples, d’applications, souvent plutôt dans le domaine des loisirs que dans le monde de l’entreprise. Cette dynamique a entrainé des développements logiciels d’applications ou de simples programmes pour automatiser une tâche, faire se succéder des requêtes, compiler des informations, etc. Ces programmes, le plus souvent disponibles sur GitHub, ne sont pas accessibles au grand public, car nécessitent quelques connaissances en informatique ou en développement Python par exemple.
En parallèle de la recherche algorithmique, une démarche sociale s’est développée sur le web. Fondamentalement différente dans l’accès à l’information car il ne s’agit plus de rechercher une information précise mais de consulter celle(s) que son entourage (ses "amis") propose ou partage. Certains moteurs de recherche se sont essayés à intégrer une couche sociale à la consultation des résultats donnés par leur algorithme. Ainsi, Google a tenté Google+ qui privilégiait les résultats déjà aimés ou partagés par l’entourage de la personne. D’autres ont expérimenté d’améliorer l’accès à l’information sociale par l’intégration de moteur de recherche mais ont du rapidement reculer pour des raisons réglementaires notamment. Facebook Graph Search a du considérablement réduire ses ambitions par exemple pour ne pas trop dévoiler ses utilisateurs.
Depuis quelques temps déjà, l’intelligence artificielle permet de répondre à de simples questions. Son usage s’améliore au point de générer des textes de plus en plus sophistiqués en réponse à des questions parfois complexes. Ils participent donc à la recherche d’information en proposant une alternative au plan de recherche : une réponse (et souvent une seule) à une question posée en langage naturel. Ces chatbots ne sont pour la plupart pas en mesure de naviguer sur internet pour alimenter leur réponse. Leurs connaissances sont limitées à celles contenues dans leur corpus et fonction de leur paramétrage et de leur "entraînement". Mais l’enjeu des acteurs qui investissent dans l’IA est justement d’entrainer leurs robots sur le web pour ouvrir leurs champs de connaissance. Est-ce à dire que les moteurs de recherche disparaitront demain pour des robots conversationnels qui apporteront directement la réponse aux questions des internautes ? Si l’internaute succombe à la facilité et la simplicité de l’usage, c’est une issue possible voire probable. Si l’internaute persiste, car s’est malheureusement la tendance, à ne vouloir trouver qu’une réponse simple, voire binaire, à une problématique parfois complexe, il risque de céder à l’usage facile de ces robots. Il y a en effet fort à parier que leur usage ne cesse de croitre. Rappelons que le succès des premiers moteurs de recherche reposait déjà sur une recherche de simplicité des internautes, quasiment un refus de réfléchir, laissant le soin de cette "intelligence" à l’outil.
Et si l’internaute voulait continuer de réfléchir, garder la main sur ses recherches, comparer et confronter les résultats, analyser les sources pertinentes, recouper les informations, … ? Alors il saurait utiliser à bon escient chacune des logiques de la recherche d’information listés dans cet article : un bon annuaire de sources, des algorithmes pour faciliter les investigations, des applications et programmes pour les automatiser et de l’intelligence artificielle pour ébaucher quelques mécaniques plus complexes. Mais il resterait à la manœuvre, à l’orchestration. Comme cela était précisé précédemment, la clé d’une recherche d’information efficace et réussie, réside dans la création d’une méthodologie d’investigation toujours nouvelle, certes appuyée sur celles déjà réalisées dans le passé, mais aussi fonction des résultats obtenus. Or les algorithmes, programmes et robots ne font aujourd’hui que répéter, compiler, concaténer, certes sur une grande quantité de données collectées et d’expériences acquises, mais ils ne savent pas créer. Ils ne sont pas doués d’imagination … La meilleure qualité pour exceller dans la recherche d’information est pourtant bien d’être créatif, imaginatif, avec le moins de limites et de cadres possibles ; finalement de penser différemment !
François Jeanne-Beylot
Professeur associé à l'EGE,
CEO Troover-InMediatic
Pour aller plus loin :