Dans le cadre d’investigations en sources ouvertes (OSINT), il est souvent nécessaire d’effectuer ses recherches dans différentes langues, notamment si le sujet concerne un pays spécifique, afin de développer une vision plus complète et de cerner le point de vue local. Skip Schiphorst, sinologue et instructeur OSINT chez I-Intelligence, a mené une conférence en ligne à l’École de Guerre Économique sur les recherches en ligne en langues étrangères.
Les principes fondamentaux de la recherche en ligne
Premièrement, il est important de souligner qu’il n’est pas nécessaire d’être linguiste pour être en mesure d’effectuer des recherches dans une langue donnée. En effet, seuls quelques fondamentaux suffisent.
Avant de foncer tête baissée vers la phase de collecte de l’information, il est crucial d’adopter la bonne approche avec une stratégie en amont, puis de sélectionner les bons mots-clés, opérateurs de recherche et sources. Cette phase préliminaire requiert de la patience et sera déterminante dans la pertinence des résultats.
Il est, par ailleurs, important d’avoir conscience de la portée de la langue mais aussi de ses obstacles. Les trois langues les plus utilisées sur Internet sont l’anglais (25,9 %), le chinois (19,4 %) puis l’espagnol (7,9 %). Le taux de production des contenus en anglais explique ces chiffres, d’où l’intérêt de ne pas négliger les sources anglo-saxonnes. En revanche, tous les textes ne sont pas toujours traduits en anglais. Pour les langues plus rares, comme le chinois par exemple, les difficultés sont plus nombreuses : écriture et alphabet différents, orientation du texte, structure grammaticale ou encore la manière dont les particules et les verbes affectent les noms.
De plus, il est essentiel de rester vigilant face à une éventuelle mauvaise traduction ou interprétation. Les efforts déployés pour trouver du contenu dans une langue locale d’un sujet donné fournissent des résultats beaucoup plus qualitatifs.
Les outils de traduction
Parmi les nombreux outils de traduction, le plus connu demeure Google Traduction, ce dernier étant plus ou moins précis selon la langue de saisie (plus de 100 langues sont prises en charge). Il faut en revanche ne pas tenir pour acquis toutes les traductions car le sens des mots peut parfois être erroné. En effet, l’outil fonctionne correctement lorsque les phrases sont simples ou qu’il s’agit simplement de dégager l’idée générale du sujet, mais peine dès que la technicité augmente. DeepL, une plateforme de traduction par apprentissage, se révèle être une option bien plus performante, bien que moins de langues soient prises en charge.
L’importance des mots-clés
Le choix des mots-clés est déterminant quant aux résultats des recherches. Par exemple, ce que l’on appelle « la nouvelle route de la soie » en français se traduit par la Belt and Road Initiative en anglais et a encore une traduction littérale différente en chinois.
Les dictionnaires en ligne permettent de mieux cibler ces mots-clés mais peuvent en revanche être en contradiction avec les termes couramment utilisés. Les encyclopédies telles que Wikipédia peuvent confirmer l’exactitude de certains termes en choisissant différentes langues d’une même page. À noter également que son contenu peut différer en fonction de la langue. Par exemple, il est fort probable qu’une page relative au Portugal, ou à tout événement s’y étant produit, soit plus garnie dans l’onglet en portugais. Au même titre, il est recommandé de rester dans la langue originale d’un site web, celui d’une entreprise par exemple, l’interface pouvant être différente et fournir davantage d’informations.
Il est par ailleurs très utile de dresser des listes de vocabulaires avec les traductions précises de sujets spécifiques à ses domaines d’intérêt.
La stratégie de recherche
Une recherche préliminaire sur le sujet dans sa langue natale, puis en anglais ou dans une langue maîtrisée, est nécessaire afin de déterminer ce qui est disponible sans avoir à recourir à une langue étrangère. Une fois cette étape confirmée, les recherches dans la langue ciblée peuvent être menées.
Les opérateurs de recherche
Une phrase en anglais, traduite dans une langue différente, ne donne pas le même nombre de résultats : les contenus produits en anglais étant plus nombreux. Ce sont des mots-clés ciblés qui sont à privilégier, et à mettre entre guillemets, pour demander au moteur de recherche des résultats avec précisément ces termes.
Il est possible d’ajouter des opérateurs de recherche pour limiter les résultats à des pays (site:fr pour la France), à certains types de documents (filetype:pdf pour les documents au format PDF), ou en fonction des titres (intitile:) ou des liens (inurl:) qui apparaissent dans les résultats. Ce procédé permet d’obtenir des résultats rapidement, efficacement et beaucoup moins nombreux permettant leur traitement. Ce type de recherche peut être effectué avec d’autres alphabets.
Il est aussi possible d’exclure des termes lorsque trop de résultats tournent autour d’un sujet et que ceux-ci ne sont pas pertinents (si c’est l’Amérique latine par exemple, il faut requêter « – Amérique latine »). Le but est de combiner tous ces opérateurs afin d’aiguiser au maximum la recherche et d’améliorer la précision des résultats.
Suivi de l’activité locale
Les recherches en langue étrangère, afin de cerner le contexte local, passent aussi par le suivi des actualités et de l’activité de la région concernée.
De nombreux répertoires d’actualité existent et fournissent des listes détaillées des sources médiatiques par pays. À noter qu’ils ne sont pas complets et sont rarement mis à jour, d’où l’intérêt de croiser les résultats de plusieurs répertoires. Ainsi, Newspapermap.com se présente comme une carte du monde renseignant sur les sources médiatiques de chaque pays, mais aussi de chaque région.
Pour aller plus loin, il existe aussi sous le même format une carte du monde compilant l’ensemble des outils OSINT par pays qui permet d’obtenir des informations concernant les numéros de téléphone, les entreprises, les pages jaunes, les immatriculations ou encore les tribunaux. Cet outil se révèle extrêmement précieux pour des recherches sur un pays spécifique.
Enfin, SimilarWeb propose un classement des sites les plus visités par pays et permet, par conséquent, de disposer d’indications sur les habitudes locales.
Pour conclure, un bon modèle de recherche en ligne repose sur l’identification en amont des mots-clés et des sources adéquates, ainsi que sur la connaissance du moteur de recherche utilisé et de ses opérateurs. Tous ces éléments forment une requête intelligente qui donnera des résultats pertinents.
Youri Dutel pour le club OSINT & Veille de l’AEGE
Pour aller plus loin :