Etude comparative web sémantique : Google Vs Bing

Le 22 mai 2012 par Portail de l'IE
Victor Vidal Valera, propriétaire du blog elcontentcurator.com, nous livre sa vision du web sémantique dans une étude comparative adaptée et traduite par Hugo Zunzarren d'idinteligencia.

Connaissez vous le web sémantique ? nous non plus : Étude comparative de moteurs de recherche traditionnels, bookmarker et sémantiques.
Lors d´un exercice pratique sur des recherches spécifiques à travers plusieurs outils de recherche nous avons voulu comparer la pertinence des résultats. Nous voulions mettre en concurrence deux moteurs de recherche traditionnels, deux applications de taggage et deux moteurs sémantiques : Google et Bing.
Il s´agissait de définir le degré de pertinence des 10 premiers résultats obtenus en effectuant une recherche à travers les différents outils et en notant chaque résultat sur un tableau. La note variait selon le nombre de résultats obtenus (en général) et selon la qualité (c´est à dire, selon la pertinence) ; puis en faisant un commentaire sur la justification des résultats.

Afin de réaliser cet exercice nous avons fait les deux suivantes requêtes : « Quand Internet passera au web 4.0 » et sa variante « Quand Internet passera au « web 4.0 »  (l´utilisation de guillemets dans l´expression « web 4.0 » fait que la recherche ssera beaucoup plus fine, puisque les moteurs tenteront de trouver des phrases complètes).
Les moteurs de recherche sont les deux plus répandus, à savoir GOOGLE et BING. Pour les applications de taggage/bookmarking, nous avons utilisés Delicious et Digg, et HAKIA et KNGINE dans les moteurs sémantiques.

Nous pouvons voir sur un tableau les résultats obtenus pour cette requête :

GOOGLE Vs BING
Comme nous pouvons le voir, les résultats sont très différents. La guerre entre GOOGLE et BING fait rage ; beaucoup plus de résultats sur la requête sans guillemets alors qu´avec guillemets, recherche plus restrictive, BING l´emporte de 17.000 résultats. Donc nous pouvons affirmer que BING est plus pertinent, à priori. Pourtant, sur la première page de résultats, GOOGLE obtient une note de 10/10 et 8/10 en pertinence avec et sans guillemets, contre un lamentable 0/10, 0/10 pour l´outil de Microsoft. Est-ce une question de ratio entre nombre de résultats possibles/nombre de résultats pertinents ? Évidemment, si nous avons moins de choix, il est plus difficile de trouver le bon lien.

Applications de bookmarking/taggages sociales
Les résultats dépendent de ce que les utilisateurs ont taggué ; néanmoins, est-ce possible que personne n´ait jamais répertorié quoi que ce soit selon ces tags ? Peut-être. Donc nous avons cherché « Web 4.0 » et « Internet ». Sur Delicious nous avons trouvé 9 résultats avec une note de pertinence de 6/3 : 3 non pertinents dont 1 où le lien était cassé et les deux autres envoyaient à la page officielle d´une entreprise. Sur Digg nous avons trouvé, pour la même requête 1 seul résultat avec les guillemets et 42 sans les guillemets.
En ce qui concerne la pertinence, les résultats sont catastrophiques, puisqu’aucuns résultats sur les deux moteurs n’étaient dignes d’être catalogués comme pertinents. Nos conclusions, pour ces deux moteurs est que YAHOO n´a pas assez affiné son moteur Delicious ; si ces outils peuvent servir selon certains cas, leur point fort ne se trouve pas dans le moteur de recherche. C´est peut-être dû au manque d´uniformité en ce qui concerne le bookmarking, mais nous pensons que ces outils ne sont pas pertinents en ce qui concerne la veille sur requêtes complexes.

Moteurs Sémantiques
Les outils étudiés, à savoir HAKIA et KNGINE ont étés décevants : 50 résultats pour HAKIA dans la catégorie « Web » et 0 dans la recherche restrictive, puis 10 pour KNGINE, puis 0.
Pourquoi une telle limitation dans les résultats finaux ? Nous avons tenté d´autres recherches et nous avons systématiquement obtenu le même ratio 50/10 (HAKIA obtient davantage de résultats sur des requêtes simples alors que ce n´est pas le cas de KNGINE.
Est-ce le fait que ce soit une version gratuite explique la limitation des résultats ? Nous avons regardé sur les pages officielles et, si HAKIA propose une version « business solutions », elle n’explique pas le contenu de ladite solution.  
En ce qui concerne la pertinence : HAKIA est à 0/10 sur la première page et KNGINE obtient une note de 2/10 selon le même critère.
Pour conclure, notre étude montre que les moteurs sémantiques ne sont pas particulièrement adaptés aux requetes complexes, et donc peu ou pas adaptés à une veille sensible et très spécifique.  
Il semble plutôt évident que les moteurs sémantiques, au moins pour l´instant, ne fonctionnent pas encore correctement. Tout du moins pas comme nous l’attendrions : nous devrions obtenir, non seulement les mots clé de notre recherche (comme dans les moteurs traditionnels), mais aussi obtenir la signification (sémantique) desdits mots dans un contexte. Il semble donc clair que le Web sémantique se trouve encore en phase embryonnaire, car encore trop de pages Web n´ont pas de métadonnées ou ontologies nécessaires au bon fonctionnement des moteurs sémantiques.
Quand vont-ils le faire ? Le jour où le rendement de ces moteurs sera optimal semble encore lointain, en partie du fait que le changement vers le Web Sémantique est facilité principalement par de grands groupes et pour des secteurs réduits et exclusifs tels que : administrations publiques, institutions de l´éducation, bibliothèques… Le rendement des moteurs sémantiques sera optimal lorsque le concept propre au sémantique sera intégré au W3C, et pas avant.
En ce qui concerne les applications de bookmarking et de taggage, ils ne sont tout bonnement, pas pertinents. Ces moteurs, ainsi que les sémantiques, ne vont pas inquiéter notre ami « GOOGLE », ou pas avant un avenir proche.
GOOGLE s´est positionné dans la gamme au dessus des outils et catalogues spécialisés, et ce pour chaque matière puisque la majorité des utilisateurs d´Internet, lecteurs, etc., sollicitent d´abord GOOGLE avant d´aller voir un vrai spécialiste de l´information, à savoir : un bibliothécaire, un documentaliste, un analyste IE…mais cette habitude, même si elle est difficile à modifier, doit tenir compte de la phrase de Neil Gaiman: « GOOGLE peut trouver 100.000 réponses, mais un analyste trouve la seule correcte »

Victor Vidal Valera