Mémoire google
LE MOTEUR DE RECHERCHE ET SON BUSINESS MODEL CHEZ GOOGLE
Pour certains points, j'étendrai l'analyse aux pratiques de la société Google dans son ensemble
Note préliminaire très simplifiée : qu'est-ce qu'un moteur de recherche ?
C'est un système logiciel qui permet d'explorer tout l'Internet ouvert - sites web, blogs, forums, images, vidéos, réseaux sociaux, bases de données...-, pour y trouver des blocs d'informations qu'on peut légitimement et sémantiquement associer à des mots ou des groupes de mots (les requêtes).
Un moteur de recherche remplit 3 fonctions.
- L'exploration (crawling) consiste à envoyer un robot logiciel explorer l'Internet systématiquement et cycliquement, pour y repérer toute nouvelle source de données. Dans le cas des sites web, chaque fois que le robot rencontre un lien pointant vers une page d'un autre site, il s'y rend de manière automatique.
- L'indexation des sources de données atteintes consiste, pour les ressources texte, à extraire tous les mots significatifs de chaque ressource et à les enregistrer dans une base de données qui permet, pour toute requête sur un mot, de retrouver le document Internet dont il provient. L'indexation peut se faire à la volée, lors du passage du robot sur le site exploré, ou après rapatriement du contenu des pages sur un serveur.
- La recherche proprement dite, et la fonction de présentation de la réponse aux requêtes. Un algorithme est appliqué à la base de données pour identifier les ressources (le plus souvent des pages de sites web) correspondant le mieux aux mots de la requête, et les présenter par ordre de meilleure pertinence. C'est à ce niveau que la difficulté existe. Les moteurs de recherche simples utilisent des requêtes booléennes, mais cette approche atteint vite sa limite sur des corpus volumineux. Les moteurs plus évolués utilisent une approche dite TF-IDF (notion de fréquence de termes dans le corpus, utilisation d'approche