Google et l'algorithme pagerank
Google est le leader des moteurs de recherche sur Internet. Ce succès provient de son algorithme PageRank qui permet de classer les pages Internet d’une manière fort astucieuse. Bien que les évolutions aient été tenues secrètes, l’algorithme de départ a été publié. Nous étudierons ici la modélisation mathématique qui a permis à Google de se placer en tête des moteurs de recherche.
Chaînes de Markov
L’outil mathématique le mieux adapté pour travailler sur les graphes orientés est la chaîne de Markov. Elle permet de décider quel lien suivre à partir d’une page web, sans se soucier du chemin parcouru jusqu’alors. On peut représenter les probabilités d’aller à une page j lorsque l’on se trouve à la page i à l’aide d’un tableau. Pour l’exemple précédant, cela donne le tableau suivant :
1
1 2 3 4 5 6 0 d 1 f 0 0
2 a 0 0 0 0 0
3 b e 0 0 0 0
4
0 0 0 0 0 1
5
0 0 0 h 0 0
6 c 0 0 g 1 0
La Toile est un immense graphe
Le web recense des millions de pages - plus de 580 millions en janvier 20121. Toutes ces pages communiquent entre elles grâce à des liens. C’est précisément sur ces liens que Google va s’appuyer pour développer son algorithme. On peut alors modéliser le web par un graphe. La figure suivante donne un exemple en miniature :
Si on se trouve sur la page 3, il suffit de regarder la ligne 3 pour voir qu’on ne peut aller que sur la page 1 (avec une probabilité égale à 1). Si en revanche on se trouve sur la page 1, on ira sur la page 2 avec une probabilité a, sur la page 3 avec une probabilité b et sur la page 6 avec une probabilité c. Grâce aux propriétés des chaînes de Markov, nous allons pouvoir tirer certaines conclusions essentielles pour mieux comprendre l’efficacité de l’algorithme PageRank.
Première hypothèse
Pour simplifier la modélisation, on va supposer que l’internaute va cliquer au hasard sur les liens qui lui sont proposés. Ceci implique qu’on trouve les probabilités a, b, c, d, e, f, g