L’ouverture au domaine public des technologies du Web au début des années 90 (1993) provoque assez immédiatement un afflux massif d’internautes curieux, de technophiles libertaires, de scientifiques ou d’enseignants qui y devinent un eldorado du partage des savoirs et de la culture, gratuitement et pour tous. De nombreux sites web, faciles à créer et à mettre en ligne, voient le jour, sur des sujets de tout ordre.
De 10 sites web en 1992, on en compte plus d’un milliard en 2012, vingt ans après, et 1,9 milliard en 2021. Il faut rapidement faire face à cette accumulation d’information : l’internaute ne peut pas toujours deviner l’adresse d’un site web, et plus encore à une époque, la « bulle internet », où le Web crée son propre méta langage basé sur des abréviations, des doubles sens, des sens cachés, des jeux de mots, des inventions…
QXL.com est un site de vente qui se prononce « quick sale » (vente rapide) ; ebay instaure la présence du « e » pour « électronique », équivalent de « en ligne » en français, et devance l’instauration du e-commerce. Caramail joue sur les mots entre caramel et e-mail ; Yahoo reprend une célèbre onomatopée ; Google est un jeu de mots entre Googol (1 suivi de cent 0) et Goggle, jumelles, pour un outil qui vous permet de trouver grâce à ses jumelles digitales une information pertinente parmi des milliards d’autres ; et ainsi de suite.
Mais comment deviner, lorsqu’on est un internaute, ou comment même se souvenir de ces noms parfois farfelus ? C’est là que les moteurs de recherche interviennent. Avec leurs algorithmes en perpétuelle évolution. Et dans leur sillage, la nécessaire adaptation des contenus aux nouveaux comportements des utilisateurs. Altavista (RIP), Yahoo (davantage un répertoire de sites classés par thématiques et sous thématiques qu’un véritable moteur de recherche), Lycos, Lilo, DuckDuckGo, Bing (moteur de Microsoft), Ecosia, Qwant… tous ces moteurs ont essayé de se faire leur place face au géant des géants : Google.
En presque 25 ans, la marque de Mountain View, Cal. s’est imposée comme le leader incontesté des requêtes, en comptabilisant 90% des requêtes française par exemple. Dans le monde, 80 000 requêtes sont effectuées chaque seconde, dont 15% sont totalement inédites. Pour identifier le meilleur contenu, Google a mis au point un algorithme qui n’a cessé de se développer au cours des ans.
Tout d’abord, l’algorithme prenait en compte essentiellement les mots clés de la requête, et vérifiait quels sites les contenaient en quantité suffisante pour paraître crédible et pertinent. Cette nécessité de « matcher » requête de l’internaute et contenu du site est bien entendu encore une priorité aujourd’hui, bien que Google s’autorise à présenter sur sa SERP (Search Engine Result Page, page de résultat de recherche) des pages qui ne contiennent pas certains mots clés, affichés en barrés.
Parmi les mots clés, ceux contenus dans l’url du site étaient prioritaires. Il fallait donc que les marques qui souhaitaient générer un fort traffic d’une part identifient les bons mots clés, et créent des sites dont les adresses reprenaient ces termes. Sont alors apparus des sites aux noms à rallonge pour correspondre aux demandes des internautes telles qu’analysées par l’algorithme : partirpascher.fr, cuireunoeuf.com, etc. Mais plus il y a de sites web et de pages, plus la concurrence est rude, et plus l’algorithme se corse.
Analyser les mots clés pertinents ne suffit plus, les sites web doivent alors construire des contenus de façon à mettre en valeur les mots clés les plus importants au milieu d’une information dense. Cette structure de site est prise en compte par Google, qui cherche alors en priorité les mots clés dans les titres, les chapeaux (les courts paragraphes sous les titres), les intertitres, puis les mots en gras et les liens.
Identifier ces mots clés et les mettre en forme de telle sorte que Google les repère et remonte le site parmi les premiers résultats de recherche s’appelle le SEO (Search Engine Optimization, soit optimisation du moteur de recherche). On dira plus volontiers en français Référencement Naturel, le terme « naturel » faisant référence à un contenu pour lequel on ne paye pas Google afin qu’il affiche notre publicité. On parle également parfois de contenu organique, tout cela signifiant globalement « gratuit ».
Les sites web s’organisent : non content de mettre les bons mots clés dans le contenu, on les structure. Mais l’information reste descendante, jamais horizontale, et c’est à l’internaute de faire le tri dans les sites pour trouver l’information qu’il souhaite. Souvenons-nous qu’à cette époque, figurer parmi les 10 ou même 20 premiers résultats de recherche sur Google nous assurait un fort traffic ! Aujourd’hui, 60% du traffic depuis Google provient des trois premiers résultats naturels (situés sous les annonces publicitaires), sachant que le nombre de clics chute drastiquement : seuls 50% des résultats de requête génère un clic aujourd’hui. Google Intensifie la pertinence de son algorithme en ajoutant des conditions : le nombre de clics sur le site depuis la SERP, la durée de visite du site (« stickiness »), le nombre de pages visitées, le taux de rebond, la quantité et la qualité des sites référents, les backlinks, le nombre de pages, la fréquence des mises à jour, et bien sûr le stockage des données personnelles…
Puis interviennent d’autres algorithme complémentaire qui prennent en compte les demandes plus spécifiques des utilisateurs : l’internaute souhaite-t-il faire un achat ? Cherche-t-il un commerce ? Un numéro de téléphone ? Cherche-t-il une vidéo ? des images ? Si oui, de quelle qualité ? Puis : saisit-il sa requête depuis un téléphone mobile ? Si oui, le site est-il adapté (responsive) ?
Le site est-il conforme aux enjeux d’accessibilité des contenus pour les personnes mal voyantes ? Pour les créateurs de contenu, c’est un enfer : pour être visible par le Dieu Google, les mises à jour des publications sont quasi obligatoires. C’est que Google lutte contre deux feux : d’une part, ce qu’on appelle les Black Hat, ces créateurs de contenus « pirates » qui utilisent les règles de l’algo pour dérouter les internautes et les envoyer vers des sites qui ne correspondent pas du tout aux besoins exprimés.