Comment fonctionne un moteur de recherche ?

comment fonctionne un moteur de recherche

Les moteurs de recherche ont pour but de donner à leurs utilisateurs les informations qu’ils recherchent. 

Le challenge majeur des moteurs de recherche est de donner l’information la plus pertinente possible à ses utilisateurs. Et pour être meilleur que les autres, ils doivent donner cette information le plus vite et le plus clairement possible.

Le fonctionnement d’un moteur de recherche est simple en apparence : l’utilisateur tape une requête dans la barre de recherche et le moteur renvoie une “réponse” sous forme de liste (ou page) de résultat de recherche.

Mais comment fonctionne un moteur de recherche aujourd’hui : Comment sont classés les résultats de recherche sur Google, Edge et les autres ?

Toutes les réponses ci-dessous !

Comment fonctionne un moteur de recherche en 2024 ?

Découvrons le fonctionnement d’un moteur de recherche en rentrant un peu plus dans la technique de ces derniers. 

Crawling et Mise en cache

Le crawl décrit l’étape lors de laquelle les moteurs de recherche découvrent de nouvelles pages web (ou mettent à jour les pages modifiées). 

On parle également de “phase d’exploration”. Lors de cette étape, les moteurs de recherche explorent Internet à l’aide de crawlers. 

Concrètement, les crawlers passent de liens en liens pour explorer l’ensemble du web. D’où l’intérêt de créer des liens sur votre site entre vos différentes pages, mais aussi d’obtenir des liens pointant vers vos pages depuis d’autres sites web !

Google garde ensuite en mémoire sur ses serveurs les différentes pages explorées. Je vous laisse imaginer la taille des serveurs…

On appelle cela la mise en cache.

C’est pour cela que lorsque l’on modifie une balise comme title ou meta description, les changements ne sont pas immédiats. Il faut attendre que les robots crawlers de Google repassent sur le site (compter quelques heures ou jours) pour prendre en compte les différentes modifications. 

C’est suite à ces étapes d’exploration et de mise en cache que Google va décider d’une chose très importante : l’indexation des pages.

Indexation

Cette étape est probablement la plus importante lorsque l’on crée du contenu pour le net. 

L’indexation désigne l’ajout d’un contenu dans l’index d’un moteur de recherche comme Google ou Bing. 

Attention, il ne faut pas confondre indexation et positionnement. L’indexation désigne uniquement le fait de figurer dans l’index du moteur de recherche mais ne garantit pas un bon positionnement, loin de là.

Vous pouvez avoir toutes vos pages indexées mais entre la 120 et 230 ième place sur Google, ce qui ne mène pas à grand chose.

Mais, indexer vos pages est la première étape pour référencer son site web.

Les éléments pouvant empêcher une indexation

Google peut refuser l’indexation de vos pages pour diverses raisons parmis lesquelles : 

  • Page avec du contenu dupliqué (copier-coller).
  • Contenu illicite, ne respectant pas les normes de Google.
  • Pages avec moins de 300 mots (ou peu pertinentes).
  • Pages avec une balise “no-index”.
  • Pages avec une balises canonical pointant vers une autre page web.
  • Pages avec un problème d’accessibilité (ergonomie mobile) ou de sécurité.

 

On retrouve ces pages sur la Google Search Console via la mention “Explorée, actuellement non indexée”.

Une page peut ne pas être indexée car le moteur de recherche ne l’a simplement pas découvert. Très souvent, ces pages sont “orphelines”, il n’existe aucun lien point vers ses pages sur le web. Elles sont donc très difficiles à découvrir pour les moteurs de recherches.

Algorithme

Une fois indexées, les pages sont “classées” sur Google selon les requêtes. Pour faire ses classements, Google et les autres moteurs de recherche ont conçu des algorithmes prenant en compte divers critères.

On ne se sait aujourd’hui pas avec certitudes tous les critères pris en compte par ces algorithmes. Mais, on possède quelques pistes intéressantes ! On en reparle avec précision à la fin de cet article.

Le budget Crawl

Je parlais tout à l’heure des crawlers, ces robots qu’utilisent Google pour explorer le web. Et bien en réalité un “budget crawl” limité. 

 

Qu’est-ce que cela veut dire ? 

Afin de ne pas trop utiliser de ressources, les crawlers ont un budget crawl limité par site web. 

Cela signifie qu’au bout d’un certain temps, les crawlers arrêteront de parcourir votre site. D’où l’intérêt d’optimiser les liens internes et externes sur votre site. On parle de “maillage interne”.

Il faut donc mettre des liens vers l’ensemble des pages de votre site, vous devez à tout prix éviter les pages orphelines. 

Il faut donc mettre des liens avec parcimonie sur vos pages web pour éviter de faire perdre trop de temps aux crawlers.

Qui sont les meilleurs moteurs de recherche en 2024 ?

Comme vous pouvez le voir ci-dessous, Google domine encore largement le marché que cela soit en France ou aux USA avec environ 90% de parts de marché. Bing, le moteur de Microsoft suit de loin avec 3% de parts de marché au niveau mondial. L’ajout de l’IA directement sur le moteur de recherche n’aura finalement (pour l’instant) pas eu l’effet escompté.

Difficile de ressortir un autre moteur de recherche tant les écarts sont abyssaux. On peut néanmoins mentionner Baidu, leader en Chine, et Yandex, leader en Russie.

Part de marché des moteurs de recherche dans le monde (source StatCounter)

Comment fonctionne le classement sur les moteurs de recherche ?

C’est la raison pour laquelle la plupart des gens cherche à comprendre le fonctionnement des moteurs de recherche, et surtout, de l’algorithme qui classe les résultats.

Moteurs de recherche et SEO

Par définition, le SEO (search engine optimization) est l’optimisation pour les moteurs de recherche. 

Si on cherche à optimiser nos contenus web, c’est car les moteurs de recherche ont des critères pour classer les résultats. 

Pour preuve, la fuite de données Yandex en 2023 a permis de connaître de nombreux critères de classement SEO du moteur de recherche russe. Et même si Yandex n’est ni Google, ni Microsoft, on en déduit aisément qu’ils utilisent probablement des critères similaires pour classer les résultats de recherche. 

VOUS DÉSIREZ BOOSTER VOTRE VISIBILITÉ ?

Bénéficiez d'un appel de 30min avec un de nos experts !

SEO technique

On pense souvent à l’optimisation SEO des pages web ou au choix des mots-clés quand on veut se positionner en SEO. Mais, du point de vue des moteurs de recherche, la partie technique reste la plus importante car une simple erreur peut ruiner tous vos efforts.

Optimiser le “SEO Technique”, c’est faciliter le travail pour les moteurs de recherche afin qu’ils puissent plus simplement et rapidement explorer votre site web.

 

Voici les aspects majeurs du SEO Technique : 

Codes réponses

Il s’agit du code renvoyé par les pages web. Il y a de nombreux codes réponses différents et je ne suis pas là pour vous faire une énumération mais en voici quelque uns à retenir : 

  • 404 : L’erreur 404 est sans doute la plus connue. Cette erreur indique que le serveur n’a pas trouvé la ressource demandée. La page demandée n’existe pas ou plus.
    Pour le SEO, résoudre les erreurs 404 est crucial pour éviter des conséquences négatives sur le classement. Les erreurs 4xx (400-499) correspondent aux erreurs du client.  

 

  • 2xx : Les codes de la famille 2xx indiquent généralement que la requête du client a été reçue, comprise et acceptée avec succès. Le code le plus pertinent ici est le 200, qui signifie que la requête a été traitée avec succès. C’est le code idéal à obtenir pour chaque page, indiquant que tout fonctionne correctement du côté du serveur.

 

  • 301 : Le code 301 est une redirection permanente. Il est utilisé pour indiquer aux moteurs de recherche que la page demandée a été définitivement déplacée vers une nouvelle URL. Cela peut être crucial lors de la refonte d’un site ou du changement d’URL, car cela permet de transférer l’autorité et le classement de l’ancienne page vers la nouvelle.
    Le code 302 signifie, lui, une redirection temporaire, attention à ne pas les confondre. 

 

  • 5xx : Les codes de la famille 5xx signalent des erreurs du côté du serveur. Par exemple, le code 500 indique une erreur interne du serveur. Ces erreurs peuvent nuire gravement au classement SEO, car elles indiquent que le site ne fonctionne pas correctement du côté du serveur. Il est important de résoudre rapidement ces problèmes pour maintenir la crédibilité aux yeux des moteurs de recherche.

Vitesse de chargement

Il s’agit du temps de chargement des pages web. Pour mesurer cela, Google utilise depuis quelques années les “Core Web Vitals”. Ce sont trois indicateurs qui permettent de mesurer la vitesse de chargement d’une page web. Suite à cela, Google va attribuer une “note” à votre page.


Voici ces trois indicateurs : 

  • FCP (First Contentful Paint) : Le FCP mesure le temps nécessaire pour que le premier élément visuel de la page (comme du texte ou une image) apparaisse à l’écran. Un FCP rapide fluidifie l’expérience utilisateur, car les visiteurs voient du contenu plus rapidement, ce qui réduit le sentiment d’attente.

 

  • CLS (Cumulative Layout Shift) : Le CLS évalue la stabilité visuelle de la page en mesurant les changements dans la mise en page pendant le chargement. Un CLS faible est préférable, car les changements brusques peuvent perturber les utilisateurs, surtout s’ils tentent d’interagir avec la page pendant le chargement. Un bon score CLS contribue à une expérience utilisateur plus agréable.

 

  • FID (First Input Delay) : Le FID mesure le temps entre la première interaction de l’utilisateur avec la page (par exemple, un clic sur un bouton) et la réponse du site à cette interaction. Un FID réduit indique une bonne réactivité, améliorant ainsi l’expérience utilisateur en réduisant le délai entre l’action de l’utilisateur et la réponse du site.

Fichier robot.txt

Le fichier robot.txt permet d’indiquer aux moteurs de recherche les pages à explorer ou indexer et celles à ne pas explorer ni indexer. L’intérêt principal de ce fichier est d’optimiser le budget crawl.

Pour les sites conséquents, ce n’est pas une option, c’est une nécessité.

Amazon robots.txt

Architecture et maillage

La structure du site web est aussi un point important en SEO. En effet, un site bien organisé avec des liens partant des pages “mères” pointant vers les pages “filles” est un signal de qualité pour les moteurs de recherche. 

Et oui, bien “mailler” son site web permet d’optimiser l’exploration pour les robots, ce qui leur permettra de plus facilement découvrir vos nouvelles pages et de les indexer plus vite. 

Les pages orphelines sont des pages qui n’ont aucun lien pointant vers elle depuis le site web auquel elles appartiennent. D’un point de vue technique, il faut éviter ça.

Sécurité

La sécurité est aussi un enjeu important pour les moteurs de recherche. Pour ce faire, on utilise le protocole HTTPS, il s’agit de la version sécurisée du protocole HTTP. Un site HTTPS crypte les données entre les visiteurs et le site Internet visité. Les moteurs de recherche auront tendances à mettre plus en avant les sites plus sécurisés.

Pour avoir un site en HTTPS, vous devez être muni d’un certificat SSL, qui authentifie votre site web.  

Le SSL (Secure Sockets Layer) est une couche de chiffrement qui permet de crypter les données du site. 

SEO on-page

Le SEO on-page désigne l’optimisation en “front” pour les moteurs de recherche. Il y a plusieurs choses à optimiser d’un point de vue SEO sur chaque page pour maximiser l’impact de cette dernière sur les moteurs de recherche.

 

Parmi les critères, on retrouve : 

  • Mots-clés : chaque optimisation se fait en fonction d’un ou plusieurs mots-clés. Avant d’optimiser quoi que ce soit, il faut avoir un mot-clé. Un moteur de recherche fonctionne en apportant une réponse à une requête. Vous devez cibler une requête avant d’entamer le processus d’optimisation SEO.

     

  • Balise title : c’est peut-être le critère le plus important pour les moteurs de recherche aujourd’hui. La balise de titre (ou title) est une balise HTML qui sera le titre qui apparaîtra sur les moteurs

     

  • Balisage Hn : c’est l’ensemble des titres de votre contenu sous format HTML. Les balises Hn sont au nombre de 6, allant de H1 à H6, elles servent à structurer vos contenus pour le web.

     

  • Contenus : Le contenu, ça reste la base du SEO. Essayez de répondre à l’intention de recherche du mieux possible. Ajouter du contenu pertinent en plus de la rédaction tel que des images, vidéos ou tableaux.

     

  • Maillage interne : ou l’interconnexion entre vos pages à l’aide de liens hypertextes. Le but c’est de montrer que notre site est autoritaire sur la thématique traîtée.   

SEO off-page

Le SEO off-page concerne les optimisations qui ne sont pas directement liés à la structure ou au contenu d’une page web.

 

Voici les principaux éléments du SEO off-page : 

  • Autorité : L’autorité de domaines regroupe l’ensemble des indicateurs indiquant aux moteurs de recherche la pertinence de votre site pour répondre à la requête de l’utilisateur. C’est l’indicateur de votre popularité de votre site web. Parmi eux on retrouve : quantité et qualité de backlinks / réputation de votre marque / repartage sur les réseaux sociaux / …

  • Backlinks : Les backlinks sont des liens provenant d’autres sites web et pointant vers le vôtre. Les moteurs de recherche considèrent ces liens comme preuves de confiance et d’autorité. Avoir un grand nombre de backlinks de qualité peut améliorer le classement de votre site dans les résultats de recherche. Attention néanmoins, Qualité > Quantité.

  • Réseaux sociaux : Les partages de contenu sur les réseaux sociaux peuvent également contribuer à accroître la visibilité de votre site et à générer des liens entrants. Des contenus intéressants et partageables peuvent être largement diffusés sur les réseaux sociaux, ce qui peut attirer l’attention d’autres sites et créateurs de contenu.

Les défis futurs des moteurs de recherche

moteurs de recherche

Les moteurs de recherche font face à de nombreux défis et enjeux s’ils veulent rester à leur place de numéro 1 pour ce qui est de la recherche d’informations et d’achat. Ils font notamment face aux réseaux sociaux et à des sites web qu’ils ont indexés eux-mêmes.

Concurrence accrue

La concurrence ne fait que s’accroître pour les moteurs de recherche. En effet, de plus en plus de personnes font leurs recherches directement depuis les réseaux sociaux et notamment les jeunes. Comme on peut le retrouver selon l’étude GWI Core 2023 où l’on observe que lorsqu’ils font des recherches sur une marque ou un produit, la génération Z utilise davantage les réseaux sociaux que les moteurs de recherche.

De quoi s’inquiéter pour Google, qui ne se laisse pas faire. C’est notamment pour cela qu’on retrouve de plus en plus de pages de réseaux sociaux mais aussi de vidéos (notamment youtube et tiktok) sur les pages de résultats de recherche de la firme américaine.

Spamming & Environnement

Google, Edge et les autres font de plus en plus face à des sites publiant des milliers voir des millions de pages sur un court laps de temps. Cela peut-être un problème car ces derniers ne possèdent pas non plus une énergie illimitée et une puissance infinie avec leurs serveurs. 

À cela s’ajoute un enjeu environnemental pour des firmes comme Google et Microsoft qui ne souhaitent pas avoir l’étiquette de multinationales très polluantes. 

Et ce problème ne fait qu’empirer depuis l’arrivée de l’intelligence artificielle pour le grand public.   

On observe notamment Google qui ne cesse de multiplier les mises à jour pour stopper les sites utilisant ce genre de pratiques.

Intelligence artificielle

L’intelligence artificielle est un enjeu majeur pour les moteurs de recherche, et ce pour plusieurs raisons. Tout d’abord, comme je vous l’ai dis plus haut, les sites qui spamment à l’aide contenus IA sans aucune valeur ajoutée ne cesse d’augmenter. 

Ensuite, les moteurs de recherche cherchent à intégrer l’IA de manière pertinente au sein de leur système. On voit notamment en ce moment Google et Microsoft essayés des choses avec l’IA, même si cela change d’un jour à l’autre avec de nombreux retours en arrière. 

Vie privé

Alors que les utilisateurs sont de plus en plus préoccupés par la confidentialité de leurs données en ligne, les moteurs de recherche doivent relever le défi de garantir un équilibre entre la personnalisation des résultats de recherche et la préservation de la vie privée. Les pressions croissantes pour renforcer la confidentialité en ligne ont conduit à des ajustements dans les politiques et les pratiques des moteurs de recherche. 

On observe notamment cela sur la partie régie publicitaire de Google : Google Ads avec laquelle il est de plus en plus difficile de cibler précisément notre cible.

Nous, c’est l’agence Zesto et on sait à peu prêt comment fonctionne un moteur de recherche (même si on n’est pas dans la tête de Google). Donc, si vous avez des enjeux de visibilité en ligne, n’hésitez pas à nous contacter.

Le sommaire

ON PREND CONTACT ?