Qu’est-ce qu’un sitemap.xml et quel est son rôle en référencement ?


Si vous vous intéressez au référencement, vous avez peut-être entendu parler de "sitemap.xml"... On m'a suggéré d'y consacrer un article donc je vais aujourd'hui vous donner une définition du sitemap.xml, vous expliquer à quoi sert le sitemap en SEO et vous donner quelques pistes de réflexion à ce sujet.

Qu'est-ce qu'un fichier sitemap.xml ?

Le sitemap est un plan de site conçu spécifiquement pour les moteurs de recherche. Il permet de lister les contenus stratégiques d'un site (par exemple, les articles, les pages clés, les images, les vidéos, etc).

Contrairement à un plan de site destiné aux visiteurs "humains", le sitemap est écrit dans un langage informatique spécifique, le XML.

On peut avoir plusieurs sitemaps : des sitemaps qui répertorient les contenus en fonction de leur date de publication, de leur thématique, des sitemaps spécifiques pour les vidéos, pour faire apparaître ses contenus sur Google Actualités, pour répertorier ses images...

Quel rôle joue le sitemap en référencement naturel ?

On peut s'interroger sur le rôle du sitemap à plusieurs niveaux.

Faciliter l'accès aux contenus

Les moteurs de recherche passent leur temps à explorer le web en quête de nouvelles pages, afin de proposer aux internautes des contenus intéressants, qualitatifs, pertinents. Ils le font sans qu'on ait besoin de le leur demander.

Quand un site web est bien conçu, un moteur de recherche accède donc spontanément à l'ensemble des contenus : il n'y pas de pages orphelines, les articles sont accessibles en 1 à 3 clics au lieu d'être enfouis dans les profondeurs du site... et en théorie, le sitemap a donc un intérêt assez limité.

Mais en étant réaliste, nombreux sont les sites qui ont des problèmes d'architecture. Plus un site est gros, plus il est complexe de bien structurer les contenus pour qu'ils soient tous faciles d'accès. Le sitemap joue alors souvent un rôle de "palliatif" : il crée une porte d'entrée sur vos contenus et peut aider Google & co à repérer plus rapidement vos nouvelles pages. Puisque l'outil existe, autant l'utiliser !

On pourrait comparer le sitemap.xml à un GPS : quand une route est bien fléchée, le GPS vous sert surtout de "roue de secours" si vous avez un doute sur le trajet. En l'absence de signalisation, le GPS devient votre premier allié pour trouver votre chemin.

Comment créer un sitemap.xml et à quoi sert ce sitemap ?
Comment créer un sitemap.xml et à quoi sert ce sitemap ?

Sitemap et positionnement

Le sitemap n'influe pas sur le positionnement de votre site dans les moteurs de recherche. Autrement dit, le fait d'avoir un sitemap ne va pas, en soi, vous aider à doubler vos concurrents sur Google ;)

Le sitemap : une consigne, pas un ordre

Il faut percevoir le fichier sitemap comme une consigne, un conseil que vous donnez aux moteurs : "ces pages sont importantes pour mon site, ne les négligez pas". C'est un indicateur parmi d'autres : quand vous mettez une page dans le menu de votre site, que vous créez des liens vers un article précis, ce sont aussi des manières de dire au moteur de recherche qu'il faut y accorder de l'importance.

Ensuite, le moteur de recherche conserve son libre-arbitre : il peut aller consulter les pages ou non, il peut choisir de les inclure dans son index ou non. Il prend cette décision parce qu'il estime que la page est suffisamment intéressante et pertinente pour être répertoriée dans sa "base"...

Le sitemap n'est donc pas un "ordre" qui obligerait Google & co à indexer tous vos contenus.

Fournir à Google des informations en plus

Voici un aperçu d'un sitemap incluant des informations complémentaires :

Apparence d'un sitemap.xml
Apparence d'un sitemap.xml

En plus des URLs des contenus stratégiques, le sitemap peut mentionner d'autres éléments :

  • Priority - Le degré d'importance à accorder au contenu. Par exemple, ici, les catégories WordPress ont une priorité moins élevée que les articles… car elles apportent moins de valeur ajoutée.
    Priorité des contenus du sitemap
    Priorité des contenus du sitemap
  • Changefreq - On donne au moteur de recherche une estimation de la fréquence à laquelle le contenu risque d'être mis à jour.
  • Lastmod - C'est la date de dernière modification du contenu, très utile pour signaler que vous avez effectué une mise à jour. Je constate que ça pousse souvent le moteur de recherche à revenir explorer un article… et indirectement, ça peut aussi le pousser à réévaluer son positionnement.

Sur un site multilingue, on peut créer un sitemap par langue. C'est ce que fait Nespresso par exemple :

Un sitemap par langue
Un sitemap par langue

A l'intérieur de chaque sitemap, on peut ensuite spécifier toutes les versions "locales" d'un même contenu :

Un contenu multilingue
Un contenu multilingue

Le sitemap : un outil de diagnostic ?

Le sitemap devient intéressant, à mon sens, pour évaluer la "santé" de l'indexation d'un site. Imaginons un site qui aurait 80 pages dans son sitemap… et 300 pages indexées sur Google. Ou 500 pages dans son sitemap et 150 indexées sur Google. Ça laisse entendre qu'il y a un problème de compréhension entre le site et Google : vous considérez comme importants des contenus que Google préfère ignorer… ou, à l'inverse, Google indexe des contenus qui ne vous semblent pas primordiaux.

En soumettant un sitemap à Google par le biais de Search Console, vous pouvez suivre l'indexation de vos contenus et détecter ce type de décalage. Quand tout va bien, Google indexera les URLs sans problème :

Suivi d'un sitemap sain sur Search Console
Suivi d'un sitemap sain sur Search Console

Mais parfois, Search Console va vous signaler l'exclusion de certaines URLs, comme ici en gris. Le tableau sous ce graphe vous donnera alors la raison pour laquelle elles sont exclues des résultats.

URLs exclues par Google
URLs exclues par Google

Souvent, le décalage entre URLs présentes dans le sitemap et URLs indexées par Google se produit…

  • Parce que vous laissez Google indexer des pages qui ne présentent presque pas de contenu original (les pages des étiquettes sur WordPress, les pages profondes des catégories, des pages créées par des filtres sur des sites e-commerce par exemple).
  • Parce que vous avez supprimé des pages que Google n'a pas encore retirées de son index.
  • Parce que vous avez créé de nombreux contenus que Google n'a pas encore indexés.
  • Parce que vous donnez à Google des instructions contradictoires : par exemple, vous avez mis une page en "noindex" en demandant à Google de ne pas l'indexer… mais vous la faites figurer dans le sitemap malgré tout.

Grâce au tableau fourni par Search Console, vous pouvez faire un bilan relativement précis de la situation.

Le sitemap peut également donner lieu à des constats intéressants sur le comportement de Google. Par exemple, sur un très gros site, il peut être intéressant de segmenter le sitemap par thématique ou par date, afin de circonscrire rapidement les contenus que Google a choisi d'ignorer.

Comment créer un sitemap ?

La solution idéale est évidemment d'avoir un sitemap qui se met à jour automatiquement à chaque fois que vous publiez ou que vous mettez à jour un contenu. Sur WordPress, l'extension Yoast SEO intègre un sitemap par exemple.

Il existe aussi des extensions spécialisées, comme Google XML Sitemaps : son paramétrage par défaut est conçu pour convenir à la plupart des sites… mais vous pouvez également le modifier, par exemple pour exclure des pages spécifiques du sitemap (on peut par exemple exclure les mentions légales, la page Contact ou ce genre de contenu sur lequel on n'a pas envie que Google "perde son temps").

On peut également générer un sitemap via un outil tiers mais il ne se mettra pas à jour en temps réel. Le site XML Sitemaps est une bonne référence.

Ensuite, je vous conseille de soumettre votre sitemap à Google via Search Console (menu Index > Sitemap) pour suivre l'indexation des pages.

Il est également conseillé d'indiquer le lien de votre sitemap dans le fichier robots.txt situé à la racine du site, en ajoutant ce type de ligne de code à la fin du fichier robots.txt par exemple :

Sitemap: https://www.votresite.com/sitemap.xml

J'espère que cet article répondra à vos principales questions sur les sitemaps !

Est-ce un outil que vous utilisez ?

Poster un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

18 commentaires sur “Qu’est-ce qu’un sitemap.xml et quel est son rôle en référencement ?
  • Mathieu

    Bonjour Marlène,

    Un grand merci pour cet article qui nous éclaire mieux sur le role des sitemap !
    Je viens d’effectuer une migration vers wordpress (j’ai connecté yoast seo), j’ai gardé toutes les anciennes URL et j’ai aussi rajouté des nouvelles pages, ce matin j’ai soumis le sitemap à Google search consol (j’étais déjà connecté à la consol avec mon ancien hébergeur WIX) et Google ne trouve que 7 URL (j’en ai prés de 30 sur mon site) aussi j’ai des messages « impossible de récupérer le site map »

    /author-sitemap.xml Impossible de récupérer le sitemap 0
    /category-sitemap.xml Impossible de récupérer le sitemap 0
    /cool_timeline-sitemap.xml 8 avr. 2022 Opération effectuée 1
    /e-landing-page-sitemap.xml Impossible de récupérer le sitemap 0
    /elementor-hf-sitemap.xml 8 avr. 2022 Opération effectuée 3
    /page-sitemap.xml Impossible de récupérer le sitemap 0
    /post-sitemap.xml 8 avr. 2022 Opération effectuée 3

    Est-ce normal ? combien de temps faut t’il approximativement pour avoir une reconnaissance de toutes les URL et un rapports détaillés (erreur etc…)

    Merci beaucoup !

    Répondre à Mathieu
    • Marlène

      Bonjour Mathieu, il faut laisser à Google le temps de traiter les sitemaps s’ils ne comportent pas d’erreurs. Ca prend a minima quelques jours, parfois bien plus. On peut sans problème soumettre à l’indexation « à la main » les URL qui n’ont pas été indexées pour les ajouter à une file d’exploration prioritaire.

      Répondre à Marlène
  • Loïs

    Bonjour Marlène,

    Merci pour tous les articles! Je rencontre une difficulté:
    Mon site wordpress (via Divi et plugin Yoast) est en ligne depuis 1 semaine et après avoir mis le sitemap dans Search Console, il retrouve bien mes 8 pages en revanche seule ma page d’accueil est indexée et j’ai comme message:
    « Indexée, mais non envoyée via un sitemap »
    Les autres pages ne sont même pas détectée par Google…
    Est-ce que tu aurais une idée ? Je ne sais pas si c’est très clair.

    Merci à toi pour toutes les infos que tu nous donne.

    Répondre à Loïs
    • Marlène

      Bonjour Loïs, au bout d’une semaine ça me paraît assez normal que Google n’ait pas encore indexé tout le site. Tu peux essayer de « forcer l’indexation » en entrant l’URL d’une page dans la Search Console puis en cliquant sur le lien « Demander une indexation » pour que Google ajoute la page à une file d’attente d’exploration prioritaire. Mais sur un jeune site, c’est normal que ça prenne du temps.

      Répondre à Marlène
  • Laura

    Bonjour Marlène,

    Merci pour ton blog que je suis depuis longtemps: une mine d’or !

    Mon blog a plus de 3 ans, il fonctionne bien et n’a jamais rencontré de pbs.

    Mais depuis début septembre dans la search console, « impossible de lire le sitemap », mais tout de même plus de 300 urls découvertes. Il est généré par All in one seo. Quand je teste il fonctionne sans soucis. Mon robot txt est vide, seul mon sitemap est mentionné dedans.

    Du coup j’ai beaucoup moins de clics qu’avant car pleins de soucis de couverture qui remontent: pages en 404 (alors que tout fonctionne), pages bloquées par le robot txt… Je ne sais plus quoi faire. J’essaie de forcer l’indexation, ça marche 3 jours puis ça remonte en erreur de nouveau.

    Depuis quelques jours, mon site remonte aussi en inaccessible car « page indisponible ou bloqué par robot txt » lors du test d’optimisation mobile Google, alors que tout allait bien depuis 3 ans…

    Je n’ai rien fait de spécial comme modif à part installer WP Fastet Cache il y a 2 semaines…

    As-tu une piste ? Je désespère car cela plombe totalement tout mon travail sur le site.

    Merci beaucoup :)

    Répondre à Laura
    • Marlène

      Bonjour Laura, sans connaître le site je ne peux malheureusement pas deviner le problème ;) Il faudrait vérifier si le sitemap est bien valide, avec un validateur de sitemap. Il y a parfois dans le code des erreurs qui empêchent la lecture du sitemap. Mais ça ne doit pas avoir d’impact sur le référencement du site, hormis s’il y a des URL auxquelles Google ne peut accéder QUE via le sitemap (ce qui n’est pas bon signe quant à l’architecture du site !). Normalement, le sitemap est juste une « aide ».

      En revanche, s’il y a des erreurs 404 et des pages bloquées, ça laisse entendre qu’au-delà du sitemap, il y a potentiellement un problème sur le site lui-même…

      Répondre à Marlène
  • Salma

    Bonjour
    j l’ai essayé avec mon blog mais ça ne marche pas

    Répondre à Salma
    • Marlène

      Bonjour, essayé quoi exactement et qu’est-ce qui ne marche pas ?

      Répondre à Marlène
  • Yves

    Bonjour
    Bravo pour cet article qui m’éclaircit les idées

    Répondre à Yves
  • Bernieshoot

    Bonjour Marlène,
    j’ai soumis un sitemap à Google il y a presque 3 ans, j’avoue ne pas me soucier sans doute à tort du résultat.
    Ce qui m’interpelle, c’est qu’un outil comme Google, aussi puissant ait besoin d’un indicateur comme celui-ci

    Répondre à Bernieshoot
    • Marlène

      Je ne dirais pas qu’il en a « besoin ». C’est une simple indication, qui peut être utile en tant que webmaster pour voir l’écart entre ce que Google comprend de l’architecture du site et ce qu’on aimerait qu’il comprenne. Mais Google indexe généralement très bien un site qui n’a pas de sitemap, surtout quand l’architecture est bien conçue (pas de contenus trop « profonds » ou complètement cachés).

      Répondre à Marlène
  • Ornella

    WOW pour l’instant, je crois que c’est un peu trop technique pour moi, suis pas prête. ;)

    Répondre à Ornella
    • Marlène

      Chaque chose en son temps, il y a beaucoup d’éléments à prendre en compte sur un site web :)

      Répondre à Marlène
  • Yohann

    Bonjour,
    Quel intéret de mettre votre home en fréquence quotidienne ? Autant sur un site de presse, je comprends, autant sur votre site, fréquence hebdo suffirait ? Idem, pk y aller de manière hebdo sur vos articles qui sont statiques?
    Perso, je pense qu’il ne faut pas « se moquer » de Google, une fréquence mensuelle pour nos sites suffit.
    Quel est votre avis ?
    Yohann

    Répondre à Yohann
    • Marlène

      Je n’ai pas spécialement l’impression de me moquer de Google et vu le positionnement de mes différents sites, je pense qu’il le vit plutôt bien ;) Je modifie mes articles très fréquemment (chaque semaine je mets à jour une salve de vieux articles), donc le sitemap en tient compte. Chacun fait bien ce qu’il veut chez lui, le sitemap n’est pas un ordre donné de toute façon.

      Répondre à Marlène
  • Suny ☼

    Ah le sitemap, je trouve que c’est l’une des notions les plus difficiles à appréhender quand on débute. Ta remarque  » Le sitemap : une consigne, pas un ordre  » aide d’ailleurs à mieux comprendre.

    Au fait, la plupart de nous blogueurs sommes passés à HTTPS et j’ai fait une erreur de manipulation sans faire exprès sur Search console en supprimant l’ancien sitemap de mon site en HTTP :P , je suppose que ce n’est pas grave ?
    D’ailleurs, tu recommandes quelque chose en particulier pour ceux qui sont passés en HTTPS par rapport à leur sitemap de l’ancien (en dehors de soumettre/ajouter, actualiser, redirections, etc…) ?

    Répondre à Suny
    • Marlène

      Le sitemap en http n’existe plus si le blog a été correctement redirigé (du coup il n’est plus qu’en https) donc ce n’est pas un problème qu’il ait disparu de l’ancienne propriété en http. Si le sitemap est bien fait (et inclut donc les URLs en https), il n’y a rien à faire de particulier.

      Répondre à Marlène


Si vous aimez les articles du site, n'hésitez pas à faire vos achats sur Amazon.fr via ce lien ; il me permettra de toucher une commission grâce au programme Partenaires Amazon EU.