Qu’est-ce qu’un sitemap.xml et quel est son rôle en référencement ?


Si vous vous intéressez au référencement, vous avez peut-être entendu parler de « sitemap.xml »… On m’a suggéré d’y consacrer un article donc je vais aujourd’hui vous donner une définition du sitemap.xml, vous expliquer à quoi sert le sitemap en SEO et vous donner quelques pistes de réflexion à ce sujet.

Qu’est-ce qu’un fichier sitemap.xml ?

Le sitemap est un plan de site conçu spécifiquement pour les moteurs de recherche. Il permet de lister les contenus stratégiques d’un site (par exemple, les articles, les pages clés, etc).

Contrairement à un plan de site destiné aux visiteurs « humains », le sitemap est écrit dans un langage informatique spécifique, le XML.

On peut avoir plusieurs sitemaps : des sitemaps qui répertorient les contenus en fonction de leur date de publication, de leur thématique, des sitemaps spécifiques pour les vidéos, pour faire apparaître ses contenus sur Google Actualités, pour répertorier ses images…

Quel rôle joue le sitemap en référencement naturel ?

On peut s’interroger sur le rôle du sitemap à plusieurs niveaux.

Faciliter l’accès aux contenus

Les moteurs de recherche passent leur temps à explorer le web en quête de nouvelles pages, afin de proposer aux internautes des contenus intéressants, qualitatifs, pertinents. Ils le font sans qu’on ait besoin de le leur demander.

Quand un site web est bien conçu, un moteur de recherche accède donc spontanément à l’ensemble des contenus : il n’y pas de pages orphelines, les articles sont accessibles en 1 à 3 clics au lieu d’être enfouis dans les profondeurs du site… et en théorie, le sitemap a donc un intérêt assez limité.

Mais en étant réaliste, nombreux sont les sites qui ont des problèmes d’architecture. Plus un site est gros, plus il est complexe de bien structurer les contenus pour qu’ils soient tous faciles d’accès. Le sitemap joue alors souvent un rôle de « palliatif » : il crée une porte d’entrée sur vos contenus et peut aider Google & co à repérer plus rapidement vos nouvelles pages. Puisque l’outil existe, autant l’utiliser !

On pourrait comparer le sitemap.xml à un GPS : quand une route est bien fléchée, le GPS vous sert surtout de « roue de secours » si vous avez un doute sur le trajet. En l’absence de signalisation, le GPS devient votre premier allié pour trouver votre chemin.

Comment créer un sitemap.xml et à quoi sert ce sitemap ?
Comment créer un sitemap.xml et à quoi sert ce sitemap ?

Sitemap et positionnement

Le sitemap n’influe pas sur le positionnement de votre site dans les moteurs de recherche. Autrement dit, le fait d’avoir un sitemap ne va pas, en soi, vous aider à doubler vos concurrents sur Google ;)

Le sitemap : une consigne, pas un ordre

Il faut percevoir le fichier sitemap comme une consigne, un conseil que vous donnez aux moteurs : « ces pages sont importantes pour mon site, ne les négligez pas ». C’est un indicateur parmi d’autres : quand vous mettez une page dans le menu de votre site, que vous créez des liens vers un article précis, ce sont aussi des manières de dire au moteur de recherche qu’il faut y accorder de l’importance.

Ensuite, le moteur de recherche conserve son libre-arbitre : il peut aller consulter les pages ou non, il peut choisir de les inclure dans son index ou non. Il prend cette décision parce qu’il estime que la page est suffisamment intéressante et pertinente pour être répertoriée dans sa « base »…

Le sitemap n’est donc pas un « ordre » qui obligerait Google & co à indexer tous vos contenus.

Fournir à Google des informations en plus

Voici un aperçu de l’un de mes sitemaps :

Apparence d'un sitemap.xml
Apparence d’un sitemap.xml

En plus des URLs des contenus stratégiques, le sitemap peut comporter des informations complémentaires, notamment :

  • Priority – Le degré d’importance à accorder au contenu. Par exemple, mes catégories WordPress ont une priorité moins élevée que mes articles… car j’estime qu’elles apportent moins de valeur ajoutée.
    Priorité des contenus du sitemap
    Priorité des contenus du sitemap
  • Changefreq – On donne au moteur de recherche une estimation de la fréquence à laquelle le contenu risque d’être mis à jour.
  • Lastmod – C’est la date de dernière modification du contenu, très utile pour signaler que vous avez effectué une mise à jour. Je constate que ça pousse souvent le moteur de recherche à revenir explorer un article… et indirectement, ça peut aussi le pousser à réévaluer son positionnement.

Sur un site multilingue, on peut créer un sitemap par langue. C’est ce que fait Nespresso par exemple :

Un sitemap par langue
Un sitemap par langue

A l’intérieur de chaque sitemap, on peut ensuite spécifier toutes les versions « locales » d’un même contenu :

Un contenu multilingue
Un contenu multilingue

Le sitemap : un outil de diagnostic ?

Le sitemap devient intéressant, à mon sens, pour évaluer la « santé » de l’indexation d’un site. Imaginons un site qui aurait 80 pages dans son sitemap… et 300 pages indexées sur Google. Ou 500 pages dans son sitemap et 150 indexées sur Google. Ça laisse entendre qu’il y a un problème de compréhension entre le site et Google : vous considérez comme importants des contenus que Google préfère ignorer… ou, à l’inverse, Google indexe des contenus qui ne vous semblent pas primordiaux.

Décalage entre URLs indexées et URLs du sitemap
Décalage entre URLs indexées et URLs du sitemap

En soumettant un sitemap à Google par le biais de Search Console, vous pouvez suivre l’indexation de vos contenus et détecter ce type de décalage. Souvent, il se produit…

  • Parce que vous laissez Google indexer des pages qui ne présentent presque pas de contenu original (les pages des étiquettes sur WordPress, les pages profondes des catégories, des pages créées par des filtres sur des sites e-commerce par exemple).
  • Parce que vous avez supprimé des pages que Google n’a pas encore retirées de son index.
  • Parce que vous avez créé de nombreux contenus que Google n’a pas encore indexés.
  • Parce que vous donnez à Google des instructions contradictoires : par exemple, vous avez mis une page en « noindex » en demandant à Google de ne pas l’indexer… mais vous la faites figurer dans le sitemap malgré tout.

A ce jour, Google Search Console vous fait part d’un décalage mais ne liste pas les URLs concernées par ce décalage.

Les sitemaps listés dans Search Console
Les sitemaps listés dans Search Console

Le sitemap peut également donner lieu à des constats intéressants sur le comportement de Google. Par exemple, si un site crée des sitemaps par thématique ou par date, il peut identifier ce que le moteur de recherche consulte en priorité. J’utilise le plugin WordPress Google XML Sitemaps, qui permet de créer des sitemaps par date. Ca permet de repérer très vite si Google a indexé les contenus ou pas.

Comment créer un sitemap ?

La solution idéale est évidemment d’avoir un sitemap qui se met à jour automatiquement à chaque fois que vous publiez ou que vous mettez à jour un contenu. Sur WordPress, le plugin Yoast SEO intègre un sitemap par exemple.

J’utilise pour ma part Google XML Sitemaps : son paramétrage par défaut est conçu pour convenir à la plupart des sites… mais vous pouvez également le modifier, par exemple pour exclure des pages spécifiques du sitemap (j’exclus mes mentions légales, ma page Contact ou ce genre de contenu sur lequel je n’ai pas envie que Google « perde son temps »).

On peut également générer un sitemap via un outil tiers mais il ne se mettra pas à jour en temps réel. Le site XML Sitemaps est une bonne référence.

Ensuite, je vous conseille de soumettre votre sitemap à Google via Search Console (menu Exploration > Sitemaps puis bouton Ajouter/Tester un sitemap) pour suivre l’indexation des pages.

Il faut également indiquer le lien de votre sitemap dans le fichier robots.txt situé à la racine du site, en ajoutant ce type de ligne de code à la fin du fichier robots.txt par exemple :

Sitemap: https://www.votresite.com/sitemap.xml

J’espère que cet article répondra à vos principales questions sur les sitemaps !

Est-ce un outil que vous utilisez ?

Poster un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Lorsque vous postez un commentaire sur le blog, le nom indiqué dans la case "Prénom" ainsi que votre message apparaîtront publiquement. Votre adresse e-mail restera confidentielle.

8 commentaires sur “Qu’est-ce qu’un sitemap.xml et quel est son rôle en référencement ?

  • Bernieshoot

    Bonjour Marlène,
    j’ai soumis un sitemap à Google il y a presque 3 ans, j’avoue ne pas me soucier sans doute à tort du résultat.
    Ce qui m’interpelle, c’est qu’un outil comme Google, aussi puissant ait besoin d’un indicateur comme celui-ci

    Répondre à Bernieshoot
    • Marlène

      Je ne dirais pas qu’il en a « besoin ». C’est une simple indication, qui peut être utile en tant que webmaster pour voir l’écart entre ce que Google comprend de l’architecture du site et ce qu’on aimerait qu’il comprenne. Mais Google indexe généralement très bien un site qui n’a pas de sitemap, surtout quand l’architecture est bien conçue (pas de contenus trop « profonds » ou complètement cachés).

      Répondre à Marlène
  • Ornella

    WOW pour l’instant, je crois que c’est un peu trop technique pour moi, suis pas prête. ;)

    Répondre à Ornella
    • Marlène

      Chaque chose en son temps, il y a beaucoup d’éléments à prendre en compte sur un site web :)

      Répondre à Marlène
  • Yohann

    Bonjour,
    Quel intéret de mettre votre home en fréquence quotidienne ? Autant sur un site de presse, je comprends, autant sur votre site, fréquence hebdo suffirait ? Idem, pk y aller de manière hebdo sur vos articles qui sont statiques?
    Perso, je pense qu’il ne faut pas « se moquer » de Google, une fréquence mensuelle pour nos sites suffit.
    Quel est votre avis ?
    Yohann

    Répondre à Yohann
    • Marlène

      Je n’ai pas spécialement l’impression de me moquer de Google et vu le positionnement de mes différents sites, je pense qu’il le vit plutôt bien ;) Je modifie mes articles très fréquemment (chaque semaine je mets à jour une salve de vieux articles), donc le sitemap en tient compte. Chacun fait bien ce qu’il veut chez lui, le sitemap n’est pas un ordre donné de toute façon.

      Répondre à Marlène
  • Suny ☼

    Ah le sitemap, je trouve que c’est l’une des notions les plus difficiles à appréhender quand on débute. Ta remarque  » Le sitemap : une consigne, pas un ordre  » aide d’ailleurs à mieux comprendre.

    Au fait, la plupart de nous blogueurs sommes passés à HTTPS et j’ai fait une erreur de manipulation sans faire exprès sur Search console en supprimant l’ancien sitemap de mon site en HTTP :P , je suppose que ce n’est pas grave ?
    D’ailleurs, tu recommandes quelque chose en particulier pour ceux qui sont passés en HTTPS par rapport à leur sitemap de l’ancien (en dehors de soumettre/ajouter, actualiser, redirections, etc…) ?

    Répondre à Suny
    • Marlène

      Le sitemap en http n’existe plus si le blog a été correctement redirigé (du coup il n’est plus qu’en https) donc ce n’est pas un problème qu’il ait disparu de l’ancienne propriété en http. Si le sitemap est bien fait (et inclut donc les URLs en https), il n’y a rien à faire de particulier.

      Répondre à Marlène
Si vous aimez les articles du site, n'hésitez pas à faire vos achats sur Amazon.fr via ce lien ; il me permettra de toucher une commission grâce au programme Partenaires Amazon EU.