Si vous vous intéressez au référencement, vous avez peut-être entendu parler de "sitemap.xml"... On m'a suggéré d'y consacrer un article donc je vais aujourd'hui vous donner une définition du sitemap.xml, vous expliquer à quoi sert le sitemap en SEO et vous donner quelques pistes de réflexion à ce sujet.
Qu'est-ce qu'un fichier sitemap.xml ?
Le sitemap est un plan de site conçu spécifiquement pour les moteurs de recherche. Il permet de lister les contenus stratégiques d'un site (par exemple, les articles, les pages clés, les images, les vidéos, etc).
Contrairement à un plan de site destiné aux visiteurs "humains", le sitemap est écrit dans un langage informatique spécifique, le XML.
On peut avoir plusieurs sitemaps : des sitemaps qui répertorient les contenus en fonction de leur date de publication, de leur thématique, des sitemaps spécifiques pour les vidéos, pour faire apparaître ses contenus sur Google Actualités, pour répertorier ses images...
Quel rôle joue le sitemap en référencement naturel ?
On peut s'interroger sur le rôle du sitemap à plusieurs niveaux.
Faciliter l'accès aux contenus
Les moteurs de recherche passent leur temps à explorer le web en quête de nouvelles pages, afin de proposer aux internautes des contenus intéressants, qualitatifs, pertinents. Ils le font sans qu'on ait besoin de le leur demander.
Quand un site web est bien conçu, un moteur de recherche accède donc spontanément à l'ensemble des contenus : il n'y pas de pages orphelines, les articles sont accessibles en 1 à 3 clics au lieu d'être enfouis dans les profondeurs du site... et en théorie, le sitemap a donc un intérêt assez limité.
Mais en étant réaliste, nombreux sont les sites qui ont des problèmes d'architecture. Plus un site est gros, plus il est complexe de bien structurer les contenus pour qu'ils soient tous faciles d'accès. Le sitemap joue alors souvent un rôle de "palliatif" : il crée une porte d'entrée sur vos contenus et peut aider Google & co à repérer plus rapidement vos nouvelles pages. Puisque l'outil existe, autant l'utiliser !
On pourrait comparer le sitemap.xml à un GPS : quand une route est bien fléchée, le GPS vous sert surtout de "roue de secours" si vous avez un doute sur le trajet. En l'absence de signalisation, le GPS devient votre premier allié pour trouver votre chemin.
Sitemap et positionnement
Le sitemap n'influe pas sur le positionnement de votre site dans les moteurs de recherche. Autrement dit, le fait d'avoir un sitemap ne va pas, en soi, vous aider à doubler vos concurrents sur Google ;)
Le sitemap : une consigne, pas un ordre
Il faut percevoir le fichier sitemap comme une consigne, un conseil que vous donnez aux moteurs : "ces pages sont importantes pour mon site, ne les négligez pas". C'est un indicateur parmi d'autres : quand vous mettez une page dans le menu de votre site, que vous créez des liens vers un article précis, ce sont aussi des manières de dire au moteur de recherche qu'il faut y accorder de l'importance.
Ensuite, le moteur de recherche conserve son libre-arbitre : il peut aller consulter les pages ou non, il peut choisir de les inclure dans son index ou non. Il prend cette décision parce qu'il estime que la page est suffisamment intéressante et pertinente pour être répertoriée dans sa "base"...
Le sitemap n'est donc pas un "ordre" qui obligerait Google & co à indexer tous vos contenus.
Fournir à Google des informations en plus
Voici un aperçu d'un sitemap incluant des informations complémentaires :
En plus des URLs des contenus stratégiques, le sitemap peut mentionner d'autres éléments :
- Priority - Le degré d'importance à accorder au contenu. Par exemple, ici, les catégories WordPress ont une priorité moins élevée que les articles… car elles apportent moins de valeur ajoutée.
- Changefreq - On donne au moteur de recherche une estimation de la fréquence à laquelle le contenu risque d'être mis à jour.
- Lastmod - C'est la date de dernière modification du contenu, très utile pour signaler que vous avez effectué une mise à jour. Je constate que ça pousse souvent le moteur de recherche à revenir explorer un article… et indirectement, ça peut aussi le pousser à réévaluer son positionnement.
Sur un site multilingue, on peut créer un sitemap par langue. C'est ce que fait Nespresso par exemple :
A l'intérieur de chaque sitemap, on peut ensuite spécifier toutes les versions "locales" d'un même contenu :
Le sitemap : un outil de diagnostic ?
Le sitemap devient intéressant, à mon sens, pour évaluer la "santé" de l'indexation d'un site. Imaginons un site qui aurait 80 pages dans son sitemap… et 300 pages indexées sur Google. Ou 500 pages dans son sitemap et 150 indexées sur Google. Ça laisse entendre qu'il y a un problème de compréhension entre le site et Google : vous considérez comme importants des contenus que Google préfère ignorer… ou, à l'inverse, Google indexe des contenus qui ne vous semblent pas primordiaux.
En soumettant un sitemap à Google par le biais de Search Console, vous pouvez suivre l'indexation de vos contenus et détecter ce type de décalage. Quand tout va bien, Google indexera les URLs sans problème :
Mais parfois, Search Console va vous signaler l'exclusion de certaines URLs, comme ici en gris. Le tableau sous ce graphe vous donnera alors la raison pour laquelle elles sont exclues des résultats.
Souvent, le décalage entre URLs présentes dans le sitemap et URLs indexées par Google se produit…
- Parce que vous laissez Google indexer des pages qui ne présentent presque pas de contenu original (les pages des étiquettes sur WordPress, les pages profondes des catégories, des pages créées par des filtres sur des sites e-commerce par exemple).
- Parce que vous avez supprimé des pages que Google n'a pas encore retirées de son index.
- Parce que vous avez créé de nombreux contenus que Google n'a pas encore indexés.
- Parce que vous donnez à Google des instructions contradictoires : par exemple, vous avez mis une page en "noindex" en demandant à Google de ne pas l'indexer… mais vous la faites figurer dans le sitemap malgré tout.
Grâce au tableau fourni par Search Console, vous pouvez faire un bilan relativement précis de la situation.
Le sitemap peut également donner lieu à des constats intéressants sur le comportement de Google. Par exemple, sur un très gros site, il peut être intéressant de segmenter le sitemap par thématique ou par date, afin de circonscrire rapidement les contenus que Google a choisi d'ignorer.
Comment créer un sitemap ?
La solution idéale est évidemment d'avoir un sitemap qui se met à jour automatiquement à chaque fois que vous publiez ou que vous mettez à jour un contenu. Sur WordPress, l'extension Yoast SEO intègre un sitemap par exemple.
Il existe aussi des extensions spécialisées, comme Google XML Sitemaps : son paramétrage par défaut est conçu pour convenir à la plupart des sites… mais vous pouvez également le modifier, par exemple pour exclure des pages spécifiques du sitemap (on peut par exemple exclure les mentions légales, la page Contact ou ce genre de contenu sur lequel on n'a pas envie que Google "perde son temps").
On peut également générer un sitemap via un outil tiers mais il ne se mettra pas à jour en temps réel. Le site XML Sitemaps est une bonne référence.
Ensuite, je vous conseille de soumettre votre sitemap à Google via Search Console (menu Index > Sitemap) pour suivre l'indexation des pages.
Il est également conseillé d'indiquer le lien de votre sitemap dans le fichier robots.txt situé à la racine du site, en ajoutant ce type de ligne de code à la fin du fichier robots.txt par exemple :
Sitemap: https://www.votresite.com/sitemap.xml
J'espère que cet article répondra à vos principales questions sur les sitemaps !
Bonjour Marlène,
Un grand merci pour cet article qui nous éclaire mieux sur le role des sitemap !
Je viens d’effectuer une migration vers wordpress (j’ai connecté yoast seo), j’ai gardé toutes les anciennes URL et j’ai aussi rajouté des nouvelles pages, ce matin j’ai soumis le sitemap à Google search consol (j’étais déjà connecté à la consol avec mon ancien hébergeur WIX) et Google ne trouve que 7 URL (j’en ai prés de 30 sur mon site) aussi j’ai des messages « impossible de récupérer le site map »
/author-sitemap.xml Impossible de récupérer le sitemap 0
/category-sitemap.xml Impossible de récupérer le sitemap 0
/cool_timeline-sitemap.xml 8 avr. 2022 Opération effectuée 1
/e-landing-page-sitemap.xml Impossible de récupérer le sitemap 0
/elementor-hf-sitemap.xml 8 avr. 2022 Opération effectuée 3
/page-sitemap.xml Impossible de récupérer le sitemap 0
/post-sitemap.xml 8 avr. 2022 Opération effectuée 3
Est-ce normal ? combien de temps faut t’il approximativement pour avoir une reconnaissance de toutes les URL et un rapports détaillés (erreur etc…)
Merci beaucoup !
Bonjour Mathieu, il faut laisser à Google le temps de traiter les sitemaps s’ils ne comportent pas d’erreurs. Ca prend a minima quelques jours, parfois bien plus. On peut sans problème soumettre à l’indexation « à la main » les URL qui n’ont pas été indexées pour les ajouter à une file d’exploration prioritaire.
Bonjour Marlène,
Merci pour tous les articles! Je rencontre une difficulté:
Mon site wordpress (via Divi et plugin Yoast) est en ligne depuis 1 semaine et après avoir mis le sitemap dans Search Console, il retrouve bien mes 8 pages en revanche seule ma page d’accueil est indexée et j’ai comme message:
« Indexée, mais non envoyée via un sitemap »
Les autres pages ne sont même pas détectée par Google…
Est-ce que tu aurais une idée ? Je ne sais pas si c’est très clair.
Merci à toi pour toutes les infos que tu nous donne.
Bonjour Loïs, au bout d’une semaine ça me paraît assez normal que Google n’ait pas encore indexé tout le site. Tu peux essayer de « forcer l’indexation » en entrant l’URL d’une page dans la Search Console puis en cliquant sur le lien « Demander une indexation » pour que Google ajoute la page à une file d’attente d’exploration prioritaire. Mais sur un jeune site, c’est normal que ça prenne du temps.
Bonjour Marlène,
Merci pour ton blog que je suis depuis longtemps: une mine d’or !
Mon blog a plus de 3 ans, il fonctionne bien et n’a jamais rencontré de pbs.
Mais depuis début septembre dans la search console, « impossible de lire le sitemap », mais tout de même plus de 300 urls découvertes. Il est généré par All in one seo. Quand je teste il fonctionne sans soucis. Mon robot txt est vide, seul mon sitemap est mentionné dedans.
Du coup j’ai beaucoup moins de clics qu’avant car pleins de soucis de couverture qui remontent: pages en 404 (alors que tout fonctionne), pages bloquées par le robot txt… Je ne sais plus quoi faire. J’essaie de forcer l’indexation, ça marche 3 jours puis ça remonte en erreur de nouveau.
Depuis quelques jours, mon site remonte aussi en inaccessible car « page indisponible ou bloqué par robot txt » lors du test d’optimisation mobile Google, alors que tout allait bien depuis 3 ans…
Je n’ai rien fait de spécial comme modif à part installer WP Fastet Cache il y a 2 semaines…
As-tu une piste ? Je désespère car cela plombe totalement tout mon travail sur le site.
Merci beaucoup :)
Bonjour Laura, sans connaître le site je ne peux malheureusement pas deviner le problème ;) Il faudrait vérifier si le sitemap est bien valide, avec un validateur de sitemap. Il y a parfois dans le code des erreurs qui empêchent la lecture du sitemap. Mais ça ne doit pas avoir d’impact sur le référencement du site, hormis s’il y a des URL auxquelles Google ne peut accéder QUE via le sitemap (ce qui n’est pas bon signe quant à l’architecture du site !). Normalement, le sitemap est juste une « aide ».
En revanche, s’il y a des erreurs 404 et des pages bloquées, ça laisse entendre qu’au-delà du sitemap, il y a potentiellement un problème sur le site lui-même…
Bonjour
j l’ai essayé avec mon blog mais ça ne marche pas
Bonjour, essayé quoi exactement et qu’est-ce qui ne marche pas ?
Bonjour
Bravo pour cet article qui m’éclaircit les idées
Merci pour le message Yves !
Bonjour Marlène,
j’ai soumis un sitemap à Google il y a presque 3 ans, j’avoue ne pas me soucier sans doute à tort du résultat.
Ce qui m’interpelle, c’est qu’un outil comme Google, aussi puissant ait besoin d’un indicateur comme celui-ci
Je ne dirais pas qu’il en a « besoin ». C’est une simple indication, qui peut être utile en tant que webmaster pour voir l’écart entre ce que Google comprend de l’architecture du site et ce qu’on aimerait qu’il comprenne. Mais Google indexe généralement très bien un site qui n’a pas de sitemap, surtout quand l’architecture est bien conçue (pas de contenus trop « profonds » ou complètement cachés).
WOW pour l’instant, je crois que c’est un peu trop technique pour moi, suis pas prête. ;)
Chaque chose en son temps, il y a beaucoup d’éléments à prendre en compte sur un site web :)
Bonjour,
Quel intéret de mettre votre home en fréquence quotidienne ? Autant sur un site de presse, je comprends, autant sur votre site, fréquence hebdo suffirait ? Idem, pk y aller de manière hebdo sur vos articles qui sont statiques?
Perso, je pense qu’il ne faut pas « se moquer » de Google, une fréquence mensuelle pour nos sites suffit.
Quel est votre avis ?
Yohann
Je n’ai pas spécialement l’impression de me moquer de Google et vu le positionnement de mes différents sites, je pense qu’il le vit plutôt bien ;) Je modifie mes articles très fréquemment (chaque semaine je mets à jour une salve de vieux articles), donc le sitemap en tient compte. Chacun fait bien ce qu’il veut chez lui, le sitemap n’est pas un ordre donné de toute façon.
Ah le sitemap, je trouve que c’est l’une des notions les plus difficiles à appréhender quand on débute. Ta remarque » Le sitemap : une consigne, pas un ordre » aide d’ailleurs à mieux comprendre.
Au fait, la plupart de nous blogueurs sommes passés à HTTPS et j’ai fait une erreur de manipulation sans faire exprès sur Search console en supprimant l’ancien sitemap de mon site en HTTP :P , je suppose que ce n’est pas grave ?
D’ailleurs, tu recommandes quelque chose en particulier pour ceux qui sont passés en HTTPS par rapport à leur sitemap de l’ancien (en dehors de soumettre/ajouter, actualiser, redirections, etc…) ?
Le sitemap en http n’existe plus si le blog a été correctement redirigé (du coup il n’est plus qu’en https) donc ce n’est pas un problème qu’il ait disparu de l’ancienne propriété en http. Si le sitemap est bien fait (et inclut donc les URLs en https), il n’y a rien à faire de particulier.