Contenu dupliqué et Google : qu’est-ce que c’est et faut-il en avoir peur ?


Je constate autour de moi que de plus en plus de blogueurs ont déjà entendu parler de la notion de contenu dupliqué (ou « duplicate content » en anglais). On vous a parfois dit que c’était « mauvais pour le référencement »… mais vous ne savez pas forcément à quoi c’est dû, si c’est grave et comment corriger ce genre de problème.

J’ai donc décidé de vous proposer un article sur le sujet… en espérant qu’il vous aidera à mieux comprendre ce qu’est la duplication de contenu et ce qui la provoque.

Définition du duplicate content

Le duplicate content désigne tout simplement le fait qu’un même contenu soit accessible à plusieurs adresses différentes sur le Web.

Contenu dupliqué et Google : quels sont les risques ?

Vous l’avez peut-être déjà lu : le contenu dupliqué peut poser problème en matière de référencement, et ce pour deux raisons majeures.

Le moteur de recherche ne sait pas quelle URL est « la bonne » : si deux URL mènent au même contenu, quelle page doit-il prioriser et quelle page a moins d’importance ? C’est à vous de prendre cette décision pour éviter que Google ne le fasse à votre place, au risque qu’il mette en avant une page que vous ne souhaitiez pas privilégier.

D’autre part, le duplicate content pose problème… car vous diluez tous vos efforts SEO sur plusieurs adresses, au lieu de les concentrer sur une seule.

Le moteur de recherche perd du temps sur des pages qui ne sont pas stratégiques, au détriment des pages vraiment importantes. Quand votre site reçoit un lien de la part d’un autre site, que votre dernier article est relayé, que vous construisez peu à peu votre réputation, tous ces bénéfices (liens, notoriété, etc) s’éparpillent entre différentes adresses. Au lieu d’avoir une seule page très puissante, vous risquez donc d’avoir plusieurs pages plus faibles et moins bien référencées.

Au-delà de ça, le duplicate content peut créer de la confusion pour les visiteurs.

Le duplicate content, un paramètre à contrôler
Le duplicate content, un paramètre à contrôler

Les causes du duplicate content

Le contenu dupliqué peut avoir une multitude d’origines et parfois, il existe sans même que vous en ayez conscience. Je vais vous parler de quelques cas fréquents de duplication : certains concernent tous les blogs – même amateurs, d’autres se rencontrent plus souvent sur des sites professionnels.

Le cas du www et du https

Vous pouvez avoir du contenu dupliqué parce que votre blog est accessible avec et sans www :
monblog.com
www.monblog.com

Ou encore accessible en http et en https :
https://www.monblog.com
http://www.monblog.com

Ou un mélange de tout ça !

C’est très simple à tester dans votre navigateur Internet : entrez l’adresse de votre blog avec et sans www/http/https… et observez ce qui se passe. Si vous constatez que vous êtes redirigé vers une seule et même adresse, tout va bien. En revanche, si vous constatez que vous pouvez accéder à votre site à différentes adresses, il faut agir !

La solution ? Créer une redirection permanente (redirection 301) pour forcer le site et ses visiteurs (les humains comme les moteurs de recherche) à utiliser toujours la même version des URL, que vous définirez.

Par exemple, sur mon blog, j’utilise ce code :
RewriteEngine On
RewriteCond %{SERVER_PORT} 80
RewriteRule ^(.*)$ https://www.notuxedo.com/$1 [R=301,L]

Il crée une redirection permanente et systématique vers l’adresse en https et avec www… ce qui évite qu’un même contenu soit accessible partout.

Le code doit être copié dans un fichier baptisé « .htaccess » à la racine de votre site (dans le dossier où vous avez installé WordPress).

Autrement dit, vous utilisez un outil comme FileZilla, vous vous connectez au FTP de votre site (là où vous avez envoyé les fichiers du site, vos codes FTP se trouvent en général dans le mail envoyé par votre hébergeur lors de la souscription de votre contrat, ou directement sur le site de l’hébergeur).

Très souvent, il y a déjà un fichier intitulé .htaccess dans le dossier. Faites un clic droit dessus et choisissez « Affichez/Editer » puis copiez les lignes de code au début.

Le fichier htaccess
Le fichier htaccess

Le .htaccess est parfois un fichier difficile à maîtriser pour les débutants et il peut y avoir différentes manières d’écrire le code en fonction du serveur… si bien que le code qui fonctionne chez les uns ne fonctionne parfois pas chez les autres.

Si vous constatez que vous obtenez une erreur 500 sur votre blog après avoir modifié le fichier, effacez simplement le code que vous avez copié, ça signifie qu’il faut probablement opter pour une écriture différente de cette redirection.

Pour éviter cette source de contenu dupliqué, pensez aussi à utiliser toujours la même version de l’URL (avec/sans www, en http/https) quand vous créez des liens entre vos propres articles.

Les pages générées automatiquement

Lorsque vous utilisez un CMS comme WordPress, vous publiez des articles et des pages… mais la plateforme crée aussi (sans vous demander votre avis !) d’autres types de pages.

Sur WordPress par exemple, on peut trouver des sommaires par date, qui classent les articles en fonction de leur date de publication ; des sommaires par auteur, qui regroupent tous les articles publiés par un même utilisateur ; des sommaires par étiquette, qui rassemblent les contenus auxquels vous avez attribué un même mot-clé (ici par exemple, vous pouvez voir le sommaire de mon étiquette « WordPress »).

Un article peut donc être listé à différents endroits. La conséquence ? Le moteur de recherche peut vite perdre du temps sur ces pages qui, très souvent, n’apportent pas beaucoup de valeur ajoutée par comparaison avec un article.

En tant que blogueur, nous avons tout intérêt à ce que Google concentre ses efforts sur les pages qui sont vraiment importantes pour nous (nos contenus) au lieu de perdre son temps sur des sommaires qui, au fond, n’ont pas beaucoup d’intérêt en tant que tels.

Pour cette raison, il est important de contrôler le duplicate content sur son propre site. Sur WordPress, un plugin comme Yoast SEO peut être paramétré pour interdire aux moteurs de recherche d’indexer toutes ces pages. Je vous conseille de suivre mon tuto pour paramétrer Yoast SEO en ce sens !

Sur d’autres plateformes, ça peut passer par l’ajout d’instructions spécifiques dans un fichier robots.txt placé à la racine du site. Vous pouvez voir si un site en possède un en tapant /robots.txt après son nom.

Ici par exemple, Sephora interdit notamment aux moteurs de recherche de perdre du temps sur les CGV (conditions générales de vente).

Le fichier robots.txt du site Sephora
Le fichier robots.txt du site Sephora

Une plateforme comme Blogger a un fichier robots.txt par défaut assez basique, qui interdit aux moteurs de recherche de référencer les résultats de recherche (vous pouvez le voir en tapant l’URL de votre blog suivie de /robots.txt).

Si vous maîtrisez bien le SEO, vous pouvez le personnaliser via le menu Paramètres > Préférences de recherche > Fichier robots.txt personnalisé, pour un contrôle plus fin.

Fichier robots.txt personnalisé sur Blogger
Fichier robots.txt personnalisé sur Blogger

Si vous êtes moins à l’aise, vous pouvez utiliser les en-têtes robots personnalisés : par exemple, cocher la case « noindex » pour les « Pages d’archives et de recherche » empêchera justement Google d’indexer tous ces contenus à faible valeur ajoutée.

En-têtes robots personnalisés sur Blogger
En-têtes robots personnalisés sur Blogger

Les URL à paramètres

Voilà encore une autre cause fréquente de duplication… que l’on retrouve souvent sur les sites e-commerce.

Sur certains sites, l’adresse des pages comporte des paramètres. Par exemple, sur le site e-commerce Asos, un t-shirt basique est accessible via cette première adresse, quand on clique sur les « recommandations de produits » en bas de page :

http://www.asos.fr/new-look/new-look-t-shirt-a-encolure-degagee/prd/8846019?CTAref=We%20Recommend%20Carousel_2&featureref1=we%20recommend%20pers

Mais il est aussi accessible via cette adresse quand je fais une recherche sur le site :

http://www.asos.fr/new-look/new-look-t-shirt-a-encolure-degagee/prd/8846019?clr=noir&SearchQuery=t-shirt%20encolure%20dégagée&gridcolumn=1&gridrow=1&gridsize=4&pge=1&pgesize=72&totalstyles=2

Selon mon parcours sur le site, le même contenu est accessible à différentes adresses. Si on ne peut pas se débarrasser de tous ces paramètres, on peut avoir recours à ce que l’on appelle la balise rel= »canonical ».

Elle permet d’indiquer aux moteurs de recherche l’adresse « principale » à prendre en compte, une fois qu’elle est dépouillée de tous ces paramètres optionnels (plus d’informations au sujet de la balise canonique sur le site de Google).

C’est précisément ce que fait Asos… et ça évite d’avoir 18 versions d’une même page indexées sur Google alors qu’au fond, on tombe toujours sur le même contenu.

Balise rel canonical sur Asos
Balise rel canonical sur Asos

D’ailleurs, une bonne pratique (pour tous les sites) consiste souvent à ajouter cette balise rel= »canonical » par défaut à tous vos articles ; elle peut servir à rappeler que votre contenu est la version originale. Un plugin comme Yoast SEO le fait et une plateforme de blogging comme Blogger l’a mis en place également de manière automatique pour tous les utilisateurs.

Une mauvaise gestion des langues

Cette problématique concerne les sites de grande envergure, qui proposent aux visiteurs différentes langues dans différents pays.

Parfois, dans un souci de simplicité et d’économie, ils réutilisent le même contenu : par exemple, le texte rédigé en français va être affiché aussi bien aux Français de France qu’aux Belges francophones.

Matt Cutts, qui travaillait chez Google, avait expliqué que lorsqu’il y avait une extension de site par pays (par exemple, monsite.fr, monsite.be, monsite.ca), Google arrivait généralement à comprendre que ce n’était pas de la duplication de contenu « pour spammer » et ne pénalisait pas la pratique outre mesure, à condition toutefois que le contenu reste pertinent pour l’utilisateur au niveau local (par exemple, proposer la bonne unité monétaire, etc).

Le site officiel de Google confirme cette position en la précisant davantage.

Vous devez vous inquiéter si vous commencez à remarquer que deux versions de votre site se concurrencent dans les moteurs de recherche. Par exemple, si Google France affiche à la fois la page « français de France » et la page « français de Belgique », ça peut poser problème.

Ça peut avoir de réelles conséquences business car le visiteur qui tombe sur le mauvais pays sans pouvoir passer une commande ou demander un devis risque de partir, vous faisant perdre une précieuse opportunité.

Dans ce cas, penchez-vous sur la localisation de votre site : veillez à indiquer toutes les variantes « locales » d’un même contenu à l’aide de l’attribut hreflang, par exemple.

La duplication externe

Le duplicate content externe correspond aux situations où des contenus de votre site sont copiés, à l’identique, sur un autre site.

Ça peut être involontaire, par exemple si vous êtes victime de plagiat. Chez les professionnels, ça arrive parfois quand il y a une refonte de site et que la « maquette » (la pré-prod) du nouveau site est indexée par erreur avant sa mise en ligne. La nouvelle version pas encore lancée se retrouve alors à faire doublon avec l’ancienne version encore en ligne.

Mais le duplicate content externe peut aussi être volontaire : certains blogueurs s’inscrivent par exemple sur des plateformes qui reprennent l’intégralité de leurs contenus en les hébergeant sur leur propre site, à l’instar de Paperblog. Le contenu se retrouve donc en double sur le Web (sur Paperblog ET sur le blog). Mieux vaut éviter ce type de plateforme.

Chez les professionnels, on trouve parfois des entreprises qui possèdent plusieurs sites différents, reprenant à peu de choses près le même contenu. Ou deux versions d’un site qui coexistent.

Par le passé, j’ai travaillé avec une grande entreprise qui avait décidé de moderniser son site petit à petit. Le site étant énorme, géré par des dizaines d’équipes dans le monde entier, il était très compliqué de le refaire de A à Z d’un seul coup puis de le mettre en ligne à la place de l’ancien. La société avait donc décidé de travailler « petit bout par petit bout ».

Petit à petit, chaque page était relookée et réécrite… sauf qu’au lieu de supprimer les vieilles pages par la même occasion, la société les laissait en ligne « dans un coin ». Et sur le Web, difficile de laisser un contenu caché dans un coin sans que Google le trouve ;)

Il est important de savoir repérer ce type de problème, de savoir aussi prendre des décisions radicales. Quand il y a plusieurs sites qui racontent plus ou moins la même chose, il est souvent plus pertinent de les fusionner ou de créer des stratégies de contenu personnalisées afin de ne pas utiliser les mêmes textes sur deux sites différents, une véritable dispersion des efforts en référencement.

Le contenu plus ou moins dupliqué

Bon, d’accord, je fais un petit hors-sujet. Parfois, on a sur son blog des contenus très similaires, à plus forte raison quand on blogue depuis plusieurs années. Ce n’est pas du contenu dupliqué à proprement parler car les articles ne sont pas identiques… mais ils traitent du même sujet, plus ou moins sous le même angle.

Il est parfois très pertinent de fusionner deux articles pour en faire un seul, plus riche et plus qualitatif !

La duplication de contenu, un frein plus qu’un drame

On entend parfois des légendes assez terrifiantes sur le contenu dupliqué : il va reléguer votre site dans les profondeurs de Google, vous allez être pénalisé et maudit sur 7 générations, des pustules violettes vont vous pousser sur le corps… La réalité est loin d’être ce genre de scénario catastrophe.

Bien sûr, si vous vous mettez à créer de toutes pièces un site Web en copiant des contenus à gauche à droite, vous n’allez pas aller très loin en termes de visibilité sur les moteurs de recherche (et je ne vous parle pas de votre réputation).

Mais quand le duplicate content survient « dans des proportions raisonnables », il n’y a pas matière à s’inquiéter. Ça fait partie de la vie du Web, au même titre que des liens brisés ou des articles qui se périment. Ce n’est pas dramatique.

En revanche, ce qui est vrai, c’est que la duplication de contenu peut avoir un impact sur votre développement car elle dilue vos efforts sur plusieurs pages similaires et peut détourner vos visiteurs et les moteurs de recherche de l’essentiel, des contenus que VOUS jugez importants.

C’est précisément pour cette raison qu’il est intéressant de chercher à contrôler et limiter le duplicate content !


Cet article est susceptible de contenir des liens affiliés : si vous réalisez un achat sur l'un des sites listés sur cette page (question "No Tuxedo est-il ton métier ?"), je serai amenée à toucher une petite commission. Cela ne modifie en rien le prix que vous payez et me permet de tirer un avantage des contenus que je propose ici gratuitement.

Poster un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

26 commentaires sur “Contenu dupliqué et Google : qu’est-ce que c’est et faut-il en avoir peur ?
  • Nicolas

    Bonjour Marlène,
    Merci pour cet article très clair. Je viens de mettre en ligne un site. Je me suis rendu compte que ma redirection n’était pas au top car mon site était accessible sans et avec www. Problème corrigé.
    Le problème est google a indexé des pages avec www et d’autre sans. Pour des raisons d’uniformité, je préfèrerais n’afficher que des pages avec www.
    Un conseil pour corriger ce problème ?
    Merci d’avance.

    Répondre à Nicolas
    • Marlène

      Hello Nicolas, Google va progressivement prendre en compte le changement quand il repassera sur les pages. On peut également soumettre des URL à Google pour « nouvelle exploration » en les entrant sur Google Search Console puis en cliquant sur le bouton « Demander une indexation » pour essayer d’accélérer un peu le processus.

      Répondre à Marlène
  • Aurore

    Bonjour Marlène,
    Je viens de repérer un site qui a très largement copier-coller un de mes articles les plus populaires. Si j’ai bien lu ton article, je n’ai pas à m’en inquiéter plus que ça. Cependant, je trouve ça vraiment pas normal, ça donne vraiment l’impression qu’on m’a volé mon contenu. Du coup, tu me conseilles de faire quoi ?

    Répondre à Aurore
    • Marlène

      Hello Aurore, pour ma part quand c’est comme ça je fais déréférencer l’article concerné en le signalant à Google pour infraction au droit d’auteur (via le formulaire que j’évoque à la fin de cet article)… ce qui n’empêche pas d’essayer par ailleurs de contacter le plagiaire pour demander la suppression du contenu mais souvent, les gens font les morts.

      Répondre à Marlène
    • Aurore

      Merci pour ta réponse rapide Marlène !

      Répondre à Aurore
  • Thibault

    Bonjour Marlène,

    Merci pour cet article très complet.
    J’aurais cependant une question à vous poser. J’aimerai permettre aux blogueurs de publier leurs articles de blog sur mon site. Mon site est un site de voyage qui regroupe des idées de voyageurs et pourquoi pas de blogueurs. Ils pourraient copier/coller leurs articles sur mon site et de mon côté je n’indexe pas l’article et j’ajoute une url canonical vers l’article d’origine. Est-ce que cela influence mon site ou le blog de l’article concerné ?

    Merci pour votre aide

    Thibault

    Répondre à Thibault
    • Marlène

      Hello Thibault, si les pages ne sont pas indexées sur Google, le côté référencement n’est pas vraiment un enjeu à mon sens…

      Répondre à Marlène
  • Mathieu

    Bonjour,

    je découvre tout juste ce site alors que je me forme depuis quelques mois au SEO. Malgré tout ce que j’ai déjà appris, j’en apprend encore. Merci

    J’ai créé un site qui est un annuaire. Je référence différents commerces. De ce fait, les marques ou commerçants qui créent leur pages sur mon site duplique les textes qu’ils ont déjà écrit sur leur site. Leur faire écrire un contenu originale est peine perdu.

    Quel doit être ma stratégie. Privilégier des articles de blog avec du contenu originale pour me créer des pages fortes? ensuite les différents page magasins seront faibles mais le nombre m’apportera le trafic?

    Merci d’avance

    Répondre à Mathieu
    • Marlène

      Bonjour Mathieu, je ne peux pas faire de recommandation stratégique sans connaître le site, le marché, les objectifs business, etc. En revanche, si tout le contenu de l’annuaire est dupliqué, je ne vois pas bien l’intérêt. Les quelques annuaires « sérieux » qui restaient il y a quelques années opéraient tous un processus de modération strict pour exclure tous les contenus dupliqués.

      Répondre à Marlène
  • Christelle

    hello Marlène!
    Qu’appelles-tu « dans des proportions raisonnables » ?
    Le duplicate content doit etre proportionnel au contenu original ? C’est à dire qu’un site doit idéalement pas avoir plus de 20 % ou 30 % de duplicate content externe (en reprenant des infos officielles genre agenda)?

    Répondre à Christelle
    • Marlène

      Je ne pense pas à un ratio spécifique, plutôt à « l’impression » qui se dégage du site : si les pages dupliquées commencent à prendre le dessus sur le contenu original du site, il y a un problème. Google a toujours dit par le biais de ses employés que le moteur « savait » que la duplication était un phénomène normal sur le web, il n’y a d’ailleurs pas de pénalité Google au sens strict pour le duplicate content.

      Répondre à Marlène
    • Sandrine

      Je confirme ce que tu dis. Mon site a réussi à émerger tout en s’appuyant pendant longtemps sur des collaborateurs qui copiaient simplement leurs articles pour les relayer, avoir un lien vers leur site et le faire connaître…

      En revanche, quid des systèmes sur lesquels des blogueurs s’inscrivaient pour reprendre leurs contenus automatiquement à chaque nouvelle publication à l’instar de Paperblog qui au début publiait l’intégralité des articles et non un extrait?

      Répondre à Sandrine
    • Marlène

      J’avais regardé la courbe de Paperblog sur mes outils SEO et leur trafic organique s’était écroulé… donc je pense qu’un site entièrement basé sur du contenu repris ailleurs n’a plus trop d’avenir aujourd’hui. D’ailleurs la plateforme Hellocoton (devenue « Les Influenceuses »), qui ne copie pas les articles mais les relaie, cherche aussi davantage à éditorialiser le contenu en ajoutant des intros, en créant des dossiers thématiques avec un peu de contenu original…

      Répondre à Marlène
    • christelle

      D’ailleurs c’est dommage que la plateforme Hellcoton ait fermée.. Faire des dossiers thématiques était une bonne idée en effet. Le trop plein de pubs partout m’a dissuadée d’y retourner. Je préférais le Hellocoton de 2014-15 à celui de 2018-2019. Dommage car on pouvait découvrir facilement des blogs sympa, c’est là-bas que j’ai découvert le tien d’ailleurs ^^

      Répondre à christelle
    • Marlène

      Merci ;) Cet aspect « découverte » me manque beaucoup… car justement, le propre des jeunes blogs est de ne pas être encore très visibles sur Google donc ce ne sont pas ceux que je vais trouver en tapant « blog voyage » par exemple sur les moteurs de recherche. Alors que sur Hellocoton, on pouvait détecter de jolies plumes très tôt dans leur existence.

      Ce n’était probablement pas très « rentable » pour Prisma à monétiser par rapport à l’énergie déployée à gérer la plateforme.

      Répondre à Marlène
  • laurent

    Bonjour Marlène,
    Je me pose la question du duplicate content dans le cas d’une boutique en ligne qui vends des articles qui sont également vendus par d’autres sites concurrents… Les déscriptifs d’articles doivent-ils être différents alors qu’ils sont souvent écrits par le fabricant?
    Merci. Blog très intéressant!

    Répondre à laurent
    • Marlène

      Hello Laurent, merci pour le message. Idéalement, oui il faut proposer une description unique que l’on ne retrouve pas sur d’autres sites.

      Répondre à Marlène
  • Sandrine

    Bonjour Marlène,
    comme toujours tes articles sont très clairs et complets et restent objectifs sur un sujet qui suscite visiblement pas mal de fantasmes alors qu’à une époque, c’était courant et recherché d’une certaine manière par des blogueurs. J’ai contribué longtemps sur ce principe avec des blogueurs qui avaient envie de partager leurs contenus sans pour autant le temps de les réécrire pour un autre support. A l’origine sur mon blog, j’avais souhaité une démarche collaborative et j’espérais que des auteurs me suivraient dans ma démarche ; mais la plupart des blogueurs croisés soumettaient le même article sur mon site pour obtenir du trafic et faire connaître leur contenu et obtenir un lien. Il y a dix ans, les conséquences étaient différentes d’aujourd’hui et c’était fait avec leur accord ou de leur propre fait.

    Aujourd’hui, je subis l’attaque de nombreux sites qui ont volé tout mon site et l’ont totalement détourné, ce qui entraîne des duplications aberrantes référencées même si les articles ne veulent rien dire. Peu à peu je vois j’ai l’impression de voir mes efforts anéantis et on me répond quand je sollicite un avis qu’il faut faire un audit et aviser en sachant que rien ne permet de l’empêcher. Je ne comprends pas comment on prétend que Google privilégie la qualité alors qu’il référence sur ses pages ces articles détournés insensés… et absurdes mais qui pompent 90% de mes articles en y ajoutant des liens incohérents pour bien pourrir mon site et les liens entrants.

    Chaque expert interrogé me dit que je ne peux rien faire pour empêcher cela. Cela ne me surprend guère mais je suis étonnée que sur les moteurs il n’y ait pas de solution plus efficace qu’un signalement par page. Les devis reçus pour faire des signalements de masse sont de 100€ environ pour 100 pages. Il y a visiblement plus de 40 000 de mes pages dupliquées. Autant dire que je me ruinerai. Je cherche une solution pour apprendre à effectuer ce type de signalement que tu m’avais expliqué mais pour lequel je reste contrainte à un signalement par page car je dois prouver à Google le problème de duplication avec des copies d’écran. Le pourrissement est tellement bien fait que les personnes vérifiant ma demande ne comprennent pas ce qui me pose problème.

    Peut-être cela t’inspirera-t-il un futur article pour ce genre de cas, car je ne dois pas être aussi isolée que j’en ai l’impression quand j’évoque mon problème de duplication nuisible?

    Merci.

    Répondre à Sandrine
    • Marlène

      Hello Sandrine, je comprends ta frustration… Les « aspirateurs de site » ont toujours existé, même avant Google, et je me souviens d’ailleurs qu’à mes débuts sur le web, j’utilisais moi-même ce type de logiciel pour « recréer » en local des sites que je « récupérais » en ligne, car ça évitait de consommer son forfait Internet très limité de quelques heures par mois :)

      C’est malheureusement un sujet qui se traite « au cas par cas » et où je ne peux donc pas faire de généralités valables pour tous les sites… et oui, pour évaluer l’impact d’un vol de contenu sur un site, je pense qu’on ne peut pas se dispenser d’un audit. As-tu essayé d’aller échanger sur le sujet sur les forums Google, il me semble que je t’avais donné le lien ? Ça te permettrait d’avoir des retours d’expérience de personnes qui ont déjà vécu ce genre de situation à grande échelle pour savoir comment elles l’ont gérée.

      Répondre à Marlène
    • Sandrine

      Tout à fait. J’en ai encore un sur mon site que je compte désactiver car la pratique a changé et j’ai peu à peu renoncé à la dynamique collaborative même si ponctuellement, je poste des articles de contributeurs qui m’ont donné leur accord et l’aspiration était pratique pour suivre les articles d’éventuels collaborateurs blogueurs qui acceptaient cette forme de partage sans avoir besoin de s’investir dans la réécriture.

      Répondre à Sandrine
    • Marlène

      Ce qu’il faudrait repérer, c’est si le site qui te « clone » se met à jour en temps réel par rapport à ton propre site quand tu publies un nouveau post. Certains SEO « black hat » (= les « hors la loi » du SEO) développent des scripts pour cloner des sites et faire en sorte qu’ils soient mis à jour automatiquement. Si c’est le cas, ça peut être intéressant de chercher à bloquer l’IP du site en question…

      Répondre à Marlène
    • Sandrine

      Merci pour la suggestion qu’on ne m’avait pas encore faite! Décidément, tu es toujours pleine de ressources. Sur ton conseil j’ai contacté SEO Mix, je vais voir avec eux si je peux passer par leurs services par rapport à des corrections techniques hors de ma portée. Spontanément, ils m’ont dit qu’ils ne voyaient pas comment ces sites pouvaient me nuire vu que selon eux ils ne renvoyaient pas de liens vers IDEOZ. Mais tu me fais remarquer quelque chose d’important car j’avais constaté que les sites évoluaient en fonction des changements que je fais sur le mien et tu as probablement raison que ça peut être une piste pour les bloquer au moins en partie dans la capacité de nuisance.

      Répondre à Sandrine
  • Suny ☼

    Super article, des nuits passées à me casser la tête pour résoudre les probs de contenu dupliqué! J’aurais quelques questions Marlène :

    1) Pour une page Mentions légales, quand tu dis qu’on peut ajouter la mention  » disallow: /mentions-legales/  » dans le fichier robots.txt .
    Est-ce que ça revient au même si on va dans le plugin Yoast Seo et on sélectionne  » no index  » et  » no follow  » ? Il s’agit bien de la même opération ? (que je sache et que j’évite de faire deux fois).

    2) Toujours sur le plugin Yoast Seo, quand je finis de publier un nouvel article, je n’ai pas le réflexe de remplir la case  » URL canonique  » et je laisse vide par défaut. Si j’ai bien compris ton article, si j’ai un lien d’un nouvel article bidule.com/yyyyyy, nouvellement créé, est-ce que c’est bien à chaque fois d’avoir ce réflexe d’ajouter dans la case URL canonique bidule.com/yyyyyy pour bien faire comprendre qu’il s’agit du lien principal ? Tu le fais toi à chaque nouvel article que tu publies ?

    3) Dernière chose. J’utilise le logiciel gratuit Screaming Frog SEO Spider pour détecter le contenu dupliqué et autres sites en ligne. Je trouve que c’est cool. ^_^
    J’ai remarqué qu’ils mentionnent souvent un genre de contenu dupliqué. Par exemple, les diverses pages de notre blog :

    https://www.bidule.com/page/2/
    https://www.bidule.com/page/3/
    https://www.bidule.com/page/4/
    https://www.bidule.com/page/5/ etc… !

    à cause des meta descriptions ou titre seo similaires à la page d’accueil principale. Or tu ne peux pas changer ça sur WordPress, personnaliser une meta description pour ces pages 1, 2, 3, etc…

    Est-ce que c’est considéré comme du contenu dupliqué ça ? Et est-ce important de résoudre ?

    Bon sinon sur le Yoast Seo, j’ai désactivé Archives d’auteur, Archives par date, Etiquettes, etc… Merci, bonne semaine à toi.

    Répondre à Suny
    • Marlène

      1) Je n’ai pas spécifiquement dit de mettre les mentions légales en « disallow »… à mon sens, disallow et noindex ne correspondent pas à la même chose. Avec « disallow », on bloque totalement l’accès au robot. Avec « noindex », on lui donne l’instruction de ne pas répertorier la page. Si une page est déjà indexée par exemple, la mettre en disallow ne va pas la désindexer… et la mettre par la suite en noindex empêchera Google de voir ce noindex puisqu’on lui bloquera l’accès à la page avec le disallow. Pour une page ponctuelle, je privilégie donc le noindex… Pour penser de manière plus globale la structure d’un site à sa conception et contrôler les ressources, l’approche est différente et le robots.txt peut être utile. Tout en sachant que Google peut indexer une page que l’on a mise en disallow, j’ai déjà vu la situation plusieurs fois.

      2) Yoast indique automatiquement une URL canonique.

      3) Screaming Frog est un outil, il faut ensuite analyser ce qu’il sort pour déterminer si c’est important et prioritaire pour ton site ou pas.

      Répondre à Marlène
  • Pêche & Églantine

    Merci Marlène pour cet article qui met les choses au clair !
    J’ai une petite question concernant la re-publication de nos contenus sur Hellocoton (par exemple) mais aussi lorsque l’un de nos articles est repris par un journal (ça m’est arrivé avec le Huffpost, comme ici : https://www.huffingtonpost.fr/eglantine-h/5-conseils-d-introverti-pour-survivre-aux-aperos-de-lete_a_23478662/ )
    Qu’en penses-tu ?

    Merci d’avance ! <3

    Répondre à Pêche
    • Marlène

      Hello, Hellocoton ne copie pas ton contenu mais l’affiche dans une iframe, il reste donc bien rattaché à ton site. Le Huffington Post est un cas de duplicate content… mais si ça reste ponctuel, que tu estimes que ça t’apporte prestige et visibilité, ça ne me semble pas dramatique ;)

      Répondre à Marlène


Si vous aimez les articles du site, n'hésitez pas à faire vos achats sur Amazon.fr via ce lien ; il me permettra de toucher une commission grâce au programme Partenaires Amazon EU.