Comment filtrer les spams référents dans Google Analytics ?


Si vous utilisez Google Analytics, la situation a dû vous arriver : vous voyez certains sites apparaître dans votre liste de sites référents (rubrique Acquisition > Tout le trafic > Sites référents), comme s’ils vous envoyaient du trafic.

Sauf que ce trafic paraît étrange : afflux massif de visiteurs en provenance d’Ukraine, taux de rebond de 100% comme si ces gens ne visitaient systématiquement qu’une seule page, nom de domaine bizarre qui sent le spam à plein nez !

Ça correspond en réalité à ce que l’on appelle le « referrer spam », « referral spam » ou « spams référents ». Depuis quelques semaines, Google a mis en place de nouveaux filtres qui éliminent une large part de ces sites… mais comme certains parviennent encore à se faufiler dans les rapports statistiques et que je reçois souvent des questions à ce sujet, j’ai décidé de vous en parler.

Referral spam : comment en venir à bout

Les spams référents : une pratique bien connue de Google

Si vous cherchez à éliminer les sites référents suspects de vos rapports Google Analytics, vous pouvez passer directement au paragraphe « Filtrer les sites référents suspects ». Si vous êtes curieux, je vous propose avant une explication pour comprendre l’origine du referral spam.

Le « HTTP » ou « HTTPS » que vous voyez dans les adresses de sites web correspond au protocole qu’utilise votre navigateur pour récupérer le contenu des pages d’un site web. Autrement dit, ça fait communiquer votre navigateur (qui affiche la page) et le serveur (où est stockée la page).

A chaque fois que vous devez charger un élément (que ce soit du HTML, une image, une feuille de style, etc), une « requête HTTP » est effectuée. La toute première requête effectuée pour charger une page correspond à ce qu’on appelle « l’en-tête HTTP ».

Le referrer spam : une manipulation de l’en-tête HTTP

Matt Cutts, qui dirige l’équipe « web spam » de Google, expliquait ainsi :

« Un référent est un simple en-tête HTTP qui se transmet quand un navigateur passe d’une page à une autre ; en principe, il est utilisé pour indiquer d’où vient un utilisateur. Mais les utilisateurs peuvent le modifier et certaines personnes feront en sorte de définir un référent pointant vers les pages qu’elles veulent promouvoir, puis iront rendre visite à des tonnes de gens sur le web. Les gens verront ça et se diront ‘Oh, je devrais aller voir de quoi il s’agit' ».

C’est précisément comme ça que naît le referrer spam : vous voyez apparaître dans vos statistiques le nom d’un site référent que vous ne connaissez pas. Tiens, on parle de vous ! Mais qui est-ce et que dit-il ? Vous allez voir le site… et paf, vous lui avez fait gagner un visiteur ! Sauf que dans le cas du spam référent, le site en question ne vous a pas forcément fait de lien…

Matt Cutts précisait :

« Il y a des gens qui essaient d’obtenir du trafic en visitant une tonne de sites à l’aide d’un script automatisé et définissent comme référent l’URL qu’ils veulent promouvoir. Il n’y a pas ‘d’authentification’. Vous ne pouvez pas présumer par défaut que c’est le propriétaire de l’URL [qui vous rend visite] si vous voyez quelque chose apparaître dans votre tableau de bord ».

Dès l’été 2015, Adam Singer (qui travaille sur Google Analytics chez Google) a déclaré que Google connaissait bien ce problème et travaillait sur une solution « maison » pour essayer de l’éradiquer.

Mauvais robots et ghost referral

On distingue en réalité deux formes de referrer spam.

Les robots indésirables

En permanence, des robots arpentent le web, visitant de nombreux sites. Une partie des robots possède de bonnes intentions : répertorier vos pages dans un moteur de recherche (comme les célèbres « Googlebots », robots de Google) par exemple… ou surveiller votre site pour vous prévenir en cas d’interruption de service ou de problème.

Mais certains robots ont des intentions plus malsaines, comme le spam. D’autres, enfin, se font passer pour des visiteurs ordinaires (alors qu’ils sont des robots !) et parviennent à tromper Google Analytics. Parmi les plus connus, que vous avez peut-être vu passer dans vos statistiques un jour, on peut citer Buttons-for-website.

Les ghost referrers

Plus tordu encore, vous verrez parfois sur Google Analytics des sites référents qui, en réalité, ne sont juste JAMAIS venus sur votre site. Ils exploitent le fonctionnement de Google Analytics : les requêtes HTTP sont envoyées directement aux serveurs de Google donc si quelqu’un parvient à manipuler une requête (comme l’expliquait Matt Cutts), il peut faire croire à Google Analytics qu’il vous a envoyé du trafic alors qu’il n’a, en réalité, jamais mis les pieds chez vous. Le plus connu est sans doute Darodar mais on peut aussi citer le célèbre ILoveVitaly.

Quelles conséquences pour votre site ?

Le referral spam peut passer inaperçu à l’échelle d’un gros site mais affecter significativement les statistiques des sites plus petits : les robots ne consultent qu’une seule page (voire aucune) et sont donc associés à un taux de rebond de 100% et un temps de visite sur vos pages égal à zéro. Ils ont donc tendance à affecter (en mal) vos statistiques. Ils tirent vos indicateurs vers le bas et peuvent vous pousser à tirer des conclusions basées sur une vision inexacte de votre trafic.

Bien sûr, si vous vous rendez sur ces sites, vous vous exposez aussi à tomber sur des sites douteux qui pourraient infecter votre ordinateur avec des malwares, spywares ou autres virus.

Filtrer les sites référents suspects

Il y a en réalité deux méthodes de filtrage propres à chaque type de referrer spam. Pour une efficacité maximale, vous devez les associer.

Chasser les robots indésirables

Ces robots présentent « l’avantage » de visiter réellement votre site, on peut donc les filtrer via une méthode de blocage classique, la plus efficace étant sans doute le blocage via votre fichier .htaccess à la racine du site. Il suffit d’y copier quelques lignes sur ce modèle :

SetEnvIfNoCase Referer videos-for-your-business.com spambot=yes 
SetEnvIfNoCase Referer buttons-for-website.com spambot=yes
SetEnvIfNoCase Referer videos-for-your-business.com spambot=yes 
Order allow,deny
Allow from all
Deny from env=spambot

Ajoutez autant de lignes « SetEnvIfNoCase » que de sites concernés. Ce code permet de déclarer un site référent comme étant un « spambot » (robot de spam)… puis de donner l’ordre de bloquer tous les spambots (« deny from env=spambot »).

On peut aussi les empêcher d’apparaître sur Google Analytics en créant un filtre spécifique.

Appliquez toujours les filtres à une vue Analytics dédiée.

Par défaut, Google Analytics crée pour chacun de vos sites une seule vue. Si vous n’en avez pas créé d’autre, je vous conseille vraiment de le faire. En effet, un filtre trie vos données avant même qu’elles n’apparaissent dans vos rapports et ce filtrage est irrémédiable : autrement dit, vous ne pourrez plus jamais récupérer les données qui ont été filtrées. Par conséquent, mieux vaut toujours garder une vue « intacte », sans aucun filtre… et faire toutes vos modifications et/ou tests de réglages sur une vue séparée.

Ceci étant dit, allez maintenant dans le menu Administration > Filtres de votre vue test.

Ajouter un filtre sur Analytics

Cliquez sur « Ajouter un filtre » puis créez un filtre personnalisé « Exclure » avec pour champ de filtrage « Source de la campagne ». Ensuite, listez les sites à éliminer des rapports sous forme d’une expression régulière (si vous ne savez pas ce que c’est, vous pouvez trouver un cours sur les expressions régulières sur Open Classrooms). Quelques principes à retenir :

  • Chaque nom de site doit être séparé par le signe | (il signifie « ou »).
  • Chaque point ou tiret doit être précédé d’un anti-slash.
  • La longueur totale de l’expression ne doit pas dépasser 255 caractères et ne doit comporter aucun espace.

Votre expression peut par exemple ressembler à ça :

(videos|buttons)\-fork|vitaly|video\-|profit\.xyz|ranksonic|sharebutton|(best|100dollars|success|top1)\-seo|\-seo\-(solution|offer))|darodar|priceg|buttons\-for(\-your)?\-website
Créer un filtre Source de la Campagne sur Analytics
Créer un filtre Source de la Campagne sur Analytics

Votre liste doit être mise à jour régulièrement.

Il n’existe pas de solution permanente qui se mettrait à jour toute seule, c’est donc à vous d’éditer votre expression régulière de temps en temps pour y ajouter les nouveaux sites qui font surface.

Filtrer les ghost referrers

Les ghost referrers ne viennent jamais réellement sur votre site, on ne peut donc pas les filtrer par des méthodes classiques. La technique la plus efficace à ce jour est donc de créer un filtre sur Google Analytics qui va les exclure de vos rapports statistiques. Analytics va bel et bien recevoir des informations concernant ces sites référents mais elles vont être filtrées avant même d’apparaître dans vos rapports.

Le type de filtrage le plus efficace consiste à créer un filtre qui autorise uniquement les référents qui pointent vers votre nom d’hôte. Ce filtre a l’avantage de ne pas dépendre des nouveaux spammeurs qui apparaissent sur le marché ; vous n’avez pas à modifier le filtre à chaque fois qu’un nouveau spam référent fait irruption dans vos rapports.

Comment fonctionne le filtre par nom d’hôte ?

Quand un visiteur se rend sur votre site, Google Analytics peut notamment vous donner deux informations :

  • La source (trafic organique provenant des moteurs de recherche, sites référents, réseaux sociaux, accès directs, etc).
  • Le nom d’hôte : c’est l’endroit où le visiteur se trouve au moment où il envoie des informations à Google Analytics. En général, le nom d’hôte correspond au nom de domaine de votre site ou à ses sous-domaines.

Le ghost referrer n’est pas capable « d’imiter » un nom d’hôte. Pour prendre une comparaison simple (quoi qu’un peu bizarre !), si je mets une perruque rousse alors que je suis brune, je pourrais faire croire que je suis rousse… mais ça n’enlèverait jamais ma couleur de cheveux réelle. Le ghost referral peut faire croire qu’il vient sur votre site mais il n’arrivera jamais à prouver qu’il a réellement accédé à votre domaine et à falsifier le nom d’hôte.

Par conséquent, si vous listez tous les noms d’hôte « autorisés » puis que vous filtrez tout le trafic extérieur à ces noms là, vous éliminerez spontanément les ghost referrers.

Etape 1 : identifier les noms d’hôte valides

Sur Google Analytics, allez dans le menu Audience > Technologie > Réseau. Par défaut, Analytics vous affiche le « fournisseur de services », cliquez sur « nom d’hôte » au-dessus du tableau pour obtenir la bonne liste. Dans mon cas, elle est « saine » car j’ai mis en place un filtre très tôt dans l’histoire du blog.

Vous pouvez voir dans le tableau toutes sortes de noms d’hôte :

  • Votre site et ses sous-domaines éventuels.
  • Des services de traduction comme Google Translate.
  • Des adresses IP.
  • Des caches, comme le cache de Google.
  • Des proxys.
  • Des sites de paiement en ligne (Paypal par exemple).

La liste n’est pas exhaustive. Identifiez les sites qui vous semblent légitimes, c’est-à-dire tous ceux que vous reconnaissez clairement et auxquels vous accordez de l’importance dans vos statistiques. L’approche la plus stricte est d’inclure seulement son propre nom de domaine et ses sous-domaines mais vous pouvez aussi inclure Google Traduction ou le cache de Google par exemple si ça vous apporte un trafic significatif.

A partir de cette liste, créez une expression régulière en suivant les conseils donnés précédemment. Par exemple, si je veux autoriser www.notuxedo.com et translate.googleusercontent.com, je crée mon expression comme ceci :

www\.notuxedo\.com|translate\.googleusercontent\.com

Etape 2 : créer le filtre

Ne reste plus qu’à créer un filtre dans le menu Administration > Filtres. Je le répète, créez toujours un filtre sur une vue différente de la vue principale de votre site pour éviter de perdre des statistiques précieuses en cas de mauvaise configuration. Choisissez l’option « Filtre personnalisé » puis « Inclure »… et optez pour le champ de filtrage « Nom d’hôte » en entrant les noms d’hôtes autorisés, comme ceci :

Inclure les noms d'hôtes autorisés sur Google Analytics

Voilà, à partir de maintenant, vos rapports statistiques ne prendront en compte que les noms d’hôtes autorisés, éliminant ainsi tous les sites référents suspects.

Une dernière petite astuce pour conclure cet article : exclure de vos rapports les robots et crawlers. Souvenez-vous, il y a de bons et de mauvais robots. Il n’est donc pas utile de bloquer TOUS les robots sur votre site. En revanche, il peut être utile de ne pas voir leur activité dans vos stats dans la mesure où ce ne sont pas des visiteurs humains.

Il suffit d’aller dans le menu Administration de Google Analytics puis « Paramètres de la vue » pour le site qui vous intéresse… et de cocher la case « Exclure tous les appels provenant de robots connus ».

Exclure les robots de Google Analytics

Nous arrivons au terme de ce très long article. De nombreux visiteurs m’avaient réclamé des explications pour filtrer le referrer spam mais comme vous pouvez le voir dans ce guide, ce n’est pas facile à expliquer en 100 mots dans un e-mail ! J’espère donc que ce post vous sera utile pour avoir des statistiques plus fiables. N’hésitez pas à me signaler si vous remarquez une quelconque erreur !


Hello ! Je suis en congé maternité jusqu'à l'été 2023. Pendant cette période, les commentaires du blog sont fermés.


16 commentaires sur “Comment filtrer les spams référents dans Google Analytics ?
  • Klo'

    Bonjour Marlène,

    J’ai une question peut-être bête, mais j’ai cherché un peu partout sur le Net sans trouver réponse.

    Est-ce que ta méthode pour chasser les robots indésirables fonctionne également sur Blogger ? Et si oui, comment est-ce qu’on accède à la racine ?

    Tout au long de mes recherches je n’ai trouvé que des infos concernant WP…

    Ces robots m’envahissent et ça a le don de m’agacer !
    Merci pour ton retour et pour ton partage de connaissances à travers ce blog :-)

    Bon dimanche !

    • Marlène

      Hello, sur Blogger tu n’as pas accès aux fichiers de ton site donc il y a des solutions que tu ne peux pas utiliser (le filtrage via le fichier .htaccess dont je parle dans l’article). En revanche, tu peux tout à fait mettre en place des filtres sur Google Analytics si tu utilises cet outil !

    • Klo'

      Ah d’accord, je vais filtrer tout ça via Analytics alors :-)

      Merci beaucoup !

  • Paaradise of Beauty

    Oh merci pour tes explications, c’est de pire en pire sur mon site. Quand je regarde les stats, il n’y a que des sites bizarres qui proviennent d’Ukraine ou de Russie, ça m’agace un peu alors je suis tes conseils et je mets tout ça en oeuvre, merci !!

    • Marlène

      C’est assez inquiétant effectivement ! On peut comprendre pourquoi certains sites en arrivent à bloquer totalement le trafic en provenance de ces pays… même si c’est assez radical comme solution !

  • Charlie

    Je consultais mes stats sur Google analytics et j’étais surprise de voir un 24 sessions avec une duré moyenne nulle. Etant donné que ce n’est pas la première fois que ça m’arrive, je me suis dit qu’il était temps de tirer tout ça au clair et donc de poser la question à Marlène.
    Tu fais vraiment un excellent boulot et ton site est d’une grande aide donc merci énormément pour ça

    Xoxo

    • Marlène

      Ce n’est pas forcément lié à du spam mais souvent davantage à la façon dont Google Analytics calcule les durées de session. Il ne calcule la durée qu’à partir du moment où l’utilisateur consulte une deuxième page. Donc si tu as des visiteurs qui ne lisent qu’une page, la durée de session est nulle (car pas de deuxième page pour « déclencher le compteur »).

    • Charlie

      Je ne savais pas du tout. Merci pour ta réponse.
      Comment reconnaitre le « vrai » spam alors?
      Parce que j’ai des visiteurs des USA et du Brésil en sachant que mon blog n’a même pas 1 mois et très peu d’articles et aussi que je n’ai pas inséré de traducteur :/ (moi j’avais cru à du spam)

    • Marlène

      Pour identifier le vrai spam, il faut creuser un peu : voir par quel canal ces visiteurs arrivent, quel comportement ils ont sur le site, voir s’il y a des éléments anormaux (comme une langue anormale par exemple, cf cet exemple de spam referrer)…

      On peut tout à fait avoir des visiteurs de l’étranger même sur un blog non traduit : il y a des Français et francophones à l’étranger et parfois, des gens qui utilisent Google Traduction pour comprendre un site. Ici par exemple, j’ai quelques centaines de gens des USA par mois, idem pour l’Espagne et l’Allemagne :)

    • Charlie

      Merci beaucoup Marlène pour toutes tes réponses

      Bon weekend

      Xoxo

  • Sandra

    Merci merci… C’est un vrai problème pour moi ces spams… Je vais essayer de mettre tes explications en place…

    • Marlène

      J’espère que ça t’aidera à réguler un peu le problème ! C’est une vraie plaie et j’espère que Google trouvera une solution fiable de son côté.

  • Aglaé

    Effectivement ton article est extrêmement utile. Je te remercie et je vais suivre tes conseils pour enfin chasser ces robots !
    Merci beaucoup

    • Marlène

      Contente que ça puisse te rendre service !

  • tania

    Hello
    Merci pr cette article encore une fois tu es en plein dans le mille. J avais note bizarrement question de bcp de visiteurs venant de Chine. Je me doutais que pas normal, je voyais mal Pkoi autant d expat français connaîtraient mon blog débutant ;-)
    J ai eu aussi la visite de site bizarre, j ai hésité plusieurs fois à aller voir mais comme prudence pourrait être mon 2ème prénom y suis pas allée par peur de me chopper des cochonneries et vue que suis 1 quiche en info je n’ai pas tenté le diable. Ah un moment donné vu le nom des sites me suis même demandé si on venait pas plagier mon blog ben oui tellement bien ça aurait pu :-P
    Sérieusement c est une technique redoutable car poussé par la curiosité on peut facilement aller voir qui apparaît comme référent
    Pas c est qu ils faussent chiffres

    • Marlène

      Souvent, ce sont des sites assez « connus » donc si tu as un doute, tu peux chercher leur nom sur Google et regarder si d’autres personnes les signalent comme spam. Tu as raison de t’abstenir de les visiter. Je me souviens avoir reçu une question dans les commentaires qui me parlait d’une vague de visiteurs en provenance d’Ukraine… c’est aussi un pays qui envoie beaucoup de spams. J’utilise le plugin Wordfence sur No Tuxedo pour bloquer les robots de spam qui viennent réellement sur le blog… et l’Ukraine et la Russie occupent le top 5.



Si vous aimez les articles du site, n'hésitez pas à faire vos achats sur Amazon.fr via ce lien ; il me permettra de toucher une commission grâce au programme Partenaires Amazon EU.