L'an dernier, de nombreux sites ont vu leurs statistiques web faussées par l'arrivée massive de spammeurs en provenance de Russie. Des visites semblant issues des sites lifehacker.com (orthographié avec un K cyrillique, lifehacĸer.com) et reddit inondent les rapports Google Analytics, avec une recrudescence de visiteurs russes en provenance de Moscou ou Saint-Pétersbourg.
Le problème survient de temps à autre et ces faux sites viennent parasiter les statistiques, je vais donc vous expliquer comment créer un filtre pour éliminer ces visiteurs indésirables.
A quoi ressemblent ces faux sites dans les statistiques ?
Quand vous regardez les visiteurs de votre site en temps réel, vous voyez par exemple "reddit" comme source de trafic, avec des visiteurs basés en Russie...
Et vous constatez une augmentation marquée du trafic en provenance de lifehacĸer.com et reddit.com si vous allez dans le menu Acquisition > Tout le trafic > Sites référents de Google Analytics. Voilà ce que ça donnait chez moi avant la mise en place d'un filtre :
Ce trafic suspect peut avoir d'autres conséquences. Par exemple, ici, on voit surgir une langue très bizarre dans les statistiques, intitulée "Secret.ɢoogle.com You are invited! Enter only with this ticket URL. Copy it. Vote for Trump!", que l'ont voi dans le rapport Audience > Données géographiques > Langue.
Créer un filtre pour éliminer les faux sites sur Google Analytics
Connectez-vous à votre compte Google Analytics et allez dans le menu Administration en bas du menu.
Dans la colonne de droite, choisissez la vue qui correspond à votre site Web puis cliquez sur "Filtres". Cliquez ensuite sur le bouton rouge "Ajouter un filtre".
Identifier les sites concernés
Les faux sites peuvent se manifester sous forme d'une "source" de trafic anormale... ou encore d'une langue anormale, comme je vous l'ai montré avec la langue "Secret.ɢoogle.com You are invited! Enter only with this ticket URL. Copy it. Vote for Trump!".
On peut donc mettre en place un filtre basé sur la langue ou sur la source.
Créer un filtre basé sur la langue
Pour avoir la liste exacte des sites qui provoquent ce spam, allez dans le rapport Audience > Données géographiques > Langue et servez-vous du menu "Dimension secondaire" juste au-dessus du tableau. Ajoutez la dimension secondaire "Source", vous verrez alors tous les sites impliqués.
Il s'agit de créer un filtre personnalisé avec les paramètres Exclure > Champ de filtrage : Paramètres de langue et d'entrer la règle de filtrage suivante :
.{15,}|\s[^\s]*\s|\.|,|\!|\/
Elle permet de filtrer toutes les langues qui dépassent 15 caractères (une langue normale est généralement un code bien plus court, du type fr-fr ou en-us).
Vous pouvez tester l'efficacité du filtre à l'aide du bouton "Vérifier ce filtre".
Dans mon exemple, on peut voir à gauche que sans le filtre, de nombreuses visites suspectes sont enregistrées par Google Analytics alors qu'avec le filtre (à droite), elles ont totalement disparu des rapports.
Dans certains cas, ce bouton "Vérifier le filtre" ne fonctionne pas, peut-être par manque de données. Si vous n'avez pas l'habitude d'Analytics, sachez qu'il faut TOUJOURS créer ses filtres sur une vue différente de la vue par défaut du compte (vue intitulée "Toutes les données"). En effet, un filtre supprime des données de manière irréversible.
Si vous faites une erreur de configuration, les statistiques perdues suite à cette erreur seront perdues pour de bon. On préconise donc de créer une seconde vue à laquelle on applique les filtres.
Autre méthode : filtrage basé sur la source
Si vous n'êtes spammé que par un seul site spécifique, vous pouvez opter pour un autre type de filtre. Choisissez le type de filtre "personnalisé" et "Exclure source de la campagne".
Entrez ensuite simplement le nom des domaines à exclure en les séparant par une barre verticale. Ne mettez pas d'espace de part et d'autre de cette barre verticale, sinon le filtre ne fonctionnera pas.
Ne terminez jamais la liste par une barre verticale car ça pousserait Analytics à supprimer tous les sites référents de vos rapports statistiques.
Quelle que soit la méthode retenue, il suffit ensuite d'enregistrer pour que ces faux sites ne soient plus comptabilisés dans vos statistiques.
J'espère que ce tutoriel vous aidera si vous êtes touché par cette invasion russe :) N'hésitez pas aussi à lire mon guide complet sur le filtrage du spam referrer.
Merci pour ces astuces Marlène !
Grâce à toi j’ai réussi à bloquer ces « maudits » spammers :)
Tant mieux :) Merci pour le message !
Bonjour et merci pour ce post bien utile, car je suis touchée aussi.
J’ai mis en place les deux filtres au cas où, mais la vérification ne fonctionne pas, GA me dit que ça ne change rien alors que j’avais bien les sites dans mes sources.
Par ailleurs je ne comprends pas comment « créer une seconde vue » sur GA.
Merci !
Ah non en fait j’ai compris, c’est qu’il n’y avait pas de visiteurs actifs sur le moment, et que le filtre ne s’applique pas aux données déjà existantes, c’est ça ?
Mais non, puisque je n’ai pas créé de nouvelle vue… Je veux bien de l’aide, et désolée pour le monologue ne trois temps… :-)
Hello, il est inutile d’appliquer les deux filtres donc je te conseille de supprimer le deuxième. Par ailleurs, il ne faut jamais jamais jamais créer un filtre sur ta vue principale ;) Donc prends le temps d’apprendre à créer une deuxième vue avant de mettre en place un filtre.
Le test du filtre peut échouer pour plein de raisons (quantité de données insuffisante, etc).
Bonjour,
Oups ! j’ai bien appliqué le filtre sur une nouvelle vue mais… courbes à zéro. plus aucunes visite n’apparaît…
j’ai bien copié collé .{15,}|\s[^\s]*\s|\.|,|\!|\/
Pas pu tester : « Service indisponible », une petite aide ?
Merci pour cet article, j’ai effectivement plusieurs sites qui ont le problème. D’ailleurs je ne comprends pas pourquoi Google ne filtre pas ça à la base.
Bonjour Dominique, vous venez de créer la vue ? Une vue ne récupère pas les données historiques, elle commence à enregistrer des statistiques à partir du moment où elle est créée. Donc si c’est une vue toute neuve, la courbe est à zéro en attendant les premières données.
J’utilise ce filtre chez moi et il ne supprime pas toutes les données donc si vous avez bien suivi le tuto il n’y a pas de raison que ça ne fonctionne pas.
Bonjour Marlène,
Compris,
Oui je viens effectivement de créer la vue.
Merci
Bonne journée
Bonsoir Marlène !
Un immense merci pour cet article ! J’ai pris peur tout à l’heure en voyant ça dans mes stats Google Analytics !
J’ai appliquer les deux filtres recommandés en espérant avoir bien fait, je ne savais pas s’il fallait en mettre un seul.
En revanche, petite question, sous combien de temps est-ce que c’est deux sites vont disparaître de mes stats ?
Merci beaucoup !
Laura,
Il suffit d’utiliser le premier filtre, mettre en place les deux ne sert à rien :) Le filtre est actif dès sa mise en place (par contre les données qui figurent déjà dans tes rapports ne seront jamais filtrées a posteriori, tu peux cependant les masquer dans tes rapports Analytics en utilisant des segments).
Bonjour,
Merci beaucoup pour ta réponse. Ouh là, segment ça ne me dit rien du tout (j’ai regarder l’article, mais pouah c’est du chinois lool)
Belle journée,
Pour prendre une comparaison assez facile… imagine un groupe de filles et de garçons qui part en soirée.
> A l’entrée du club, un videur laisse passer 8 personnes sur 10 => ça, c’est un filtre :) Les gens qui ne sont pas passés ne verront jamais l’intérieur du club… de la même manière que tes données supprimées par un filtre ne figureront jamais dans tes rapports statistiques.
> Dans le club, les filles décident de prendre une table tandis que les garçons partent au milieu de la foule => ça, c’est un segment => Tout le monde est présent au même endroit mais on ne va voir qu’un groupe précis (les filles à leur table). Sur Analytics, tu as donc toutes les données mais tu peux choisir de n’afficher que certaines données. Par exemple « Ajouter un segment > Nouveaux utilisateurs » ne t’affichera que le comportement des nouveaux visiteurs :)
Par chance je n’ai pas été touché par ces robots. Je me demandais si c’était propre à WordPress ? (J’utilise SquareSpace)
Non, ce n’est pas du tout lié à WordPress :) J’ai plusieurs sites WordPress et tous ne sont pas touchés. Je vois aussi pas mal de gens qui sont sur Blogger et qui ont traversé une vague de spams.
Bonjour, merci pour ce conseil… Il m’est très utile… Mais j’ai besoin d’un conseil supplémentaire sur les filtres… J’ai également du trafic venant de google allant sur la page /sharebutton.to page qui n’existe pas… Comment puis-je supprimer ceci dans google analytics?
Bonjour Sandra, j’ai écrit tout un guide sur le sujet qui est indiqué à la fin de l’article, où je parle justement à la fois des robots qui viennent réellement sur les sites et des spammeurs qui n’y mettent jamais les pieds mais dont le nom apparaît dans les statistiques. J’espère qu’il t’aidera !
Merci pour cette astuce, je viens de le faire. Depuis quelque temps aussi j’ai des liens bizarres genre 51954711-1.compliance-barak.xyz, abc.xyz, pfff etc etc…c’est épuisant ces spam :)
Très souvent, ce ne sont même pas des visiteurs réels mais des « fantômes » qui essaient de te faire croire qu’ils accèdent réellement à ton site… c’est aussi pour ça que c’est très dur de les bloquer car de nouveaux sites apparaissent sans cesse.
Ah oui, j’ai exactement le même souci que toi depuis quelques jours. Et quand je vois le nombre de tentatives de connexion russes à mon espace administrateur, je me pose des questions. C’est peut-être la façon dont les pirates russes occupent leurs longues soirées d’hiver ? ;-)
La Russie, comme l’Ukraine et la Chine, fait partie des grandes nations du spam ! J’avais essayé de chercher pourquoi ces pays-là en particulier étaient plus concernés que les autres mais je n’ai rien trouvé d’intéressant sur le sujet :)
Ca prouve à quel point il est important d’avoir un mot de passe bien sécurisé et de modifier le nom de l’administrateur par défaut sur WordPress !
Merci Marlène pour ce tuto très bien fait : j’étais envahie par ces deux mêmes spammeurs et grâce à toi, mes statistiques vont retrouver leurs chiffres normaux. Juste un détail : lors de la première manip, lorsque j’ai vérifié les filtres, ça n’a rien donné car j’avais mis un espace entre le nom du spammeur et la barre verticale. J’ai refait sans l’espace, et ça a très bien fonctionné ! Merci encore pour cet article qui comme toujours tombe à pic !
Oui, il ne faut pas mettre d’espace, tu as raison de le souligner. Je vais ajouter la précision dans l’article pour les personnes qui n’observeraient pas de près la capture d’écran :)
Merci pour ce tuto parce que ça commençait à vraiment devenir énervant !
Ça prend des proportions assez impressionnantes :)
Merci pour ton article, j’avais le même souci depuis quelques jours
Beaucoup de blogueurs sont touchés !