Bloquer les bots Bytedance et Bytespider avec Cloudflare

Made in China !

IA bien qui IA le dernier !

J'ai observé que les bots "Bytespider" ou "Bytedance" ont la fâcheuse manie d'aspirer les pages de différents sites, en ignorant complètement le fichier robots.txt. Ces bots sont développés par l'entreprise chinoise ByteDance, qui est également propriétaire de TikTok.

Il semblerait que leur objectif soit d'aspirer massivement les contenus des sites pour alimenter leur intelligence artificielle. Un article sur ce sujet est disponible ici : lien vers l'article.

Ce comportement d'aspiration soulève plusieurs problématiques :

1. Le bot ne respecte pas les directives du fichier robots.txt, ce qui peut impacter les performances du serveur dans certains cas.

2. Des problèmes potentiels de droits d'auteur peuvent se poser.

3. Le manque de transparence concernant les bots, notamment l'absence d'informations sur leurs adresses IP ou les objectifs de ces derniers.

Afin de mettre un terme à ce comportement agressif, je vais vous expliquer comment le bloquer en passant par le proxy Cloudflare.

Blocage des bots avec Cloudflare

Pour bloquer ce comportement agressif, suivez ces étapes :

  • Connectez-vous à votre interface Cloudflare.
  • Cliquez sur l'onglet "Sécurité" puis sélectionnez "WAF".
  • Sur la page, recherchez le bouton "Créer une règle" et cliquez dessus.
  • Donnez un nom à la règle, de préférence un nom descriptif tel que "Blocage Bytedance et Bytespider".
  • Dans le menu déroulant "Champ", choisissez "Agent utilisateur".
  • Dans le champ "Opérateur", sélectionnez "Contient".
  • Dans le champ "Valeur", saisissez "Bytespider".
  • Cliquez sur le bouton "Ou" pour ajouter une seconde ligne.
  • Répétez les étapes en saisissant "Bytedance" comme valeur.
  • Dans l'option "Effectuer une action", choisissez la valeur souhaitée, par exemple "Défi managé".

En suivant ces paramètres, vous serez en mesure de bloquer les comportements indésirables de Bytespider et Bytedance à travers le proxy Cloudflare.

En mode expression, voici le résultat :

(http.user_agent contains "Bytespider") or (http.user_agent contains "Bytedance")
Bloquer les bots Bytedance et Bytespider avec Cloudflare

Surveiller l'efficacité de votre nouvelle règle.

Vous pouvez le faire en accédant à la liste de vos règles dans l'onglet "Sécurité". Cette observation vous permettra de vérifier si la règle bloque efficacement les comportements indésirables des bots, Bytespider et Bytedance.

Affichage de la règle de sécurité Cloudflare

Il est inacceptable que Bytedance ne respecte pas les instructions du fichier robots.txt.

Aucune tolérance ne devrait être accordée à ce type de comportement.

Malheureusement, il est fort probable que ce type de comportement se généralise à l'avenir avec l'émergence de l'intelligence artificielle.

Il deviendra de plus en plus difficile de distinguer un être humain d'un bot piloté par une IA sophistiquée...