Utilisateur non connecté
Le site de Korben: Perplexity AI se fait choper la main dans le sac avec ses bots masqués qui contournent les règles [ElseNews]

Outils pour utilisateurs

Outils du site


elsenews:spot-2025:08:bots-perplexity

Le site de Korben: Perplexity AI se fait choper la main dans le sac avec ses bots masqués qui contournent les règles

https://korben.info/perplexity-ai-stealth-crawlers-cloudflare-expose.html

Aller au contenu principal

Icône changement de police
Icône changement de thème
Icône recherche
Le site de Korben
Offre Spéciale 🍒🍕🥝🍔🥑🥗
10€ offerts avec JOW - Code: 2LE2QR
(Lien affilié)
Image illustrant l'article : Perplexity AI se fait choper la main dans le sac avec ses bots masqués qui contournent les règles
Perplexity AI se fait choper la main dans le sac avec ses bots masqués qui contournent les règles
Le 4 août 2025
par Korben ✨ -
Securite-Vie-PriveeCybersecurite
Perplexity AI s’est fait épingler par Cloudflare, pris la main dans le sac à contourner allègrement les règles du web avec leurs bots masqués. Et le plus fort dans tout ça c’est qu’ils nient tout en bloc.

L’affaire a éclaté quand Cloudflare, qui s’occupe d’un cinquième du trafic internet mondial, a décidé de fouiner un peu dans les pratiques suspectes de certains bots IA. Et le verdict est tombé assez rapidement : Perplexity a recours à des crawlers furtifs qui se font passer pour de véritables navigateurs afin de s’emparer du contenu des sites web, même lorsque les propriétaires ont dit non par le biais du fameux fichier robots.txt.

Ce qui rend cette histoire encore plus énervante, c’est la technique utilisée. Plutôt que d’employer leur user agent officiel “PerplexityBot”, les bots se déguisent en Chrome sur Windows 10.

Cloudflare a mené ses propres expériences pour prouver la manœuvre. Ils ont conçu un site web accessible uniquement aux vrais user agents Chrome et Firefox, tout en bloquant explicitement PerplexityBot via le robots.txt. Les bots officiels de Perplexity sont bien arrêtés, mais étrangement, quand un utilisateur fait une requête sur Perplexity.ai, le contenu est tout de même récupéré.

Comment ? Et bien grâce à des crawlers masqués, utilisant des ASN (Autonomous System Numbers) différents et des user agents trafiqués.

La défense de Perplexity ? Un véritable morceau de bravoure. Leur PDG, Aravind Srinivas, affirme qu’ils ne contournent pas le robots.txt, mais qu’ils recourent à des “fournisseurs tiers” pour le crawling. En gros, “C’est panoupanous, c’est les autres.” Sauf qu’il ne veut pas révéler l’identité de ces mystérieux partenaires, prétextant un accord de confidentialité. Pratique, non ?

Le problème dépasse largement le cadre de Perplexity car Wired et le développeur Robb Knight avaient déjà mené l’enquête en juin 2024 et découvert des indices similaires. Amazon Web Services a même lancé une investigation pour vérifier si Perplexity bafoue leurs conditions d’utilisation. Et en juin 2025, la BBC a menacé de poursuites judiciaires, exigeant que Perplexity cesse de scraper leur contenu et efface toutes les données collectées.

Pour situer l’ampleur du phénomène, Cloudflare a déterminé que les bots IA représentent désormais 5% de tout le trafic bot identifié. OpenAI avec GPTBot est en tête, suivi de… PerplexityBot en neuvième position. Mais ça, c’est uniquement pour ceux qui jouent cartes sur table. Combien passent sous le radar avec des identités truquées ?

La technique de contournement est d’ailleurs assez rusée car quand vous demandez à Perplexity d’explorer une URL spécifique, leur système prétend agir “au nom de l’utilisateur”, comme si vous copiez-collez vous-même le contenu. Sauf qu’en réalité, c’est un bot automatisé qui s’en charge, en utilisant des headless browsers pour paraître plus légitime.

TollBit, une startup spécialisée dans les accords de licence IA, a révélé que plus de 50 sites web choisissent délibérément d’ignorer le protocole robots.txt. Et surprise, selon une enquête de Business Insider, OpenAI et Anthropic (les créateurs de Claude) figureraient parmi eux. Mais au moins, ils ne se cachent pas derrière des user agents falsifiés.

Ce qui m’agace vraiment dans cette histoire, c’est l’hypocrisie ambiante. D’un côté, ces entreprises IA nous vendent du rêve sur l’éthique et la transparence et de l’autre, elles emploient des méthodes dignes de hackers des années 2000 pour aspirer du contenu sans permission. Et pendant ce temps, les créateurs de contenu se retrouvent pillés sans compensation.

Cloudflare propose bien quelques solutions pour se protéger, notamment leur outil AI Bots qui permet de gérer finement l’accès des différents crawlers IA. Ils ont aussi mis au point un “Bot Score” qui évalue la légitimité du trafic sur une échelle de 1 à 99. Plus le score est bas, plus y’a de chances que ce soit un bot. Les crawlers masqués de Perplexity obtiennent généralement un score en dessous de 30.

Donc, si vous gérez un site web, je vous recommande vivement de scruter vos logs. Repérez les schémas suspects du genre une même IP qui enchaîne les requêtes, des user agents identiques mais aux comportements différents, ou des accès à des URLs jamais publiées.

Quoiqu’il en soit, si même les plus grandes entreprises IA ne respectent pas des règles basiques comme le robots.txt, qu’est-ce qui les empêchera demain de franchir d’autres limites ?

C’est bien dommage, je trouve…

Source

Cet article peut contenir des images générées à l'aide de l'IA
Que faire après le bac quand on est passionné de cybersécurité ?
Contenu partenaire
Logo de l'école de Cybersécurité Guardia
Tracking Matomo Guardia
Entièrement dédiée à la cybersécurité, l'école Guardia est accessible soit directement après le bac (post-bac), soit après un bac+2 ou bac+3. En rejoignant l'école Guardia, vous deviendrez développeur informatique option cybersécurité (Bac+3) ou expert en cybersécurité (Bac+5).

Cliquez ici pour en savoir plus

Photo de Korben
Korben
Bienvenue sur mon site ! Ici je bidouille, teste & casse des trucs et décortique l'actu tech depuis 20 ans. Alors si ça vous plait, rejoignez l'aventure !

Devenir Patreon →
Soutenez-nous sur Twitch
Mes slashes
🍉
/now - Mon actu
📟
/uses - Mon setup
Articles Récents
Image illustrant l'article : KeygenMusic.tk - Une super bibliothèque de musiques de keygenKeygenMusic.tk - Une super bibliothèque …
Image illustrant l'article : Guerre froide dans l'IA - Anthropic coupe l'accès de Claude à OpenAIGuerre froide dans l'IA - Anthropic …
Image illustrant l'article : Crazy Sea FrogCrazy Sea Frog
Image illustrant l'article : Sploitus - Le Google des exploits et des outils de hackingSploitus - Le Google des exploits et des …
Image illustrant l'article : Scandale chez Huawei - Un lanceur d'alerte révèle le plagiat massif des modèles d'IA PanguScandale chez Huawei - Un lanceur …
Image illustrant l'article : FileGator - Le gestionnaire de fichiers web open source qui remplace FTP avec styleFileGator - Le gestionnaire de fichiers …
Suivez le chef!
Patreon
Twitter
Instagram
TikTok
Youtube
Newsletter
Flux RSS
Twitch
Bannière présentant divers métiers de la cybersécurité
Illustration représentant un ingénieur en cybersécurité au travailIngénieur cybersécurité
Représentation visuelle du travail d'un cryptologue avec des symboles de chiffrementCryptologue
Image symbolisant le travail d'un pentester testant la sécurité d'un systèmePentester
Représentation d'un hacker éthique travaillant sur la sécurité informatiqueHacker éthique
Illustration d'un consultant en cybersécurité en train de conseiller un clientConsultant cybersécurité
Rejoignez la communauté
Rejoignez la communauté
Sur Patreon
Patreon
Twitter
Instagram
TikTok
Youtube
Newsletter
Flux RSS
Twitch
Illustration décorative bébé Korben
Le site de Korben, média indépendant soutenu par ses Patreons

Icône menu hamburger
Icône changement de police
Icône changement de thème
Icône recherche
2004 - 2025 Le site de Korben - Le site de Korben, marque déposée. Tous droits réservés. Auteurs, mentions légales, contact et maintenant.

× iphelper toolbox

you see this when javscript or css is not working correct

Untested
IP Address:
First usable:
Subnet:
Last usable:
CIDR:
Amount of usable:
Network address:
Reverse address:
Broadcast address:

elsenews/spot-2025/08/bots-perplexity.txt · Dernière modification: 04/08/2025/H20:03:06 (modification externe)