Utilisateur non connecté
elsenews:spot-2025:08:bots-perplexity [ElseNews]

Outils pour utilisateurs

Outils du site


elsenews:spot-2025:08:bots-perplexity

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Prochaine révision
Révision précédente
elsenews:spot-2025:08:bots-perplexity [04/08/2025/H20:03:06]
127.0.0.1 modification externe
— (Version actuelle)
Ligne 1: Ligne 1:
- {{tag>a1}} 
-  
  
- 
----- 
-====== Le site de Korben: Perplexity AI se fait choper la main dans le sac avec ses bots masqués qui contournent les règles ====== 
- 
-  https://korben.info/perplexity-ai-stealth-crawlers-cloudflare-expose.html 
- 
-Aller au contenu principal 
- 
-Icône changement de police 
-Icône changement de thème 
-Icône recherche 
-Le site de Korben 
-Offre Spéciale 🍒🍕🥝🍔🥑🥗 
-10€ offerts avec JOW - Code: 2LE2QR 
-(Lien affilié) 
-Image illustrant l'article : Perplexity AI se fait choper la main dans le sac avec ses bots masqués qui contournent les règles 
-Perplexity AI se fait choper la main dans le sac avec ses bots masqués qui contournent les règles 
-Le 4 août 2025 
-par Korben ✨ - 
-Securite-Vie-PriveeCybersecurite 
-Perplexity AI s’est fait épingler par Cloudflare, pris la main dans le sac à contourner allègrement les règles du web avec leurs bots masqués. Et le plus fort dans tout ça c’est qu’ils nient tout en bloc. 
- 
-L’affaire a éclaté quand Cloudflare, qui s’occupe d’un cinquième du trafic internet mondial, a décidé de fouiner un peu dans les pratiques suspectes de certains bots IA. Et le verdict est tombé assez rapidement : Perplexity a recours à des crawlers furtifs qui se font passer pour de véritables navigateurs afin de s’emparer du contenu des sites web, même lorsque les propriétaires ont dit non par le biais du fameux fichier robots.txt. 
- 
- 
- 
-Ce qui rend cette histoire encore plus énervante, c’est la technique utilisée. Plutôt que d’employer leur user agent officiel “PerplexityBot”, les bots se déguisent en Chrome sur Windows 10. 
- 
-Cloudflare a mené ses propres expériences pour prouver la manœuvre. Ils ont conçu un site web accessible uniquement aux vrais user agents Chrome et Firefox, tout en bloquant explicitement PerplexityBot via le robots.txt. Les bots officiels de Perplexity sont bien arrêtés, mais étrangement, quand un utilisateur fait une requête sur Perplexity.ai, le contenu est tout de même récupéré. 
- 
-Comment ? Et bien grâce à des crawlers masqués, utilisant des ASN (Autonomous System Numbers) différents et des user agents trafiqués. 
- 
- 
- 
-La défense de Perplexity ? Un véritable morceau de bravoure. Leur PDG, Aravind Srinivas, affirme qu’ils ne contournent pas le robots.txt, mais qu’ils recourent à des “fournisseurs tiers” pour le crawling. En gros, “C’est panoupanous, c’est les autres.” Sauf qu’il ne veut pas révéler l’identité de ces mystérieux partenaires, prétextant un accord de confidentialité. Pratique, non ? 
- 
-Le problème dépasse largement le cadre de Perplexity car Wired et le développeur Robb Knight avaient déjà mené l’enquête en juin 2024 et découvert des indices similaires. Amazon Web Services a même lancé une investigation pour vérifier si Perplexity bafoue leurs conditions d’utilisation. Et en juin 2025, la BBC a menacé de poursuites judiciaires, exigeant que Perplexity cesse de scraper leur contenu et efface toutes les données collectées. 
- 
-Pour situer l’ampleur du phénomène, Cloudflare a déterminé que les bots IA représentent désormais 5% de tout le trafic bot identifié. OpenAI avec GPTBot est en tête, suivi de… PerplexityBot en neuvième position. Mais ça, c’est uniquement pour ceux qui jouent cartes sur table. Combien passent sous le radar avec des identités truquées ? 
- 
-La technique de contournement est d’ailleurs assez rusée car quand vous demandez à Perplexity d’explorer une URL spécifique, leur système prétend agir “au nom de l’utilisateur”, comme si vous copiez-collez vous-même le contenu. Sauf qu’en réalité, c’est un bot automatisé qui s’en charge, en utilisant des headless browsers pour paraître plus légitime. 
- 
-TollBit, une startup spécialisée dans les accords de licence IA, a révélé que plus de 50 sites web choisissent délibérément d’ignorer le protocole robots.txt. Et surprise, selon une enquête de Business Insider, OpenAI et Anthropic (les créateurs de Claude) figureraient parmi eux. Mais au moins, ils ne se cachent pas derrière des user agents falsifiés. 
- 
-Ce qui m’agace vraiment dans cette histoire, c’est l’hypocrisie ambiante. D’un côté, ces entreprises IA nous vendent du rêve sur l’éthique et la transparence et de l’autre, elles emploient des méthodes dignes de hackers des années 2000 pour aspirer du contenu sans permission. Et pendant ce temps, les créateurs de contenu se retrouvent pillés sans compensation. 
- 
-Cloudflare propose bien quelques solutions pour se protéger, notamment leur outil AI Bots qui permet de gérer finement l’accès des différents crawlers IA. Ils ont aussi mis au point un “Bot Score” qui évalue la légitimité du trafic sur une échelle de 1 à 99. Plus le score est bas, plus y’a de chances que ce soit un bot. Les crawlers masqués de Perplexity obtiennent généralement un score en dessous de 30. 
- 
-Donc, si vous gérez un site web, je vous recommande vivement de scruter vos logs. Repérez les schémas suspects du genre une même IP qui enchaîne les requêtes, des user agents identiques mais aux comportements différents, ou des accès à des URLs jamais publiées. 
- 
-Quoiqu’il en soit, si même les plus grandes entreprises IA ne respectent pas des règles basiques comme le robots.txt, qu’est-ce qui les empêchera demain de franchir d’autres limites ? 
- 
-C’est bien dommage, je trouve… 
- 
-Source 
- 
-Cet article peut contenir des images générées à l'aide de l'IA 
-Que faire après le bac quand on est passionné de cybersécurité ? 
-Contenu partenaire 
-Logo de l'école de Cybersécurité Guardia 
-Tracking Matomo Guardia 
-Entièrement dédiée à la cybersécurité, l'école Guardia est accessible soit directement après le bac (post-bac), soit après un bac+2 ou bac+3. En rejoignant l'école Guardia, vous deviendrez développeur informatique option cybersécurité (Bac+3) ou expert en cybersécurité (Bac+5). 
- 
-Cliquez ici pour en savoir plus 
- 
-Photo de Korben 
-Korben 
-Bienvenue sur mon site ! Ici je bidouille, teste & casse des trucs et décortique l'actu tech depuis 20 ans. Alors si ça vous plait, rejoignez l'aventure ! 
- 
-Devenir Patreon → 
-Soutenez-nous sur Twitch 
-Mes slashes 
-🍉 
-/now - Mon actu 
-📟 
-/uses - Mon setup 
-Articles Récents 
-Image illustrant l'article : KeygenMusic.tk - Une super bibliothèque de musiques de keygenKeygenMusic.tk - Une super bibliothèque … 
-Image illustrant l'article : Guerre froide dans l'IA - Anthropic coupe l'accès de Claude à OpenAIGuerre froide dans l'IA - Anthropic … 
-Image illustrant l'article : Crazy Sea FrogCrazy Sea Frog 
-Image illustrant l'article : Sploitus - Le Google des exploits et des outils de hackingSploitus - Le Google des exploits et des … 
-Image illustrant l'article : Scandale chez Huawei - Un lanceur d'alerte révèle le plagiat massif des modèles d'IA PanguScandale chez Huawei - Un lanceur … 
-Image illustrant l'article : FileGator - Le gestionnaire de fichiers web open source qui remplace FTP avec styleFileGator - Le gestionnaire de fichiers … 
-Suivez le chef! 
-Patreon 
-Twitter 
-Instagram 
-TikTok 
-Youtube 
-Newsletter 
-Flux RSS 
-Twitch 
-Bannière présentant divers métiers de la cybersécurité 
-Illustration représentant un ingénieur en cybersécurité au travailIngénieur cybersécurité 
-Représentation visuelle du travail d'un cryptologue avec des symboles de chiffrementCryptologue 
-Image symbolisant le travail d'un pentester testant la sécurité d'un systèmePentester 
-Représentation d'un hacker éthique travaillant sur la sécurité informatiqueHacker éthique 
-Illustration d'un consultant en cybersécurité en train de conseiller un clientConsultant cybersécurité 
-Rejoignez la communauté 
-Rejoignez la communauté 
-Sur Patreon 
-Patreon 
-Twitter 
-Instagram 
-TikTok 
-Youtube 
-Newsletter 
-Flux RSS 
-Twitch 
-Illustration décorative bébé Korben 
-Le site de Korben, média indépendant soutenu par ses Patreons 
- 
-Icône menu hamburger 
-Icône changement de police 
-Icône changement de thème 
-Icône recherche 
-2004 - 2025 Le site de Korben - Le site de Korben, marque déposée. Tous droits réservés. Auteurs, mentions légales, contact et maintenant. 
× iphelper toolbox

you see this when javscript or css is not working correct

Untested
IP Address:
First usable:
Subnet:
Last usable:
CIDR:
Amount of usable:
Network address:
Reverse address:
Broadcast address:

elsenews/spot-2025/08/bots-perplexity.1754330586.txt · Dernière modification: 04/08/2025/H20:03:06 de 127.0.0.1