Ci-dessous, les différences entre deux révisions de la page.
| Les deux révisions précédentes Révision précédente | |||
|
elsenews:spot-2025:08:bots-perplexity [26/12/2025/H04:00:49] 216.73.216.167 supprimée |
— (Version actuelle) | ||
|---|---|---|---|
| Ligne 1: | Ligne 1: | ||
| - | | ||
| - | |||
| - | |||
| - | ---- | ||
| - | ====== Le site de Korben: Perplexity AI se fait choper la main dans le sac avec ses bots masqués qui contournent les règles ====== | ||
| - | |||
| - | https:// | ||
| - | |||
| - | Aller au contenu principal | ||
| - | |||
| - | Icône changement de police | ||
| - | Icône changement de thème | ||
| - | Icône recherche | ||
| - | Le site de Korben | ||
| - | Offre Spéciale 🍒🍕🥝🍔🥑🥗 | ||
| - | 10€ offerts avec JOW - Code: 2LE2QR | ||
| - | (Lien affilié) | ||
| - | Image illustrant l' | ||
| - | Perplexity AI se fait choper la main dans le sac avec ses bots masqués qui contournent les règles | ||
| - | Le 4 août 2025 | ||
| - | par Korben ✨ - | ||
| - | Securite-Vie-PriveeCybersecurite | ||
| - | Perplexity AI s’est fait épingler par Cloudflare, pris la main dans le sac à contourner allègrement les règles du web avec leurs bots masqués. Et le plus fort dans tout ça c’est qu’ils nient tout en bloc. | ||
| - | |||
| - | L’affaire a éclaté quand Cloudflare, qui s’occupe d’un cinquième du trafic internet mondial, a décidé de fouiner un peu dans les pratiques suspectes de certains bots IA. Et le verdict est tombé assez rapidement : Perplexity a recours à des crawlers furtifs qui se font passer pour de véritables navigateurs afin de s’emparer du contenu des sites web, même lorsque les propriétaires ont dit non par le biais du fameux fichier robots.txt. | ||
| - | |||
| - | |||
| - | |||
| - | Ce qui rend cette histoire encore plus énervante, c’est la technique utilisée. Plutôt que d’employer leur user agent officiel “PerplexityBot”, | ||
| - | |||
| - | Cloudflare a mené ses propres expériences pour prouver la manœuvre. Ils ont conçu un site web accessible uniquement aux vrais user agents Chrome et Firefox, tout en bloquant explicitement PerplexityBot via le robots.txt. Les bots officiels de Perplexity sont bien arrêtés, mais étrangement, | ||
| - | |||
| - | Comment ? Et bien grâce à des crawlers masqués, utilisant des ASN (Autonomous System Numbers) différents et des user agents trafiqués. | ||
| - | |||
| - | |||
| - | |||
| - | La défense de Perplexity ? Un véritable morceau de bravoure. Leur PDG, Aravind Srinivas, affirme qu’ils ne contournent pas le robots.txt, mais qu’ils recourent à des “fournisseurs tiers” pour le crawling. En gros, “C’est panoupanous, | ||
| - | |||
| - | Le problème dépasse largement le cadre de Perplexity car Wired et le développeur Robb Knight avaient déjà mené l’enquête en juin 2024 et découvert des indices similaires. Amazon Web Services a même lancé une investigation pour vérifier si Perplexity bafoue leurs conditions d’utilisation. Et en juin 2025, la BBC a menacé de poursuites judiciaires, | ||
| - | |||
| - | Pour situer l’ampleur du phénomène, | ||
| - | |||
| - | La technique de contournement est d’ailleurs assez rusée car quand vous demandez à Perplexity d’explorer une URL spécifique, | ||
| - | |||
| - | TollBit, une startup spécialisée dans les accords de licence IA, a révélé que plus de 50 sites web choisissent délibérément d’ignorer le protocole robots.txt. Et surprise, selon une enquête de Business Insider, OpenAI et Anthropic (les créateurs de Claude) figureraient parmi eux. Mais au moins, ils ne se cachent pas derrière des user agents falsifiés. | ||
| - | |||
| - | Ce qui m’agace vraiment dans cette histoire, c’est l’hypocrisie ambiante. D’un côté, ces entreprises IA nous vendent du rêve sur l’éthique et la transparence et de l’autre, elles emploient des méthodes dignes de hackers des années 2000 pour aspirer du contenu sans permission. Et pendant ce temps, les créateurs de contenu se retrouvent pillés sans compensation. | ||
| - | |||
| - | Cloudflare propose bien quelques solutions pour se protéger, notamment leur outil AI Bots qui permet de gérer finement l’accès des différents crawlers IA. Ils ont aussi mis au point un “Bot Score” qui évalue la légitimité du trafic sur une échelle de 1 à 99. Plus le score est bas, plus y’a de chances que ce soit un bot. Les crawlers masqués de Perplexity obtiennent généralement un score en dessous de 30. | ||
| - | |||
| - | Donc, si vous gérez un site web, je vous recommande vivement de scruter vos logs. Repérez les schémas suspects du genre une même IP qui enchaîne les requêtes, des user agents identiques mais aux comportements différents, | ||
| - | |||
| - | Quoiqu’il en soit, si même les plus grandes entreprises IA ne respectent pas des règles basiques comme le robots.txt, qu’est-ce qui les empêchera demain de franchir d’autres limites ? | ||
| - | |||
| - | C’est bien dommage, je trouve… | ||
| - | |||
| - | Source | ||
| - | |||
| - | Cet article peut contenir des images générées à l'aide de l'IA | ||
| - | Que faire après le bac quand on est passionné de cybersécurité ? | ||
| - | Contenu partenaire | ||
| - | Logo de l' | ||
| - | Tracking Matomo Guardia | ||
| - | Entièrement dédiée à la cybersécurité, | ||
| - | |||
| - | Cliquez ici pour en savoir plus | ||
| - | |||
| - | Photo de Korben | ||
| - | Korben | ||
| - | Bienvenue sur mon site ! Ici je bidouille, teste & casse des trucs et décortique l'actu tech depuis 20 ans. Alors si ça vous plait, rejoignez l' | ||
| - | |||
| - | Devenir Patreon → | ||
| - | Soutenez-nous sur Twitch | ||
| - | Mes slashes | ||
| - | 🍉 | ||
| - | /now - Mon actu | ||
| - | 📟 | ||
| - | /uses - Mon setup | ||
| - | Articles Récents | ||
| - | Image illustrant l' | ||
| - | Image illustrant l' | ||
| - | Image illustrant l' | ||
| - | Image illustrant l' | ||
| - | Image illustrant l' | ||
| - | Image illustrant l' | ||
| - | Suivez le chef! | ||
| - | Patreon | ||
| - | |||
| - | |||
| - | TikTok | ||
| - | Youtube | ||
| - | Newsletter | ||
| - | Flux RSS | ||
| - | Twitch | ||
| - | Bannière présentant divers métiers de la cybersécurité | ||
| - | Illustration représentant un ingénieur en cybersécurité au travailIngénieur cybersécurité | ||
| - | Représentation visuelle du travail d'un cryptologue avec des symboles de chiffrementCryptologue | ||
| - | Image symbolisant le travail d'un pentester testant la sécurité d'un systèmePentester | ||
| - | Représentation d'un hacker éthique travaillant sur la sécurité informatiqueHacker éthique | ||
| - | Illustration d'un consultant en cybersécurité en train de conseiller un clientConsultant cybersécurité | ||
| - | Rejoignez la communauté | ||
| - | Rejoignez la communauté | ||
| - | Sur Patreon | ||
| - | Patreon | ||
| - | |||
| - | |||
| - | TikTok | ||
| - | Youtube | ||
| - | Newsletter | ||
| - | Flux RSS | ||
| - | Twitch | ||
| - | Illustration décorative bébé Korben | ||
| - | Le site de Korben, média indépendant soutenu par ses Patreons | ||
| - | |||
| - | Icône menu hamburger | ||
| - | Icône changement de police | ||
| - | Icône changement de thème | ||
| - | Icône recherche | ||
| - | 2004 - 2025 Le site de Korben - Le site de Korben, marque déposée. Tous droits réservés. Auteurs, mentions légales, contact et maintenant. | ||
you see this when javscript or css is not working correct