Utilisateur non connecté
elsenews:spot-2026:01:book3-korben [ElseNews]

Outils pour utilisateurs

Outils du site


elsenews:spot-2026:01:book3-korben

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
elsenews:spot-2026:01:book3-korben [02/01/2026/H13:13:25]
216.73.216.167 supprimée
— (Version actuelle)
Ligne 1: Ligne 1:
- {{tag>a1}} 
-  
- 
- 
----- 
-====== Comment les IA se nourrissent de livres piratés ?  Bibliotik ça vous parle ou pas ? C'est un tracker torrent privé ultra-discret comme il y en a tant d'autres, où les fans de lecture vont chopper leurs ePubs. ====== 
-Hé bien figurez-vous que Meta, Bloomberg, et toute une brochette de géants de la tech ont fait exactement pareil pour entraîner leurs IA. Sauf qu'eux, c'était pas pour lire du Stephen King au lit, mais pour aspirer 195 000 livres d'un coup et les transformer en « données d'entraînement ». 
-Le dataset s'appelle Books3, et c'est un peu le Napster des LLMs. Créé en 2020 par un chercheur IA nommé Shawn Presser, ce jeu de données de 37 Go compressés contient des bouquins scrapés directement depuis la bibliothèque pirate Bibliotik. L'idée de Presser était plutôt noble à la base puisqu'il voulait démocratiser l'accès aux données d'entraînement pour que les petits labos puissent rivaliser avec OpenAI et leurs mystérieux datasets « Books1 » et « Books2 » dont personne ne connaît le contenu. 
-Sauf que Books3 a fini par être intégré dans The Pile , un gros dataset de 825 Go créé par EleutherAI, et là ça a pris des proportions industrielles... Meta l'a utilisé pour entraîner LLaMA, Bloomberg pour BloombergGPT, et des dizaines d'autres projets. Le problème, c'est que ça contient des livres protégés par le copyright tels que des romans de Sarah Silverman, de George R.R. Martin, et même le bouquin de John Carreyrou sur Theranos, « Bad Blood ». D'ailleurs Carreyrou vient de porter plainte avec d'autres auteurs contre six géants de l'IA dont Anthropic, Google, OpenAI, Meta, xAI et Perplexity. 
-Et comme vous vous en doutez, la défense de toutes ces entreprises c'est le fameux « fair use » des américains. En gros, ils disent que transformer des livres en vecteurs mathématiques pour qu'une IA apprenne à écrire, c'est pas du vol, c'est de l'apprentissage. Un peu comme quand vous lisez 500 bouquins et que ça influence votre style d'écriture. Sauf que vous, vous payez vos livres et vous avez un cerveau biologique alors que ces IA, elles, aspirent tout le web sans demander la permission à personne. 
-Et en juin dernier, deux juges californiens ont, sans surprise, tranché en faveur d'Anthropic et Meta sur certains points. Ils ont considéré que l'utilisation de livres protégés pour entraîner des modèles comme Claude ou Llama 2 pouvait constituer un usage « spectaculairement important » donc légal. Par contre, télécharger les bouquins depuis des sites pirates, ça reste illégal... Bref, vous pouvez utiliser le butin, mais pas le voler vous-même... 
-De son côté, le sénateur américain Hawley n'a pas mâché ses mots en parlant du « plus grand vol de propriété intellectuelle de l'histoire américaine » et quand on voit que les auteurs ont touché environ 3000 dollars chacun dans le règlement de 1,5 milliard de dollars proposé par Anthropic alors que ces boîtes génèrent des milliards de revenus, je peux comprendre l'énervement. 
-Mais le pire, c'est qu'il existe des datasets alternatifs 100% légaux, ouverts, et utilisables sans risquer un procès !!  
- 
-====== J'ai par exemple découvert Common Corpus , et je kiffe le concept. C'est un projet coordonné par Pleias, une startup française, avec le soutien de HuggingFace, du Ministère de la Culture et de l'AI Alliance et ce dataset contient 500 milliards de mots, dont 180 milliards en anglais et 110 milliards en français. ====== 
- 
-Mais alors d'où viennent ces données légales ? 
-Hé bien du domaine public uniquement. Ce sont des millions de journaux américains qui ont été numérisés via le projet Chronicling America, des collections de patrimoine culturel, des monographies historiques...etc. Et tout a été vérifié pour s'assurer que les droits d'auteur sont bien expirés.. Donc dedans, y'a pas de livres piratés, ce qui veut dire pas de procès potentiels...etc. 
-Y'a aussi le dataset Dolma avec ses 3 trillions de tokens créé par l'Allen AI Institute, ou encore RedPajama qui atteint les 30 trillions de tokens, et ces projets sont open source avec tout le processus de construction documenté donc vous pouvez les auditer, les refaire, et les vérifier, contrairement aux datasets proprio où on vous dit « faites-nous confiance, on a rien fait de mal, hihihi« . 
-Mais même si tout ces trucs open source ont l'air cool, le problème, c'est que personne (ou presque) ne les utilise parce que les vieux livres du domaine public, ça parle comme Molière ou Victor Hugo. Le vocabulaire est archaïque, les tournures de phrases sont datées... on dirait une discussion sur l'oreiller du couple Macron. Et vous l'aurez compris, un LLM entraîné là-dessus va avoir tendance à vous pondre du texte qui sent la naphtaline, alors que les livres modernes piratés, quand à eux, c'est du langage contemporain, des dialogues naturels, des références actuelles...etc. 
-C'est donc ça le dilemme... Choisir entre éthique ou performance. Les chercheurs de Mozilla et EleutherAI ont publié en janvier 2025 un papier sur les bonnes pratiques pour créer des datasets ouverts , et ils admettent eux-mêmes que c'est compliqué car les métadonnées sont pourries, la numérisation coûte une blinde, et il faut des compétences juridiques ET techniques pour faire les choses proprement. 
-Un autre paradoxe encore plus cruel c'est que les projets qui documentent proprement leurs sources deviennent des cibles faciles pour les procès. C'est comme ça que le groupe anti-piratage danois Rights Alliance a fait supprimer Books3 via des notices DMCA, forçant EleutherAI à nettoyer The Pile alors que pendant ce temps, OpenAI reste discret sur ses données d'entraînement et évite ainsi les ennuis. Faire les choses bien, ça vous expose alors que faire les choses en douce pour entrainer votre IA, ça passe tranquillou (même si ça n'immunise pas totalement contre les procès non plus, faut pas déconner). 
-Et de plus en plus de sites partout sur la toile, changent petit à petit leurs conditions d'utilisation pour interdire le scraping par les IA... Autant dire que le web ouvert se referme petit à petit, ce qui rend encore plus galère de construire des datasets éthiques... 
-Bref, on est dans une situation où les géants aspirent tout sans vergogne, et où les petits qui essaient de faire les choses proprement galèrent... Sans parler des auteurs qui se retrouvent à quémander 3000 balles pour des œuvres qui valent bien plus. Common Corpus et tous ces autres projets ouverts prouvent, certes, qu'on peut entraîner des IA sans piller le travail des autres, mais ça demande énormément plus d'efforts et ça donne des résultats incroyablement moins sexy... 
-Voilà, au final, la vraie question n'est donc pas technique, mais politique. Est-ce qu'on doit accepter qu'une machine qui lit pour transformer un livre en vecteur, c'est OK parce que grâce à ce petit sacrifice, on peut profiter d'IA (open source de préférence) de folie ? Ou est ce qu'on se dit que lire c'est du vol quand c'est une machine qui lit ? Et dans ce cas, on accepte d'avoir des IA qui cause comme Balzac... ? 
-Source 
-Cet article peut contenir des images générées à l'aide de l'IA - J'apporte le plus grand soin à chaque article, toutefois, si vous repérez une boulette, faites-moi signe ! 
-https://korben.info/ia-entrainement-donnees-piratees-books3-common-cor.html 
- 
- 
----- 
-====== the largest public domain dataset for training LLMs We announce today the release of Common Corpus on HuggingFace:  ====== 
- 
-Common Corpus is the largest public domain dataset released for training LLMs.  
-Common Corpus includes 500 billion words from a wide diversity of cultural heritage initiatives.  
-Common Corpus is multilingual and the largest corpus to date in English, French, Dutch, Spanish, German and Italian.  
-Common Corpus shows it is possible to train fully open LLMs on sources without copyright concerns.   
-Common Corpus is an international initiative coordinated by Pleias, involving researchers in LLM pretraining, AI ethics and cultural heritage like , in association with major organizations committed to an open science approach for AI (HuggingFace, Occiglot, Eleuther, Nomic AI). Common Corpus has received the support of Lang:IA, a state start-up supported by the French Ministry of Culture and the Direction du numérique (Agent Public. Pleias is a French start-up specialized in the training of Large Language Models for document processing on fully open and auditable corpus.  
-Contrary to what most large AI companies claim, the release of Common Corpus aims to show it is possible to train Large Language Model on fully open and reproducible corpus, without using copyright content. This is only an initial part of what we have collected so far, in part due to the lengthy process of copyright duration verification. In the following weeks and months, we’ll continue to publish many additional datasets also coming from other open sources, such as open data or open science.  
-CommonCorpus holds the largest English-speaking dataset to date with 180 billion words. Thi includes a major US collection of 21 millions digitized newspapers, Chronicling America that can also be fully explored with an original corpus map created by Nomic AI, as well as large monographs datasets collected by digital historian Sebastian Majstorovic.  
-Common Corpus is also multilingual. It also incorporates the largest open dataset to date in French (110 billion words), German (30 billion words), Spanish, Dutch or Italian, as well as a very long tail of low resource languages that are currently hardly represented in the training of Large Language Model.  
-Common Corpus is not only open but more qualitative and diverse than the web archive dataset commonly used for pretraining. It includes millions of books with reasoning-rich content which makes it ideal for creating models with long context.  
-Common Corpus is the start of a long work in progress. Many things remain to be done to achieve this end and to enhance this collection. We aim to support a strong data commons for AI to ease research and make it more reproducible, but also to make AI more accessible, diverse and democratic, by ensuring that anyone can have a look into the large models.   
-https://huggingface.co/blog/Pclanglais/common-corpus 
- 
- 
----- 
-https://huggingface.co/collections/PleIAs/openculture 
  
× iphelper toolbox

you see this when javscript or css is not working correct

Untested
IP Address:
First usable:
Subnet:
Last usable:
CIDR:
Amount of usable:
Network address:
Reverse address:
Broadcast address:

elsenews/spot-2026/01/book3-korben.1767356005.txt · Dernière modification: 02/01/2026/H13:13:25 de 216.73.216.167