Ci-dessous, les différences entre deux révisions de la page.
| Prochaine révision | Révision précédente | ||
|
elsenews:spot-2026:01:book3-korben [01/01/2026/H18:31:14] 127.0.0.1 modification externe |
— (Version actuelle) | ||
|---|---|---|---|
| Ligne 1: | Ligne 1: | ||
| - | | ||
| - | |||
| - | |||
| - | |||
| - | ---- | ||
| - | ====== Comment les IA se nourrissent de livres piratés ? Bibliotik ça vous parle ou pas ? C'est un tracker torrent privé ultra-discret comme il y en a tant d' | ||
| - | Hé bien figurez-vous que Meta, Bloomberg, et toute une brochette de géants de la tech ont fait exactement pareil pour entraîner leurs IA. Sauf qu' | ||
| - | Le dataset s' | ||
| - | Sauf que Books3 a fini par être intégré dans The Pile , un gros dataset de 825 Go créé par EleutherAI, et là ça a pris des proportions industrielles... Meta l'a utilisé pour entraîner LLaMA, Bloomberg pour BloombergGPT, | ||
| - | Et comme vous vous en doutez, la défense de toutes ces entreprises c'est le fameux « fair use » des américains. En gros, ils disent que transformer des livres en vecteurs mathématiques pour qu'une IA apprenne à écrire, c'est pas du vol, c'est de l' | ||
| - | Et en juin dernier, deux juges californiens ont, sans surprise, tranché en faveur d' | ||
| - | De son côté, le sénateur américain Hawley n'a pas mâché ses mots en parlant du « plus grand vol de propriété intellectuelle de l' | ||
| - | Mais le pire, c'est qu'il existe des datasets alternatifs 100% légaux, ouverts, et utilisables sans risquer un procès !! | ||
| - | |||
| - | ====== J'ai par exemple découvert Common Corpus , et je kiffe le concept. C'est un projet coordonné par Pleias, une startup française, avec le soutien de HuggingFace, | ||
| - | |||
| - | Mais alors d'où viennent ces données légales ? | ||
| - | Hé bien du domaine public uniquement. Ce sont des millions de journaux américains qui ont été numérisés via le projet Chronicling America, des collections de patrimoine culturel, des monographies historiques...etc. Et tout a été vérifié pour s' | ||
| - | Y'a aussi le dataset Dolma avec ses 3 trillions de tokens créé par l' | ||
| - | Mais même si tout ces trucs open source ont l'air cool, le problème, c'est que personne (ou presque) ne les utilise parce que les vieux livres du domaine public, ça parle comme Molière ou Victor Hugo. Le vocabulaire est archaïque, les tournures de phrases sont datées... on dirait une discussion sur l' | ||
| - | C'est donc ça le dilemme... Choisir entre éthique ou performance. Les chercheurs de Mozilla et EleutherAI ont publié en janvier 2025 un papier sur les bonnes pratiques pour créer des datasets ouverts , et ils admettent eux-mêmes que c'est compliqué car les métadonnées sont pourries, la numérisation coûte une blinde, et il faut des compétences juridiques ET techniques pour faire les choses proprement. | ||
| - | Un autre paradoxe encore plus cruel c'est que les projets qui documentent proprement leurs sources deviennent des cibles faciles pour les procès. C'est comme ça que le groupe anti-piratage danois Rights Alliance a fait supprimer Books3 via des notices DMCA, forçant EleutherAI à nettoyer The Pile alors que pendant ce temps, OpenAI reste discret sur ses données d' | ||
| - | Et de plus en plus de sites partout sur la toile, changent petit à petit leurs conditions d' | ||
| - | Bref, on est dans une situation où les géants aspirent tout sans vergogne, et où les petits qui essaient de faire les choses proprement galèrent... Sans parler des auteurs qui se retrouvent à quémander 3000 balles pour des œuvres qui valent bien plus. Common Corpus et tous ces autres projets ouverts prouvent, certes, qu'on peut entraîner des IA sans piller le travail des autres, mais ça demande énormément plus d' | ||
| - | Voilà, au final, la vraie question n'est donc pas technique, mais politique. Est-ce qu'on doit accepter qu'une machine qui lit pour transformer un livre en vecteur, c'est OK parce que grâce à ce petit sacrifice, on peut profiter d'IA (open source de préférence) de folie ? Ou est ce qu'on se dit que lire c'est du vol quand c'est une machine qui lit ? Et dans ce cas, on accepte d' | ||
| - | Source | ||
| - | Cet article peut contenir des images générées à l'aide de l'IA - J' | ||
| - | https:// | ||
| - | |||
| - | |||
| - | ---- | ||
| - | ====== the largest public domain dataset for training LLMs We announce today the release of Common Corpus on HuggingFace: | ||
| - | |||
| - | Common Corpus is the largest public domain dataset released for training LLMs. | ||
| - | Common Corpus includes 500 billion words from a wide diversity of cultural heritage initiatives. | ||
| - | Common Corpus is multilingual and the largest corpus to date in English, French, Dutch, Spanish, German and Italian. | ||
| - | Common Corpus shows it is possible to train fully open LLMs on sources without copyright concerns. | ||
| - | Common Corpus is an international initiative coordinated by Pleias, involving researchers in LLM pretraining, | ||
| - | Contrary to what most large AI companies claim, the release of Common Corpus aims to show it is possible to train Large Language Model on fully open and reproducible corpus, without using copyright content. This is only an initial part of what we have collected so far, in part due to the lengthy process of copyright duration verification. In the following weeks and months, we’ll continue to publish many additional datasets also coming from other open sources, such as open data or open science. | ||
| - | CommonCorpus holds the largest English-speaking dataset to date with 180 billion words. Thi includes a major US collection of 21 millions digitized newspapers, Chronicling America that can also be fully explored with an original corpus map created by Nomic AI, as well as large monographs datasets collected by digital historian Sebastian Majstorovic. | ||
| - | Common Corpus is also multilingual. It also incorporates the largest open dataset to date in French (110 billion words), German (30 billion words), Spanish, Dutch or Italian, as well as a very long tail of low resource languages that are currently hardly represented in the training of Large Language Model. | ||
| - | Common Corpus is not only open but more qualitative and diverse than the web archive dataset commonly used for pretraining. It includes millions of books with reasoning-rich content which makes it ideal for creating models with long context. | ||
| - | Common Corpus is the start of a long work in progress. Many things remain to be done to achieve this end and to enhance this collection. We aim to support a strong data commons for AI to ease research and make it more reproducible, | ||
| - | https:// | ||
| - | |||
| - | |||
| - | ---- | ||
| - | https:// | ||
you see this when javscript or css is not working correct