Différences

Ci-dessous, les différences entre deux révisions de la page.

--- elsenews:spot-2024:07:fabrication-ia-generative [26/12/2025/H02:04:27]
216.73.216.167 supprimée
+++ — (Version actuelle)
@@ Ligne 1: / Ligne 1: @@
-~~NOTOC~~
-@DATE@
-----
-{{https://www.lemonde.fr/sciences/article/2024/07/09/dans-les-secrets-de-fabrication-de-l-ia-generative_6248076_1650684.html?lmd_medium=al&lmd_campaign=envoye-par-appli&lmd_creation=android&lmd_source=default|====== Le Monde – Dans les secrets de fabrication de l’IA générative ======}}
-<hidden Article Complet (utilisateurs connectés)>
-<ifauth @user>
-Vous pouvez partager un article en cliquant sur l’icône de partage en bas à droite de celui-ci.
-La reproduction totale ou partielle d’un article, sans l’autorisation écrite et préalable du Monde, est strictement interdite.
-Pour plus d’informations, consultez nos conditions générales de vente.
-Pour toute demande d’autorisation, contactez syndication@lemonde.fr.
-En tant qu’abonné, vous pouvez offrir jusqu’à cinq articles par mois à l’un de vos proches grâce à la fonctionnalité « Offrir un article ».
-{{https://www.lemonde.fr/sciences/article/2024/07/09/dans-les-secrets-de-fabrication-de-l-ia-generative_6248076_1650684.html|lemonde}}
-SCIENCES
-Dans les secrets de fabrication de l’IA générative
-Une start-up franco-américaine, Hugging Face, vient de mettre à disposition sur sa plate-forme en open source le corpus de textes le plus performant pour développer des modèles de langue.
-Par David Larousserie
-Par David Larousserie
-Par David Larousserie
-Hier à 05h00
-Lecture 4 min Read in English
-Article réservé aux abonnés
-Offrir
-C’est le secret le mieux gardé du secteur de l’intelligence artificielle (IA) dite « générative », celle des ChatGPT, Gemini, Copilot… Il ne se niche pas dans la puissance de calcul, ni dans la taille colossale (des centaines de milliards de paramètres) de ces logiciels, ni dans des codes informatiques astucieux. Ces aspects comptent bien sûr dans le succès, mais ils sont désormais plus ou moins publics.
-Non, ce que les leaders du domaine, OpenAI, Anthropic, Mistral, Microsoft… n’ont encore jamais révélé, c’est leur recette pour confectionner la collection de textes qui servent à l’entraînement de leurs modèles. Ce dernier sert à ajuster les paramètres afin de prédire le mieux possible quel est le meilleur mot pour compléter une phrase. Cette ingurgitation de milliards de textes identifie des corrélations statistiques qui permettent de générer de nouveaux textes censés répondre aux questions de l’utilisateur.
-L’origine de ces textes est connue, des livres dans le domaine public, des articles de recherche, Wikipédia, mais surtout des tonnes de pages Web. Cette dernière source est majoritaire et c’est la manière dont elle est traitée qui fait la différence.
-Lire aussi
-Intelligence artificielle : à Paris, « il se passe quelque chose en ce moment »
-« C’est le nerf de la guerre », résume Julien Launay, créateur de l’entreprise Adaptive ML et coauteur d’un corpus d’entraînement de données issues du Web, RefinedWeb, lorsqu’il travaillait chez LightOn. Il se souvient de la surprise causée par son exposé à La Nouvelle-Orléans, en Louisiane, en décembre 2022 à la conférence phare du domaine, NeurIPS. Le soin mis dans la préparation de ces données avait permis à une IA d’égaler la concurrence nourrie avec des données d’origine plus variée.
- 000 heures de calculs
-Thomas Wolf, cofondateur de Hugging Face, une plate-forme franco-américaine de mise à disposition de modèles et corpus en open source, présent à cette conférence, propose à l’équipe de Julien Launay de rejoindre son entreprise.
-LA SUITE APRÈS CETTE PUBLICITÉ
-L’un de ses membres, Guilherme Penedo, accepte, motivé par l’idée de mettre à disposition un corpus plus gros encore que RefinedWeb. « On pensait y arriver en dix jours », se souvient Thomas Wolf. Il en faudra quinze fois plus. Le 21 avril est sorti FineWeb, monstre pesant 40 téraoctets (To), riche de 15 000 milliards de tokens, des jetons de trois-quatre lettres, sorte de syllabes. Librement téléchargeable, il permet de créer de meilleurs modèles qu’avec n’importe quel autre corpus public.
-Fabriquer un tel objet est ardu : 80 000 heures de calculs avec les cartes graphiques H100 de Nvidia ont été nécessaires, ce qui est comparable à ce qu’il faut pour entraîner un modèle d’IA de bonne facture. D’abord, il faut récupérer les données. Depuis 2007, une fondation met à disposition Common Crawl, une collecte, à intervalle régulier, de milliards de pages Web. Mais pour être utile aux modèles de langues, il faut extraire seulement le texte de cette masse d’information. « Ça a été l’une des étapes les plus longues du processus, peut-être 80 % du temps de calcul, que nous avons commencé en novembre 2023 », indique Guilherme Penedo. Quatre-vingt-seize paquets collectés sur une quinzaine d’années dans Common Crawl ont été utilisés pour un volume d’environ 5 354 To.
-Lire aussi
-Après Microsoft, Google voit ses émissions de CO₂ bondir à cause de l’IA
-Ensuite, un premier toilettage enlève les pages des sites pornographiques, puis ne retient que les pages en anglais. Environ 50 % des documents sont éliminés. Restent 36 000 milliards de tokens.
-Le Monde Jeux
-Chaque jour de nouvelles grilles de mots croisés, Sudoku et mots trouvés.
-Jouer
-Puis vient la question délicate. Comment savoir qu’un corpus est « bon » ? Pas question de demander à un humain. Alors on demande aux machines. Un modèle d’IA est entraîné sur ce corpus. Si les performances aux tests de référence sont bonnes, alors le corpus est bon… Comme cela demande beaucoup de calculs, l’équipe a travaillé avec des « petits » modèles, à 1,2 milliard de paramètres (le moteur de ChatGPT dépassait les 170 milliards de paramètres).
-Changement de tactique
-Place ensuite au grand ménage avec la suppression des doublons, car lire deux fois le même texte n’apporte rien. C’est la « déduplication ». L’équipe l’applique sur tout son corpus. « J’étais persuadé que le résultat serait aussi bon que RefinedWeb », se souvient Guilherme Penedo. Déception ! L’équipe change alors de tactique et décide de dédupliquer indépendamment chaque paquet de Common Crawl et pas globalement. Gagné, les performances augmentent de 2 points de pourcentage : FineWeb est aussi bon que son prédécesseur. Il lui reste 20 000 milliards de tokens, 40 % de « perte ».
-Pour faire mieux, un ultime décrassage élimine des textes sans queue ni tête dont le Web regorge pour attirer les moteurs de recherche ou produire du spam. Des dizaines de statistiques décrivent un texte : taille moyenne d’une phrase, pourcentage de caractères spéciaux dans un texte, nombre de lignes se terminant par un point…
-A partir de quelle valeur considérer que ces valeurs sont « anormales » ? L’équipe a retenu une douzaine de ces métriques et a testé différents seuils. « Ce n’était pas l’étape la plus fun ! », confesse Hynek Kydlicek, de Hugging Face. Mais ça a payé. Trois conditions statistiques enlèvent un certain nombre de documents mais pas trop, tout en augmentant les performances : 5 000 milliards de tokens de plus s’évaporent mais FineWeb surpasse Refinedweb d’environ 1 %, ainsi que d’autres comme Dolma, The Pile, C4…
-Lire l’enquête
-Intelligences artificielles, les mille et une façons de les faire dérailler
-Euphorique, l’équipe a lancé une dernière étape : ne sélectionner que des documents « éducatifs » pour construire un corpus idéal pour les tâches de connaissances. FineWeb-Edu était né, avec 1 300 milliards de tokens seulement, et surpasse FineWeb de presque 4 %. La sélection des « bons » textes s’est faite en demandant à une IA générative de noter de 1 à 5 tous les documents de FineWeb, pour ne garder que les mieux évalués.
-« En détaillant nos étapes, nous aidons à mieux comprendre le succès des grands modèles de langues. En mettant ce corpus à disposition, des acteurs pourront développer leur modèle en s’affranchissant des étapes fastidieuses et coûteuses en calcul de l’élaboration des données d’entraînement », résume Thomas Wolf.
-L’équipe travaille déjà à des versions meilleures pour l’anglais ou pour d’autres langues. Elle a aussi mis à disposition un outil, datatrove, pour refaire toutes leurs étapes. Cinq mois de travail résumé en 176 lignes de code.
-David Larousserie
-NOS LECTEURS ONT LU ENSUITE
-« 2024 pourrait bien être l’an I du bouleversement de l’informatique quantique »
-Hier à 10h41
-L’influenceuse Poupette Kenza mise en examen pour tentative d’extorsion en bande organisée
-Le 08 juillet 2024 à 19h39
-Raphaël Arnault, candidat « fiché S » investi par le NFP, a largement battu le RN à Avignon
-Hier à 03h30
-Ouverture du procès d’Alec Baldwin pour un tir mortel sur le tournage de « Rust »
-Hier à 09h14
-Le groupe Renaissance à l’Assemblée nationale au bord de la dislocation
-Aujourd’hui à 06h19
-A la recherche d’un premier ministre : le récit des tractations au sein du Nouveau Front populaire
-Hier à 11h07
-CONTRIBUTIONS
-Bienvenue dans l’espace des contributions
-Pour améliorer la qualité des échanges sous nos articles, ainsi que votre expérience de contribution, nous vous invitons à consulter nos règles d’utilisation.
-Voir les contributions
-</ifauth>
-</hidden>

× iphelper toolbox

you see this when javscript or css is not working correct

Untested

ElseNews

Différences

Input

ElseNews

Outils pour utilisateurs

Outils du site

Différences

Input

Outils de la page