Ci-dessous, les différences entre deux révisions de la page.
| Les deux révisions précédentes Révision précédente | |||
|
elsenews:spot-2024:07:fabrication-ia-generative [26/12/2025/H02:04:27] 216.73.216.167 supprimée |
— (Version actuelle) | ||
|---|---|---|---|
| Ligne 1: | Ligne 1: | ||
| - | |||
| - | ~~NOTOC~~ | ||
| - | @DATE@ | ||
| - | |||
| - | |||
| - | ---- | ||
| - | {{https:// | ||
| - | |||
| - | <hidden Article Complet (utilisateurs connectés)> | ||
| - | <ifauth @user> | ||
| - | |||
| - | Vous pouvez partager un article en cliquant sur l’icône de partage en bas à droite de celui-ci. | ||
| - | La reproduction totale ou partielle d’un article, sans l’autorisation écrite et préalable du Monde, est strictement interdite. | ||
| - | Pour plus d’informations, | ||
| - | Pour toute demande d’autorisation, | ||
| - | En tant qu’abonné, | ||
| - | |||
| - | {{https:// | ||
| - | |||
| - | SCIENCES | ||
| - | Dans les secrets de fabrication de l’IA générative | ||
| - | Une start-up franco-américaine, | ||
| - | Par David Larousserie | ||
| - | Par David Larousserie | ||
| - | Par David Larousserie | ||
| - | Hier à 05h00 | ||
| - | Lecture 4 min Read in English | ||
| - | Article réservé aux abonnés | ||
| - | Offrir | ||
| - | C’est le secret le mieux gardé du secteur de l’intelligence artificielle (IA) dite « générative », | ||
| - | |||
| - | Non, ce que les leaders du domaine, OpenAI, Anthropic, Mistral, Microsoft… n’ont encore jamais révélé, c’est leur recette pour confectionner la collection de textes qui servent à l’entraînement de leurs modèles. Ce dernier sert à ajuster les paramètres afin de prédire le mieux possible quel est le meilleur mot pour compléter une phrase. Cette ingurgitation de milliards de textes identifie des corrélations statistiques qui permettent de générer de nouveaux textes censés répondre aux questions de l’utilisateur. | ||
| - | |||
| - | L’origine de ces textes est connue, des livres dans le domaine public, des articles de recherche, Wikipédia, mais surtout des tonnes de pages Web. Cette dernière source est majoritaire et c’est la manière dont elle est traitée qui fait la différence. | ||
| - | |||
| - | Lire aussi | ||
| - | Intelligence artificielle : | ||
| - | « C’est le nerf de la guerre », résume Julien Launay, créateur de l’entreprise Adaptive ML et coauteur d’un corpus d’entraînement de données issues du Web, RefinedWeb, lorsqu’il travaillait chez LightOn. Il se souvient de la surprise causée par son exposé à La Nouvelle-Orléans, | ||
| - | |||
| - | 80 000 heures de calculs | ||
| - | Thomas Wolf, cofondateur de Hugging Face, une plate-forme franco-américaine de mise à disposition de modèles et corpus en open source, présent à cette conférence, | ||
| - | |||
| - | LA SUITE APRÈS CETTE PUBLICITÉ | ||
| - | |||
| - | L’un de ses membres, Guilherme Penedo, accepte, motivé par l’idée de mettre à disposition un corpus plus gros encore que RefinedWeb. « On pensait y arriver en dix jours », se souvient Thomas Wolf. Il en faudra quinze fois plus. Le 21 avril est sorti FineWeb, monstre pesant 40 téraoctets (To), riche de 15 000 milliards de tokens, des jetons de trois-quatre lettres, | ||
| - | |||
| - | Fabriquer un tel objet est ardu : 80 000 heures de calculs avec les cartes graphiques H100 de Nvidia ont été nécessaires, | ||
| - | |||
| - | Lire aussi | ||
| - | Après Microsoft, Google voit ses émissions de CO₂ bondir à cause de l’IA | ||
| - | Ensuite, un premier toilettage enlève les pages des sites pornographiques, | ||
| - | |||
| - | Le Monde Jeux | ||
| - | Chaque jour de nouvelles grilles de mots croisés, Sudoku et mots trouvés. | ||
| - | Jouer | ||
| - | Puis vient la question délicate. Comment savoir qu’un corpus est « bon » ? | ||
| - | |||
| - | Changement de tactique | ||
| - | Place ensuite au grand ménage avec la suppression des doublons, car lire deux fois le même texte n’apporte rien. C’est la « déduplication ». L’équipe l’applique sur tout son corpus. « J’étais persuadé que le résultat serait aussi bon que RefinedWeb », | ||
| - | |||
| - | Pour faire mieux, un ultime décrassage élimine des textes sans queue ni tête dont le Web regorge pour attirer les moteurs de recherche ou produire du spam. Des dizaines de statistiques décrivent un texte : taille moyenne d’une phrase, pourcentage de caractères spéciaux dans un texte, nombre de lignes se terminant par un point… | ||
| - | |||
| - | A partir de quelle valeur considérer que ces valeurs sont « anormales » ? | ||
| - | |||
| - | Lire l’enquête | ||
| - | Intelligences artificielles, | ||
| - | Euphorique, l’équipe a lancé une dernière étape : ne sélectionner que des documents « éducatifs » pour construire un corpus idéal pour les tâches de connaissances. FineWeb-Edu était né, avec 1 300 milliards de tokens seulement, et surpasse FineWeb de presque 4 %. La sélection des « bons » textes s’est faite en demandant à une IA générative de noter de 1 à 5 tous les documents de FineWeb, pour ne garder que les mieux évalués. | ||
| - | |||
| - | « En détaillant nos étapes, nous aidons à mieux comprendre le succès des grands modèles de langues. En mettant ce corpus à disposition, | ||
| - | |||
| - | L’équipe travaille déjà à des versions meilleures pour l’anglais ou pour d’autres langues. Elle a aussi mis à disposition un outil, datatrove, pour refaire toutes leurs étapes. Cinq mois de travail résumé en 176 lignes de code. | ||
| - | |||
| - | David Larousserie | ||
| - | NOS LECTEURS ONT LU ENSUITE | ||
| - | « 2024 pourrait bien être l’an I du bouleversement de l’informatique quantique » | ||
| - | |||
| - | Hier à 10h41 | ||
| - | L’influenceuse Poupette Kenza mise en examen pour tentative d’extorsion en bande organisée | ||
| - | |||
| - | Le 08 juillet 2024 à 19h39 | ||
| - | Raphaël Arnault, candidat « fiché S » investi par le NFP, a largement battu le RN à Avignon | ||
| - | |||
| - | Hier à 03h30 | ||
| - | Ouverture du procès d’Alec Baldwin pour un tir mortel sur le tournage de « Rust » | ||
| - | |||
| - | Hier à 09h14 | ||
| - | Le groupe Renaissance à l’Assemblée nationale au bord de la dislocation | ||
| - | |||
| - | Aujourd’hui à 06h19 | ||
| - | A la recherche d’un premier ministre : le récit des tractations au sein du Nouveau Front populaire | ||
| - | |||
| - | Hier à 11h07 | ||
| - | CONTRIBUTIONS | ||
| - | Bienvenue dans l’espace des contributions | ||
| - | Pour améliorer la qualité des échanges sous nos articles, ainsi que votre expérience de contribution, | ||
| - | Voir les contributions | ||
| - | </ | ||
| - | </ | ||
you see this when javscript or css is not working correct