La start-up chinoise DeepSeek a lancé son modèle R1 doté de raisonnement complexe. Disponible en open source, le LLM constitue une alternative attrayante et à coût maîtrisé face à la concurrence d'OpenAI.
Positionné - comme bien d'autres en ce moment - sur le bouillonnant marché de la GenAI, le chinois DeepSeek va de l'avant. La start-up a donc dévoilé R1, une version open source de son grand modèle de langage (LLM) capable de raisonnement complexe, comprenant 671 milliards de paramètres et revendiquant des performances supérieures à o1 d'OpenAI sur des critères clés. « DeepSeek-R1 atteint un score de 79,8 % Pass@1 sur AIME 2024, dépassant légèrement OpenAI-o1-1217 », a déclaré l'entreprise dans un document technique. « Sur MATH-500, il atteint un score impressionnant de 97,3 %, avec des performances équivalentes à celles d'OpenAI-o1-1217 et nettement supérieures à celles des autres LLM. Pour les tâches liées au codage, DeepSeek-R1 a obtenu une note Elo de 2 029 sur Codeforces et a surpassé 96,3 % des participants humains lors d'une compétition, a ajouté l'entreprise.
« Pour les tâches liées à l'ingénierie, DeepSeek-R1 est légèrement plus performant que DeepSeek-V3 [un autre modèle de l'entreprise], ce qui pourrait aider les développeurs dans des tâches réelles », a déclaré le fournisseur chinois. R1 est disponible sur la plateforme de développement IA Hugging Face sous licence MIT, permettant une utilisation commerciale sans restriction. L'entreprise propose également des versions de son modèle, allant de 1,5 milliard à 70 milliards de paramètres, la plus petite pouvant fonctionner sur un ordinateur portable. La version complète de R1, qui nécessite un matériel plus performant, est disponible via une API à des coûts jusqu'à 95 % inférieurs à ceux d'o1. En tant que modèle de raisonnement, R1 vérifie lui-même ses résultats, ce qui permet de réduire les erreurs courantes dans les autres modèles. Bien que plus lents, les modèles de raisonnement offrent une fiabilité accrue dans des domaines tels que la physique, les sciences et les mathématiques.
Un retard chinois à combler face aux Etats-Unis
La course à la construction de modèles de langage s'est intensifiée, notamment en raison de l'évolution des réalités géopolitiques. « Si OpenAI et d'autres entreprises basées aux États-Unis ont incontestablement l'avantage du premier arrivé, la Chine a beaucoup investi dans l'IA pour renforcer ses capacités et occuper la seconde place sur le podium », a déclaré Sharath Srinivasamurthy, vice-président associé d'IDC. Dans les applications d'entreprise réelles, les performances de DeepSeek-R1 sur les mesures clés se traduisent par des capacités améliorées en matière de raisonnement mathématique, de résolution de problèmes et de tâches de codage.
Performances comparées de DeepSeek-R1 face à d'autres LLM. (crédit : DeepSeek)
« Bien que cela suggère que DeepSeek-R1 pourrait potentiellement surpasser o1 d'OpenAI dans des scénarios pratiques nécessitant ces compétences spécifiques, le résultat final dépend encore de divers facteurs au sein de l'écosystème d'IA plus large, tels que la préparation des données, le support des RAG et des agents, les intégrations des chaînes d'outils ModelOps et DevOps, le support de l'infrastructure cloud, et la gouvernance de l'IA », a déclaré Charlie Dai, vice-président et analyste principal chez Forrester. En outre, si les performances supérieures annoncées par R1 sont attrayantes, son efficacité réelle reste incertaine en raison d'un manque de clarté concernant les datasets sur lesquelles il a été formé. « Les modèles ne valent que ce que valent les données sur lesquelles ils ont été formés », a déclaré M. Srinivasamurthy. « Avec les politiques restrictives de la Chine en matière de consommation et de publication de données, il est possible que les données soient biaisées ou incomplètes. M. Srinivasamurthy a également noté que le véritable potentiel des LLM réside dans le traitement de modalités multiples telles que le texte et les images. Bien que de nombreux modèles y soient parvenus, R1 a cependant encore une marge de progression pour devenir une solution complète.
Un potentiel d'utilisation par les entreprises
La licence MIT de DeepSeek-R1, qui propose une utilisation commerciale et une personnalisation sans restriction, ainsi que ses coûts réduits, en font une option attrayante et rentable pour une adoption dans les entreprises. Cependant, elles devront peut-être prendre en compte les coûts supplémentaires associés à la licence MIT, tels que la personnalisation, le fine tuning et l'adaptation du modèle pour répondre aux besoins spécifiques de l'entreprise pour obtenir un meilleur retour sur investissement, selon Mansi Gupta, analyste principal chez Everest Group.
Les sociétés situées en dehors de la Chine peuvent également être réticentes à utiliser leurs données pour former le modèle ou l'intégrer dans leurs opérations en raison des défis réglementaires qui affectent l'adoption de l'IA. « Les entreprises doivent évaluer soigneusement les risques géopolitiques liés à l'utilisation de l'IA, en particulier pour leus opérations mondiales », a déclaré M. Gupta. « Il s'agit notamment de naviguer dans les réglementations chinoises et de mener des évaluations de conformité et des analyses de risques approfondies. En fin de compte, l'adoption de R1 dépendra de la capacité des entreprises à optimiser le compromis entre son retour sur investissement potentiel et ces défis géopolitiques et réglementaires. »
https://www.lemondeinformatique.fr/actualites/lire-face-a-openai-o1-le-chinois-deepseek-degaine-son-llm-r1-95870.html
jm
Actualités
Dossiers
événements
Services
Livres-Blancs
Partenaires
Logiciel / Intelligence artificielle
Jacques Cheminat, publié le 28 Janvier 2025
Propulsée sur le devant de la scène, la start-up chinoise Deepseek et son modèle de raisonnement R1 intriguent. Pourquoi un tel engouement ? Quelles sont les différences par rapport à des modèles similaires ? Quelles infrastructures utilise-t-il ? Décryptage avec un expert de l'IA.
Alexei Grinbaum, directeur de recherche au CEA estime que le modèle R1 de Deepseek est en rupture sur deux points : son côté open source et la technique d'apprentissage par renforcement. (Crédit Photo : IT News Info)
Alexei Grinbaum, directeur de recherche au CEA estime que le modèle R1 de Deepseek est en rupture sur deux points : son côté open source et la technique d'apprentissage par renforcement. (Crédit Photo : IT News Info)
Encore inconnue il y a quelques semaines, la société chinoise Deepseek à l’origine du modèle de raisonnement R1 est devenue en quelques jours un phénomène en inquiétant les grands acteurs de l’IA. Son application de GenAI - également appelé Deepseek et reposant sur son LLM R1 - a pris la tête des programmes les plus téléchargés sur l’App Store d’Apple. Plus performant, entraîné à moindre coût, open source, le LLM affiche ses avantages par rapport à la concurrence. Pour en savoir plus, Alexei Grinbaum, directeur de recherche et président du comité opérationnel d'éthique du numérique du CEA nous donne son éclairage.
Une méthode d’apprentissage par renforcement plus ciblée
Pour lui, le LLM R1 de Deepsek « n’est pas révolutionnaire, mais il marque une étape sur deux points. Tout d’abord, c’est la première fois qu’un modèle de raisonnement est mis en open source et l’autre point réside dans la technique utilisée pour l’apprentissage par renforcement », observe-t-il. Sur la technique, il sépare « le modèle de fondation (Deepseek v3) et celui de raisonnement (R1). Sur le premier, la méthode d’apprentissage par renforcement « s’est faite sans annotations humaines ». Par contre, sur le second, l’apprentissage par renforcement a été supervisé par l’humain ». Une différence avec o1 d’OpenAI où « la supervision humaine est présente sur les deux modèles ». A noter aussi un phénomène inexpliqué baptisé le « moment aha », par les experts de Deepseek sur le modèle de fondation. « Il apprend à consacrer plus de temps de réflexion à un problème en réévaluant son approche initiale », soulignent-ils dans leur document de travail.
En termes de benchmark, « le modèle de fondation derrière R1 n’est pas très bon par rapport à o1 d’OpenAI, par contre son modèle de raisonnement est aussi performant », indique le chercheur. Pour lui la clé est à chercher dans « le dataset qui a servi au modèle de fondation, il est très qualifié et il y a eu un grand travail en amont sur ce point. » Pour autant, impossible de savoir exactement ce que contient ce jeu de données « cette partie n’est pas open source », regrette-t-il. Alexei Grinbaum salue également « la qualité de l’algorithme utilisée. »
Une distillation plus efficace
Autre enseignement des travaux de Deepseek, « la distillation du modèle R1 en de plus petits modèles les rend plus efficace », explique Alexei Grinbaum. Pour lui « c’est une énorme découverte. Nous nous apercevons aujourd’hui que l’on peut reproduire le modèle doté de 671 milliards de paramètres et le distiller dans des modèles de 7 à 3 milliards de paramètres plus performants que les SLM créent à partir de zéro. »
Deepseek a présenté ses deux premiers SLM distillés : l'un basé sur le LM Qwen développé par Alibaba Cloud et l’autre sur Llama de Meta. Les chercheurs précisent qu’ils n’ont pas appliqué « d’affinage supervisé » ou « d’apprentissage par renforcement. » Les résultats poussés par les experts montrent des gains d’efficacité sur l’ensemble des tests face à la concurrence. « Cela signifie que le modèle de raisonnement est réplicable sur des plus petits modèles et que cela fonctionne mieux pour certaines tâches », dit Alexei Grinbaum. Il constate une effervescence de la communauté open source sur Hugging Face depuis la sortie de R1, « des groupes travaillent justement sur cette réplication sur leur propre modèle. »
Les modèles distillés de DeepSeek affichent de meilleures performances par rapport à la concurrence. (Crédit Photo : Deepseek)
Une infrastructure IA qui questionne
Outre les aspects algorithmiques, l'intérêt pour Deepseek porte sur l’utilisation d’une infrastructure IA “minimaliste” et un développement à moindre coût. D’après la start-up, elle se sert d’un cluster de 2 048 GPU H800 de Nvidia. Ces puces ont été développées à la fin 2023 par le fournisseur pour répondre à la limitation américaine des exportations des puces avancées vers la Chine. Une infrastructure qui interroge plusieurs spécialistes. Jimmy Goodrich, conseiller auprès de Rand Corp (société de conseil américaine auprès du ministère de la Défense) questionné par Reuters, indique « il existe au moins une douzaine de supercalculateurs majeurs en Chine équipés d'un nombre important de puces Nvidia dont l'achat était légal au moment où DeepSeek les a utilisés pour apprendre à devenir plus efficace. » Alexander Wang, CEO de Scale AI (spécialisé dans le développement d’applications à base d’IA) est plus suspicieux, « les laboratoires chinois ont plus de H100 qu'on ne le pense » souligne-t-il dans une interview à CNBC. Il ajoute « je crois savoir que DeepSeek possède environ 50 000 H100, dont ils ne peuvent évidemment pas parler, car cela va à l'encontre des contrôles à l'exportation mis en place par les États-Unis. »
D'autres interrogations portent sur le coût du modèle R1, estimé selon Deepseek à 5,7 M$. Or la société n’a pas donné de détails sur la ventilation des coûts, laissant plusieurs observateurs penser que le montant total ne comprend pas certains éléments comme le nombre de GPU mobilisés pour la formation du modèle. Chez les concurrents OpenAI et Anthropic les montants dépensés pour l'entrainement des modèles atteint des sommes astronomiques, respectivement de 7 Md$ et de (2,7 Md$. Une chose est sûre cependant : « avec le travail en amont sur le dataset, le besoin en calcul est moindre », admet Alexei Grinbaum. Une efficience qui pourrait ainsi permettre à l'éditeur chinois de ne pas avoir à investir autant que ses concurrents dans l’entraînement et le développement de LLM. Notre confrère d'IDG indique que Deepseek a amélioré l'efficacité de la bande passante de la mémoire grâce à deux innovations clés: l'utilisation d'un algorithme optimisé (compression du cache clé-valeur) et le passage de FP32 (32 bits) à FP8 (8 bits) pour l'entraînement à la précision du modèle. La réduction de la mémoire requise permet d'entraîner des modèles plus volumineux et de réduire le temps d'entraînement.
Un rééquilibrage de la géopolitique de l’IA
L’aspect géopolitique de l’ascension de Deepseek n’est pas non plus à négliger. La prédominance des américains a été écornée dans ce domaine. Marc Andressen, un des plus gros investisseurs dans l’IT aux Etats-Unis a qualifié cette arrivée de « moment spoutnick », en référence la découverte du satellite russe, qui a rebattu les cartes de la conquête spatiale majoritairement dominée par les Etats-Unis. « Avec Deepseeck, la Chine rattrape son retard sur les américains avec une modèle plus optimisé et plus efficace », affirme Alexei Grinbaum.
Il s’attend à ce que les grands acteurs IA américains ripostent « avec la présentation prochaine du modèle o3 d’OpenAI. » De son côté, la start-up chinoise va certainement améliorer son modèle de raisonnement R1 et en renforcer la sécurité. Ce lundi, la société a communiqué sur une cyberattaque « à grande échelle » qui l’a forcée à restreindre le nombre d’inscriptions.
Article rédigé par
Jacques Cheminat
Rédacteur en chef LMI
Cet article vous a plu? Partagez le !
Commentaire
Logiciel / Intelligence artificielle
Face à OpenAI o1, le chinois DeepSeek dégaine son LLM R1
Prasanth Aby Thomas, ComputerWorld (adapté par Dominique Filippone) , publié le 24 Janvier 2025
La start-up chinoise DeepSeek a lancé son modèle R1 doté de raisonnement complexe. Disponible en open source, le LLM constitue une alternative attrayante et à coût maîtrisé face à la concurrence d'OpenAI.
Le modèle de raisonnement créé par DeepSeek, dont le CEO est Liang Wenfeng, apporte une fiabilité accrue dans des domaines tels que la physique, les sciences et les mathématiques. (crédit : D.R.)
Le modèle de raisonnement créé par DeepSeek, dont le CEO est Liang Wenfeng, apporte une fiabilité accrue dans des domaines tels que la physique, les sciences et les mathématiques. (crédit : D.R.)
Positionné - comme bien d'autres en ce moment - sur le bouillonnant marché de la GenAI, le chinois DeepSeek va de l'avant. La start-up a donc dévoilé R1, une version open source de son grand modèle de langage (LLM) capable de raisonnement complexe, comprenant 671 milliards de paramètres et revendiquant des performances supérieures à o1 d'OpenAI sur des critères clés. « DeepSeek-R1 atteint un score de 79,8 % Pass@1 sur AIME 2024, dépassant légèrement OpenAI-o1-1217 », a déclaré l'entreprise dans un document technique. « Sur MATH-500, il atteint un score impressionnant de 97,3 %, avec des performances équivalentes à celles d'OpenAI-o1-1217 et nettement supérieures à celles des autres LLM. Pour les tâches liées au codage, DeepSeek-R1 a obtenu une note Elo de 2 029 sur Codeforces et a surpassé 96,3 % des participants humains lors d'une compétition, a ajouté l'entreprise.
« Pour les tâches liées à l'ingénierie, DeepSeek-R1 est légèrement plus performant que DeepSeek-V3 [un autre modèle de l'entreprise], ce qui pourrait aider les développeurs dans des tâches réelles », a déclaré le fournisseur chinois. R1 est disponible sur la plateforme de développement IA Hugging Face sous licence MIT, permettant une utilisation commerciale sans restriction. L'entreprise propose également des versions de son modèle, allant de 1,5 milliard à 70 milliards de paramètres, la plus petite pouvant fonctionner sur un ordinateur portable. La version complète de R1, qui nécessite un matériel plus performant, est disponible via une API à des coûts jusqu'à 95 % inférieurs à ceux d'o1. En tant que modèle de raisonnement, R1 vérifie lui-même ses résultats, ce qui permet de réduire les erreurs courantes dans les autres modèles. Bien que plus lents, les modèles de raisonnement offrent une fiabilité accrue dans des domaines tels que la physique, les sciences et les mathématiques.
Un retard chinois à combler face aux Etats-Unis
La course à la construction de modèles de langage s'est intensifiée, notamment en raison de l'évolution des réalités géopolitiques. « Si OpenAI et d'autres entreprises basées aux États-Unis ont incontestablement l'avantage du premier arrivé, la Chine a beaucoup investi dans l'IA pour renforcer ses capacités et occuper la seconde place sur le podium », a déclaré Sharath Srinivasamurthy, vice-président associé d'IDC. Dans les applications d'entreprise réelles, les performances de DeepSeek-R1 sur les mesures clés se traduisent par des capacités améliorées en matière de raisonnement mathématique, de résolution de problèmes et de tâches de codage.
DeepSeek R1
Performances comparées de DeepSeek-R1 face à d'autres LLM. (crédit : DeepSeek)
« Bien que cela suggère que DeepSeek-R1 pourrait potentiellement surpasser o1 d'OpenAI dans des scénarios pratiques nécessitant ces compétences spécifiques, le résultat final dépend encore de divers facteurs au sein de l'écosystème d'IA plus large, tels que la préparation des données, le support des RAG et des agents, les intégrations des chaînes d'outils ModelOps et DevOps, le support de l'infrastructure cloud, et la gouvernance de l'IA », a déclaré Charlie Dai, vice-président et analyste principal chez Forrester. En outre, si les performances supérieures annoncées par R1 sont attrayantes, son efficacité réelle reste incertaine en raison d'un manque de clarté concernant les datasets sur lesquelles il a été formé. « Les modèles ne valent que ce que valent les données sur lesquelles ils ont été formés », a déclaré M. Srinivasamurthy. « Avec les politiques restrictives de la Chine en matière de consommation et de publication de données, il est possible que les données soient biaisées ou incomplètes. M. Srinivasamurthy a également noté que le véritable potentiel des LLM réside dans le traitement de modalités multiples telles que le texte et les images. Bien que de nombreux modèles y soient parvenus, R1 a cependant encore une marge de progression pour devenir une solution complète.
Un potentiel d'utilisation par les entreprises
La licence MIT de DeepSeek-R1, qui propose une utilisation commerciale et une personnalisation sans restriction, ainsi que ses coûts réduits, en font une option attrayante et rentable pour une adoption dans les entreprises. Cependant, elles devront peut-être prendre en compte les coûts supplémentaires associés à la licence MIT, tels que la personnalisation, le fine tuning et l'adaptation du modèle pour répondre aux besoins spécifiques de l'entreprise pour obtenir un meilleur retour sur investissement, selon Mansi Gupta, analyste principal chez Everest Group.
Les sociétés situées en dehors de la Chine peuvent également être réticentes à utiliser leurs données pour former le modèle ou l'intégrer dans leurs opérations en raison des défis réglementaires qui affectent l'adoption de l'IA. « Les entreprises doivent évaluer soigneusement les risques géopolitiques liés à l'utilisation de l'IA, en particulier pour leus opérations mondiales », a déclaré M. Gupta. « Il s'agit notamment de naviguer dans les réglementations chinoises et de mener des évaluations de conformité et des analyses de risques approfondies. En fin de compte, l'adoption de R1 dépendra de la capacité des entreprises à optimiser le compromis entre son retour sur investissement potentiel et ces défis géopolitiques et réglementaires. »
Article rédigé par
Prasanth Aby Thomas, ComputerWorld (adapté par Dominique Filippone)
Cet article vous a plu? Partagez le !
Commentaire
Le site le plus consulté par les professionnels de l’IT et de l’innovation en France
LeMondeInformatique.fr est une marque de IT News Info, 1er groupe d'information et de services dédié aux professionnels de l'informatique en France.
Suivez-nous sur les réseaux
Nous contacter ANNONCEURS Mentions Légales Charte de confidentialité Conditions générales de vente Paramètres de gestion de la confidentialité
Copyright © LeMondeInformatique.fr 1997-2025
Toute reproduction ou représentation intégrale ou partielle, par quelque procédé que ce soit, des pages publiées sur ce site, faite sans l'autorisation de l'éditeur ou du webmaster du site LeMondeInformatique.fr est illicite et constitue une contrefaçon.