a3

Kyutai (Xavier Niel) dévoile Unmute, un modèle de synthèse vocale que vous devriez essayer

Kyutai, le laboratoire à but non lucratif financé par Xavier Niel, Rodolphe Saadé et Eric Schmidt, vient de publier Unmute, une nouvelle technologie de synthèse vocale capable de discuter avec une faible latence. Sa prouesse : convertir les réponses écrites d’un LLM en des phrases prononcées par une voix presque humaine.
Xavier Niel ne cesse de le répéter : il ne faut pas sous-estimer la France en matière d’intelligence artificielle. Déjà très bien positionnée grâce à Mistral AI, la France compte de nombreux talents dans les principaux groupes tech. Elle a ausi Kyutai depuis novembre 2023, un laboratoire de recherche financé par Xavier Niel (Iliad), Eric Schmidt (Google) et Rodolphe Saadé (CMA-CGM). L’objectif de Kyutai est de retenir les talents français en leur proposant des moyens financiers pour développer des technologie open source sans rejoindre des géants américains.
En juillet 2024, Kyutai avait dévoilé sa première invention : Moshi. Il s’agissait d’un modèle voice-to-voice capable de générer de l’audio avec une très faible latence. Quelques mois plus tard, le 28 mai 2025, Kyutai dévoile sa dernière avancée : Unmute. Il s’agit une nouvelle fois d’un produit orienté audio, mais avec un potentiel bien plus élevé que le très confidentiel Moshi.
C’est quoi Unmute, le nouveau modèle de Kyutai ?
Le concept d’Unmute est dans son nom, mais n’est pas simple à traduire. Unmute est l’antonyme de Mute, le mot qui correspond à la mise en silence d’un appareil électronique. Avec Unmute, Kyutai veut donner de la voix aux grands modèles de langage (GPT, Gemini, DeepSeek…).
Unmute n’est pas un produit à destination du grand public, mais un modèle open source pour les développeurs. Concrètement, il s’agit d’un système de synthèse vocale qui transforme une réponse écrite en une phrase prononcée oralement. On peut imaginer que Mistral, Google ou OpenAI s’en inspire pour améliorer leurs systèmes de génération de la voix. Ou que les futurs services clients des grandes marques utilisent la technologie pour transformer les réponses d’un LLM en un correspond vocal.
L’interface de test d’Unmute. Source : Capture Numerama
« Un LLM (nous utilisons Gemma 3 12B dans cette démo) génère le texte de la réponse et nous utilisons ensuite notre modèle de synthèse vocale pour la prononcer à haute voix », explique Kyutai sur son site. Unmute apporte la voix, mais aussi l’émotion, l’ironie et la compréhension des silences. L’objectif est de pouvoir convertir n’importe quel générateur de mots en un assistant vocal ultra sophistiqué. Le travail d’Unmute commence dès les premiers mots générés, pour donner l’impression que la conversation se passe en temps réel.
On peut déjà essayer Unmute, voici comment faire
Si Unmute n’est pas destiné au grand public (même si la technologie pourrait être utilisée bientôt dans des applications), Kyutai permet de l’essayer grâce à un site de démo. L’adresse unmute.sh permet de soliciter plusieurs voix comme Charles de Gaulle, Fabieng (un jeune cadre dynamique) ou Quiz show (un animateur qui déteste son travail). On peut leur parler en français ou en anglais, avec des réponses générées en temps réel. La vitesse d’exécution est impressionnante, largement supérieure à du ChatGPT Voice ou Gemini Live.
Chaque voix dispose d’une personnalité. Source : Capture Numerama
Chaque voix est fabriquée à partir d’un enregistrement vocal de seulement 10 secondes. Kyutai permet d’ailleurs d’envoyer un extrait de sa propre voix pour créer un robot capable de vous imiter. Les questions que l’on pose à Unmute sont converties en texte, envoyées à Gemma 3 (un modèle open source Google) et la réponse générée en texte est automatiquement convertie en audio par le modèle Unmute.
Dans un futur proche, Kyutai publiera une version open source d’Unmute pour que tout le monde puisse l’utiliser. Créer un assistant vocal du futur deviendra alors beaucoup plus facile, puisque n’importe quel LLM pourra parler.

Ce contenu est bloqué car vous n’avez pas accepté les cookies et autres traceurs. Ce contenu est fourni par YouTube. Pour pouvoir le visualiser, vous devez accepter l’usage étant opéré par YouTube avec vos données qui pourront être utilisées pour les finalités suivantes : vous permettre de visualiser et de partager des contenus avec des médias sociaux, favoriser le développement et l’amélioration des produits d’Humanoid et de ses partenaires, vous afficher des publicités personnalisées par rapport à votre profil et activité, vous définir un profil publicitaire personnalisé, mesurer la performance des publicités et du contenu de ce site et mesurer l’audience de ce site (en savoir plus)
En cliquant sur « J’accepte tout », vous consentez aux finalités susmentionnées pour l’ensemble des cookies et autres traceurs déposés par Humanoid et ses partenaires.
Vous gardez la possibilité de retirer votre consentement à tout moment. Pour plus d’informations, nous vous invitons à prendre connaissance de notre Politique cookies.
Gérer mes choix

Toute l'actu tech en un clin d'œil
Ajoutez Numerama à votre écran d'accueil et restez connectés au futur !
Marre des réseaux sociaux ? Rejoignez la communauté Numerama sur WhatsApp !
https://www.numerama.com/tech/1979991-kyutai-xavier-niel-devoile-unmute-un-modele-de-synthese-vocale-que-vous-devriez-essayer.html

× iphelper toolbox

you see this when javscript or css is not working correct

Untested

ElseNews

Kyutai (Xavier Niel) dévoile Unmute, un modèle de synthèse vocale que vous devriez essayer

Input

ElseNews

Outils pour utilisateurs

Outils du site

Kyutai (Xavier Niel) dévoile Unmute, un modèle de synthèse vocale que vous devriez essayer

Input

Outils de la page