26/12/2025/H00:45:18
La filière de l’IA tricolore est en pleine ébullition. En seulement huit mois d’existence, le laboratoire Kyutai a franchi une étape majeure en dévoilant Moshi. Cet assistant vocal d’intelligence artificielle (IA) générative, entièrement conçu en France, rivalise déjà avec GPT-4o d’OpenAI.
Basé dans le Marais à Paris, Kyutai a reçu un soutien à hauteur de 300 millions d’euros de la part de Xavier Niel, de l’ancien PDG de Google Eric Schmidt et de Rodolphe Saadé, dirigeant de CMA-CGM. Le laboratoire compte une quinzaine de chercheurs, qui travaillent sans relâche depuis le mois de novembre.
Moshi est le premier prototype de Kyutai
Lors d’un événement organisé ce 3 juillet, ils ont présenté le premier fruit de leurs travaux. L’IA Moshi, qui a nécessité 10 millions d’euros pour être conçue, est capable d’échanger vocalement avec ses interlocuteurs. Elle peut aussi bien répondre à leurs questions que leur transmettre des informations ou les conseiller.
Elle est basée sur un grande modèle de langage (LLM) baptisé Helium. Comportant 7 milliards de paramètres, il est multimodal, c’est-à-dire qu’il s’appuie sur des données audio et textuelles.
Kyutai a exploité des données synthétiques pour former Moshi
L’équipe de Kyutai assure avoir utilisé des données créées de toutes pièces pour entraîner son IA, rapporte Les Échos. Une stratégie rusée lorsque l’on observe les nombreux démêlés avec la justice des éditeurs d’intelligence artificielle. Souvent, ils forment leurs modèles sur du contenu protégé par les droits d’auteur, s’exposant à de lourdes sanctions financières.
Côté audio, l’IA a été entraînée à partir d’enregistrements d’appels passés entre 1994 et 2002 aux Etats-Unis.
Moshi « réfléchit en parlant »
L’IA de Kyutai surpasse déjà GPT-4o sur un point : son temps de réponse. Selon les chercheurs du laboratoire, Moshi enregistre une latence allant de 3 à 5 millisecondes. C’est bien mieux que les 160 millisecondes que l’on retrouve en moyenne sur le marché, ont-ils argumenté. Ses techniques de prédiction sont si poussées que l’IA n’hésite pas à couper la parole à ses interlocuteurs.
Pour l’heure, elle ne parle qu’en anglais, une limitation à laquelle Kyutai souhaite à l’avenir remédier.
Kyutai a fait appel à une artiste pour la voix de Moshi
Au-delà de la rapidité de ses réponses, c’est surtout la voix de Moshi qui a impressionné l’audience. Une artiste nommée Alice a collaboré avec le laboratoire, et s’est mise en scène dans divers scénarios pendant 20 heures afin de produire le plus d’intonations possibles.
En conséquence, Moshi peut s’adapter à l’utilisateur selon sa manière de parler, et est capable d’imiter jusqu’à 70 émotions différentes. Elle est aussi en mesure de chuchoter et de reconnaître les émotions de son interlocuteur.
Kyutai ne compte pas s’arrêter en si bon chemin
Outre l’apprentissage d’autres langues et particulièrement du français, Kyutai a l’intention de faire tourner son modèle sur de petits appareils, comme un smartphone ou un ordinateur. Cela lui permettrait d’en faire un assistant vocal directement en concurrence avec ceux des géants technologiques, comme Siri ou Alexa. Actuellement, c’est le cloud de Scaleway qui alimente l’IA.
L’heure est avant tout à la recherche, fait toutefois savoir Kyutai, la monétisation n’étant pas l’une de ses priorités pour le moment. Outre l’IA vocale, la génération de vidéo pourrait aussi entrer dans les plans du groupe.
📍 Pour ne manquer aucune actualité de Presse-citron, suivez-nous sur Google Actualités et WhatsApp.
presse-citron
you see this when javscript or css is not working correct