L’intelligence artificielle a pris un autre tournant avec les LLM. ChatGPT, Gemini ou encore Claude, ces LLM sont désormais des outils incontournables et ont changé notre manière d’interagir avec la machine.
Ces dernières années, l’intelligence artificielle a enfin endossé le rôle qu’on lui promettait depuis ses premières théorisations, celui d’un assistant virtuel capable de tout faire (ou presque). Derrière cette révolution se cache un socle commun : le LLM ou grand modèle de langage (Large Language Model).
Qu’est-ce qu’un LLM (Large Language Model) ?
Un LLM est une intelligence artificielle entraînée sur d’énormes quantités de textes pour apprendre comment le langage fonctionne. Le LLM peut se voir en somme comme un immense moteur de génération de texte — un logiciel qui a en quelque sorte « appris à parler notre langage ».
À partir de ce que vous écrivez, il tente constamment de deviner la suite de mots la plus probable.
La différence entre IA, Machine Learning et LLM
Ces trois termes renvoient globalement à la même idée, mais à des niveaux différents. On peut les voir comme une sorte de poupée russe :
l’IA est le concept le plus large,
le machine learning (apprentissage automatique) en est une sous-catégorie (l’IA qui apprend à partir de données),
les LLM sont un type particulier de machine learning.
Pourquoi parle-t-on de Large pour les LLM ?
Large fait directement référence à la quantité de données ingérées par les LLM. Ces derniers sont entraînés sur une somme incommensurable d’écrits (livres, articles, sites web…) pour apprendre comment les humains écrivent et s’expriment. Il n’enregistre pas des phrases par cœur. Son objectif est plutôt d’apprendre les règles implicites du langage, les styles, les enchaînements d’idées, et les façons courantes de répondre à une question. Il mime d’une certaine manière le comportement d’un humain.
Source : Numerama avec Midjourney
Un LLM comme GPT-5 a été entraîné sur d’immenses volumes de texte, comptés en centaines de milliards, voire en trillions de tokens (des fragments de mots, des mots et de la ponctuation). À l’échelle humaine, il faudrait des dizaines de milliers d’années pour simplement lire une telle quantité de texte, sans même parler du temps nécessaire pour l’analyser, l’apprendre et la comprendre.
C’est la principale force de ces systèmes qui peuvent à la fois être très généralistes tout en affichant une expertise très solide sur des tâches précises.
Comment fonctionne un LLM et ses fameux tokens ?
Un LLM ne « comprend » pas à proprement parler ce que vous lui écrivez. En réalité, lorsque vous saisissez un prompt sur votre intelligence artificielle générative favorite, cette dernière analyse votre texte… puis le découpe en tokens. Or, un token n’est pas forcément un mot : cela peut être une partie de mot, un espace + un mot, ou même de la ponctuation.
Ainsi, un mot simple peut parfois représenter 2 ou 3 tokens, selon la langue et la manière dont le texte est découpé. Cette mécanique permet au LLM de manipuler une sorte d’alphabet de fragments réutilisables, et de gagner en efficacité — plutôt que de gérer des mots trop variés et trop imprévisibles.
Les tokens d’entrée des LLM
Tous ces tokens soumis à l’IA constituent ce qu’on appelle les tokens d’entrée. C’est le matériau qui permet au système de construire un contexte et de répondre en conséquence. Plus la limite de tokens d’entrée est élevée, plus le modèle peut traiter de longs textes sans perdre le fil (un document complet, un historique de conversation, une série d’instructions, etc.).
Cependant, cette mémoire n’est pas infinie, chaque modèle reste entraîné sur une fenêtre de contexte maximale. GPT-5, par exemple, affiche jusqu’à 400 000 tokens d’entrée. Concrètement, cela signifie qu’il peut lire énormément — même si, au bout d’un certain volume, il devra malgré tout oublier une partie du contexte le plus ancien pour continuer. Et lorsque des informations importantes disparaissent de ce contexte (ou n’y figurent tout simplement pas), le modèle peut parfois compenser en produisant une réponse plausible mais inexacte, c’est l’une des causes fréquentes des fameuses hallucinations.
Une fois les tokens analysés, le LLM applique des scores d’importance à chacun des tokens pour s’aligner au mieux sur le contexte et sortir une réponse la plus précise possible.
Admettons que votre prompt soit :
« Je pars à Paris ce week-end. J’arrive samedi matin et je repars lundi soir. Mon budget est serré, je veux surtout visiter à pied, et je suis végétarien. Propose-moi un planning, sans musées. »
Avec cette demande, le LLM ne traite pas chaque mot de la même manière. Il repère surtout les éléments qui posent le cadre et les contraintes. Ici, ce sont Paris, ce week-end, samedi matin et lundi soir qui définissent la durée du séjour, tandis que budget serré, à pied, végétarien et sans musées orientent directement les recommandations. Ces mots-clés pèsent davantage dans le raisonnement du modèle, ceux qui l’amènent à proposer un planning différent qu’avec une formulation plus générique.
ChatGPT me donne ses priorités pour cette requête Source : Capture
C’est aussi pour cela qu’on recommande généralement de bien détailler ses prompts afin d’obtenir la réponse la plus satisfaisante possible.
Les tokens de sortie des LLM
Cette notion de tokens ne s’applique pas seulement à ce que vous écrivez, mais aussi à ce que le modèle répond. Avec GPT-5, OpenAI fixe par exemple un plafond pouvant aller jusqu’à 128 000 tokens en sortie — un maximum qui dépend toutefois du contexte utilisé (la longueur du prompt et de l’historique). En pratique, plus votre demande est longue, plus l’espace disponible pour la réponse peut se réduire.
Concrètement, cela reste largement suffisant pour générer des réponses très longues, détaillées et parfois étonnamment riches. Mais à force d’utiliser ces assistants, on finit aussi par repérer certains réflexes d’écriture avec des structures qui reviennent, des transitions familières, etc…
Sur GPT-3, GPT-3.5 et les premières versions de GPT-4, il n’y avait pas de sortie max, la limite était variable selon l’entrée. Plus le prompt était long, plus la place restante pour la réponse diminuait. Les modèles récents distinguent davantage une fenêtre d’entrée et une limite de sortie dédiée.
Les tokens sont aujourd’hui au cœur de l’évolution des LLM que l’on connaît. C’est même un peu le nerf de la guerre. Depuis plusieurs années, les modèles augmentent progressivement le nombre de tokens (en entrée et en sortie) afin de rendre les IA plus précises, plus cohérentes et capables de gérer des demandes de plus en plus complexes.
À titre d’exemple, voici l’évolution de ChatGPT au fil de ses versions :
Modèle
Contexte total (entrée + sortie)
Sortie max
GPT-3
~2 048 tokens
variable (reste disponible)
GPT-3.5
~4 096 tokens
variable (reste disponible)
GPT-4 (premières versions)
~8k → 32k tokens
variable (reste disponible)
GPT-5
~400k tokens d’entrée
variable ~128k tokens de sortie
Les principaux LLM sur le marché en 2026
Les premiers LLM ont commencé à émerger à partir de 2017, avec un usage assez basique au départ : celui des agents conversationnels. En effet, ces derniers servaient surtout à alimenter des chatbots sur des sites web, pour des interactions simples comme par exemple effectuer un retour, signaler un problème ou déposer une réclamation.
C’est bien plus tardivement que les modèles de génération que l’on connaît aujourd’hui se sont réellement démocratisés. Plus précisément, c’est fin novembre 2022 que ChatGPT a été lancé en version gratuite, marquant un véritable tournant dans l’adoption grand public des LLM.
OpenAI a ensuite été rejoint par de nombreux géants du secteur, comme Google ou Microsoft. En 2026, le nombre de LLM disponibles est devenu massif, mais voici les principaux modèles à connaître :
Gemini (anciennement Bard) — Google
GPT (ChatGPT / API OpenAI) — OpenAI
Claude — Anthropic
Llama — Meta
Mistral — Mistral AI
Grok — xAI (Elon Musk / X)
Copilot (basé sur GPT) — Microsoft
Apple Intelligence (Siri nouvelle génération, modèles Apple) — Apple
Qwen — Alibaba
ERNIE — Baidu
DeepSeek — DeepSeek AI
Cohere Command — Cohere
Ce contenu est bloqué car vous n’avez pas accepté les cookies et autres traceurs. Ce contenu est fourni par YouTube. Pour pouvoir le visualiser, vous devez accepter l’usage étant opéré par YouTube avec vos données qui pourront être utilisées pour les finalités suivantes : vous permettre de visualiser et de partager des contenus avec des médias sociaux, favoriser le développement et l’amélioration des produits d’Humanoid et de ses partenaires, vous afficher des publicités personnalisées par rapport à votre profil et activité, vous définir un profil publicitaire personnalisé, mesurer la performance des publicités et du contenu de ce site et mesurer l’audience de ce site (en savoir plus)
En cliquant sur « J’accepte tout », vous consentez aux finalités susmentionnées pour l’ensemble des cookies et autres traceurs déposés par Humanoid et .
Vous gardez la possibilité de retirer votre consentement à tout moment. Pour plus d’informations, nous vous invitons à prendre connaissance de notre Politique cookies.
À quoi servent les LLM ? Cas d’usage concrets
Au départ, les LLM grand public servaient surtout à générer du texte — et c’est d’ailleurs ainsi qu’ils ont été adoptés dans un premier temps. Mais aujourd’hui, leurs usages se sont largement enrichis : au-delà du simple fait d’écrire ou de reformuler, un LLM peut par exemple résumer des documents, répondre à des questions complexes, ou encore fonctionner comme un professeur ou un coach. Il peut aussi aider à créer du code, corriger des erreurs et accompagner des projets de programmation, tout en étant utile pour traduire, rechercher et structurer des informations.
Enfin, de plus en plus d’utilisateurs s’en servent pour automatiser des tâches via des plateformes comme n8n ou Make, capables de connecter plusieurs outils et modèles d’IA entre eux pour construire de véritables workflows.
L’évolution des LLM vers des modèles multimodaux
Depuis quelques années, les LLM ne se limitent plus au texte. Ils évoluent progressivement vers ce qu’on appelle des systèmes multimodaux, capables de comprendre et de manipuler plusieurs types de contenus. Concrètement, un modèle moderne peut désormais analyser une image, en extraire des informations, puis répondre en texte — et parfois générer des visuels (voire de l’audio ou de la vidéo) à partir d’une simple consigne, le tout restant piloté par un LLM. Bref, un véritable écosystème entier.
Toute l'actu tech en un clin d'œil
Ajoutez Numerama à votre écran d'accueil et restez connectés au futur !
Tous nos articles sont aussi sur notre profil Google : suivez-nous pour ne rien manquer !
https://www.numerama.com/tech/2161859-quest-ce-quun-llm-large-language-model-et-comment-cela-fonctionne.html
you see this when javscript or css is not working correct