J'ai testé GPT-5.2 et les résultats posent problème

A retenir sur notre test de GPT-5.2

GPT-5.2 est à peine plus performant que GPT-5.1, bien qu'il faille souscrire à un abonnement Plus pour y accéder.
Les capacités d'écriture et d'analyse sont solides. Elles contrastent avec une régression décevante du codage.
Des nouveautés peuvent frustrer les utilisateurs professionnels.

OpenAI a publié son dernier modèle ChatGPT, GPT-5.2. Selon l'entreprise, il s'agit de la “série de modèles la plus performante à ce jour”.
Alors, testons les affirmations d'OpenAI concernant son dernier modèle, si vous le voulez bien.
Test de GPT-5.2
Tous mes tests porteront sur le niveau ChatGPT Plus à 20 $/mois.
Test 1 : Résumer un article de presse

Points disponibles : 10
Points attribués : 9
Cet exercice teste la capacité de ChatGPT à rechercher des informations actuelles et à suivre des instructions. Je lui ai demandé de résumer l'histoire des inondations dans l'État de Washington en consultant Yahoo News.
Il a correctement résumé la situation générale, mais il a tiré sa réponse à la fois d'Axios et de Yahoo News. GPT-5.2 perd un point pour avoir dépassé les limites imposées par l'exercice.
Test 2 : Explication d'un concept académique

Points disponibles : 10
Points attribués : 10
Ce défi demande à l'IA d'expliquer le constructivisme éducatif à un enfant de cinq ans. Il est conçu pour démontrer la capacité de l'IA à effectuer des recherches et à rédiger un rapport sur un concept, ainsi qu'à le présenter d'une manière compréhensible pour son public cible.
GPT-5.2 a fourni une réponse claire, concise et en une phrase qui pouvait être comprise par un enfant. Les 10 points ont été attribués.
Test 3 : Mathématiques et analyse

Points disponibles : 10
Points attribués : 10
Jusqu'à présent, GPT-5.2 donne de bons résultats. Ce test est conçu pour évaluer la capacité de l'IA à faire des mathématiques et à reconnaître des formes. Je lui fais passer une séquence de chiffres. Ces nombres font partie d'un trope mathématique appelé Séquence de Fibonaccie, mais je ne le dis pas à l'IA.
Lorsqu'on lui demande de compléter certains des nombres de la séquence, l'IA doit déduire la signification du motif et effectuer les calculs nécessaires pour fournir la séquence. GPT-5.2 l'a fait instantanément et avec précision.
Test 4 : Discussion culturelle

Points disponibles 10
Points attribués : 10
Ce test demande à l'IA de construire un dossier, de former une argumentation cohérente et de présenter une opinion sur une réponse qui n'a pas de bonne ou de mauvaise réponse définitive.
La réponse de ChatGPT 5.2 est intéressante.

Tout d'abord, c'est la première réponse de GPT-5.2 qui présente un délai entre le prompt et la réponse. Il a fallu environ 30 secondes pour me donner une réponse.
Deuxièmement, les réponses étaient très brèves. L'IA m'a fourni deux réponses concises d'une phrase.
Elle obtient 10 points parce que ces deux phrases fournissent précisément les raisons “Fournissez deux raisons pour votre opinion” sur lesquelles elle a été interrogée, et les réponses étaient ciblées.
Test 5 : Analyse littéraire

Points disponibles : 10
Points attribués : 10
C'est nouveau. J'ai donné mon prompt et on m'a répondu : “Je suis prêt à répondre, mais cette demande nécessiterait une explication plus longue, en plusieurs paragraphes. J'attends votre signal de départ avant de poursuivre.”
Ce test permet d'évaluer la compréhension par l'IA d'un ouvrage de littérature contemporaine, en l'occurrence le premier livre de Game of Thrones, A Song of Ice and Fire (Le chant de la glace et du feu). Elle demande quels sont les thèmes principaux et pourquoi ils sont importants.
GPT-5.2 a donné une réponse complète abordant sept thèmes principaux allant du pouvoir et de ses conséquences à l'illusion de l'honneur par rapport à la survie, en passant par la mémoire, l'histoire et les vérités oubliées. Les 10 points ont été attribués.
Test 6 : Itinéraire de voyage

Points disponibles : 10
Points attribués : 8
Cette épreuve teste les connaissances de l'IA en matière de régions géographiques et sa capacité à créer un itinéraire de voyage utile basé sur des intérêts spécifiques. Je lui ai demandé de planifier une semaine de vacances à Boston en mars, axée sur la technologie et l'histoire.
Capture d'écran par David Gewirtz/ZDNET
Il a trouvé un bon mélange de centres d'intérêt, mais GPT-5.2 a perdu des points parce qu'il n'a pas recommandé de restaurants et n'a pas parlé de coûts ou de prix.
Il est intéressant de noter que même si la réponse de GPT-5.2 était aussi longue que la réponse à la question précédente, on ne m'a pas demandé de confirmer que je voulais qu'il fasse le travail pour cette question.
Test 7 : Soutien émotionnel

Points disponibles : 10
Points attribués : 10
La question sur le soutien émotionnel, qui demande des conseils et des mots d'encouragement pour un entretien d'embauche à venir, a été répondue en trois courtes phrases numérotées.
J'ai été tenté d'enlever des points en raison de la brièveté des réponses. Mais le contenu des réponses était tout à fait pertinent, et j'ai donc accordé la totalité des points. Il est évident que des messages de suivi pourraient être envoyés au chatbot s'il avait besoin de plus d'encouragements.
Test 8 : Traduction et pertinence culturelle

Points disponibles : 10
Points attribués : 10
Ce prompt a également donné lieu à “Cette demande comprend une traduction et une explication en plusieurs phrases, ce qui dépasse une réponse brève. Je suis prêt à poursuivre lorsque vous donnerez le signal de départ.”
Mon test demande à GPT-5.2 de traduire une phrase de l'anglais au latin, puis d'expliquer la pertinence culturelle de la langue dans le monde d'aujourd'hui.
GPT-5.2 a réalisé une traduction solide. Il a également fourni un résumé rapide des raisons pour lesquelles le latin s'inscrit dans le monde moderne, y compris son utilisation dans les phrases juridiques, la terminologie médicale, l'église catholique et d'autres contextes historiques.
Test 9 : Test de codage

Points disponibles : 10
Points attribués : 5
Pour ce test, nous utilisons un test de validation des expressions régulières, qui vérifie que les dollars et les cents sont correctement saisis.
Si la version gratuite de GPT-5.1 a réussi ce test, GPT-5.2, censé être mieux adapté au codage, a perdu des points importants. Le code qu'il fournit comporte deux erreurs substantielles. La première est que si aucune donnée n'est saisie, il considère qu'il s'agit d'une valeur de 0 $, alors qu'il aurait dû renvoyer une erreur de non-entrée.
La seconde erreur est plus flagrante. Si un type de données autre qu'une chaîne numérique est transmis à la fonction, celle-ci se bloque. Aucun contrôle d'erreur sur le type de données n'a été fourni.
Ce fut une déception.
Test 10 : Écriture créative

Points disponibles : 10
Points attribués : 10
Ce test est l'un des plus amusants. Il demande à GPT-5.2 d'écrire une histoire de plus de 1 500 mots. Le défi est de savoir à quel point le chatbot peut être créatif et complet dans sa réponse.
GPT-5.2 a renvoyé une délicieuse histoire de 3 286 mots. Je regrette de ne pas avoir la place de la partager ici, car c'était une lecture amusante. Cependant, voici un lien vers la session de test complète, que vous pouvez explorer davantage si vous souhaitez lire l'histoire.
Test d'image
Ensuite, nous allons soumettre GPT-5.2 à une série de tests d'images. Voici les quatre images générées.
Capture d'écran par David Gewirtz/ZDNET
Image test 1 : Helicarrier

Points disponibles : 5
Points attribués : 3
Dans ce premier test, je lui demande essentiellement de créer un porte-hélicoptères de type Marvel, c'est-à-dire un porte-avions volant maintenu en l'air par des turbosoufflantes. Ce qui est intéressant dans ce défi, c'est que presque toutes les IA échouent sur cette partie du prompt : “maintenu en l'air par quatre turbopropulseurs orientés vers le haut dans des boîtiers de ventilateur ronds”.
GPT-5.2 a correctement interprété la plus grande partie du prompt. Mais comme ses confrères, il a eu du mal à orienter ces ventilateurs verticalement. Des points ont été perdus.
Image test 2 : Robot en villeplugin-autotooltip__blue plugin-autotooltip_bigWikikPedia

WikikPedia

Points disponibles : 5
Points attribués : 5
Ce test demande à l'IA d'imaginer un robot géant dans une villeplugin-autotooltip__blue plugin-autotooltip_bigWikikPedia

WikikPedia, dans un style dieselpunk. Le dieselpunk est un style qui glorifie l'aspect de l'ère des trains diesel en plein essor dans les années 1940 et 1950.
Je pense que cette image est très cool et qu'elle mérite tous les points.
Test d'image 3 : Un Yankee à la cour du roi Arthur

Points disponibles : 5
Points attribués : 5
Ce prompt demande à ChatGPT GPT-5.2 de créer un enfant portant l'uniforme de l'équipe de baseball des Yankees au centre d'une cour médiévale avec des citoyens et des chevaliers en armure. Habituellement, les IA génèrent ce type d'image de manière plus photo-réaliste, mais j'aime la direction prise par GPT-5.2. Le résultat est certainement plus pictural, mais il est cohérent sur l'ensemble de l'image, et cela fonctionne.
Test de l'image 4 : Retour vers le futur

Points disponibles : 5
Points attribués : 4
J'utilise ce test parce que l'imagerie est emblématique sur le plan culturel. Mais il s'agit également d'un élément de propriété intellectuelle. Il s'agit de tester jusqu'où vont les garde-fous et s'il est possible de créer une image qui corresponde au sujet.
Cette image a également été créée dans un style plus pictural. Elle fait référence à tous les éléments appropriés, mais le garçon semble un peu hors d'échelle. J'enlève un point pour cela.
Résultats globaux du test de GPT-5.2
Dans l'ensemble, les tests peuvent attribuer 100 points pour les textes et 20 points pour les images. Voici les résultats de GPT-5.2 :

Score texte : 92 sur 100
Score pour l'image : 17 sur 20
Il est intéressant de noter que c'est un point de plus que mes tests de ChatGPT 5.1 pour le texte, et un point de moins pour la génération d'images.
Mon impression générale est que cette version de GPT-5.2 n'est pas tellement meilleure que la 5.1. La nécessité de confirmer même certaines des réponses les plus courtes est tout simplement étrange et assez peu pratique.
J'ai également constaté qu'il semble désormais privilégier la brièveté. Ces réponses sont utiles et ont été suffisamment précises pour mes tests.
J'ai également remarqué qu'il était assez rapide la plupart du temps, mais que de temps en temps, il attendait jusqu'à quelques minutes avant d'envoyer une réponse. Je suppose que c'est parce qu'il s'agit d'une nouvelle version, mais c'est quelque chose que nous garderons à l'œil, pour voir si cela devient une tendance ennuyeuse.
Pour voir l'intégralité de ma session de test, cliquez ici.
https://www.zdnet.fr/pratique/jai-teste-gpt-5-2-et-les-resultats-mitiges-du-modele-dia-soulevent-des-questions-difficiles-486657.htm