26/12/2025/H00:46:20

Que vaut vraiment ChatGPT en matière de codage informatique ?

Une étude confirme que les entreprises exagèrent sur les capacités de l'IA et surtout sur son aptitude à remplacer les humains dans la filière
Une remarque clé ressort de cette étude : ChatGPT peut savérer très bon à résoudre des problèmes de codage qui existaient sur la plateforme LeetCode avant 2021. Passé cette période, ChatGPT fait montre de piètres performances en raison de la qualité du jeu de données dentraînement. Grosso modo, létude permet darriver à la conclusion que lintelligence artificielle reste un outil à utiliser avec des pincettes. Pourtant elle atterrit dans un contexte de battage médiatique autour de lintelligence et de sa capacité à remplacer les humains dans la filière du développement de logiciels.
En effet, après ChatGPT, cétait au tour de lIA dingénierie logicielle dénommée Devin de secouer la filière du développement de logiciels en raison de son aptitude annoncée à remplacer les humains dans la filière. Sa présentation faisait suite à celle de lintelligence artificielle dénommée Magic.dev et annoncée au public comme un « ingénieur logiciel superhumain. ».
Magic.dev et Devin partagent un dénominateur commun : une proposition de valeur qui passe par une présentation musclée ; « ingénieur logiciel superhumain » ou encore « première IA dingénierie logicielle entièrement autonome. » Les retours à ce sujet font néanmoins état de ce que toutes ces IA, dans leur forme actuelle, sont plutôt des assistants de codage.
Une récente étude est en effet arrivée à la conclusion que lIA générative ne remplacera pas les développeurs de sitôt. Des chercheurs de l'université de Princeton ont développé un cadre d'évaluation basé sur près de 2300 problèmes courants de génie logiciel montés à partir de rapports de bogues et de feature requests soumis sur GitHub afin de tester la performance de divers modèles de grands langages (LLM).
Les chercheurs ont fourni à différents modèles de langage le problème à résoudre et le code du dépôt. Ils ont ensuite demandé au modèle de produire un correctif réalisable. Ce dernier a ensuite fait lobjet de tests pour s'assurer qu'il était correct. Mais le LLM n'a généré une solution efficace que dans 4 % des cas.
Leur modèle spécialement entraîné, SWE-Llama, n'a pu résoudre que les problèmes d'ingénierie les plus simples présentés sur GitHub, alors que les LLM classiques tels que Claude 2 d'Anthropic et GPT-4 d'OpenAI n'ont pu résoudre que 4,8 % et 1,7 % des problèmes, de façon respective.
Et léquipe de recherche de conclure : « le génie logiciel nest pas simple dans la pratique. La correction d'un bogue peut nécessiter de naviguer dans un grand référentiel, comprendre l'interaction entre des fonctions dans différents fichiers ou repérer une petite erreur dans du code alambiqué. Cela va bien au-delà des tâches de complétion de code. »
Cest la raison pour laquelle Linux Torvalds a tenu à se désolidariser de tout le battage médiatique autour de lintelligence artificielle. Il la considère comme un outil au stade actuel de son évolution. Il suggère dailleurs la révision de code comme domaine dapplication de lintelligence artificielle. La capacité de lintelligence artificielle à « deviner » lintention du développeur lui sera utile pour obtenir du code fiable en un temps réduit. Une condition demeurera toutefois nécessaire : le développeur devra à son tour examiner ce que lintelligence artificielle lui propose.
Malgré les avancées de l'IA, la vigilance humaine reste indispensable
Lerreur de ChatGPT qui a coûté 10 000 dollars à une startup est un rappel que, malgré les avancées de lIA, la vigilance humaine reste indispensable. Les outils dIA sont puissants, mais ils ne remplacent pas le jugement critique et lexpertise des développeurs. En fin de compte, cest la responsabilité des équipes humaines de sassurer que la technologie quelles utilisent est sûre et fiable.
D'ailleurs, l'erreur ne saurait être imputable entièrement à ChatGPT : les développeurs auraient du prendre la peine d'analyser le code au lieu de se limiter à quelques tests avant la copie. Ils semblent le reconnaitre lorsqu'ils déclarent :
« Je voudrais commencer par dire que les pratiques en question sont très mauvaises et embarrassantes (et nous avons depuis ajouté des tests unitaires et d'intégration robustes ainsi que des alertes et des enregistrements), qu'elles auraient pu et dû être évitées, qu'il s'agissait d'erreurs humaines au-delà de tout, et qu'elles sont très évidentes avec le recul.
« Cela s'est passé à une autre époque, avec d'importantes contraintes de temps, aux tout premiers stades (premières semaines) de la création d'une entreprise. Je partage surtout cette histoire comme une anecdote amusante avec des circonstances uniques entourant la reproductibilité des bogues en prod (encore une fois à cause de notre propre stupidité) ».
Quoi qu'il en soit, tout est bien qui finit bien : « Rétrospectivement, aussi pénibles qu'aient été ces cinq jours, c'est l'un de ces moments de la vie d'une startup que nous n'oublierons jamais. Comme toutes les startups, nous avons fait une tonne d'erreurs tout au long de notre parcours, celle-ci étant peut-être la pire. J'évoquerai peut-être les autres plus tard. Nous sommes simplement heureux de pouvoir regarder ces jours-là en arrière et d'en rire. Oui, nous aurions dû faire plus de tests. Oui, nous n'aurions pas dû copier-coller du code. Oui, nous n'aurions pas dû passer directement à l'application principale. Quoi qu'il en soit, je ne regrette pas cette expérience ».
Source : Etude
Et vous ?
Comment voyez-vous l'intelligence artificielle dans 5 à 10 ans ? Comme un outil ou comme un danger pour votre poste de développeur ?
Quelle est votre opinion sur la fiabilité de lintelligence artificielle dans les processus critiques dentreprise ?
Avez-vous des expériences personnelles où lIA a joué un rôle crucial, positivement ou négativement, dans votre travail ?
Comment pensez-vous que les entreprises peuvent équilibrer linnovation technologique avec les risques potentiels associés à lautomatisation ?
Selon vous, quelles mesures de sécurité devraient être mises en place lors de lintégration de solutions dIA dans les systèmes dentreprise ?
Pensez-vous que lerreur mentionnée est un cas isolé ou révélateur dun problème plus large dans lindustrie de lIA ?
Quelles stratégies votre entreprise a-t-elle adoptées pour prévenir les erreurs coûteuses liées à lIA ?
En tant que développeur ou utilisateur dIA, comment assurez-vous la qualité et la précision du code généré par lIA ?
Quel rôle les tests et la validation jouent-ils dans votre utilisation de lIA, et comment ces processus pourraient-ils être améliorés ?
Voir aussi :
La conduite autonome serait-elle à ce jour qu'une vision futuriste chez Tesla Motors ? L'entreprise vient de changer les objectifs de son Autopilot La SEC demande à Musk de renoncer à son poste de président de Tesla et exige une amende de 40 millions $ US pour un règlement à l'amiable Tesla annonce que le nouvel ordinateur pour une conduite entièrement autonome de ses véhicules est en production et fera ses preuves ce mois-ci Les actions Tesla chutent après que son système d'autopilote soit impliqué dans un accident et l'annonce des batteries de ses véhicules prenant feu
developpez