By Adrien Bar Hiyé,Graham Barlow
Copyright techradar
Skip to main content
Tech Radar Pro
Tech Radar Gaming
Close main menu
the business technology experts
België (Nederlands)
Deutschland
AMERIQUE DU NORD
US (English)
Australasia
New Zealand
Search TechRadar
Innovations
Transfert de fichiers
Meilleurs serveurs DNS
Applications de visioconférences
Création de sites
Don’t miss these
AI Platforms & Assistants
ChatGPT-5 gagne en précision, GPT-4o recule, Grok accumule les erreurs
OpenAI dévoile GPT-5-Codex avec 74,5% de réussite en programmation réelle
GPT-5 dévoilé : 5 évolutions majeures à retenir
OpenAI dévoile comment ChatGPT est utilisé au quotidien, avec des surprises à la clé
Face aux critiques, OpenAI prépare le retour de GPT-4o
GPT-5 déçoit une partie des utilisateurs de ChatGPT
Les rumeurs autour de GPT-5 se multiplient à l’approche de sa sortie imminente
4 points clés révélés lors de l’AMA Reddit sur GPT-5
OpenAI dévoile une nouveauté majeure qui n’est pas GPT-5
AI Platforms & Assistants
OpenAI o3 surclasse Grok lors d’un duel d’échecs sans appel
Le PDG d’OpenAI confie sa crainte face à GPT-5
ChatGPT 5 ose enfin dire “je ne sais pas” – et c’est une avancée majeure
Le retour de ChatGPT-4o : comment l’utiliser à la place de GPT-5
Apple Intelligence
GPT-5 arrive bientôt sur Apple Intelligence, mais le vrai défi de l’IA d’Apple demeure
ChatGPT Go : l’offre abordable d’OpenAI en 5 questions clés
AI Platforms & Assistants
Selon OpenAI, Claude est l’IA la plus efficace pour le travail
Adrien Bar Hiyé
Contributions de
Graham Barlow
30 September 2025
OpenAI évalue la performance réelle des intelligences artificielles
Lorsque vous achetez via des liens sur notre site, nous pouvons gagner une commission d’affiliation. Voici comment ça fonctionne
(Crédit photo: Shutterstock/ gguy)
OpenAI a présenté GDPval, un nouveau système d’évaluation conçu pour mesurer les performances de l’IA sur des tâches professionnelles concrètes
Claude Opus 4.1 arrive en tête, suivi par la version « ChatGPT-5 high »
Parmi les exemples de tâches figurent des réponses par e-mail à des clients mécontents
Les benchmarks d’intelligence artificielle sont bien connus. Ils permettent de tester les modèles sur des exercices précis. Mais ces évaluations s’éloignent souvent des usages réels, notamment dans un cadre professionnel.
Pour combler ce fossé, OpenAI, à l’origine de ChatGPT, lance GDPval. Ce système mesure les performances des IA sur des missions directement inspirées du monde du travail, en comparant leurs résultats à ceux d’experts humains issus de 44 professions : développeurs, avocats, infirmiers ou encore ingénieurs en mécanique.
Contre toute attente, l’étude menée par OpenAI révèle que le modèle le plus performant n’est autre que Claude Opus 4.1, développé par Anthropic. Ce dernier surclasse non seulement GPT-5, mais également Gemini et Grok.
Vous aimerez peut-être
ChatGPT-5 gagne en précision, GPT-4o recule, Grok accumule les erreurs
OpenAI dévoile GPT-5-Codex avec 74,5% de réussite en programmation réelle
GPT-5 dévoilé : 5 évolutions majeures à retenir
Taux de réussite de GDPval
(Image credit: OpenAI)
Le graphique illustre le taux de réussite global selon GDPval, c’est-à-dire la fréquence à laquelle l’IA surpasse un expert du secteur.
Claude Opus 4.1 se détache nettement avec un taux de 47,6 %, devant « ChatGPT-5 high » à 38,8 % et « ChatGPT o3 high » à 34,1 %. ChatGPT-4o ferme la marche avec 12,4 %, loin derrière Grok 4 et Gemini 2.5 Pro.
L’étude montre que Claude obtient les meilleurs résultats dans huit des neuf grands secteurs testés, dont la fonction publique, la santé et l’aide sociale. Ces résultats confirment que Claude Opus 4.1 domine une large gamme de tâches liées au monde professionnel.
(Image credit: OpenAI)
Parmi les tâches évaluées figurent notamment la rédaction d’un e-mail à un client insatisfait demandant un retour, l’optimisation de la disposition d’un stand pour une foire de printemps ou encore l’audit d’anomalies de prix sur des bons de commande.
Pourquoi “GDPval” ?
Le nom choisi par OpenAI fait écho au PIB (Produit Intérieur Brut), indicateur central en économie. Avec GDPval, l’objectif est de proposer une méthode d’évaluation ancrée dans des preuves concrètes, et non dans des spéculations.
Publier des résultats plaçant un concurrent en tête pourrait s’apparenter à un exercice de transparence radicale. Mais cette démarche s’inscrit dans la logique affichée par l’entreprise. « Notre mission est de faire en sorte que l’intelligence artificielle générale bénéficie à toute l’humanité. Dans cette optique, nous souhaitons communiquer de manière transparente sur les progrès des modèles d’IA dans le monde réel », peut-on lire dans une déclaration d’OpenAI.
L’intégralité de l’étude est disponible en ligne. Elle a été menée par l’équipe de recherche économique d’OpenAI et l’économiste de Harvard David Deming, pour le compte du National Bureau of Economic Research (NBER). Ces résultats surprennent, d’autant plus que les dernières avancées de ChatGPT visaient essentiellement à renforcer ses usages professionnels, qu’il s’agisse de programmation, de présentation ou de recherche.
Le constat selon lequel Claude Opus 4.1 surpasse même « ChatGPT-5 high » sur des tâches concrètes, et non plus seulement sur des benchmarks théoriques, pourrait bien rediriger les priorités d’OpenAI, en phase avec l’évolution de son public d’utilisateurs.
Vous aimerez aussi
OpenAI travaillerait sur une nouvelle génération d’objets propulsés par ChatGPT
OpenAI dévoile GPT-5-Codex avec 74,5% de réussite en programmation réelle
Adrien Bar Hiyé
Social Links Navigation
Senior Editor
Quand je ne suis pas en train de plonger dans le monde fascinant de la finance et des nouvelles technologies, vous me trouverez probablement en train de parcourir le globe ou de conquérir de nouveaux mondes virtuels sur ma console de jeux.
Avec la contribution de
Graham BarlowSenior Editor, AI
En savoir plus
ChatGPT-5 gagne en précision, GPT-4o recule, Grok accumule les erreurs
OpenAI dévoile GPT-5-Codex avec 74,5% de réussite en programmation réelle
GPT-5 dévoilé : 5 évolutions majeures à retenir
OpenAI dévoile comment ChatGPT est utilisé au quotidien, avec des surprises à la clé
Face aux critiques, OpenAI prépare le retour de GPT-4o
GPT-5 déçoit une partie des utilisateurs de ChatGPT
Dernières nouvelles Actualités
Une nouvelle PS5 Pro en approche, mais peu de changements à prévoir
Galaxy Z Tri-Fold : vers une interface inédite et un zoom plus puissant
L’ambition sans limite de Sam Altman pour l’IA se heurte à un obstacle majeur
Les ROG Xbox Ally sont disponibles en précommande, voici leurs prix
Des cybercriminels ciblent les utilisateurs Mac via un site très populaire
Le Sony A7 V fuite et menace déjà le Nikon Z6 III
LATEST ARTICLES
Selon OpenAI, Claude est l’IA la plus efficace pour le travail
Une nouvelle PS5 Pro en approche, mais peu de changements à prévoir
Galaxy Z Tri-Fold : vers une interface inédite et un zoom plus puissant
L’ambition sans limite de Sam Altman pour l’IA se heurte à un obstacle majeur
Les ROG Xbox Ally sont disponibles en précommande, voici leurs prix
TechRadar fait partie de Future plc, un groupe média international et un éditeur numérique de premier plan. Visitez le site de notre entreprise.
Termes et conditions
Contact Future’s experts
Politique de confidentialité
Préférences cookies
A propos de nous
Contactez la régie
Future Publishing Limited Quay House, The Ambury,
BA1 1UA. Tous droits réservés. Numéro d’immatriculation de la société en Angleterre et au Pays de Galles : 2008885.