Business

Selon OpenAI, Claude est l’IA la plus efficace pour le travail

By Adrien Bar Hiyé,Graham Barlow

Copyright techradar

Selon OpenAI, Claude est l’IA la plus efficace pour le travail

Skip to main content

Tech Radar Pro

Tech Radar Gaming

Close main menu

the business technology experts

België (Nederlands)

Deutschland

AMERIQUE DU NORD

US (English)

Australasia

New Zealand

Search TechRadar

Innovations

Transfert de fichiers
Meilleurs serveurs DNS
Applications de visioconférences
Création de sites

Don’t miss these

AI Platforms & Assistants
ChatGPT-5 gagne en précision, GPT-4o recule, Grok accumule les erreurs

OpenAI dévoile GPT-5-Codex avec 74,5% de réussite en programmation réelle

GPT-5 dévoilé : 5 évolutions majeures à retenir

OpenAI dévoile comment ChatGPT est utilisé au quotidien, avec des surprises à la clé

Face aux critiques, OpenAI prépare le retour de GPT-4o

GPT-5 déçoit une partie des utilisateurs de ChatGPT

Les rumeurs autour de GPT-5 se multiplient à l’approche de sa sortie imminente

4 points clés révélés lors de l’AMA Reddit sur GPT-5

OpenAI dévoile une nouveauté majeure qui n’est pas GPT-5

AI Platforms & Assistants
OpenAI o3 surclasse Grok lors d’un duel d’échecs sans appel

Le PDG d’OpenAI confie sa crainte face à GPT-5

ChatGPT 5 ose enfin dire “je ne sais pas” – et c’est une avancée majeure

Le retour de ChatGPT-4o : comment l’utiliser à la place de GPT-5

Apple Intelligence
GPT-5 arrive bientôt sur Apple Intelligence, mais le vrai défi de l’IA d’Apple demeure

ChatGPT Go : l’offre abordable d’OpenAI en 5 questions clés

AI Platforms & Assistants

Selon OpenAI, Claude est l’IA la plus efficace pour le travail

Adrien Bar Hiyé

Contributions de
Graham Barlow

30 September 2025

OpenAI évalue la performance réelle des intelligences artificielles

Lorsque vous achetez via des liens sur notre site, nous pouvons gagner une commission d’affiliation. Voici comment ça fonctionne

(Crédit photo: Shutterstock/ gguy)

OpenAI a présenté GDPval, un nouveau système d’évaluation conçu pour mesurer les performances de l’IA sur des tâches professionnelles concrètes
Claude Opus 4.1 arrive en tête, suivi par la version « ChatGPT-5 high »
Parmi les exemples de tâches figurent des réponses par e-mail à des clients mécontents

Les benchmarks d’intelligence artificielle sont bien connus. Ils permettent de tester les modèles sur des exercices précis. Mais ces évaluations s’éloignent souvent des usages réels, notamment dans un cadre professionnel.

Pour combler ce fossé, OpenAI, à l’origine de ChatGPT, lance GDPval. Ce système mesure les performances des IA sur des missions directement inspirées du monde du travail, en comparant leurs résultats à ceux d’experts humains issus de 44 professions : développeurs, avocats, infirmiers ou encore ingénieurs en mécanique.
Contre toute attente, l’étude menée par OpenAI révèle que le modèle le plus performant n’est autre que Claude Opus 4.1, développé par Anthropic. Ce dernier surclasse non seulement GPT-5, mais également Gemini et Grok.

Vous aimerez peut-être

ChatGPT-5 gagne en précision, GPT-4o recule, Grok accumule les erreurs

OpenAI dévoile GPT-5-Codex avec 74,5% de réussite en programmation réelle

GPT-5 dévoilé : 5 évolutions majeures à retenir

Taux de réussite de GDPval

(Image credit: OpenAI)
Le graphique illustre le taux de réussite global selon GDPval, c’est-à-dire la fréquence à laquelle l’IA surpasse un expert du secteur.

Claude Opus 4.1 se détache nettement avec un taux de 47,6 %, devant « ChatGPT-5 high » à 38,8 % et « ChatGPT o3 high » à 34,1 %. ChatGPT-4o ferme la marche avec 12,4 %, loin derrière Grok 4 et Gemini 2.5 Pro.
L’étude montre que Claude obtient les meilleurs résultats dans huit des neuf grands secteurs testés, dont la fonction publique, la santé et l’aide sociale. Ces résultats confirment que Claude Opus 4.1 domine une large gamme de tâches liées au monde professionnel.

(Image credit: OpenAI)
Parmi les tâches évaluées figurent notamment la rédaction d’un e-mail à un client insatisfait demandant un retour, l’optimisation de la disposition d’un stand pour une foire de printemps ou encore l’audit d’anomalies de prix sur des bons de commande.
Pourquoi “GDPval” ?
Le nom choisi par OpenAI fait écho au PIB (Produit Intérieur Brut), indicateur central en économie. Avec GDPval, l’objectif est de proposer une méthode d’évaluation ancrée dans des preuves concrètes, et non dans des spéculations.
Publier des résultats plaçant un concurrent en tête pourrait s’apparenter à un exercice de transparence radicale. Mais cette démarche s’inscrit dans la logique affichée par l’entreprise. « Notre mission est de faire en sorte que l’intelligence artificielle générale bénéficie à toute l’humanité. Dans cette optique, nous souhaitons communiquer de manière transparente sur les progrès des modèles d’IA dans le monde réel », peut-on lire dans une déclaration d’OpenAI.
L’intégralité de l’étude est disponible en ligne. Elle a été menée par l’équipe de recherche économique d’OpenAI et l’économiste de Harvard David Deming, pour le compte du National Bureau of Economic Research (NBER). Ces résultats surprennent, d’autant plus que les dernières avancées de ChatGPT visaient essentiellement à renforcer ses usages professionnels, qu’il s’agisse de programmation, de présentation ou de recherche.
Le constat selon lequel Claude Opus 4.1 surpasse même « ChatGPT-5 high » sur des tâches concrètes, et non plus seulement sur des benchmarks théoriques, pourrait bien rediriger les priorités d’OpenAI, en phase avec l’évolution de son public d’utilisateurs.
Vous aimerez aussi

OpenAI travaillerait sur une nouvelle génération d’objets propulsés par ChatGPT
OpenAI dévoile GPT-5-Codex avec 74,5% de réussite en programmation réelle

Adrien Bar Hiyé

Social Links Navigation
Senior Editor

Quand je ne suis pas en train de plonger dans le monde fascinant de la finance et des nouvelles technologies, vous me trouverez probablement en train de parcourir le globe ou de conquérir de nouveaux mondes virtuels sur ma console de jeux.
Avec la contribution de

Graham BarlowSenior Editor, AI

En savoir plus

ChatGPT-5 gagne en précision, GPT-4o recule, Grok accumule les erreurs

OpenAI dévoile GPT-5-Codex avec 74,5% de réussite en programmation réelle

GPT-5 dévoilé : 5 évolutions majeures à retenir

OpenAI dévoile comment ChatGPT est utilisé au quotidien, avec des surprises à la clé

Face aux critiques, OpenAI prépare le retour de GPT-4o

GPT-5 déçoit une partie des utilisateurs de ChatGPT

Dernières nouvelles Actualités

Une nouvelle PS5 Pro en approche, mais peu de changements à prévoir

Galaxy Z Tri-Fold : vers une interface inédite et un zoom plus puissant

L’ambition sans limite de Sam Altman pour l’IA se heurte à un obstacle majeur

Les ROG Xbox Ally sont disponibles en précommande, voici leurs prix

Des cybercriminels ciblent les utilisateurs Mac via un site très populaire

Le Sony A7 V fuite et menace déjà le Nikon Z6 III

LATEST ARTICLES

Selon OpenAI, Claude est l’IA la plus efficace pour le travail

Une nouvelle PS5 Pro en approche, mais peu de changements à prévoir

Galaxy Z Tri-Fold : vers une interface inédite et un zoom plus puissant

L’ambition sans limite de Sam Altman pour l’IA se heurte à un obstacle majeur

Les ROG Xbox Ally sont disponibles en précommande, voici leurs prix

TechRadar fait partie de Future plc, un groupe média international et un éditeur numérique de premier plan. Visitez le site de notre entreprise.

Termes et conditions

Contact Future’s experts

Politique de confidentialité

Préférences cookies

A propos de nous

Contactez la régie

Future Publishing Limited Quay House, The Ambury,

BA1 1UA. Tous droits réservés. Numéro d’immatriculation de la société en Angleterre et au Pays de Galles : 2008885.