GPT-5.4 : 1 million de tokens et le seuil de l'expert humain
OpenAI publie GPT-5.4 Thinking avec une fenêtre de contexte d'un million de tokens et un score GDPVal de 83%. Ce que ces chiffres signifient concrètement.

Marvin Laurac
Veille technologique
Un million de tokens. Pour donner une intuition de l'échelle : c'est environ 750 000 mots, soit l'équivalent de sept romans de longueur moyenne, ou d'une base de code de 50 000 lignes avec tests et documentation inclus. GPT-5.4 peut traiter tout ça en une seule requête, maintenir la cohérence sur l'ensemble, et raisonner à travers des dépendances distribuées sur des centaines de fichiers.
Ce que GDPVal mesure vraiment
Le benchmark GDPVal (General Domain Professional Validation) a été conçu en 2025 par un consortium de laboratoires indépendants pour pallier les limitations des benchmarks traditionnels comme MMLU ou HumanEval. L'idée centrale : évaluer les modèles sur des tâches à valeur économique réelle, pas sur des QCM standardisés.
Concrètement, GDPVal soumet les modèles à des problèmes issus de cabinets juridiques, d'hôpitaux, de fonds d'investissement et d'équipes d'ingénierie. Les réponses sont évaluées par des experts humains qui ignorent si elles proviennent d'un humain ou d'un modèle. Un score de 83% signifie que GPT-5.4 produit des réponses jugées meilleures que celles d'un expert humain dans 83% des cas testés. La référence humaine est à 78%.
“Nous ne mesurons plus les capacités des modèles en termes d'exactitude sur des QCM. Nous mesurons la valeur économique qu'ils peuvent produire.”
L'architecture Thinking
La variante Thinking de GPT-5.4 introduit une chaîne de raisonnement interne avant chaque réponse. Le modèle génère un brouillon non visible par l'utilisateur, une séquence de tokens internes où il structure sa réflexion, identifie les contradictions, explore plusieurs approches et évalue leur pertinence avant de répondre. Ce mécanisme est similaire à ce que fait un expert humain qui réfléchit avant de parler.
Cette délibération interne a un coût : la latence augmente de 40 à 200% selon la complexité de la tâche. OpenAI a introduit un paramètre de contrôle du budget de réflexion. Les développeurs peuvent calibrer le compromis entre vitesse et profondeur de raisonnement selon leur cas d'usage.
- Fenêtre de contexte : 1 000 000 tokens (contre 128K pour GPT-4o)
- Score GDPVal : 83% (référence humaine experte : 78%)
- Budget de réflexion configurable : fast, balanced, deep
- Intégration native Excel, PowerPoint, Word via Microsoft 365
- Latence réduite de 40% sur les tâches courtes sans Thinking activé
- Support natif de 47 langues avec performances quasi-équivalentes
Applications concrètes du contexte long
Le million de tokens débloque des cas d'usage impossibles jusqu'ici. Un cabinet d'avocats peut soumettre l'intégralité d'un dossier de due diligence, 2 000 pages de contrats et annexes, et demander une synthèse des risques juridiques avec références précises aux clauses concernées. Une équipe d'ingénieurs peut soumettre une base de code entière et demander une analyse d'architecture ou la localisation de vulnérabilités de sécurité.
En finance, les gestionnaires de fonds utilisent déjà le contexte long pour analyser plusieurs années de rapports annuels d'une entreprise en une seule requête. Ce type d'analyse prenait auparavant plusieurs jours à une équipe d'analystes juniors.
Les limites que personne ne mentionne
Un million de tokens en contexte, ça coûte cher. Une requête utilisant la fenêtre maximale peut atteindre plusieurs dizaines de dollars. Pour la plupart des usages professionnels, la fenêtre utile reste entre 32K et 128K tokens. Le million de tokens est une capacité de pointe réservée à des cas d'usage spécifiques à haute valeur ajoutée.
Il y a aussi un phénomène documenté dit "lost in the middle" : les modèles ont tendance à mieux traiter les informations au début et à la fin du contexte qu'au milieu. Sur un million de tokens, cet effet peut être significatif. OpenAI affirme l'avoir atténué dans GPT-5.4, mais des tests indépendants suggèrent qu'il persiste sur les requêtes les plus longues.
Questions fréquentes
GDPVal est-il le seul benchmark qui compte ?
Non. GDPVal mesure la valeur économique, mais d'autres benchmarks restent pertinents : MMLU pour le raisonnement général, HumanEval pour le code, MATH-500 pour les mathématiques. Aucun benchmark unique ne capture toutes les capacités d'un modèle.
Combien coûte une requête de 1 million de tokens ?
Entre 30 et 50 dollars selon le mode de facturation et la proportion de tokens en entrée vs en sortie. Pour un usage quotidien, la fenêtre utile reste entre 32K et 128K tokens.
Quelle est la différence entre GPT-5.4 et GPT-5.4 Thinking ?
GPT-5.4 est le modèle standard, optimisé pour la vitesse. La variante Thinking ajoute une chaîne de raisonnement interne qui améliore les performances sur les tâches complexes, au prix d'une latence plus élevée.