LLM et raisonnement : progrès technique, déqualification humaine ?

L’acquisition de capacités de raisonnement fiables paraît nécessaire pour automatiser certaines tâches cognitives complexes. Or, raisonner n’est pas le mode de fonctionnement inhérent aux grands modèles de langage tels que chatGPT, les LLM. L’objectif est donc désormais de leur inculquer des compétences qui s’approchent du raisonnement. Mais le raisonnement est-il réellement nécessaire pour toutes les tâches ? Lorsqu’il l’est, comment l’enseigner aux LLM ? Avec quelles conséquences pour le travail humain ? Le travail cognitif humain pourrait-il se fragmenter en micro-tâches consistant en la seule supervision des résultats produits par l’IA (avec ou sans raisonnement) ?

Les deux branches du machine learning

Pour situer le débat, rappelons brièvement les principes qui président au fonctionnement des LLM. Ces modèles reposent sur l’apprentissage machine (machine learning), une méthode qui consiste à permettre aux algorithmes d’apprendre par eux-mêmes, plutôt que les programmer explicitement à effectuer certaines tâches clairement spécifiées (comme c’était le cas notamment pour les « systèmes experts » dans l’ère de l’IA dite symbolique).

Ce passage d’algorithmes qui ne faisaient que réagir à des instructions codées explicitement (IA symbolique) vers des modèles ayant appris de façon autonome (machine learning) permet une gestion (encore encadrée) de l’incertitude et ainsi élargit drastiquement le champs des tâches que l’IA peut automatiser.

Deux branches principales de machine learning coexistent :
– L’apprentissage par renforcement (RL), où un agent explore un environnement, choisit des actions, et reçoit une récompense ou une pénalité selon leur pertinence. Il doit résoudre un problème de répartition temporelle du crédit entre ses différentes actions : la récompense est obtenue pour une séquence de plusieurs actions et le modèle doit attribuer le mérite (ou la faute) à des actions passées, pas seulement à la dernière. Sans savoir précisément laquelle de ses actions l’a conduit au succès (ou à l’échec) : les indications sur la qualité de ses actions (feedback) sont donc indirectes et imprécises par nature.
– L’apprentissage supervisé et auto-supervisé, qui consiste à prédire un élément manquant à partir de données déjà connues. Les données sont structurées, et les indications sur la performance sont immédiates et précises, contrairement à l’incertitude et au retard propres au RL. Par exemple, dans le cas de l’apprentissage supervisé, un modèle doit apprendre à reconnaître une image d’arbre qui a été préalablement proprement étiquetée (par des humains). Le modèle sait immédiatement si sa prédiction est correcte.

L’entraînement des modèles de langage (LLM) : apprentissage auto-supervisé

Les « LLM transforment les données dites d’entraînement, exprimées en langage « naturel » (articles, livres, etc.), en représentations vectorielles (des séries de nombres). Ils sont ensuite entraînés sur d’immenses corpus textuels à prédire le prochain token — une unité linguistique, souvent plus petite qu’un mot. L’objectif est d’apprendre les régularités implicites entre les éléments de langage. Ces régularités peuvent être syntaxiques (grammaire), sémantiques (liées au sens) ou structurelles (relevant de l’organisation du discours, de la logique argumentative, etc.). Une fois entraînés, ces modèles peuvent générer du texte, coder, ou résoudre des problèmes mathématiques, sans avoir été explicitement programmés pour ces tâches, parce qu’ils ont été exposés à des exemples similaires au cours de leur entraînement. » (extraits d’Économie Mondiale 2026).

Ce type d’apprentissage est donc de l’apprentissage auto-supervisé. Le modèle ajuste ses paramètres, appelés poids, pour minimiser l’erreur de prédiction du prochain token jusqu’à être, après plusieurs itérations, le plus proche possible de ses données d’entraînement.

Limites techniques des LLM classiques en termes de raisonnement

Mais une production textuelle fluide ne garantit pas un raisonnement logique robuste, en particulier pour la généralisation hors distribution (c’est‑à‑dire la résolution de problèmes réellement nouveaux, que le modèle n’a pas rencontrés dans les données d’entraînement). C’est l’un des points soulignés par l’article “The Illusion of Thinking”. Plus largement, ces modèles montrent des faiblesses en raisonnement complexe et en causalité : ils s’appuient sur des associations plutôt que sur des inférences causales résistantes aux contre‑factuels, restant majoritairement au « niveau 1 » (associations de surface). Ils se laissent piéger par des leurres conçus pour dissocier corrélations de surface et causalité, révélant des limites persistantes du raisonnement causal.

Développé par François Chollet en 2019, le référentiel (benchmark) ARC vise à mesurer les capacités de raisonnement abstrait plutôt que les compétences étroites ou les connaissances mémorisées simplement issues des données d’entraînement. Une étude NYU (2024) trouve que 790 sur 800 de toutes les tâches ARC publiques sont résolues par au moins un travailleur typique (en moins de trois essais). Les LLM classiques comme GPT-4 butent sur les tâches de raisonnement pur, avec des scores inférieurs à 5%.

Quand les machines réussissent sans raisonner

Cependant, la réussite des LLM sur un certain nombre de tâches nous amène à un paradoxe : ils parviennent à accomplir des tâches qui, pour un humain, exigent un véritable raisonnement mais sans jamais raisonner eux-mêmes. (La distinction entre « vrai raisonnement » et « reconnaissance de régularités statistiques sophistiquée » relève d’une réflexion philosophique plus poussée que cet article ! Mais la capacité à concevoir des causalités et des contre-factuels est très certainement clé dans cette distinction).

Prenons quelques exemples : dans la traduction automatique, l’humain mobilise syntaxe, grammaire et compréhension du contexte, tandis qu’un LLM s’appuie surtout sur des corrélations statistiques massives pour produire une traduction fluide sans véritable compréhension des langues. En imagerie médicale, le médecin raisonne en reliant signes cliniques, probabilités et contexte, alors qu’un modèle de deep learning peut détecter un cancer sur une radiographie uniquement par reconnaissance de motifs visuels, sans raisonnement causal. De même, en finance, l’analyste humain construit des hypothèses et cherche des causes, quand l’algorithme se contente d’identifier des régularités de marché invisibles à l’œil nu, là encore par corrélation.

Le mode de fonctionnement inhérent au LLM permet donc de contourner le raisonnement humain plutôt que le reproduire. Là où un humain raisonnerait, les LLM accomplissent par simple reconnaissance de motifs statistiques des actions et souvent plus vite et plus efficacement que nous. C’est un changement de paradigme : raisonner n’est pas toujours nécessaire pour agir efficacement.

Tâches résistantes à l’automatisation sans raisonnement des LLM classiques

Cependant, si certaines tâches sont automatisables facilement sans raisonnement par la machine, d’autres, au contraire, résistent et révèlent la limite structurelle des LLM. Certaines actions semblent ainsi nécessiter un véritable raisonnement logique, allant au-delà d’une simple reconnaissance de motifs et d’associations apprises dans les données d’entraînement. Et les LLM classiques échouaient encore largement dans ces domaines. C’était par exemple les cas pour les tâches qui impliquent des séquences multi‑étapes avec étapes intermédiaires, une cohérence globale et le respect d’invariants logiques, une planification sous contrainte, des problèmes nouveaux, hors distribution.

Les LLM classiques rencontraient entre autres des difficultés face aux problèmes mathématiques multi-étapes, au diagnostic différentiel ou encore au débogage complexe ou à la construction d’architecture logicielle. Ces tâches nécessitent une capacité à enchaîner logiquement des raisonnements, à vérifier la cohérence des étapes intermédiaires, et à adapter sa stratégie en cours de résolution. Elles exigent de formuler et tester des hypothèses, de raisonner par élimination mais requièrent aussi une vision d’ensemble, une compréhension des dépendances et un raisonnement systémique qui dépassaient leurs capacités. Autant de dimensions qui échappaient largement aux LLM.

Apprendre à raisonner après l’entraînement ?

L’émergence de modèles de raisonnement marque une rupture avec les LLM classiques. Si ces derniers utilisaient déjà, après leur entraînement, l’apprentissage par renforcement (à partir de feedback humain, RLHF) afin de favoriser l’alignement des modèles (notamment éviter les biais, suivre les instructions), l’innovation réside désormais dans son application au raisonnement lui-même.

Après avoir été entraînés à prédire le prochain token, l’approche, appelée RLVR (Reinforcement Learning with Verifiable Rewards) enseigne explicitement aux modèles à explorer différentes stratégies, planifier leurs réponses et s’auto-corriger. Le processus fonctionne ainsi : le modèle reçoit une question, génère une séquence de tokens (sa réponse), puis reçoit une évaluation globale de la qualité de cette réponse. Ce mécanisme favorise l’émergence de stratégies plus cohérentes, proches d’une forme rudimentaire de planification car l’évaluation porte non pas sur un seul token mais sur un ensemble de choix effectués par le modèle (la séquence de tokens entière) : le modèle est ainsi conduit à apprendre à optimiser ses choix de tokens en considérant leur impact sur la qualité globale de la réponse. Le RLVR est particulièrement efficace dans les domaines où la vérification peut être automatisée : mathématiques (résultat correct ?), programmation (le code s’exécute-t-il ?), logique formelle (la démonstration est-elle valide ?). La justesse d’une réponse peut en effet dans ces cas être vérifiée automatiquement et sans ambiguïté par un programme (« vérificateur »).

** Un peu plus de détails en bas de l’article sur le RLVR ainsi que sur d’autres architectures possibles, hors LLM. **

Extension du champs des tâches automatisables mais raisonnement toujours limité

Outre cet apprentissage supplémentaire, les chaînes de raisonnement (Chain of Thoughts, COT) permettent au modèle de décomposer les demandes complexes en étapes intermédiaires et ainsi d’améliorer ses capacités. Il s’agit en réalité d’une technique de prompting à l’inférence (sous forme de prompts et générations internes, souvent invisibles pour l’utilisateur) : on demande au modèle de « réfléchir étape par étape » au moment de générer la réponse. Cela ne modifie pas le modèle lui-même.

Les implications de la combinaison entre COT et l’apprentissage post-entraînement par RLVR sont considérables. Des modèles LLM de raisonnement comme DeepSeek-R1 ou OpenAI o1 peuvent désormais résoudre des problèmes mathématiques plus complexes, déboguer certains codes, ou encore mener des raisonnements comprenant davantage d’étapes, et tout cela avec une fiabilité croissante.

Ainsi, le modèle o3 d’OpenAI a montré des performances exceptionnelles sur le benchmark ARC-AGI (version 1), surpassant même le niveau humain de référence sur ce test. Mais sur la nouvelle version, ARC-AGI-2, (moins susceptible de contamination dans les données d’entraînement, étant plus récente), même les modèles les plus avancés comme o3-mini-high obtiennent des scores proches de 0%, tandis que les humains atteignent en moyenne 60%. Le raisonnement abstrait complexe reste donc un défi majeur, même pour les LLM dits de raisonnement.

Au delà du nombre d’emplois, la menace de déqualification : automatiser et.. démembrer le travail cognitif ?

Les progrès vers davantage de « raisonnement » par les IA bouleverse et bouleversera de façon croissante le travail humain. Les évolutions des LLM actuels (augmentés par RLVR et COT) élargissent déjà significativement le spectre des tâches automatisables. Là où les LLM classiques échouaient, les modèles dits de raisonnement commencent à pouvoir automatiser des tâches de plus en plus complexes : analyse quantitative avancée, recherche scientifique, débogage complexe, voire certaines étapes du diagnostic médical complexe. Des pans de métiers jusque-là protégés, tels qu’ingénierie logicielle senior, conseil stratégique ou encore R&D, pourraient être partiellement automatisés.

Toutefois, les capacités de raisonnement des LLM restent inégales comme on l’a vu. Dans des contextes ouverts, incertains, impliquant créativité, jugement éthique ou adaptation rapide à l’imprévu, les modèles demeurent derrière les humains. En outre, d’autres limites techniques perdurent : les études récentes suggèrent que l’amélioration des capacités de raisonnement ne résout pas nécessairement le problème des hallucinations, particulièrement dans des domaines factuels.

La dynamique d’amélioration des LLM vers le raisonnement pose un autre risque structurel, de nature plus qualitative que purement quantitative : l’automatisation du raisonnement ne risque pas seulement de diminuer le nombre d’emplois humains, elle transformerait la nature même du travail humain. Les cols blancs pourraient progressivement perdre la maîtrise du raisonnement qu’ils étaient censés incarner, se voyant réduits à contrôler ponctuellement des décisions produites par des systèmes opaques. L’identité professionnelle s’effondrerait alors, remplacée par une suite de micro-interventions qui peineraient à constituer l’essence d’un véritable métier.

Les entreprises, confrontées à des modèles d’IA puissants mais encore imparfaits, pourraient dans un premier temps adopter une stratégie pragmatique : décomposer les processus cognitifs complexes en petites étapes effectuées par IA et nécessitant une validation humaine. Vérifier un résumé, reformuler un paragraphe, corriger une traduction automatique ou trier des réponses conversationnelles deviendraient des tâches isolées, confiées à des travailleurs précaires.

Dans une phase de perfectionnement des modèles, chaque micro-tâche conserverait une valeur marginale positive : il serait encore moins coûteux d’impliquer un humain à la marge que de perfectionner l’IA ou de réorganiser en profondeur les processus. Les entreprises optimiseraient ainsi dans un premier temps leur productivité sans déclencher de plans sociaux massifs : on ne licencie pas, on ne remplace simplement pas. Et le travail, les métiers, s’érodent par petites touches.

Comme les ouvriers avaient perdu le contrôle de leur travail avec la chaîne d’assemblage, les cols blancs verraient l’essence de leur travail démembrée par les LLM : une nouvelle forme de Taylorisme augmenté, tel que décrit par Juan Sebastián Carbonell. L’homme serait réduit à un rôle de surveillance, de supervision de la machine, perdant en compétences, en salaire, en sens du travail. Le diplôme ne protègerait plus : même les métiers “intellectuellement intensifs” seraient réduits à une supervision d’IA.

Un juriste d’entreprise, autrefois chargé de rédiger des contrats en analysant les risques et en adaptant les clauses, se retrouverait à simplement vérifier et corriger des documents générés automatiquement par l’IA. Un consultant en stratégie, qui menait traditionnellement des analyses de marché et construisait des recommandations sur mesure, ne ferait plus que valider des rapports produits par des modèles de raisonnement, se contentant de reformuler quelques passages ou d’ajuster des conclusions. Même un chercheur pourrait voir son rôle réduit à trier des hypothèses générées par IA, superviser des expériences automatisées, et approuver des synthèses bibliographiques. Dans chaque cas, l’expertise professionnelle se muerait en supervision technique : là où il y avait création, analyse et jugement, il ne resterait que validation et correction à la marge.

Les salariés deviendraient des “superviseurs de machines” plutôt que des professionnels mobilisant un raisonnement complexe et des connaissances, devenant peut-être plus facilement interchangeables. Cela dégraderait le sens du travail et fragiliserait les carrières (moins de savoir-faire accumulé, plus de dépendance aux outils).

Enfin, le pouvoir de négociation des salariés pourrait être également considérablement dégradé si leur centralité dans le processus de production était fragilisée.

Un peu plus de détails techniques…

Fonctionnement du renforcement guidé par vérificateurs (RLVR)

Concrètement, voici comment cela fonctionne : le modèle reçoit une tâche ou une question (appelée « prompt » ou état initial s) tirée d’une distribution de données D. Cette question définit l’environnement dans lequel le modèle doit opérer. Chaque action correspond au choix d’un token spécifique a parmi l’ensemble du vocabulaire V à l’étape t. Le modèle génère ainsi une séquence complète y = (a_1, a_2, …, a_T) token par token. Chaque choix de mot influence l’état suivant (le contexte enrichi) : À chaque nouveau token généré, l’état du système évolue de manière déterministe : l’état s_{t+1} devient simplement la concaténation [s_t, a_t] de l’état précédent avec le nouveau token. À la fin, le système évalue la qualité de la réponse complète (l’ensemble de la séquence y) et attribue une récompense qui guide l’apprentissage.

En quoi le RLVR diffère-t-il de l’entraînement auto-supervisé ?

Cette approche rompt avec l’entraînement classique auto-supervisé classique. Dans l’auto-supervisé, le modèle reçoit à chaque étape le token correct attendu et apprend directement à prédire ce token : en comparant sa sortie avec la référence, il minimise l’erreur de prédiction. Le signal est donc immédiat et local, token par token. En revanche, dans le cadre du renforcement appliqué aux LLM, le modèle ne reçoit pas l’indication du “bon token” à chaque étape. Il apprend à maximiser une récompense globale basée sur la qualité de la séquence complète, ce qui implique de considérer l’impact de chaque action sur l’ensemble de la génération. Chaque token devient ainsi une action dont la valeur est jugée dans le contexte de la trajectoire entière, et le modèle doit résoudre le problème de crédit temporel pour savoir quelles actions passées ont contribué positivement ou négativement à la récompense finale.

Stimuler le raisonnement des LLM avec la « pensée en parallèle »

D’autres approches reposant également sur l’apprentissage par renforcement en phase de post-entraînement émergent pour enrichir les capacités de raisonnement des LLM. Là où le RLVR enseigne au modèle à optimiser une chaîne de raisonnement séquentielle (une succession d’étapes logiques), Parallel-R1, développé récemment, propose d’enseigner aux modèles la « pensée parallèle » : plutôt que de suivre un seul chemin de raisonnement linéaire, le modèle explore simultanément plusieurs pistes de réflexion concurrentes. La différence fondamentale réside aussi dans la récompense. Alors que le RLVR classique récompense principalement la justesse du résultat final, l’entraînement à la pensée parallèle utilise des récompenses plus complexes. Par exemple, il peut alterner entre récompenser la justesse de la réponse et récompenser spécifiquement l’utilisation de la structure parallèle elle-même. Cela force le modèle à apprendre non seulement à résoudre le problème, mais aussi à explorer, comparer et vérifier plusieurs stratégies simultanément, passant d’un raisonnement linéaire à une forme de délibération multi-perspectives plus robuste.

Autres architectures visant le raisonnement : HRM, JEPA, IA neuro-symbolique

L’approche par renforcement guidée par vérificateurs (RLVR) reste une phase post-entraînement appliquée a posteriori aux LLM. Mais l’architecture sous-jacente reste la même : un prédicteur auto-régressif de tokens. D’autres architectures, encore au stade de recherche préliminaire, explorent des voies plausibles vers des capacités de raisonnement. elles ne reposent pas sur la simple prédiction auto-régressive du prochain token, mais cherchent à intégrer des boucles de planification (Hierarchical Reasoning Model, HRM), à construire des modèles du monde qui apprennent à prédire dans l’espace de représentation plutôt qu’au niveau des tokens (ou des pixels) (JEPA) ou l’hybridation entre IA connexionniste et IA symbolique au sein d’une IA neuro-symbolique. Ces approches demeurent cependant encore loin d’avoir atteint la maturité et le caractère généraliste des LLM.