Il y a septante-cinq ans, le pionnier de l'informatique Alan Turing proposait un test qui demeure aujourd'hui une référence en matière d'intelligence artificielle. Ce test consiste à dialoguer par écrit avec une machine, sans savoir si l'interlocuteur est un humain ou un robot. À l'heure actuelle, les grands modèles de langage (LLM), tels que ChatGPT, semblent réussir ce défi. Peut-on cependant les considérer comme véritablement intelligents ?
EN BREF
- Les modèles de langage comme ChatGPT réussissent le test de Turing.
- Ils présentent des limites notables dans des tâches basiques, comme le calcul.
- Les auteurs des LLM soulignent la nécessité d'enrichir ces systèmes par des programmes spécialisés.
Le problème avec le test de Turing réside dans son évaluation biaisée, qui valorise à outrance la capacité à produire du langage. En effet, nous pouvons facilement être dupés par des machines qui imitent le discours humain et fournissent des réponses mécaniques en apparence sensées. C'est pourquoi les experts ne considèrent plus ce test comme suffisant pour évaluer l'intelligence des systèmes d'IA.
Les LLM face à des défis fondamentaux
Actuellement, l'intelligence artificielle générale est définie comme la capacité à égaler ou surpasser les performances cognitives humaines dans tous les domaines. Cela inclut non seulement la compréhension du langage naturel, mais aussi la résolution de problèmes nouveaux, l'apprentissage de tâches inédites et le transfert de compétences d'une discipline à l'autre sans reprogrammation. Ces dernières années, les LLM ont étonné par leur maîtrise du langage et leur interaction avec les utilisateurs, atteignant des performances supérieures à la moyenne des élèves lors d'évaluations, comme le test PISA de l'OCDE.
Néanmoins, leurs performances restent médiocres sur des tâches élémentaires. À titre d'exemple, lorsque j'ai demandé à ChatGPT-5 de me donner le nombre de départements français ayant un nom en six lettres, non seulement il a fourni un nombre erroné – huit au lieu de quinze – mais il a également inclus un intrus dans son décompte : la Corrèze.
Cette situation met en lumière une nécessité d'analyser le fonctionnement des LLM. Ces systèmes produisent du texte plausible basé sur les questions posées et le corpus sur lequel ils ont été entraînés. Bien que ce corpus s'étende lentement pour inclure la totalité des œuvres écrites disponibles, ces modèles ne stockent que des séquences de textes, et non une connaissance structurée. Par conséquent, ils ne peuvent pas compter avec fiabilité. Quand ils répondent à des questions mathématiques, ils ne procèdent ni à des calculs ni à un raisonnement logique, mais se contentent de générer des réponses basées sur la probabilité de suites de mots.
Des échecs révélateurs dans les capacités des IA
Les tests pour évaluer l'intelligence des IA sont souvent biaisés par le fait que les problèmes et leurs solutions sont parfois déjà en ligne, ce qui les rend accessibles dans le corpus d'entraînement des LLM. Pour répondre à ce défi, François Chollet, un ingénieur français, a conçu des tests appelés ARC, supposés évaluer la capacité des IA à résoudre de nouveaux défis. Cependant, jusqu'à présent, les résultats restent modestes, indiquant que les LLM n'atteignent pas encore le niveau d'intelligence humaine.
De fait, une grande partie des compétences humaines échappe à la logique formelle, et ce en dépit de leur complexité. Prenons, par exemple, les systèmes de vision artificielle utilisés dans les voitures autonomes, qui peinent à identifier des objets dans différents contextes. Dans un esprit d'innovation, Gary Marcus proposait déjà en 2014 d'adapter le test de Turing pour inclure la compréhension visuelle de vidéos. Son constat, en 2025, reste le même : aucun système n'est encore capable de suivre un épisode de séries populaires et de saisir les nuances comiques – une tâche aisée pour un adolescent.
Vers des systèmes hybrides pour l'avenir de l'IA ?
Certaine part des créateurs des LLM eux-mêmes exprime des doutes quant à leur potentiel d'atteindre une intelligence générale, quelles que soient les avancées techniques. Il est intéressant de noter que plusieurs programmes spécialisés ont su, depuis longtemps, effectuer des calculations précises ou résoudre des problèmes complexes, sans être pour autant des LLM. Des algorithmes excellant dans des domaines spécifiques, comme les échecs ou la reconnaissance vocale, pourraient potentiellement se combiner avec la puissance linguistique des LLM pour offrir des interactions plus fiables.
Cette synergie pourrait permettre d’atteindre des niveaux d’efficacité inédits, tout en conservant la richesse des interactions humaines. En periode de transformations technologiques rapides, il devient essentiel de se projeter vers un avenir dans lequel l'intelligence artificielle ne serait pas seulement une prouesse de langage, mais également un véritable outil d’assistance enrichi par des modèles spécialisés.
La route vers une intelligence artificielle vraiment performante est encore semée d'embûches, mais elle pourrait très bien passer par l'intégration d'approches multiples à la fois spécialisées et linguistiques.