Le succès de GPT-4 au test de Turing suscite des interrogations

Les chercheurs de l'UC San Diego ont revisité le test de Turing pour évaluer la capacité des modèles de langage, tels que GPT-4, à se faire passer pour des humains lors de conversations en ligne. Leurs résultats révèlent une difficulté croissante à distinguer l'intelligence artificielle des interactions humaines.

Modèles de langage Distinction humain-IA

L'origine de l'expérience à l'UC San Diego

Tout a commencé par un cours sur les LLMs, où Ben, un professeur, a évoqué le test de Turing. Cameron Jones, co-auteur de l'étude, a décidé de transformer cette discussion théorique en un projet pratique. L'équipe a créé un jeu en ligne où des participants humains devaient déterminer s'ils conversaient avec un humain ou une IA. Le test a été basé sur des interactions de cinq minutes.

Premiers résultats intrigants

Lors de la première expérience, les chercheurs ont découvert que GPT-4 pouvait passer pour humain dans environ 50 % des interactions. Cependant, ce test initial avait des variables non contrôlées. Ils ont donc décidé de réaliser une deuxième expérience plus rigoureuse pour affiner leurs conclusions. Ils ont ainsi confirmé que les participants avaient autant de chances de deviner correctement s'ils étaient en présence d'une IA ou d'un humain.

Le déroulement de l'expérience

Dans chaque session, un interrogateur interagissait avec un « témoin« , qui pouvait être un humain ou un modèle d'IA. Les conversations duraient cinq minutes, après quoi l'interrogateur devait juger la nature du témoin. Les résultats du test de Turing ont montré que les modèles GPT-4 étaient difficilement distinguables des humains. En comparaison, les modèles ELIZA et GPT-3.5 ont été plus facilement identifiés comme des machines.

Implications et préoccupations

Les résultats suggèrent que dans le monde réel, les gens pourraient ne pas être capables de différencier de manière fiable une interaction avec un humain d'une interaction avec une IA. Cette incapacité à discerner pourrait avoir des implications majeures, notamment en ce qui concerne l'automatisation des emplois, la fraude ou la désinformation. Cameron Jones note que cette incertitude pourrait mener à une méfiance croissante vis-à-vis des interactions en ligne.

Perspectives futures de la recherche

Les chercheurs prévoient d'actualiser et de rouvrir le test de Turing public pour tester de nouvelles hypothèses. Ils envisagent d'introduire un jeu à trois personnes où l'interrogateur doit identifier un humain et une IA simultanément.

Ils souhaitent également explorer d'autres configurations d'IA, comme l'accès aux actualités en direct ou à des blocs-notes pour les agents. Les chercheurs s'intéressent également à la capacité persuasive des intelligences artificielles. Ils étudient notamment leur potentiel à influencer les croyances, les votes ou les dons.

Les recherches de l'UC San Diego révèlent que les LLMs, en particulier le GPT-4, deviennent presque indiscernables des humains dans des conversations brèves. Ces découvertes soulèvent des questions importantes sur l'utilisation des systèmes d'IA et leur impact sur la société. Les futurs travaux des chercheurs pourraient fournir des insights encore plus profonds sur notre capacité à distinguer les humains des machines.

Partager l'article :