Le défi de l'inévitable : les stratégies d'OpenAI pour contrôler la superintelligence

Alors que les investisseurs se préparaient à se tourner vers l'énergie nucléaire après le départ abrupt de Sam Altman d'OpenAI, et alors qu'Altman envisageait son retour dans l'entreprise, les membres de l'équipe Superalignment travaillaient assidûment sur la question du contrôle de la superintelligence.

OpenAI a constitué l'équipe Superalignment au mois de juillet. Son objectif est de développer des méthodes pour guider, réguler et gouverner les systèmes d'IA « superintelligents ». C'est-à-dire ceux théoriquement dotés d'une intelligence surpassant largement celle des humains. Bien que son leadership n'ait suscité aucun doute, cela soulève certaines interrogations. Et c'est plus ou moins logique, étant donné que Sutskever était parmi ceux qui ont soutenu le renvoi d'Altman. Malgré des rapports suggérant que Sutskever pourrait être dans un état d'incertitude après le retour d'Altman, les représentants d'OpenAI assurent que Sutskever reste à la tête de l'équipe Superalignment.

Superintelligence : menace réelle ou défi futur ? La réponse d'OpenAI

Le superalignement est un sujet délicat au sein de la communauté de recherche en IA. Certains considérant ce sous-domaine comme prématuré. Mais d'autres y voient une diversion intentionnelle des problèmes urgents de réglementation de l'IA.

Bien qu'Altman ait évoqué des parallèles entre OpenAI et le projet Manhattan, allant jusqu'à former une équipe pour évaluer les modèles d'IA contre les « risques catastrophiques », d'autres estiment qu'il y a peu de preuves suggérant que la technologie d'OpenAI acquerra des capacités potentiellement apocalyptiques à l'encontre des humains à court terme, voire jamais.

Pour sa part, Sutskever croit sincèrement que l'IA, non pas OpenAI en tant qu'entité, pourrait constituer une menace existentielle à l'avenir. Il a même symbolisé son engagement en commandant et en brûlant une effigie en bois. Mais aussi et en consacrant une part significative de la puissance de calcul d'OpenAI aux recherches de l'équipe Superalignment.

« Les progrès de l'IA ont été exceptionnellement rapides récemment, et ils ne montrent aucun signe de ralentissement », a déclaré Aschenbrenner. « Je pense que nous allons bientôt atteindre des systèmes de niveau humain, mais cela ne s'arrêtera pas là ! Nous allons directement vers des systèmes surhumains… Comment pouvons-nous aligner ces systèmes surhumains et les rendre sûrs ? C'est vraiment un problème crucial pour toute l'humanité, peut-être le problème technique non résolu le plus important de notre époque ».

Aligner l'inalignable : l'approche désespérée d'OpenAI pour contrôler la superintelligence

L'équipe Superalignment s'efforce actuellement de développer des cadres de gouvernance et de contrôle applicables aux futurs systèmes d'IA puissants. Cette tâche est complexe, étant donné que la définition de la « superintelligence » et la manière de déterminer si un système d'IA particulier l'a atteinte font l'objet d'un débat intense. Cependant, l'approche actuelle de l'équipe implique l'utilisation d'un modèle d'IA moins avancé. Dont GPT-2 pour guider un modèle plus sophistiqué (comme GPT-4) dans des directions souhaitables, et l'éloigner des directions indésirables.

Cette même équipe utilise une analogie basée sur l'IA pour illustrer le processus d'alignement des systèmes superintelligents. Selon cette analogie, le modèle faible remplace les superviseurs humains. Tandis que le modèle fort représente l'IA superintelligente. Tout comme les humains peuvent ne pas être capables de comprendre un système d'IA superintelligent, le modèle faible ne peut pas comprendre toutes les subtilités du modèle fort. Ce qui rend cette configuration utile pour tester les hypothèses d'alignement superintelligent.

Sam Altman explains what happened during the past few weeks at OpenAI.

"As we get closer and closer to superintelligence, everybody involved gets more stressed and more anxious." pic.twitter.com/YWWC8c96G4

— unusual_whales (@unusual_whales) December 17, 2023

Dans cette configuration, un modèle faible spécialisé dans une tâche génère des étiquettes qui sont utilisées pour « communiquer » les grandes lignes de cette tâche au modèle fort. Malgré les erreurs et les biais potentiels dans les étiquettes du modèle faible, le modèle fort peut généraliser correctement en fonction de l'intention du modèle faible, comme l'a découvert l'équipe.

Sécurité et subventions : OpenAI poursuit sa quête pour des systèmes d'IA bénéfiques

Pour le moment, l'équipe Superalignment se concentre sur le développement de cadres de gouvernance et de contrôle pour les futurs systèmes d'IA puissants. Cela représente un défi majeur, étant donné la diversité d'opinions sur la définition de la superintelligence et la manière de la mesurer. Cependant, l'équipe reste déterminée à résoudre ce problème crucial.

OpenAI a d'ailleurs lancé un programme de subventions de 10 millions de dollars pour soutenir la recherche technique sur l'alignement superintelligent. Des fonds seront alloués à des laboratoires universitaires, des organisations à but non lucratif, des chercheurs individuels et des étudiants diplômés. De plus, OpenAI prévoit d'organiser une conférence académique sur le superalignement début 2025.

Notons tout de même qu'une partie de la subvention provient d'Eric Schmidt, ancien PDG et président de Google. Schmidt a exprimé des préoccupations d'OpenAI quant à l'émergence potentielle de superintelligence Certains observateurs notent que le don de Schmidt pourrait être interprété comme une démarche en faveur de ses intérêts commerciaux.

Schmidt nie toutefois tout conflit d'intérêt. Il affirme que le soutien financier vise à garantir que l'IA soit alignée sur les valeurs humaines. L'équipe Superalignment assure que les recherches d'OpenAI, y compris le code, seront partagées au grand public. Cela même si elles reçoivent un financement de Schmidt ou d'autres sources. La transparence et le partage de connaissances sont alors au cœur de la mission d'OpenAI.

Partager l'article :