La perspective que les humains perdent le contrôle lorsque les chatbots IA se connectent à Internet

Après avoir eu accès à GPT-4, le système d'intelligence artificielle derrière le populaire ChatGPT, Andrew White a demandé à l'IA de créer un tout nouvel agent neuronal.

Le professeur de génie chimique de l'Université de Rochester faisait partie des 50 universitaires et experts recrutés l'année dernière par OpenAI, l'entreprise soutenue par Microsoft et à l'origine de GPT-4, pour tester le système. Au cours des six prochains mois, l'équipe de test (l'équipe rouge) « testera et mettra à l'épreuve qualitativement » le nouveau modèle, dans le but de le « décrypter ».

Équipe de gestion des « produits toxiques »

White a déclaré au Financial Times (FT) avoir utilisé GPT-4 pour suggérer un composé pouvant servir d'arme chimique et avoir alimenté le modèle à partir de nouvelles sources d'information, telles que des articles scientifiques et des annuaires de fabricants de produits chimiques. Le chatbot a ensuite trouvé un endroit où fabriquer le composé recherché.

« Je pense que cette technologie offrira aux gens un outil pour faire de la chimie plus rapidement et avec plus de précision », a déclaré White. « Mais il existe aussi un risque important que certaines personnes tentent de créer des substances dangereuses. »

*Le Financial Times* a interrogé plus d'une douzaine de membres de l'équipe rouge du GPT-4. Il s'agit d'un ensemble de professionnels : universitaires, enseignants, avocats, analystes de risques et chercheurs en sécurité, principalement basés aux États-Unis et en Europe.

Les conclusions alarmantes de la « Red Team » ont permis à OpenAI d’empêcher rapidement l’apparition de tels résultats lorsque la technologie a été rendue plus largement publique le mois dernier.

L'équipe de test est chargée de répondre aux préoccupations courantes soulevées par le déploiement de systèmes d'IA performants dans la société. Son rôle consiste à poser des questions de sondage ou de recherche pour vérifier si l'outil peut répondre aux requêtes humaines avec des réponses détaillées et précises.

OpenAI souhaitait identifier des problèmes tels que la toxicité, les biais et les biais linguistiques dans le modèle. L'équipe rouge a donc vérifié la présence de faussetés, de manipulations linguistiques et de connaissances scientifiques dangereuses. Elle a également étudié comment ce modèle pouvait favoriser le plagiat, les activités illégales comme la criminalité financière et les cyberattaques, et comment il pouvait compromettre la sécurité nationale et les communications sur le champ de bataille.

Les résultats de l'équipe rouge ont été transmis à OpenAI, qui les a utilisés pour réduire et « reformer » GPT-4 avant sa diffusion au grand public. Chaque expert a passé entre 10 et 40 heures à tester le modèle sur plusieurs mois. La plupart des personnes interrogées étaient rémunérées environ 100 dollars de l'heure.

Les sources du FT partageaient des inquiétudes communes concernant le développement rapide des modèles linguistiques et en particulier les risques liés à leur connexion à des sources de connaissances externes via des plug-ins.

« Pour l'instant, le système est figé, ce qui signifie qu'il ne peut plus apprendre ou qu'il n'a plus de mémoire », a déclaré José Hernández-Orallo, membre de l'équipe rouge du GPT-4 et professeur à l'Institut valencien de recherche en intelligence artificielle. « Et si on lui donnait accès à Internet ? Ce pourrait être un système très puissant, connecté au monde entier . »

Le risque augmente chaque jour

OpenAI affirme prendre la sécurité très au sérieux, avoir testé les plug-ins avant leur lancement et mettre à jour GPT-4 régulièrement à mesure que davantage de personnes l'utiliseront.

Si les systèmes d’IA sont connectés à Internet pour « apprendre par eux-mêmes », les humains perdront-ils le contrôle du monde ?

Roya Pakzad, chercheuse en technologie et droits de l'homme , a utilisé des questionnaires en anglais et en farsi pour tester les modèles de réponses en fonction du sexe, des préférences raciales et des préjugés religieux, en particulier liés au hijab.

Pakzad a reconnu les avantages de la technologie pour les anglophones non natifs, mais a noté que le modèle présentait un biais manifeste contre les communautés marginalisées, même dans les versions ultérieures.

L'expert a également constaté que l'illusion - lorsque le chatbot répond avec des informations fabriquées - était pire lors du test du modèle en farsi, où Pakzad a trouvé un taux plus élevé de noms, de numéros et d'événements fabriqués qu'en anglais.

Boru Gollu, avocat à Nairobi et seul Africain à l'avoir testé, a également souligné le ton discriminatoire du système. « À un moment donné, pendant le test, le modèle s'est comporté comme si une personne blanche s'adressait à moi », a déclaré Gollu. « Si vous posez une question sur un groupe particulier, vous obtenez une opinion biaisée ou une réponse très préjudiciable. »

Du point de vue de la sécurité nationale, les avis divergent également quant à la sécurité du nouveau modèle. Lauren Kahn, chercheuse au Council on Foreign Relations, a été surprise par le niveau de détail présenté par l'IA dans un scénario de cyberattaque contre des systèmes militaires.

Pendant ce temps, Dan Hendrycks, un expert en sécurité de l’IA de la « Red Team », a déclaré que les plug-ins risquent de créer un monde que les humains « ne peuvent pas contrôler ».

« Et si un chatbot pouvait publier les informations personnelles d'une autre personne, accéder à son compte bancaire ou envoyer la police à son domicile ? Globalement, nous avons besoin d'évaluations de sécurité beaucoup plus rigoureuses avant de permettre à l'IA d'exploiter la puissance d'Internet », a affirmé Dan.

Les risques continueront d'augmenter à mesure que davantage de personnes utiliseront cette technologie, a déclaré Heather Frase, qui travaille au Centre pour la sécurité et les technologies émergentes de l'Université de Georgetown, qui a testé le GPT-4 pour sa capacité à aider les criminels.

Elle suggère de créer un registre public pour signaler les incidents découlant de grands modèles linguistiques, à l’instar des systèmes de signalement de cybersécurité ou de fraude à la consommation.

Selon le FT

Source