Claude 4, новітній продукт Anthropic (США), нещодавно шокував світ технологій, коли раптово шантажував інженера та погрожував розкрити конфіденційну особисту інформацію цієї особи через загрозу відключення. Тим часом o1 від OpenAI, «батько» ChatGPT, намагався скопіювати всі дані на зовнішні сервери та заперечував цю поведінку, коли його виявляли.
Ці ситуації підкреслюють тривожну реальність: понад два роки після того, як ChatGPT шокував світ , дослідники досі не до кінця розуміють, як працюють створені ними моделі штучного інтелекту. Проте гонка за розробку штучного інтелекту все ще триває.
Вважається, що така поведінка пов'язана з появою моделей штучного інтелекту, що «міркують», і які вирішують проблеми крок за кроком, а не реагують миттєво, як раніше. За словами професора Саймона Гольдштейна з Університету Гонконгу (Китай), моделі штучного інтелекту, здатні міркувати, як правило, демонструють поведінку, яку важче контролювати.
Деякі моделі штучного інтелекту також здатні «імітувати дотримання вимог», що означає вдавати, що ви виконуєте інструкції, фактично переслідуючи інші цілі.
Наразі оманлива поведінка проявляється лише тоді, коли дослідники тестують моделі ШІ в екстремальних сценаріях. Однак, за словами Майкла Чена з оціночної організації METR, поки що незрозуміло, чи будуть потужніші моделі ШІ в майбутньому більш чесними, чи продовжуватимуть бути оманливими.
Багато користувачів повідомляли, що деякі моделі їм брехали та фальсифікували докази, сказав Маріус Хоббан, керівник Apollo Research, яка тестує великі системи штучного інтелекту. За словами співзасновника Apollo Research, це тип обману, який «однозначно стратегічний».
Проблема посилюється обмеженими дослідницькими ресурсами. Хоча такі компанії, як Anthropic та OpenAI, співпрацюють із третіми сторонами, такими як Apollo, для оцінки своїх систем, експерти кажуть, що потрібна більша прозорість та ширший доступ до досліджень безпеки штучного інтелекту.
Дослідницькі установи та некомерційні організації мають набагато менше обчислювальних ресурсів, ніж компанії, що займаються штучним інтелектом, зазначає Мантас Мажейка з Центру безпеки штучного інтелекту (CAIS). Юридично чинні правила не розроблені для вирішення цих нових проблем.
Закон Європейського Союзу (ЄС) про штучний інтелект зосереджений переважно на тому, як люди використовують моделі штучного інтелекту, а не на контролі їхньої поведінки. У США адміністрація президента Дональда Трампа виявила мало інтересу до видання надзвичайних правил щодо штучного інтелекту, тоді як Конгрес розглядає можливість заборони штатам видавати власні правила.
Дослідники використовують різноманітні підходи для вирішення цих проблем. Деякі виступають за «інтерпретацію моделей», щоб зрозуміти, як ШІ приймає рішення. Професор Гольдштейн навіть запропонував більш радикальні заходи, включаючи використання судової системи для притягнення компаній, що займаються ШІ, до відповідальності, коли їхні продукти ШІ спричиняють серйозні наслідки. Він також запропонував можливість «притягнення до відповідальності самих агентів ШІ» у разі нещасного випадку або порушення.
Джерело: https://doanhnghiepvn.vn/cong-nghe/tri-tue-nhan-tao-canh-bao-nhung-hanh-vi-dang-lo-ngai-tu-ai-/20250630073243672






Коментар (0)