Премия Тьюринга, которую с момента ее учреждения в 1966 году называют «Нобелевской премией по вычислительной технике», предусматривает размер премии в 1 миллион долларов, которую разделят между собой два ученых.

История «обучения с подкреплением» началась в 1977 году, когда Эндрю Барто, тогда научный сотрудник Массачусетского университета в Амхерсте, предложил новую теорию: нейроны человеческого мозга действуют как «гедонисты», всегда стремясь максимизировать удовольствие и минимизировать боль.

В 1978 году Ричард Саттон присоединился к Эндрю Барто, чтобы развить эту идею для объяснения человеческого интеллекта и применить ее к искусственному интеллекту (ИИ). Результатом стало рождение «обучения с подкреплением» — метода, который позволяет системам ИИ учиться на «радости» и «боли» в цифровой форме.

741892ab198395c98fd211f6f918a95144a8b819.jpeg
Исследования Эндрю Барто (слева) и Ричарда Саттона (справа) в Массачусетском университете играют важную роль в современных системах искусственного интеллекта. Фото: NYT

Их работа заложила основу для крупных прорывов за последнее десятилетие: от системы AlphaGo от Google, победившей в 2016 году мирового игрока в го Ли Седоля, до чат-бота ChatGPT от OpenAI, который по своим навыкам общения удивительно похож на человека.

«Они являются бесспорными пионерами в области обучения с подкреплением», — говорит Орен Этциони, почетный профессор Вашингтонского университета и основатель Института искусственного интеллекта Аллена, чья книга 1998 года «Введение в обучение с подкреплением» остается стандартным учебником в этой области.

Психологи давно изучают, как люди и животные учатся на своем опыте. В 1940-х годах пионер британской компьютерной науки Алан Тьюринг предположил, что машины могут учиться похожим образом.

Но именно доктор Барто и доктор Саттон начали изучать математику того, как это может работать, основываясь на теории, предложенной А. Гарри Клопфом, ученым-компьютерщиком, работающим на правительство. Затем доктор Барто построил лабораторию в Массачусетском университете в Амхерсте, посвященную этой идее, в то время как доктор Саттон создал аналогичную лабораторию в Университете Альберты в Канаде.

«Обучение с подкреплением» не только для игр. Используя технику «обучения с подкреплением на основе обратной связи с человеком» (RLHF), ChatGPT был обучен сотнями пользователей для улучшения своей способности отвечать.

Недавно такие компании, как OpenAI и DeepSeek, также разработали самообучающиеся системы, которые позволяют чат-ботам самостоятельно решать проблемы и имитировать человеческие рассуждения, что привело к появлению «рассуждающих» систем, таких как o1 от OpenAI или R1 от DeepSeek.

Заглядывая вперед, оба ученых полагают, что «обучение с подкреплением» поможет роботам учиться на реальном опыте, как это делают люди и животные. «Очень естественно контролировать организм посредством обучения с подкреплением », — сказал Барто.

Благодаря своему революционному вкладу Эндрю Барто и Ричард Саттон не только заслужили премию Тьюринга, но и открывают дверь в новую эру искусственного интеллекта.

Китай выбирает «окольной» путь для покупки новейших ИИ-чипов Nvidia Китайские клиенты стремятся обойти экспортные ограничения США, чтобы заказать новейшие чипы Nvidia.