5 марта Ассоциация вычислительной техники объявила о присуждении премии Тьюринга ученым Эндрю Барто и Ричарду Саттону за их исследования в области «обучения с подкреплением», которое позволяет ИИ учиться на «радости» и «боли» в цифровой форме.
Премия Тьюринга, которую с момента ее учреждения в 1966 году называют «Нобелевской премией по вычислительной технике», предусматривает размер премии в 1 миллион долларов, которую разделят между собой два ученых.
История «обучения с подкреплением» началась в 1977 году, когда Эндрю Барто, тогда научный сотрудник Массачусетского университета в Амхерсте, предложил новую теорию: нейроны человеческого мозга действуют как «гедонисты», всегда стремясь максимизировать удовольствие и минимизировать боль.
В 1978 году Ричард Саттон присоединился к Эндрю Барто, чтобы развить эту идею для объяснения человеческого интеллекта и применить ее к искусственному интеллекту (ИИ). Результатом стало рождение «обучения с подкреплением» — метода, который позволяет системам ИИ учиться на «радости» и «боли» в цифровой форме.
Их работа заложила основу для крупных прорывов за последнее десятилетие: от системы AlphaGo от Google, победившей в 2016 году мирового игрока в го Ли Седоля, до чат-бота ChatGPT от OpenAI, который по своим навыкам общения удивительно похож на человека.
«Они являются бесспорными пионерами в области обучения с подкреплением», — говорит Орен Этциони, почетный профессор Вашингтонского университета и основатель Института искусственного интеллекта Аллена, чья книга 1998 года «Введение в обучение с подкреплением» остается стандартным учебником в этой области.
Психологи давно изучают, как люди и животные учатся на своем опыте. В 1940-х годах пионер британской компьютерной науки Алан Тьюринг предположил, что машины могут учиться похожим образом.
Но именно доктор Барто и доктор Саттон начали изучать математику того, как это может работать, основываясь на теории, предложенной А. Гарри Клопфом, ученым-компьютерщиком, работающим на правительство. Затем доктор Барто построил лабораторию в Массачусетском университете в Амхерсте, посвященную этой идее, в то время как доктор Саттон создал аналогичную лабораторию в Университете Альберты в Канаде.
«Обучение с подкреплением» не только для игр. Используя технику «обучения с подкреплением на основе обратной связи с человеком» (RLHF), ChatGPT был обучен сотнями пользователей для улучшения своей способности отвечать.
Недавно такие компании, как OpenAI и DeepSeek, также разработали самообучающиеся системы, которые позволяют чат-ботам самостоятельно решать проблемы и имитировать человеческие рассуждения, что привело к появлению «рассуждающих» систем, таких как o1 от OpenAI или R1 от DeepSeek.
Заглядывая вперед, оба ученых полагают, что «обучение с подкреплением» поможет роботам учиться на реальном опыте, как это делают люди и животные. «Очень естественно контролировать организм посредством обучения с подкреплением », — сказал Барто.
Благодаря своему революционному вкладу Эндрю Барто и Ричард Саттон не только заслужили премию Тьюринга, но и открывают дверь в новую эру искусственного интеллекта.
Источник: https://vietnamnet.vn/giai-nobel-cua-nganh-dien-toan-2025-da-co-chu-2377820.html
Комментарий (0)