Саттон, Ричард (учёный)

Ричард С. Саттон (1957 или 1958[1][2], Огайо[3]) — канадский учёный, специалист в области информатики и ИИ, один из разработчиков современного метода обучения с подкреплением[4]. Профессор Университета Альберты и штатный исследователь в компании Keen Technologies[5]. В 2025 году вместе со своим научным руководителем Эндрю Барто был удостоен премии Тьюринга Ассоциации вычислительной техники «за разработку концептуальных и алгоритмических основ обучения с подкреплением»[6][7][7].

Что важно знать
Ричард С. Саттон
Дата рождения XX век
Место рождения
Страна Канада
Научная сфера
Место работы Университет Альберты
Образование
Научный руководитель Эндрю Барто
Ученики Дэвид Сильвер, Дойна Прекуп
Известен как
Награды и премии
Сайт incompleteideas.net

Биография

Родился в 1957 или 1958 году в Огайо.

В 1978 году окончил Стэнфордский университет со степенью бакалавра по специальности «Психология». Затем, заинтересовавшись математикой и информационными технологиями, поступил в Массачусетский университет, где в 1978 году получил степень магистра в информатике, а четыре года спустя защитил докторскую диссертацию под руководством Эндрю Барто. В этой работе (под заглавием «Временная задача присваивания коэффициентов доверия в обучении с подкреплением») Саттон представил архитектуры агент-критик и предложил решение проблемы временного присваивания коэффициентов доверия[8][9].

На идеи Саттона повлияли работы Гарри Клопфа где утверждалось, что обучения с учителем недостаточно для создания ИИ или объяснения интеллектуального поведения человека, а потому необходим другой подход, тем или иным образом включающий в себе «гедонистические аспекты поведения». Именно эта концепция привлекла Саттона к изучению машинного обучения с помощью подкрепления[10].

В 1984 году он проходил постдокторантуру в Массачусетском университете[11]. С 1985 по 1994 занимал должность ведущего специалиста в лаборатории компьютерных и интеллектуальных систем корпорации GTE[9], однако затем вернулся в университет Массачусетса, где проработал до 1998 года[9]. С 1998 по 2002 года изучал искусственный интеллект в интересах AT&[9]T.

В 2003 году Саттон был приглашён в канадский Университет Альберты, где занял пост профессора информатики. Он также возглавил лабораторию обучения с подкреплением и искусственного интеллекта, которой руководил до 2018 года[12][9]. В июне 2017 года, сохранив профессуру, Саттон присоединился к команде Deepmind, став главой исследовательского подразделения компании в Эдмонтоне — он руководил им до прекращения финансирования проекта со стороны Google[8][13][14].

В 2015 году Саттон вступил в канадское гражданство[14].

Обучение с подкреплением

Научным руководителем Саттона являлся другой известный учёный-информатик Эндрю Барто. В 1980-е годы они изучали подходы к созданию искусственного интеллекта. Им удалось существенно развить идеи теоретика в области искусственного интеллекта Гарри Клопфа и предложить свою математическую концепцию («обучение с подкреплением»), которая стал ключевым элементом для создания современных систем искусственного интеллекта.

Саттон и Барто модернизировали марковский процесс принятия решений для объяснения того, как агенты (алгоритмические сущности) принимают решения в стохастической среде таким образом, что и среда и награды могли бы оставаться неизвестными — такой метод позволил применить этот алгоритм к широкому кругу задач. Предложенный учёными подход совершенствовался и развивался, а первым крупным его применением стало создание программы AlphaGo, которая сумела обучиться игре в го и в 2016 году превзойти одного из сильнейших игроков мира.

Труды Саттона и Барто широко известны во всем мире, а сами учёные признаны основоположниками современного метода обучения с подкреплением, сделавшим возможным создание современных больших языковых моделей.

В 2019 году Ричард Саттон опубликовал эссе «Горький урок» (англ. Bitter Lesson), в котором жестко раскритиковал отрасль ИИ за чрезмерное увлечение попытками заставить машину думать по-человечески. По мнению ученого, ресурсы необходимо в первую очередь направлять на оптимизацию методов обработки и перебора большего объёма данных, а также обучения сетей, прекратив попытки смоделировать работу человеческого мозга: «Мы должны усвоить горький урок. Он заключается в том, что моделирование человеческого разума не работает в долгосрочной перспективе». Саттон утверждает, что в условиях постоянного роста вычислительных мощностей, именно общие методы (поиск и обучение) представляются бесконечно масштабируемыми, а содержание человеческого разума — «чрезвычайно и необратимо сложно». Именно этим Саттон объясняет успехи моделей, опирающихся на масштабные вычисления и самообучение, в сравнении с теми, которые пытались использовать уже имеющиеся в распоряжении человечества знания[15][16][17].

В 2023 году Саттон и Джон Кармак объявили о партнёрстве для разработки общего искусственного интеллекта[18].

Труды

В соавторстве с Барто написал книгу «Обучение с подкреплением: Введение» (англ. Reinforcement Learning: The Introduction), впервые изданную в 1998 году. Также является автором книги «Управление нейронными сетями» (англ. Neural Networks for Control), изданной в 1991 году.

Награды и звания

С 2001 года Саттон является членом Ассоциации содействия развитию искусственного интеллекта (AAAI)[19].

В 2003 году был удостоен премии президента Международного общества нейронных сетей[20], в 2013 году получил премию Массачусетского университета за выдающиеся достижения в исследованиях[21].

В 2016 году был избран членом Королевского общества Канады[22], в 2021 году — членом Лондонского королевского общества[23].

В 2025 году Саттон и Барто удостоены премии Тьюринга «за разработку концептуальных и алгоритмических основ обучения с подкреплением»[24][25].

Примечания