Саттон, Ричард (учёный)
Ричард С. Саттон (1957 или 1958[1][2], Огайо[3]) — канадский учёный, специалист в области информатики и ИИ, один из разработчиков современного метода обучения с подкреплением[4]. Профессор Университета Альберты и штатный исследователь в компании Keen Technologies[5]. В 2025 году вместе со своим научным руководителем Эндрю Барто был удостоен премии Тьюринга Ассоциации вычислительной техники «за разработку концептуальных и алгоритмических основ обучения с подкреплением»[6][7][7].
Что важно знать
| Ричард С. Саттон | |
|---|---|
| Дата рождения | XX век |
| Место рождения | |
| Страна | Канада |
| Научная сфера | |
| Место работы | Университет Альберты |
| Образование | |
| Научный руководитель | Эндрю Барто |
| Ученики | Дэвид Сильвер, Дойна Прекуп |
| Известен как |
|
| Награды и премии |
AAAI Fellow (2001) |
| Сайт | incompleteideas.net |
Биография
Родился в 1957 или 1958 году в Огайо.
В 1978 году окончил Стэнфордский университет со степенью бакалавра по специальности «Психология». Затем, заинтересовавшись математикой и информационными технологиями, поступил в Массачусетский университет, где в 1978 году получил степень магистра в информатике, а четыре года спустя защитил докторскую диссертацию под руководством Эндрю Барто. В этой работе (под заглавием «Временная задача присваивания коэффициентов доверия в обучении с подкреплением») Саттон представил архитектуры агент-критик и предложил решение проблемы временного присваивания коэффициентов доверия[8][9].
На идеи Саттона повлияли работы Гарри Клопфа где утверждалось, что обучения с учителем недостаточно для создания ИИ или объяснения интеллектуального поведения человека, а потому необходим другой подход, тем или иным образом включающий в себе «гедонистические аспекты поведения». Именно эта концепция привлекла Саттона к изучению машинного обучения с помощью подкрепления[10].
В 1984 году он проходил постдокторантуру в Массачусетском университете[11]. С 1985 по 1994 занимал должность ведущего специалиста в лаборатории компьютерных и интеллектуальных систем корпорации GTE[9], однако затем вернулся в университет Массачусетса, где проработал до 1998 года[9]. С 1998 по 2002 года изучал искусственный интеллект в интересах AT&[9]T.
В 2003 году Саттон был приглашён в канадский Университет Альберты, где занял пост профессора информатики. Он также возглавил лабораторию обучения с подкреплением и искусственного интеллекта, которой руководил до 2018 года[12][9]. В июне 2017 года, сохранив профессуру, Саттон присоединился к команде Deepmind, став главой исследовательского подразделения компании в Эдмонтоне — он руководил им до прекращения финансирования проекта со стороны Google[8][13][14].
В 2015 году Саттон вступил в канадское гражданство[14].
Научным руководителем Саттона являлся другой известный учёный-информатик Эндрю Барто. В 1980-е годы они изучали подходы к созданию искусственного интеллекта. Им удалось существенно развить идеи теоретика в области искусственного интеллекта Гарри Клопфа и предложить свою математическую концепцию («обучение с подкреплением»), которая стал ключевым элементом для создания современных систем искусственного интеллекта.
Саттон и Барто модернизировали марковский процесс принятия решений для объяснения того, как агенты (алгоритмические сущности) принимают решения в стохастической среде таким образом, что и среда и награды могли бы оставаться неизвестными — такой метод позволил применить этот алгоритм к широкому кругу задач. Предложенный учёными подход совершенствовался и развивался, а первым крупным его применением стало создание программы AlphaGo, которая сумела обучиться игре в го и в 2016 году превзойти одного из сильнейших игроков мира.
Труды Саттона и Барто широко известны во всем мире, а сами учёные признаны основоположниками современного метода обучения с подкреплением, сделавшим возможным создание современных больших языковых моделей.
В 2019 году Ричард Саттон опубликовал эссе «Горький урок» (англ. Bitter Lesson), в котором жестко раскритиковал отрасль ИИ за чрезмерное увлечение попытками заставить машину думать по-человечески. По мнению ученого, ресурсы необходимо в первую очередь направлять на оптимизацию методов обработки и перебора большего объёма данных, а также обучения сетей, прекратив попытки смоделировать работу человеческого мозга: «Мы должны усвоить горький урок. Он заключается в том, что моделирование человеческого разума не работает в долгосрочной перспективе». Саттон утверждает, что в условиях постоянного роста вычислительных мощностей, именно общие методы (поиск и обучение) представляются бесконечно масштабируемыми, а содержание человеческого разума — «чрезвычайно и необратимо сложно». Именно этим Саттон объясняет успехи моделей, опирающихся на масштабные вычисления и самообучение, в сравнении с теми, которые пытались использовать уже имеющиеся в распоряжении человечества знания[15][16][17].
В 2023 году Саттон и Джон Кармак объявили о партнёрстве для разработки общего искусственного интеллекта[18].
В соавторстве с Барто написал книгу «Обучение с подкреплением: Введение» (англ. Reinforcement Learning: The Introduction), впервые изданную в 1998 году. Также является автором книги «Управление нейронными сетями» (англ. Neural Networks for Control), изданной в 1991 году.
Награды и звания
С 2001 года Саттон является членом Ассоциации содействия развитию искусственного интеллекта (AAAI)[19].
В 2003 году был удостоен премии президента Международного общества нейронных сетей[20], в 2013 году получил премию Массачусетского университета за выдающиеся достижения в исследованиях[21].
В 2016 году был избран членом Королевского общества Канады[22], в 2021 году — членом Лондонского королевского общества[23].
В 2025 году Саттон и Барто удостоены премии Тьюринга «за разработку концептуальных и алгоритмических основ обучения с подкреплением»[24][25].


