Саттон, Ричард (учёный)

Ричард С. Саттон
Ричард С. Саттон
Дата рождения	XX век
Место рождения	Огайо, США;
Страна	Канада
Научная сфера	Искусственный интеллект Обучение с подкреплением
Место работы	Университет Альберты
Образование	Стэнфордский университет Массачусетский университет в Амхерсте
Научный руководитель	Эндрю Барто
Ученики	Дэвид Сильвер, Дойна Прекуп
Известен как	Разработчик метода временных различий и; алгоритмов машинного обучения Dyna, Options, GQ(λ);; специалист в области ИИ;
Награды и премии	AAAI Fellow (2001) ; Президентская премия (INNS) (2003) ; Королевское общество Канады Fellow (2016); Премия Тьюринга (2025)
Сайт	incompleteideas.net

Ричард С. Саттон
Ричард С. Саттон
Дата рождения	XX век
Место рождения	Огайо, США;
Страна	Канада
Научная сфера	Искусственный интеллект Обучение с подкреплением
Место работы	Университет Альберты
Образование	Стэнфордский университет Массачусетский университет в Амхерсте
Научный руководитель	Эндрю Барто
Ученики	Дэвид Сильвер, Дойна Прекуп
Известен как	Разработчик метода временных различий и; алгоритмов машинного обучения Dyna, Options, GQ(λ);; специалист в области ИИ;
Награды и премии	AAAI Fellow (2001) ; Президентская премия (INNS) (2003) ; Королевское общество Канады Fellow (2016); Премия Тьюринга (2025)
Сайт	incompleteideas.net

Ричард С. Саттон (1957 или 1958^[1]^[2], Огайо^[3]) — канадский учёный, специалист в области информатики и ИИ, один из разработчиков современного метода обучения с подкреплением^[4]. Профессор Университета Альберты и штатный исследователь в компании Keen Technologies^[5]. В 2025 году вместе со своим научным руководителем Эндрю Барто был удостоен премии Тьюринга Ассоциации вычислительной техники «за разработку концептуальных и алгоритмических основ обучения с подкреплением»^[6]^[7]^[7].

Родился в 1957 или 1958 году в Огайо.

В 1978 году окончил Стэнфордский университет со степенью бакалавра по специальности «Психология». Затем, заинтересовавшись математикой и информационными технологиями, поступил в Массачусетский университет, где в 1978 году получил степень магистра в информатике, а четыре года спустя защитил докторскую диссертацию под руководством Эндрю Барто. В этой работе (под заглавием «Временная задача присваивания коэффициентов доверия в обучении с подкреплением») Саттон представил архитектуры агент-критик и предложил решение проблемы временного присваивания коэффициентов доверия^[8]^[9].

На идеи Саттона повлияли работы Гарри Клопфа где утверждалось, что обучения с учителем недостаточно для создания ИИ или объяснения интеллектуального поведения человека, а потому необходим другой подход, тем или иным образом включающий в себе «гедонистические аспекты поведения». Именно эта концепция привлекла Саттона к изучению машинного обучения с помощью подкрепления^[10].

В 1984 году он проходил постдокторантуру в Массачусетском университете^[11]. С 1985 по 1994 занимал должность ведущего специалиста в лаборатории компьютерных и интеллектуальных систем корпорации GTE^[9], однако затем вернулся в университет Массачусетса, где проработал до 1998 года^[9]. С 1998 по 2002 года изучал искусственный интеллект в интересах AT&^[9]T.

В 2003 году Саттон был приглашён в канадский Университет Альберты, где занял пост профессора информатики. Он также возглавил лабораторию обучения с подкреплением и искусственного интеллекта, которой руководил до 2018 года^[12]^[9]. В июне 2017 года, сохранив профессуру, Саттон присоединился к команде Deepmind, став главой исследовательского подразделения компании в Эдмонтоне — он руководил им до прекращения финансирования проекта со стороны Google^[8]^[13]^[14].

В 2015 году Саттон вступил в канадское гражданство^[14].

Обучение с подкреплением

Научным руководителем Саттона являлся другой известный учёный-информатик Эндрю Барто. В 1980-е годы они изучали подходы к созданию искусственного интеллекта. Им удалось существенно развить идеи теоретика в области искусственного интеллекта Гарри Клопфа и предложить свою математическую концепцию («обучение с подкреплением»), которая стал ключевым элементом для создания современных систем искусственного интеллекта.

Саттон и Барто модернизировали марковский процесс принятия решений для объяснения того, как агенты (алгоритмические сущности) принимают решения в стохастической среде таким образом, что и среда и награды могли бы оставаться неизвестными — такой метод позволил применить этот алгоритм к широкому кругу задач. Предложенный учёными подход совершенствовался и развивался, а первым крупным его применением стало создание программы AlphaGo, которая сумела обучиться игре в го и в 2016 году превзойти одного из сильнейших игроков мира.

Труды Саттона и Барто широко известны во всем мире, а сами учёные признаны основоположниками современного метода обучения с подкреплением, сделавшим возможным создание современных больших языковых моделей.

В 2019 году Ричард Саттон опубликовал эссе «Горький урок» (англ. Bitter Lesson), в котором жестко раскритиковал отрасль ИИ за чрезмерное увлечение попытками заставить машину думать по-человечески. По мнению ученого, ресурсы необходимо в первую очередь направлять на оптимизацию методов обработки и перебора большего объёма данных, а также обучения сетей, прекратив попытки смоделировать работу человеческого мозга: «Мы должны усвоить горький урок. Он заключается в том, что моделирование человеческого разума не работает в долгосрочной перспективе». Саттон утверждает, что в условиях постоянного роста вычислительных мощностей, именно общие методы (поиск и обучение) представляются бесконечно масштабируемыми, а содержание человеческого разума — «чрезвычайно и необратимо сложно». Именно этим Саттон объясняет успехи моделей, опирающихся на масштабные вычисления и самообучение, в сравнении с теми, которые пытались использовать уже имеющиеся в распоряжении человечества знания^[15]^[16]^[17].

В 2023 году Саттон и Джон Кармак объявили о партнёрстве для разработки общего искусственного интеллекта^[18].

Труды

В соавторстве с Барто написал книгу «Обучение с подкреплением: Введение» (англ. Reinforcement Learning: The Introduction), впервые изданную в 1998 году. Также является автором книги «Управление нейронными сетями» (англ. Neural Networks for Control), изданной в 1991 году.

С 2001 года Саттон является членом Ассоциации содействия развитию искусственного интеллекта (AAAI)^[19].

В 2003 году был удостоен премии президента Международного общества нейронных сетей^[20], в 2013 году получил премию Массачусетского университета за выдающиеся достижения в исследованиях^[21].

В 2016 году был избран членом Королевского общества Канады^[22], в 2021 году — членом Лондонского королевского общества^[23].

В 2025 году Саттон и Барто удостоены премии Тьюринга «за разработку концептуальных и алгоритмических основ обучения с подкреплением»^[24]^[25].

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

Машинное обучение и data mining
Задачи	Задача классификации Обучение без учителя Обучение с частичным привлечением учителя Регрессионный анализ AutoML Ассоциативные правила Выделение признаков Обучение признакам Обучение ранжированию Грамматический вывод Онлайновое обучение
Обучение с учителем	Метод k-ближайших соседей Наивный байесовский классификатор Дерево решений Метод опорных векторов Линейная регрессия Логистическая регрессия Перцептрон Ансамблевое обучение Бэггинг Бустинг Random forest Метод релевантных векторов
Кластерный анализ	Метод k-средних Метод нечёткой кластеризации Иерархическая кластеризация EM-алгоритм BIRCH CURE DBSCAN OPTICS Mean-shift
Снижение размерности	Факторный анализ Метод главных компонент CCA ICA LDA Неотрицательное матричное разложение t-SNE
Структурное прогнозирование	Графовая вероятностная модель Байесовская сеть Скрытая марковская модель CRF
Выявление аномалий	Метод k-ближайших соседей Локальный уровень выброса
Графовые вероятностные модели	Байесовская сеть Марковская сеть Скрытая марковская модель
Нейронные сети	Ограниченная машина Больцмана Самоорганизующаяся карта Функция активации Сигмоида Softmax Радиально-базисная функция Метод обратного распространения ошибки Глубокое обучение Многослойный перцептрон Рекуррентная нейронная сеть Долгая краткосрочная память Управляемый рекуррентный блок Свёрточная нейронная сеть U-Net Автокодировщик
Обучение с подкреплением	Марковский процесс Уравнение Беллмана Жадный алгоритм Q-обучение SARSA Temporal difference (TD)
Теория	Теория Вапника — Червоненкиса Дилемма смещения–дисперсии Теория вычислительного обучения Минимизация эмпирического риска Оккамово обучение PAC learning Статистическая теория обучения
Журналы и конференции	NeurIPS ICML ML JMLR ArXiv:cs.LG
Персоналии	Ричард Саттон Эндрю Барто

Саттон, Ричард (учёный)

Биография

Обучение с подкреплением

Труды

Награды и звания

Примечания