Задача Винограда

Задача Винограда — тест на проверку интеллекта машин, предложенный в 2012 году канадским информатиком Гектором Левеском из Торонтского университета. Эта задача была разработана как усовершенствование теста Тьюринга и представляет собой многовариантный тест с вопросами особой структуры: каждый вопрос — это пример так называемой схемы Винограда в честь Терри Винограда, профессора Стэнфордского университета)^[1]. Вопросы схемы Винограда требуют лишь разрешения анафоры: машине нужно определить антецедент неоднозначного местоимения в предложении. То есть это задача обработки естественного языка, однако Левеск указывает, что в случае схем Винограда задача требует привлечения знаний и элементарных рассуждений на основе здравого смысла^[2]. В 2019 году задача считается решённой: несколько трансформерных языковых моделей показали точность свыше 90 % в решении этих заданий.

Задача Винограда возникла как альтернатива тесту Тьюринга. Тест Тьюринга, предложенный Аланом Тьюрингом в 1950 году, занимает ключевое место в философии искусственного интеллекта. Тьюринг предполагал, что вместо бесконечных споров о том, может ли машина «думать», ИИ как наука должен доказывать наличие интеллектуального поведения на практике, что и поддается тестированию. Однако сама идея теста Тьюринга позднее подверглась критике, особенно после того как чат-бот «Юджин Густман» (англ. Eugene Goostman) заявил о прохождении его в 2014 году. Один из главных недостатков теста состоит в том, что машина способна «обманом» или перебором подобрать ответы, не проявляя настоящего интеллекта^[3].

В 2012 году была предложена задача Винограда как попытка преодолеть недостатки выявленные у систем, хорошо справляющихся с тестом Тьюринга^[4].

Оригинальный вариант теста заключался в так называемой «игре подражания», где человек и программа ведут свободную беседу по тексту, а судьи должны на слух определить, кто человек. Если судьи не в состоянии отличить программу от человека по итогам пяти минут беседы, машина считается прошедшей тест^[3].

В июле 2014 года компания Nuance Communications объявила о запуске ежегодного конкурса WSC с призом 25 тысяч долларов США за решение на уровне человека^[5]. Однако впоследствии конкурс более не проводится.

Недостатки теста Тьюринга

Результаты бота Юджин Густман продемонстрировали уязвимости теста Тьюринга. Левеск выделяет несколько основных проблем:^[2]

Обман: машине приходится выстраивать ложную личность, что не является проявлением интеллекта.

Беседа: большая часть общения может быть «допустимой беседой» (шутки, остроумные замечания, формальные диалоги), не требуя рассуждений.
Оценка: люди могут ошибаться, а судьи — расходиться во мнениях.

Ключевая особенность задачи — особая структура вопросов, базирующихся на схемах Винограда. Такие вопросы требуют знаний и здравого смысла в различных областях, при этом формулировки подбираются так, чтобы нельзя было получить ответ на основе лингвистических ограничений (selectional restrictions) или статистики употребления слов.

Происхождение

Первый известный пример схемы Винограда (и причина их названия) был сформулирован Терри Виноградом:^[6]

Варианты "боялись" и "призывали к" превращают схему в два независимых случая:

Вопрос: «На кого указывает местоимение "они": на совет или на демонстрантов?» Замена части фразы полностью меняет ответ. Для человека это очевидно, для машины — нет. Левеск^[2] подчёркивает роль общих знаний: решение требует понимания общественных ролей и типичного поведения членов совета и демонстрантов.

После публикации задачи Винограда профессор Нью-Йоркского университета Эрнест Дэвис собрал коллекцию из более чем 140 подобных схем^[7].

Формальное описание

Вопрос задачи Винограда состоит из трёх компонентов:

Предложение или короткая последовательность текста, содержащая:
- Две именные группы (существительные или группы лиц/объектов) одного семантического класса (мужской, женский, неодушевлённый или множественный субъект),
- Неоднозначное местоимение, способное относиться к обеим группам,
- Ключевое слово и его замену, при которой смысловая связь местоимения меняется.
Вопрос, к кому из групп относится местоимение,
Два варианта ответа, соответствующих двум именным группам.

Задача для машины формулируется в стандартизированном виде с готовыми вариантами ответа и представляет собой задачу бинарной классификации.

Преимущества

К предполагаемым достоинствам задачи Винограда относят:

Для решения необходимы знания и элементарные рассуждения на базе здравого смысла.
Можно создавать задания разного уровня сложности — от простых причинно-следственных до описания сложных социальных ситуаций.
Есть возможность разрабатывать вопросы для конкретных областей: социальных, психологических, пространственных и других рассуждений.
Не требуется жюри из людей^[4].

Ограничения

Главная сложность при создании задач — составление самих вопросов. Формулировки должны быть таковы, чтобы решение требовало привлечения информации о мире и логического вывода. Так, Левеск^[4] приводит пример неудачной схемы:

Ответ тут можно получить на основании лингвистических ограничений: таблетки не бывают беременны, а женщины не могут быть канцерогенными. То есть, не требуется элементарного рассуждения — достаточно знаний о сочетаемости слов.

В 2016 и 2018 годах компания Nuance Communications организовывала состязание по WSC: победителю, набравшему точность выше 90 %, вручался гран-при в 25 тысяч долларов США (для сравнения, люди решают такие задачи с точностью 92–96 %^[8]). Однако в 2016 году никто не приблизился к нужной точности, а конкурс 2018 года отменили из-за отсутствия перспектив^[9]; приз больше не предоставляется^[10].

Двенадцатый международный симпозиум по формализации здравого смысла прошёл 23–25 марта 2015 года в Стэнфорде в рамках сессий AAAI, особое внимание уделялось именно задаче Винограда. В оргкомитет входили Леора Моргенштерн, Теодор Паткос, Роберт Слоун^[11].

В 2016 году конкурс WSC был проведён 11 июля в рамках события IJCAI-16. Участвовали четыре команды; в первом раунде решались задачи на разрешение местоименной анафоры (PDP) из литературных текстов, а не специально сформированных пар. Лучший результат показала команда Лю Цюаня (Quan Liu) из Университета науки и технологий Китая — 58 %^[12]. Приз присужден не был, а второй этап конкурса не проводился. В 2016 году оргкомитет составляли Леора Моргенштерн, Эрнест Дэвис и Чарльз Ортис^[13].

В 2017 году нейронная ассоциативная модель, предназначенная для «извлечения здравого смысла», показала 70 % точности на 70 специально выбранных заданиях из исходной выборки из 273 схем^[14]. В июне 2018 года ансамбль рекуррентных языковых нейросетей достиг точности 63,7 % по всей коллекции схем^[15], впервые реализовав обучение на независимых корпусах. К 2019 году BERT, дообученная на специальных данных, достигла 90,1 % точности^[8]; модель GPT-3 в 2020 году — 88,3 % без специфического дообучения^[16].

В 2019 году разработан усложнённый набор Winogrande из 44 000 предложений (формат fill-in-the-blank, не местоимения)^[8].

Вариант задачи Винограда также входит в состав тестирования GLUE (General Language Understanding Evaluation) — одного из основных бенчмарков для автоматического понимания естественного языка^[17].

Kocijan, Vid; Lukasiewicz, Thomas; Davis, Ernest; Marcus, Gary & Morgenstern, Leora (2020), A Review of Winograd Schema Challenge Datasets and Approaches, arΧiv:2004.13831 [cs.CL].

Официальный сайт конкурса, организованного Nuance Communications

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

Задача Винограда

История

Недостатки теста Тьюринга

Схемы Винограда

Происхождение

Формальное описание

Преимущества

Ограничения

Конкурсы и развитие

Примечания

Литература

Ссылки

Категории