Премия Лёбнера

undefined

Премия Лёбнера (англ. Loebner Prize) — это ежегодный конкурс в области искусственного интеллекта, в рамках которого награждались компьютерные программы, признанные судьями наиболее похожими на человека. Формат конкурса основывался на стандартном тесте Тьюринга. В каждом туре судья одновременно вёл текстовые беседы с компьютерной программой и с человеком через компьютер. Основываясь на ответах, судья пытался определить, кто есть кто.

Конкурс был учреждён в 1990 году Хью Лёбнером совместно с Кембриджским центром поведенческих исследований (штат Массачусетс, США). В 2004 и 2005 годах конкурс проводился в квартире Лёбнера в Нью-Йорке. В сообществе специалистов по искусственному интеллекту премия Лёбнера считается довольно противоречивой; наиболее известный критик Марвин Минский называл её рекламным трюком, не способствующим развитию отрасли[1]. С 2014 года[2] организацией занималось AISB в Блетчли-парке[3]. Премия также ассоциирована с Университетом Флиндерса, Дартмутским колледжем, Лондонским музеем науки, Университетом Рединга, а также Университетом Ольстера (кампус Мейджи, Дерри, Великобритания).

В финале конкурса 2019 года формат был изменён: жюри из экспертов отсутствовало, а оценку чат-ботов проводила широкая публика без участия человеческих «соперников»[4]. Сообщается, что премия стала неактивной с 2020 года[5].

Призы

Первоначально приз за самую «человекообразную» программу составлял 2 000 долларов США. В 2005 году — 3 000 долларов, в 2006 — 2 250 долларов, а в 2008 — вновь 3 000 долларов.

Кроме того, были объявлены два уникальных приза, которые так и не были вручены. 25 000 долларов полагалось за первую программу, которую судьи не смогут отличить от настоящего человека и которая убедит судей в том, что человек — это программа. Приз в 100 000 долларов предназначался для первой программы, которую невозможно отличить от человека в тесте Тьюринга, включающем понимание текста, визуальной и звуковой информации. Достижение этого приза должно было стать поводом для прекращения конкурса.

Правила и ограничения конкурса

Правила менялись со временем; в ранние годы использовались ограниченные разговорные тесты Тьюринга, но с 1995 года темы обсуждений не ограничивались.

Для трёх участников 2007 года — Роберта Медекса, Ноа Дункана и Ролло Карпентера[6] — организатор использовал базовые «контрольные вопросы» (о времени, номере раунда, элементарных знаниях, сравнении объектов, а также о запоминании фактов из той же беседы). Все существительные, прилагательные и глаголы брались из словаря, предназначенного для детей младше 12 лет. От участников не требовалось «интеллектуальных» ответов для допуска к конкурсу.

Впервые в 2008 году была введена предварительная стадия — к участию допускались также веб-базированные системы, которые оценивались приглашёнными собеседниками. Доступные правила не указывают, как выбираются или инструктируются собеседники. Судьи работали в ограниченное время: 5 минут на вступление в 2003 году, по 20 и более минут в парах в 2004—2007 годах, по 5 минут на одновременный диалог с человеком и программой в 2008—2009 годах, увеличено до 25 минут с 2010 года.

Критика

Премию Лёбнера давно критикуют специалисты в области искусственного интеллекта по целому ряду причин[7].

Многие считают её рекламной акцией[8][9]. Марвин Минский саркастически предложил премию тому, кто сумеет остановить конкурс. Лёбнер пошутил, что в этом случае Мински стал его соорганизатором[10].

Правила конкурса поощряли быстрое и поверхностное судейство с привлечением неподготовленных судей. Первоначально на беседу выделялось всего 2,5 минуты[8]. Изначально вопросы ограничивались одной темой на выбор участника, чаще всего «шутливым разговором»[7][11], что облегчало программам обходить тест. Известно, что участники конкурса редко преследовали цель создать систему с истинным пониманием и разумом, вместо этого используя примитивные трюки, похожие на классическую ЭЛАЙЗУ[8][12], а успех достигался скорее хитростью и притворством[13].

Конкурсы

Подробности по ранним конкурсам можно найти в истории статей. Ниже приведены сведения о ряде проведённых соревнований:

2003

В 2003 году конкурс организовывали профессор Ричард Х. Р. Харпер и доктор Линн Хамилл из Центра исследований цифрового мира при Университете Суррея[14].

Ни один бот не прошёл тест Тьюринга, победителем стал Jabberwock, созданный Юргеном Пирнером. Второе место занял Elbot (Фред Робертс, Artificial Solutions), третье — Jabberwacky (Ролло Карпентер).

2006

В 2006 году конкурс организовывали Тим Чайлд (гендиректор Televirtual) и Хума Шах[6][15]. 30 августа были объявлены финалисты:

  • Ролло Карпентер
  • Ричард Черчилль и Мари-Клер Дженкинс
  • Ноа Дункан
  • Роберт Медекса

Конкурс прошёл 17 сентября в VR-театре кампуса Торрингтон-Плейс Университетского колледжа Лондона. Судьями были профессор по кибернетике Кевин Уорвик, профессор искусственного интеллекта Джон Барнден, барристер Виктория Батлер-Коул и журналист Грэм Дункан-Роу. Опыт последнего изложен в статье в Technology Review[16][17]. Победила «Joan» на базе Jabberwacky, обе созданы Ролло Карпентером.

2007

В 2007 году конкурс прошёл 21 октября в Нью-Йорке. Судьями были профессор информатики Расс Эбботт, профессор философии Хартри Филд, ассистент-профессор психологии Клейтон Кёртис и преподаватель английского Скотт Хатчинс[18].

Ни один бот не прошёл тест Тьюринга, итоги:

  • 1 место: Роберт Медекса, создатель Ultra Hal
  • 2 место: Ноа Дункан, автор Cletus
  • 3 место: Ролло Карпентер (Icogno), создатель Jabberwacky

Победитель получил $2250 и ежегодную медаль, призёры — по $250.

2008

В 2008 году конкурс проводился профессором Кевином Уорвиком при координации Хумы Шах 12 октября в Университете Рединга (Великобритания)[19]. В предварительной фазе (июнь-июль) 13 оригинальных разговорных систем оценивали более 100 судей. В финал вышли шесть, пять приняли участие:

  • Brother Jerome (Питер Коул и Бенджи Адамс)
  • Elbot (Фред Робертс / Artificial Solutions)
  • Eugene Goostman (Владимир Веселов, Евгений Демченко и Сергей Уласен)
  • Jabberwacky (Ролло Карпентер)
  • Ultra Hal (Роберт Медекса)

В финале каждому судье отводилось 5 минут на два параллельных диалога. Elbot[20] от Artificial Solutions[21] получил приз «бронзовый ЭЛАЙЗА» за «наиболее человечную» искусственную сущность, обманув 3 из 12 судей. Eugene Goostman[22] и Ultra Hal[23] по одному разу убедили судью.

Судья The Times Уилл Павиа был обманут Elbot и Eugene[24]. Кевин Уорвик и Хума Шах публично прокомментировали тесты в парно-параллельном формате[25].

2009

Конкурс 2009 года прошёл 6 сентября в Брайтоне (Великобритания), параллельно с конференцией Interspeech 2009. Приз составлял $3 000.

Участники: Дэвид Леви, Ролло Карпентер и Мохан Эмбар; призовые места в этом порядке.

Писатель Брайан Кристиан выступал в роли человека-собеседника, описал опыт в книге Самый человечный человек.

2010

В 2010 году конкурс был проведён в Калифорнийском государственном университете (Лос-Анджелес) 23 октября — 20-й по счёту. Победил Брюс Уилкокс с Suzette.

2011

Конкурс 2011 года прошёл 19 октября в Университете Эксетера (Девон, Великобритания), приз — $4 000.

Финалисты: Брюс Уилкокс (Rosette), Адина Мигнога (Zoe), Мохан Эмбар (Chip Vivant), Рон Ли (Tutor) — в таком порядке.

Была введена панель юниорных судей: Джорджия-Мэй Линдфилд, Уильям Данн, Сэм Кит, Кирилл Жeрдев. Их итоги отличались: Tutor и Zoe — 1 место, Chip Vivant и Rosette — 3 и 4 соответственно.

2012

В 2012 году конкурс посвящён столетию Алана Тьюринга, провели 15 мая в Блетчли-парке (Бакингемшир, Англия), приз — $5 000. Местную организацию обеспечил Дэвид Леви (победитель 1997 и 2009).

Финалисты: Мохан Эмбар (Chip Vivant), Брюс Уилкокс (Angela), Дэниел Бёрк (Adam), М. Аллан (Linguo) — заняли соответственно 1-4 места.

В этом году впервые беседы транслировались в формате видеотрансляции командой из Эксетерского университета[26].

2013

Конкурс 2013 года единственный раз прошёл на острове Ирландия — 14 сентября в Университет Ольстера (кампус Мейджи, Дерри, Северная Ирландия).

Финалисты: Стив Уорсвик (Mitsuku), доктор Рон С. Ли (Tutor), Брюс Уилкокс (Rose), Брайан Ригсби (Izar).

Судьи: профессор Роджер Шанк (Socratic Arts), профессор Ноэль Шарки (Шеффилдский университет), профессор Минхуа (Юнис) Ма (Университет Хаддерсфилда, затем Университет Глазго) и профессор Майк МакТир (Университет Ольстера).

В Юниорном конкурсе Mitsuku и Tutor разделили 1 место, Rose и Izar — 3 и 4.

2014

В 2014 году конкурс прошёл в Блетчли-парке 15 ноября. Мероприятие освещалось на телевидении Sky News, приглашённый судья — ведущий Джеймс Мэй.

По итогам 2 часов жюри, победила Rose (Брюс Уилкокс) — $4000 + бронзовая медаль.

  • Rose — 1 место ($4000 + медаль)
  • Izar — 2,25 места ($1500)
  • Uberbot — 3,25 места ($1000)
  • Mitsuku — 3,5 места ($500)

Судьи: доктор Иэн Хокинг (Крайст-Чёрч), доктор Гита Куадри-Мостефауи (Университет Бедфордшира), Джеймс Мэй, доктор Пол Сант (UCMK).

2015

В 2015 году вновь победила Rose (Брюс Уилкокс)[27].

Судьи: Якоб Аарон (New Scientist), Рори Селлан-Джонс (BBC), Бретт Марти (режиссёр, фотограф), Ариадна Тампион (писатель).

2016

В 2016 году конкурс состоялся 17 сентября в Блетчли-парке. Итог:

  • 1 место: Mitsuku[28]
  • 2 место: Tutor
  • 3 место: Rose

2017

В 2017 году 16 сентября, также в Блетчли-парке; впервые применялся новый пошаговый протокол сообщений. Итоги (объявлены роботом NAO):

  • 1 место: Mitsuku[28]
  • 2 место: Midge
  • 3 место: Uberbot
  • 4 место: Rose

2018

В 2018 году 8 сентября Блетчли-парк принял последний традиционный турнир в формате теста Тьюринга. Итоги:

  • 1 место: Mitsuku[28]
  • 2 место: Tutor
  • 3 место: Colombina
  • 4 место: Uberbot

2019

С 12 по 15 сентября 2019 года конкурс проходил в Университете Суонси как часть большого мероприятия о творчестве компьютеров. Формат изменён: тест длился 4 дня, участниками выступила публика, зная заранее, что собеседники — машины. Участвовали 17 ботов вместо 4 финалистов. Стив Уорсвик победил рекордный пятый раз с Mitsuku, попав в Книгу рекордов Гиннесса[29].

Также была выбрана жюри-наградой «лучший бот».

Самый человечный чат-бот:

  • 1 место: Mitsuku[28] — 24 балла
  • 2 место: Uberbot — 6 баллов
  • 3 место: Anna — 5 баллов

Лучший чат-бот:

  • 1 место: Mitsuku[28] — 19 баллов
  • 2 место: Uberbot — 5 баллов
  • 3 место: Arckon — 4 балла

Победители

Официальный список победителей[30].

Год Победитель Программа
1991 Джозеф Уайнтрауб «Whimsical Conversation» (PC Therapist)[31]
1992 Джозеф Уайнтрауб PC Therapist
1993 Джозеф Уайнтрауб PC Therapist
1994 Томас Уэйлен TIPS
1995 Джозеф Уайнтрауб PC Therapist
1996 Джейсон Хатченс HeX
1997 Дэвид Леви Converse
1998 Робби Гарнер Albert One
1999 Робби Гарнер Albert One
2000 Ричард Уоллес A.L.I.C.E.
2001 Ричард Уоллес A.L.I.C.E.
2002 Кевин Коппл Ella
2003 Юрген Пирнер Jabberwock
2004 Ричард Уоллес A.L.I.C.E.
2005 Ролло Карпентер George (Jabberwacky)
2006 Ролло Карпентер Joan (Jabberwacky)
2007 Роберт Медекса Ultra Hal
2008 Фред Робертс Elbot
2009 Дэвид Леви Do-Much-More
2010 Брюс Уилкокс Suzette
2011 Брюс Уилкокс Rosette[32]
2012 Мохан Эмбар Chip Vivant[33]
2013 Стив Уорсвик Mitsuku[28]
2014 Брюс Уилкокс Rose
2015 Брюс Уилкокс Rose
2016 Стив Уорсвик Mitsuku[28]
2017 Стив Уорсвик Mitsuku[28]
2018 Стив Уорсвик Mitsuku[28]
2019 Стив Уорсвик Mitsuku[28]

Примечания

Литература