Премия Лёбнера
Премия Лёбнера (англ. Loebner Prize) — это ежегодный конкурс в области искусственного интеллекта, в рамках которого награждались компьютерные программы, признанные судьями наиболее похожими на человека. Формат конкурса основывался на стандартном тесте Тьюринга. В каждом туре судья одновременно вёл текстовые беседы с компьютерной программой и с человеком через компьютер. Основываясь на ответах, судья пытался определить, кто есть кто.
Конкурс был учреждён в 1990 году Хью Лёбнером совместно с Кембриджским центром поведенческих исследований (штат Массачусетс, США). В 2004 и 2005 годах конкурс проводился в квартире Лёбнера в Нью-Йорке. В сообществе специалистов по искусственному интеллекту премия Лёбнера считается довольно противоречивой; наиболее известный критик Марвин Минский называл её рекламным трюком, не способствующим развитию отрасли[1]. С 2014 года[2] организацией занималось AISB в Блетчли-парке[3]. Премия также ассоциирована с Университетом Флиндерса, Дартмутским колледжем, Лондонским музеем науки, Университетом Рединга, а также Университетом Ольстера (кампус Мейджи, Дерри, Великобритания).
В финале конкурса 2019 года формат был изменён: жюри из экспертов отсутствовало, а оценку чат-ботов проводила широкая публика без участия человеческих «соперников»[4]. Сообщается, что премия стала неактивной с 2020 года[5].
Призы
Первоначально приз за самую «человекообразную» программу составлял 2 000 долларов США. В 2005 году — 3 000 долларов, в 2006 — 2 250 долларов, а в 2008 — вновь 3 000 долларов.
Кроме того, были объявлены два уникальных приза, которые так и не были вручены. 25 000 долларов полагалось за первую программу, которую судьи не смогут отличить от настоящего человека и которая убедит судей в том, что человек — это программа. Приз в 100 000 долларов предназначался для первой программы, которую невозможно отличить от человека в тесте Тьюринга, включающем понимание текста, визуальной и звуковой информации. Достижение этого приза должно было стать поводом для прекращения конкурса.
Правила и ограничения конкурса
Правила менялись со временем; в ранние годы использовались ограниченные разговорные тесты Тьюринга, но с 1995 года темы обсуждений не ограничивались.
Для трёх участников 2007 года — Роберта Медекса, Ноа Дункана и Ролло Карпентера[6] — организатор использовал базовые «контрольные вопросы» (о времени, номере раунда, элементарных знаниях, сравнении объектов, а также о запоминании фактов из той же беседы). Все существительные, прилагательные и глаголы брались из словаря, предназначенного для детей младше 12 лет. От участников не требовалось «интеллектуальных» ответов для допуска к конкурсу.
Впервые в 2008 году была введена предварительная стадия — к участию допускались также веб-базированные системы, которые оценивались приглашёнными собеседниками. Доступные правила не указывают, как выбираются или инструктируются собеседники. Судьи работали в ограниченное время: 5 минут на вступление в 2003 году, по 20 и более минут в парах в 2004—2007 годах, по 5 минут на одновременный диалог с человеком и программой в 2008—2009 годах, увеличено до 25 минут с 2010 года.
Критика
Премию Лёбнера давно критикуют специалисты в области искусственного интеллекта по целому ряду причин[7].
Многие считают её рекламной акцией[8][9]. Марвин Минский саркастически предложил премию тому, кто сумеет остановить конкурс. Лёбнер пошутил, что в этом случае Мински стал его соорганизатором[10].
Правила конкурса поощряли быстрое и поверхностное судейство с привлечением неподготовленных судей. Первоначально на беседу выделялось всего 2,5 минуты[8]. Изначально вопросы ограничивались одной темой на выбор участника, чаще всего «шутливым разговором»[7][11], что облегчало программам обходить тест. Известно, что участники конкурса редко преследовали цель создать систему с истинным пониманием и разумом, вместо этого используя примитивные трюки, похожие на классическую ЭЛАЙЗУ[8][12], а успех достигался скорее хитростью и притворством[13].
Конкурсы
Подробности по ранним конкурсам можно найти в истории статей. Ниже приведены сведения о ряде проведённых соревнований:
В 2003 году конкурс организовывали профессор Ричард Х. Р. Харпер и доктор Линн Хамилл из Центра исследований цифрового мира при Университете Суррея[14].
Ни один бот не прошёл тест Тьюринга, победителем стал Jabberwock, созданный Юргеном Пирнером. Второе место занял Elbot (Фред Робертс, Artificial Solutions), третье — Jabberwacky (Ролло Карпентер).
В 2006 году конкурс организовывали Тим Чайлд (гендиректор Televirtual) и Хума Шах[6][15]. 30 августа были объявлены финалисты:
- Ролло Карпентер
- Ричард Черчилль и Мари-Клер Дженкинс
- Ноа Дункан
- Роберт Медекса
Конкурс прошёл 17 сентября в VR-театре кампуса Торрингтон-Плейс Университетского колледжа Лондона. Судьями были профессор по кибернетике Кевин Уорвик, профессор искусственного интеллекта Джон Барнден, барристер Виктория Батлер-Коул и журналист Грэм Дункан-Роу. Опыт последнего изложен в статье в Technology Review[16][17]. Победила «Joan» на базе Jabberwacky, обе созданы Ролло Карпентером.
В 2007 году конкурс прошёл 21 октября в Нью-Йорке. Судьями были профессор информатики Расс Эбботт, профессор философии Хартри Филд, ассистент-профессор психологии Клейтон Кёртис и преподаватель английского Скотт Хатчинс[18].
Ни один бот не прошёл тест Тьюринга, итоги:
- 1 место: Роберт Медекса, создатель Ultra Hal
- 2 место: Ноа Дункан, автор Cletus
- 3 место: Ролло Карпентер (Icogno), создатель Jabberwacky
Победитель получил $2250 и ежегодную медаль, призёры — по $250.
В 2008 году конкурс проводился профессором Кевином Уорвиком при координации Хумы Шах 12 октября в Университете Рединга (Великобритания)[19]. В предварительной фазе (июнь-июль) 13 оригинальных разговорных систем оценивали более 100 судей. В финал вышли шесть, пять приняли участие:
- Brother Jerome (Питер Коул и Бенджи Адамс)
- Elbot (Фред Робертс / Artificial Solutions)
- Eugene Goostman (Владимир Веселов, Евгений Демченко и Сергей Уласен)
- Jabberwacky (Ролло Карпентер)
- Ultra Hal (Роберт Медекса)
В финале каждому судье отводилось 5 минут на два параллельных диалога. Elbot[20] от Artificial Solutions[21] получил приз «бронзовый ЭЛАЙЗА» за «наиболее человечную» искусственную сущность, обманув 3 из 12 судей. Eugene Goostman[22] и Ultra Hal[23] по одному разу убедили судью.
Судья The Times Уилл Павиа был обманут Elbot и Eugene[24]. Кевин Уорвик и Хума Шах публично прокомментировали тесты в парно-параллельном формате[25].
Конкурс 2009 года прошёл 6 сентября в Брайтоне (Великобритания), параллельно с конференцией Interspeech 2009. Приз составлял $3 000.
Участники: Дэвид Леви, Ролло Карпентер и Мохан Эмбар; призовые места в этом порядке.
Писатель Брайан Кристиан выступал в роли человека-собеседника, описал опыт в книге Самый человечный человек.
В 2010 году конкурс был проведён в Калифорнийском государственном университете (Лос-Анджелес) 23 октября — 20-й по счёту. Победил Брюс Уилкокс с Suzette.
Конкурс 2011 года прошёл 19 октября в Университете Эксетера (Девон, Великобритания), приз — $4 000.
Финалисты: Брюс Уилкокс (Rosette), Адина Мигнога (Zoe), Мохан Эмбар (Chip Vivant), Рон Ли (Tutor) — в таком порядке.
Была введена панель юниорных судей: Джорджия-Мэй Линдфилд, Уильям Данн, Сэм Кит, Кирилл Жeрдев. Их итоги отличались: Tutor и Zoe — 1 место, Chip Vivant и Rosette — 3 и 4 соответственно.
В 2012 году конкурс посвящён столетию Алана Тьюринга, провели 15 мая в Блетчли-парке (Бакингемшир, Англия), приз — $5 000. Местную организацию обеспечил Дэвид Леви (победитель 1997 и 2009).
Финалисты: Мохан Эмбар (Chip Vivant), Брюс Уилкокс (Angela), Дэниел Бёрк (Adam), М. Аллан (Linguo) — заняли соответственно 1-4 места.
В этом году впервые беседы транслировались в формате видеотрансляции командой из Эксетерского университета[26].
Конкурс 2013 года единственный раз прошёл на острове Ирландия — 14 сентября в Университет Ольстера (кампус Мейджи, Дерри, Северная Ирландия).
Финалисты: Стив Уорсвик (Mitsuku), доктор Рон С. Ли (Tutor), Брюс Уилкокс (Rose), Брайан Ригсби (Izar).
Судьи: профессор Роджер Шанк (Socratic Arts), профессор Ноэль Шарки (Шеффилдский университет), профессор Минхуа (Юнис) Ма (Университет Хаддерсфилда, затем Университет Глазго) и профессор Майк МакТир (Университет Ольстера).
В Юниорном конкурсе Mitsuku и Tutor разделили 1 место, Rose и Izar — 3 и 4.
В 2014 году конкурс прошёл в Блетчли-парке 15 ноября. Мероприятие освещалось на телевидении Sky News, приглашённый судья — ведущий Джеймс Мэй.
По итогам 2 часов жюри, победила Rose (Брюс Уилкокс) — $4000 + бронзовая медаль.
- Rose — 1 место ($4000 + медаль)
- Izar — 2,25 места ($1500)
- Uberbot — 3,25 места ($1000)
- Mitsuku — 3,5 места ($500)
Судьи: доктор Иэн Хокинг (Крайст-Чёрч), доктор Гита Куадри-Мостефауи (Университет Бедфордшира), Джеймс Мэй, доктор Пол Сант (UCMK).
В 2015 году вновь победила Rose (Брюс Уилкокс)[27].
Судьи: Якоб Аарон (New Scientist), Рори Селлан-Джонс (BBC), Бретт Марти (режиссёр, фотограф), Ариадна Тампион (писатель).
В 2016 году конкурс состоялся 17 сентября в Блетчли-парке. Итог:
- 1 место: Mitsuku[28]
- 2 место: Tutor
- 3 место: Rose
В 2017 году 16 сентября, также в Блетчли-парке; впервые применялся новый пошаговый протокол сообщений. Итоги (объявлены роботом NAO):
- 1 место: Mitsuku[28]
- 2 место: Midge
- 3 место: Uberbot
- 4 место: Rose
В 2018 году 8 сентября Блетчли-парк принял последний традиционный турнир в формате теста Тьюринга. Итоги:
- 1 место: Mitsuku[28]
- 2 место: Tutor
- 3 место: Colombina
- 4 место: Uberbot
С 12 по 15 сентября 2019 года конкурс проходил в Университете Суонси как часть большого мероприятия о творчестве компьютеров. Формат изменён: тест длился 4 дня, участниками выступила публика, зная заранее, что собеседники — машины. Участвовали 17 ботов вместо 4 финалистов. Стив Уорсвик победил рекордный пятый раз с Mitsuku, попав в Книгу рекордов Гиннесса[29].
Также была выбрана жюри-наградой «лучший бот».
Самый человечный чат-бот:
- 1 место: Mitsuku[28] — 24 балла
- 2 место: Uberbot — 6 баллов
- 3 место: Anna — 5 баллов
Лучший чат-бот:
- 1 место: Mitsuku[28] — 19 баллов
- 2 место: Uberbot — 5 баллов
- 3 место: Arckon — 4 балла
Победители
Официальный список победителей[30].
| Год | Победитель | Программа |
|---|---|---|
| 1991 | Джозеф Уайнтрауб | «Whimsical Conversation» (PC Therapist)[31] |
| 1992 | Джозеф Уайнтрауб | PC Therapist |
| 1993 | Джозеф Уайнтрауб | PC Therapist |
| 1994 | Томас Уэйлен | TIPS |
| 1995 | Джозеф Уайнтрауб | PC Therapist |
| 1996 | Джейсон Хатченс | HeX |
| 1997 | Дэвид Леви | Converse |
| 1998 | Робби Гарнер | Albert One |
| 1999 | Робби Гарнер | Albert One |
| 2000 | Ричард Уоллес | A.L.I.C.E. |
| 2001 | Ричард Уоллес | A.L.I.C.E. |
| 2002 | Кевин Коппл | Ella |
| 2003 | Юрген Пирнер | Jabberwock |
| 2004 | Ричард Уоллес | A.L.I.C.E. |
| 2005 | Ролло Карпентер | George (Jabberwacky) |
| 2006 | Ролло Карпентер | Joan (Jabberwacky) |
| 2007 | Роберт Медекса | Ultra Hal |
| 2008 | Фред Робертс | Elbot |
| 2009 | Дэвид Леви | Do-Much-More |
| 2010 | Брюс Уилкокс | Suzette |
| 2011 | Брюс Уилкокс | Rosette[32] |
| 2012 | Мохан Эмбар | Chip Vivant[33] |
| 2013 | Стив Уорсвик | Mitsuku[28] |
| 2014 | Брюс Уилкокс | Rose |
| 2015 | Брюс Уилкокс | Rose |
| 2016 | Стив Уорсвик | Mitsuku[28] |
| 2017 | Стив Уорсвик | Mitsuku[28] |
| 2018 | Стив Уорсвик | Mitsuku[28] |
| 2019 | Стив Уорсвик | Mitsuku[28] |
Примечания
Литература
- Markoff, John. Cocktail-Party Conversation – With a Computer (англ.), The New York Times (10 января 1993). Дата обращения: 2 апреля 2024.
- Platt, Charles (апрель 1995). “What's It Mean to be Human, Anyway?”. Wired [англ.]. Дата обращения 2024-04-02. Проверьте дату в
|date=(справка на английском) - Shah, Huma 2008 Loebner Prize: myths and misconceptions (англ.) (октябрь 2008). Дата обращения: 2 апреля 2024.
- Christian, Brian (март 2011). “Mind vs. Machine”. The Atlantic [англ.]. Дата обращения 2024-04-02. Проверьте дату в
|date=(справка на английском) - Nikolić, Danko (13 июня 2019). “Is the Turing test still relevant? How about Turing time?”. Medium [англ.]. Дата обращения 2024-04-02.