Машинный перевод

Машинный перевод (англ. machine translation) — область автоматизации перевода текстов или речи с одного естественного языка на другой с помощью вычислительных методов, включая учёт контекста, идиоматических выражений и прагматических нюансов обоих языков.

Хотя современные системы машинного перевода способны создавать понятные тексты, их работа ограничена сложностью естественного языка и эмоций, зачастую они не обеспечивают достаточной глубины и семантической точности. На качество перевода влияют языковые, грамматические, тональные и культурные различия, что делает машинный перевод неполноценной заменой человеческому переводу^[1]. Эффективное повышение качества автоматического перевода требует учёта обычаев и исторического контекста целевого общества, а в задачах синхронного перевода человеческое вмешательство и визуальные подсказки остаются необходимыми. В то же время узкоспециализированные настройки систем — например, при переводе технической документации или официальных текстов — позволяют достичь наилучших и более устойчивых результатов^[2], и потому такие системы широко применяются для многоязычных веб-сайтов и профессиональных баз данных^[3].

Ранние подходы к машинному переводу основывались преимущественно на правил-ориентированных или статистических методах, которые впоследствии были вытеснены нейронными технологиями^[4] и большими языковыми моделями^[5].

Происхождение

Истоки машинного перевода прослеживаются в работах аль-Кинди, арабского криптографа IX века, который разработал методы системного перевода языков, включая криптоанализ, частотный анализ и методы вероятности и статистики, применяемые и в современных моделях^[6]. Идея машинного перевода возникала вновь в XVII веке: в 1629 году Рене Декарт предложил универсальный язык, где одной идее на разных языках соответствовал бы единый символ^[7].

Мысль о применении ЭВМ для перевода естественных языков была озвучена в 1947 году в Великобритании А. Д. Бутом^[8] и Уорреном Уивером из Фонда Рокфеллера. Меморандум Уивера 1949 года стал ключевой публикацией ранних исследований машинного перевода^[9]. В 1954 году состоялась демонстрация примитивного перевода с английского на французский на машине APEXC в Беркбек-колледже Лондона. Примерно в это же время компьютеры начали использоваться и для работы с брайлевскими текстами.

1950-е

Первым исследователем в области машинного перевода был Йехошуа Бар-Хиллел, начавший исследования в MIT (1951). Группа Джорджтаунского университета во главе с Майклом Заречняком провела первую публичную демонстрацию системы Georgetown-IBM experiment в 1954 году. Вслед за ними исследования развернулись в Японии^[10]^[11] (1956) и СССР (1955). В 1956 году в Лондоне прошла первая конференция по машинному переводу^[12].

Дэвид Г. Хейс уже в 1957 году писал о компьютерной обработке языков и руководил проектами по вычислительной лингвистике в RAND (1955—1968)^[13].

1960—1975

В США была создана Ассоциация машинного перевода и вычислительной лингвистики (1962), а Национальная академия наук основала комитет ALPAC для оценки машинного перевода (1964). Однако после критического отчёта ALPAC (1966), признавшего недостаточную результативность исследований, финансирование было значительно сокращено^[14]. Положительный опыт успешного перевода военных документов на вьетнамский с помощью системы Logos возродил интерес к применениям МП для специфических областей. Во Франции (1970) MT использовался для перевода аннотаций на четыре языка; Университет Бригама Янга в 1971 году начал проект по машинному переводу текстов мормонов.

1975—1980-е

Система SYSTRAN, разработанная по заказу правительства США^[15], с 1978 года применялась в Xerox для перевода технической документации. С конца 1980-х с ростом вычислительной мощности возрастал интерес к статистическим моделям. Самая первая коммерческая система МП для русско/англо/немецко-украинских языков была реализована в Харьковском университете (1991).

1990-е и начало 2000-х

К 1998 году программное обеспечение для перевода текстов с английского на один из европейских языков стоило от $29,95^[15]. Веб-сервисы SYSTRAN стали первыми бесплатными средствами онлайн-перевода (1996), затем перевод через Babel Fish AltaVista (1997) достигал 500 тыс. обращений в день^[16]. Следующей системой стал GlobaLink от Lernout & Hauspie^[15]. В 2003 году Франц Йозеф Ох (будущий руководитель Google Translate) выиграл конкурс DARPA по скорости МП^[17]. В этот же период появились движок MOSES (2007), сервисы переводов SMS для мобильных (Япония, 2008), мобильные телефоны с функцией голосового перевода (2009). В 2012 году Google сообщил, что их система за сутки переводит текст объёмом около миллиона книг.

Искусственные нейронные сети и большие языковые модели в 2020-х

Широкое развитие машинного перевода обеспечили нейронные сети и крупные языковые модели.

До появления глубокого обучения статистические методы требовали подробных правил и разметки текста на уровне морфологии, синтаксиса и семантики.

Правил-ориентированный подход

Правил-ориентированный подход применялся, прежде всего, для создания словарей и грамматик. Главный недостаток: любые вариации, орфографические ошибки и неоднозначности исходного языка необходимо явно обрабатывать; для всей лексической неоднозначности должны быть созданы отдельные правила.

Основывающийся на переносе

Метод переноса работал с промежуточным (интерлингвальным или «языко-независимым») представлением значения фразы. В отличие от чисто интерлингвальных систем, он частично зависел и от языковой пары.

Интерлингвальный подход

В этом варианте исходный текст преобразуется в межъязыковую (интерлингву) — специальное нейтральное представление, независимое от конкретного языка, после чего генерируется целевой язык. Единственная коммерчески внедрённая система такого класса — KANT (Nyberg и Mitamura, 1992), предназначенная для технических текстов Caterpillar.

Словарный метод

При словарном подходе перевод строится на основе простого сопоставления слов с аналогами из словаря.

Статистический подход

Статистический машинный перевод использует методы анализа больших объёмов параллельных корпусов — например, Ганзард (канадский парламент) и Европарламент. Такой подход даёт хорошие результаты, если корпус содержит тексты сопоставимого стиля и тематики для конкретной языковой пары. Первая серьёзная статистическая система — CANDIDE от IBM. Google c 2005 года использовал свыше 200 млрд слов материалов ООН^[18].

Главный недостаток SMT — зависимость от огромных корпусов и трудности при работе с языками с богатой морфологией; ошибки, возникающие единожды, часто не исправляются.

Одно из направлений — мультиязыковые корпуса (один текст переведён на несколько языков). Комбинирование информации из разных языков позволяет повысить точность при переводе на третий язык^[19].^[20]^[21]

Нейронный перевод

Современный прорыв связан с внедрением глубоких нейросетей — нейронных систем. Однако консенсус научного сообщества таков, что «человеческого уровня» качества удаётся достичь лишь на ограниченных доменах, языковых парах и для некоторых тестовых наборов^[22] и это лишено статистической значимости^[23].

Результаты работы переводчиков уровня DeepL (по состоянию на 2022 год демонстрирует наивысшее качество среди МП-систем) всё равно требуют последующей доработки человеком-переводчиком^[24].

Помимо специализированных моделей, генеративные большие языковые модели (например, GPT) могут переводить текст напрямую по команде пользователя^[25]. Такой подход перспективен^[26], но намного более ресурсоёмок.

Крупные исследования с использованием человеческой экспертизы (например, профессиональных литературных переводчиков или читателей) выявили ряд проблем с самыми современными системами МП^[27]. Для ряда языков точность терминологии и выразительность у машинного перевода ниже, чем при работе профессионалов. Типовые сложности: перевод неоднозначных и омонимичных фрагментов, требующих общезнаемых и мировых знаний^[27]. Возможны также ошибки в исходных данных, нехватка качественных тренировочных корпусов; некоторые распространённые дефекты не сокращаются даже при известном уровне пользовательских правок.

Разрешение неоднозначности

Разрешение омонимии — одна из первых проблем, выделенных в машинном переводе; Й. Бар-Хиллел в 1950-х показал, что без «универсальной энциклопедии» автомат не различит значения слов надёжно^[28]. Подходы условно делят на «поверхностные» (работающие только со статистическими оконами) и «глубокие», базирующиеся на знаниях. На практике преобладают первые^[29].

Клод Пирон, переводчик ООН и ВОЗ, утверждал, что МП автоматизирует только рутинные этапы перевода; более сложная часть работы — разрешение неоднозначности — требует глубокого исследования, часто с привлечением внешних знаний^[30]. Программам до сих пор недоступна автоматизация этого этапа.

Нестандартные формы и жаргон

Одной из главных трудностей остаётся неумение МП обрабатывать разговорные, сленговые, диалектные и устаревшие формы так же надёжно, как стандартный язык.

Именованные сущности

Именованные сущности — имена людей, организаций, топонимы, даты и суммы, которые программа должна корректно идентифицировать. В противном случае возможна ошибочная обработка (перевод вместо транслитерации или наоборот)^[31]. Одним из методов решения является «белый список» (do-not-translate list) или замена на «классовые» токены (например, все имена заменять на один символ-класс). Тем не менее внедрение методов сущностного анализа нередко приводит к снижению стандартных метрик BLEU^[32].

Хотя полностью автоматический высококачественный перевод произвольных текстов ещё не достигнут, многие МП-системы обеспечивают приемлемое качество на ограниченных доменах^[33]. Качество существенно возрастает при ограниченной предметной области^[34].

Путешествия

Приложения машинного перевода доступны почти для всех мобильных устройств: смартфонов, КПК, планшетов. Они облегчают межкультурную коммуникацию без посредника-переводчика и поддерживают иностранный язык «на ходу». Например, Google Translate позволяет осуществлять визуальный перевод посредством распознавания текста камерой смартфона на экране^[35]. Также реализована функция распознавания речи с переводом^[36].

Государственное и корпоративное использование

Крупнейшим институциональным пользователем МП является Европейская комиссия. В 2012 году в рамках программы ISA выделено более 3 млн евро на переход к новым статистическим системам^[37].

Википедия

Машинный перевод используется для перевода статей Википедии, что может стать важной основой для создания и пополнения разделов, особенно по мере роста возможностей систем^[38]. Англоязычные статьи зачастую более полны и объективны, чем переводы на другие языки^[39]. В 2022 году число статей в английском разделе превышало 6,5 млн, в немецком и шведском — 2,5 млн^[40].

Военное и разведывательное применение

После террористических атак в западных странах особое внимание уделялось переводчикам для арабского, пушту и дари^[41]. В этих задачах требуются быстродействующие средства, адаптированные к ключевым фразам. В США создание переводчиков финансирует DARPA, в том числе программы TIDES и Babylon translator, ВВС США выделяли $1 млн на универсальный переводчик^[42].

Социальные сети

Рост социальных сетей и мессенджеров сделал актуальным внедрение МП для мгновенного общения пользователей с разными языками (Facebook, Skype, Google Talk и др.).

Онлайн-игры

В играх (например, Lineage W) внедрён функционал МП, что способствует межстрановой коммуникации игроков^[43].

Медицина

Несмотря на критическую оценку ALPAC (1966), по состоянию на 2020-е годы качество МП выросло настолько, что анализируют применение автоматического перевода для медицинских задач. Однако риск ошибок в переводах высок и смертельно опасен для пациентов, потому рекомендуется проверка результатов людьми^[44].

Юридический перевод

Юридические тексты представляют особую сложность для МП-систем, поэтому для работы с ними разрабатывают специализированные алгоритмы^[45]. МП рекомендуется использовать только под контролем эксперта; ряд судебных инстанций запрещает его применение^[46]. Использование онлайн-переводчиков создает риски утечки данных и нарушения адвокатской тайны^[45]. Инструкции (например, согласие на обыск), полученные исключительно через МП, могут быть признаны недействительными^[47].

Древние языки

Современные сверточные нейронные сети и методы low-resource MT позволили реализовать автоматический перевод с аккадского и других древних языков.

Качество МП оценивается с учётом задачи, особенностей программного обеспечения и самого процесса перевода.

Разные системы лучше работают на разных задачах; статистический перевод, как правило, превосходит примерно-основанный, но это не универсально и зависит от языка и стиля текста^[48]. Для строго контролируемых технических текстов нередко достаточно словарных систем^[49].

Оценка может проводиться как экспертами (человеческая оценка — основной способ сравнения подходов^[50]), так и автоматически по метрикам BLEU, NIST, METEOR, LEPOR^[51].

Даже самые лучшие системы требуют последующей вычитки человеком — и машинный, и человеческий перевод подвержены ошибкам, но без редактуры качество машинного перевода зачастую недостаточно для публикации^[52]. К тому же качество работы зависит от состава корпуса для обучения: избыток или нехватка примеров сбивают точность; оптимальный объём — немногим более 100 тыс. пар фраз^[48]. Характерные ошибки МП часто становятся предметом интернет-шуток — например, многократное повторение бессмысленных слогов приводит к абсурдным результатам на выходе.^[53].

В начале 2000-х автоматический перевод между устными и жестовыми языками был крайне ограничен: невербальные аспекты (интонация, ритм, мимика) передаются иначе, что осложняет построение моделей^[54]. Система TEAM (английский — американский жестовый язык) реализовала механизмы анализа текста и синтаксисов, переходя к виртуальной анимации жестов^[54].

Для защиты авторским правом требуется наличие оригинального вклада в работе; потому ряд специалистов полагают, что машинный перевод сам по себе не защищён авторским правом как неоригинальный.^[55]. Авторское право на исходный текст сохраняется: публикация перевода требует разрешения первоисточника^[56].

Cohen, J. M. Translation // Encyclopedia Americana. 1986. Vol. 27. С. 12-15.
Hutchins, W. John; Somers, Harold L. An Introduction to Machine Translation. London: Academic Press, 1992. ISBN 0-12-362830-X
Lewis-Kraus, Gideon. Tower of Babble // New York Times Magazine. 2015. 7 июня. С. 48-52.
Weber, Steven; Mehandru, Nikita. The 2020s Political Economy of Machine Translation // Business and Politics. 2022. Т. 24, № 1. С. 96-112. DOI:10.1017/bap.2021.17

Преимущества и недостатки машинного перевода
Международная ассоциация машинного перевода (IAMT)
Machine Translation Archive — электронная библиотека по технологии автоматического перевода
Machine Translation — публикации Джона Хатчинса (англ.)
Машинный перевод и миноритарные языки
John Hutchins 1999 Архивировано 7 сентября 2007.
Slator: новости машинного перевода
Изменения в изучении языков благодаря машинному переводу

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[47]

[48]

[49]

[50]

[51]

[52]

[53]

[54]

[55]

[56]

Машинный перевод

История