Машинный перевод
Машинный перевод (англ. machine translation) — область автоматизации перевода текстов или речи с одного естественного языка на другой с помощью вычислительных методов, включая учёт контекста, идиоматических выражений и прагматических нюансов обоих языков.
Хотя современные системы машинного перевода способны создавать понятные тексты, их работа ограничена сложностью естественного языка и эмоций, зачастую они не обеспечивают достаточной глубины и семантической точности. На качество перевода влияют языковые, грамматические, тональные и культурные различия, что делает машинный перевод неполноценной заменой человеческому переводу[1]. Эффективное повышение качества автоматического перевода требует учёта обычаев и исторического контекста целевого общества, а в задачах синхронного перевода человеческое вмешательство и визуальные подсказки остаются необходимыми. В то же время узкоспециализированные настройки систем — например, при переводе технической документации или официальных текстов — позволяют достичь наилучших и более устойчивых результатов[2], и потому такие системы широко применяются для многоязычных веб-сайтов и профессиональных баз данных[3].
Ранние подходы к машинному переводу основывались преимущественно на правил-ориентированных или статистических методах, которые впоследствии были вытеснены нейронными технологиями[4] и большими языковыми моделями[5].
История
Истоки машинного перевода прослеживаются в работах аль-Кинди, арабского криптографа IX века, который разработал методы системного перевода языков, включая криптоанализ, частотный анализ и методы вероятности и статистики, применяемые и в современных моделях[6]. Идея машинного перевода возникала вновь в XVII веке: в 1629 году Рене Декарт предложил универсальный язык, где одной идее на разных языках соответствовал бы единый символ[7].
Мысль о применении ЭВМ для перевода естественных языков была озвучена в 1947 году в Великобритании А. Д. Бутом[8] и Уорреном Уивером из Фонда Рокфеллера. Меморандум Уивера 1949 года стал ключевой публикацией ранних исследований машинного перевода[9]. В 1954 году состоялась демонстрация примитивного перевода с английского на французский на машине APEXC в Беркбек-колледже Лондона. Примерно в это же время компьютеры начали использоваться и для работы с брайлевскими текстами.
Первым исследователем в области машинного перевода был Йехошуа Бар-Хиллел, начавший исследования в MIT (1951). Группа Джорджтаунского университета во главе с Майклом Заречняком провела первую публичную демонстрацию системы Georgetown-IBM experiment в 1954 году. Вслед за ними исследования развернулись в Японии[10][11] (1956) и СССР (1955). В 1956 году в Лондоне прошла первая конференция по машинному переводу[12].
Дэвид Г. Хейс уже в 1957 году писал о компьютерной обработке языков и руководил проектами по вычислительной лингвистике в RAND (1955—1968)[13].
В США была создана Ассоциация машинного перевода и вычислительной лингвистики (1962), а Национальная академия наук основала комитет ALPAC для оценки машинного перевода (1964). Однако после критического отчёта ALPAC (1966), признавшего недостаточную результативность исследований, финансирование было значительно сокращено[14]. Положительный опыт успешного перевода военных документов на вьетнамский с помощью системы Logos возродил интерес к применениям МП для специфических областей. Во Франции (1970) MT использовался для перевода аннотаций на четыре языка; Университет Бригама Янга в 1971 году начал проект по машинному переводу текстов мормонов.
Система SYSTRAN, разработанная по заказу правительства США[15], с 1978 года применялась в Xerox для перевода технической документации. С конца 1980-х с ростом вычислительной мощности возрастал интерес к статистическим моделям. Самая первая коммерческая система МП для русско/англо/немецко-украинских языков была реализована в Харьковском университете (1991).
К 1998 году программное обеспечение для перевода текстов с английского на один из европейских языков стоило от $29,95[15]. Веб-сервисы SYSTRAN стали первыми бесплатными средствами онлайн-перевода (1996), затем перевод через Babel Fish AltaVista (1997) достигал 500 тыс. обращений в день[16]. Следующей системой стал GlobaLink от Lernout & Hauspie[15]. В 2003 году Франц Йозеф Ох (будущий руководитель Google Translate) выиграл конкурс DARPA по скорости МП[17]. В этот же период появились движок MOSES (2007), сервисы переводов SMS для мобильных (Япония, 2008), мобильные телефоны с функцией голосового перевода (2009). В 2012 году Google сообщил, что их система за сутки переводит текст объёмом около миллиона книг.
Широкое развитие машинного перевода обеспечили нейронные сети и крупные языковые модели.
Подходы
До появления глубокого обучения статистические методы требовали подробных правил и разметки текста на уровне морфологии, синтаксиса и семантики.
Правил-ориентированный подход применялся, прежде всего, для создания словарей и грамматик. Главный недостаток: любые вариации, орфографические ошибки и неоднозначности исходного языка необходимо явно обрабатывать; для всей лексической неоднозначности должны быть созданы отдельные правила.
Метод переноса работал с промежуточным (интерлингвальным или «языко-независимым») представлением значения фразы. В отличие от чисто интерлингвальных систем, он частично зависел и от языковой пары.
В этом варианте исходный текст преобразуется в межъязыковую (интерлингву) — специальное нейтральное представление, независимое от конкретного языка, после чего генерируется целевой язык. Единственная коммерчески внедрённая система такого класса — KANT (Nyberg и Mitamura, 1992), предназначенная для технических текстов Caterpillar.
При словарном подходе перевод строится на основе простого сопоставления слов с аналогами из словаря.
Статистический машинный перевод использует методы анализа больших объёмов параллельных корпусов — например, Ганзард (канадский парламент) и Европарламент. Такой подход даёт хорошие результаты, если корпус содержит тексты сопоставимого стиля и тематики для конкретной языковой пары. Первая серьёзная статистическая система — CANDIDE от IBM. Google c 2005 года использовал свыше 200 млрд слов материалов ООН[18].
Главный недостаток SMT — зависимость от огромных корпусов и трудности при работе с языками с богатой морфологией; ошибки, возникающие единожды, часто не исправляются.
Одно из направлений — мультиязыковые корпуса (один текст переведён на несколько языков). Комбинирование информации из разных языков позволяет повысить точность при переводе на третий язык[19].[20][21]
Современный прорыв связан с внедрением глубоких нейросетей — нейронных систем. Однако консенсус научного сообщества таков, что «человеческого уровня» качества удаётся достичь лишь на ограниченных доменах, языковых парах и для некоторых тестовых наборов[22] и это лишено статистической значимости[23].
Результаты работы переводчиков уровня DeepL (по состоянию на 2022 год демонстрирует наивысшее качество среди МП-систем) всё равно требуют последующей доработки человеком-переводчиком[24].
Помимо специализированных моделей, генеративные большие языковые модели (например, GPT) могут переводить текст напрямую по команде пользователя[25]. Такой подход перспективен[26], но намного более ресурсоёмок.
Проблемы и ограничения
Крупные исследования с использованием человеческой экспертизы (например, профессиональных литературных переводчиков или читателей) выявили ряд проблем с самыми современными системами МП[27]. Для ряда языков точность терминологии и выразительность у машинного перевода ниже, чем при работе профессионалов. Типовые сложности: перевод неоднозначных и омонимичных фрагментов, требующих общезнаемых и мировых знаний[27]. Возможны также ошибки в исходных данных, нехватка качественных тренировочных корпусов; некоторые распространённые дефекты не сокращаются даже при известном уровне пользовательских правок.
Разрешение омонимии — одна из первых проблем, выделенных в машинном переводе; Й. Бар-Хиллел в 1950-х показал, что без «универсальной энциклопедии» автомат не различит значения слов надёжно[28]. Подходы условно делят на «поверхностные» (работающие только со статистическими оконами) и «глубокие», базирующиеся на знаниях. На практике преобладают первые[29].
Клод Пирон, переводчик ООН и ВОЗ, утверждал, что МП автоматизирует только рутинные этапы перевода; более сложная часть работы — разрешение неоднозначности — требует глубокого исследования, часто с привлечением внешних знаний[30]. Программам до сих пор недоступна автоматизация этого этапа.
Одной из главных трудностей остаётся неумение МП обрабатывать разговорные, сленговые, диалектные и устаревшие формы так же надёжно, как стандартный язык.
Именованные сущности — имена людей, организаций, топонимы, даты и суммы, которые программа должна корректно идентифицировать. В противном случае возможна ошибочная обработка (перевод вместо транслитерации или наоборот)[31]. Одним из методов решения является «белый список» (do-not-translate list) или замена на «классовые» токены (например, все имена заменять на один символ-класс). Тем не менее внедрение методов сущностного анализа нередко приводит к снижению стандартных метрик BLEU[32].
Применение
Хотя полностью автоматический высококачественный перевод произвольных текстов ещё не достигнут, многие МП-системы обеспечивают приемлемое качество на ограниченных доменах[33]. Качество существенно возрастает при ограниченной предметной области[34].
Приложения машинного перевода доступны почти для всех мобильных устройств: смартфонов, КПК, планшетов. Они облегчают межкультурную коммуникацию без посредника-переводчика и поддерживают иностранный язык «на ходу». Например, Google Translate позволяет осуществлять визуальный перевод посредством распознавания текста камерой смартфона на экране[35]. Также реализована функция распознавания речи с переводом[36].
Крупнейшим институциональным пользователем МП является Европейская комиссия. В 2012 году в рамках программы ISA выделено более 3 млн евро на переход к новым статистическим системам[37].
Машинный перевод используется для перевода статей Википедии, что может стать важной основой для создания и пополнения разделов, особенно по мере роста возможностей систем[38]. Англоязычные статьи зачастую более полны и объективны, чем переводы на другие языки[39]. В 2022 году число статей в английском разделе превышало 6,5 млн, в немецком и шведском — 2,5 млн[40].
После террористических атак в западных странах особое внимание уделялось переводчикам для арабского, пушту и дари[41]. В этих задачах требуются быстродействующие средства, адаптированные к ключевым фразам. В США создание переводчиков финансирует DARPA, в том числе программы TIDES и Babylon translator, ВВС США выделяли $1 млн на универсальный переводчик[42].
Рост социальных сетей и мессенджеров сделал актуальным внедрение МП для мгновенного общения пользователей с разными языками (Facebook, Skype, Google Talk и др.).
В играх (например, Lineage W) внедрён функционал МП, что способствует межстрановой коммуникации игроков[43].
Несмотря на критическую оценку ALPAC (1966), по состоянию на 2020-е годы качество МП выросло настолько, что анализируют применение автоматического перевода для медицинских задач. Однако риск ошибок в переводах высок и смертельно опасен для пациентов, потому рекомендуется проверка результатов людьми[44].
Юридические тексты представляют особую сложность для МП-систем, поэтому для работы с ними разрабатывают специализированные алгоритмы[45]. МП рекомендуется использовать только под контролем эксперта; ряд судебных инстанций запрещает его применение[46]. Использование онлайн-переводчиков создает риски утечки данных и нарушения адвокатской тайны[45]. Инструкции (например, согласие на обыск), полученные исключительно через МП, могут быть признаны недействительными[47].
Современные сверточные нейронные сети и методы low-resource MT позволили реализовать автоматический перевод с аккадского и других древних языков.
Оценка качества
Качество МП оценивается с учётом задачи, особенностей программного обеспечения и самого процесса перевода.
Разные системы лучше работают на разных задачах; статистический перевод, как правило, превосходит примерно-основанный, но это не универсально и зависит от языка и стиля текста[48]. Для строго контролируемых технических текстов нередко достаточно словарных систем[49].
Оценка может проводиться как экспертами (человеческая оценка — основной способ сравнения подходов[50]), так и автоматически по метрикам BLEU, NIST, METEOR, LEPOR[51].
Даже самые лучшие системы требуют последующей вычитки человеком — и машинный, и человеческий перевод подвержены ошибкам, но без редактуры качество машинного перевода зачастую недостаточно для публикации[52]. К тому же качество работы зависит от состава корпуса для обучения: избыток или нехватка примеров сбивают точность; оптимальный объём — немногим более 100 тыс. пар фраз[48]. Характерные ошибки МП часто становятся предметом интернет-шуток — например, многократное повторение бессмысленных слогов приводит к абсурдным результатам на выходе.[53].
Машинный перевод жестовых языков
В начале 2000-х автоматический перевод между устными и жестовыми языками был крайне ограничен: невербальные аспекты (интонация, ритм, мимика) передаются иначе, что осложняет построение моделей[54]. Система TEAM (английский — американский жестовый язык) реализовала механизмы анализа текста и синтаксисов, переходя к виртуальной анимации жестов[54].
Авторское право
Для защиты авторским правом требуется наличие оригинального вклада в работе; потому ряд специалистов полагают, что машинный перевод сам по себе не защищён авторским правом как неоригинальный.[55]. Авторское право на исходный текст сохраняется: публикация перевода требует разрешения первоисточника[56].
Примечания
Литература
- Cohen, J. M. Translation // Encyclopedia Americana. 1986. Vol. 27. С. 12-15.
- Hutchins, W. John; Somers, Harold L. An Introduction to Machine Translation. London: Academic Press, 1992. ISBN 0-12-362830-X
- Lewis-Kraus, Gideon. Tower of Babble // New York Times Magazine. 2015. 7 июня. С. 48-52.
- Weber, Steven; Mehandru, Nikita. The 2020s Political Economy of Machine Translation // Business and Politics. 2022. Т. 24, № 1. С. 96-112. DOI:10.1017/bap.2021.17
Ссылки
- Преимущества и недостатки машинного перевода
- Международная ассоциация машинного перевода (IAMT)
- Machine Translation Archive — электронная библиотека по технологии автоматического перевода
- Machine Translation — публикации Джона Хатчинса (англ.)
- Машинный перевод и миноритарные языки
- John Hutchins 1999 Архивировано 7 сентября 2007.
- Slator: новости машинного перевода
- Изменения в изучении языков благодаря машинному переводу


