Гибридный машинный перевод

Гибридный машинный перевод (Hybrid machine translation — HMT) — интеграция разных подходов машинного перевода из возможных вариантов МП:^[1]

Rule-based machine translation (RBMT) — Машинный перевод на основе правил.
Corpus-based machine translation (CBMT) — Машинный перевод на корпусах текстов.
- Example-based machine translation (EBMT) Машинный перевод на примерах.
- Statistical machine translation (SMT) — Статистический машинный перевод.

Ожидается, что с помощью гибридной архитектуры удастся объединить преимущества этих подходов.^[1] Машинный перевод на сегодняшний день представлен двумя основными технологиями: Статистический машинный перевод (Statistical machine translation — SMT) и Машинный перевод на основе правил (Rule-Based Machine Translation — RBMT).^[2]

AppTek HMT^[3] «TranSphere®» — полная интеграция SMT и RBMT методологий.
Asia Online^[4] «SAIC’s OmnifluentTM Human Language Technology».
LinguaSys^[5] «Carabao Machine Translation engine».
Systran^[6]^[7] «SYSTRAN’s hybrid engine»
Polytechnic University of Valencia^[8]
PROMT^[2] «PROMT DeepHybrid»^[9]

Многоуровненвый

Этот подход к гибридному машинному переводу предполагает параллельное выполнение нескольких систем машинного перевода. Окончательный результат получается путем объединения результатов всех подсистем. Чаще всего в этих системах используются подсистемы статистического и основанного на правилах перевода, но были изучены и другие комбинации. Например, исследователи из Университета Карнеги-Меллона добились определенного успеха, объединив подсистемы перевода на основе примеров , передачи , знаний и статистического перевода в одну систему машинного перевода.

Статистическая генерация правил

Этот подход включает использование статистических данных для создания лексических и синтаксических правил. Затем ввод обрабатывается с использованием этих правил, как если бы это был переводчик на основе правил . Этот подход пытается избежать сложной и отнимающей много времени задачи создания набора всеобъемлющих, детализированных лингвистических правил путем извлечения этих правил из учебного корпуса. Этот подход по-прежнему страдает от многих проблем нормального статистического машинного перевода , а именно от того, что точность перевода будет сильно зависеть от сходства входного текста с текстом обучающего корпуса. В результате этот метод имел наибольший успех в приложениях, ориентированных на конкретную предметную область, и имеет те же трудности с адаптацией предметной области, что и многие системы статистического машинного перевода.

Многопроходный

Этот подход предполагает последовательную обработку ввода несколько раз. Наиболее распространенный метод, используемый в системах многопроходного машинного перевода, - это предварительная обработка ввода с помощью системы машинного перевода на основе правил . Выходные данные основанного на правилах препроцессора передаются в систему статистического машинного перевода , которая производит окончательный результат. Этот метод используется для ограничения объема информации, которую необходимо учитывать статистической системе, что значительно снижает требуемую вычислительную мощность. Это также устраняет необходимость в системе, основанной на правилах, быть полной системой перевода для языка, что значительно снижает количество человеческих усилий и труда, необходимых для создания системы.

На основе уверенности

Этот подход отличается от других гибридных подходов тем, что в большинстве случаев используется только одна технология перевода. Для каждого переведенного предложения создается показатель достоверности, на основе которого можно принять решение, попробовать ли вторичную технологию перевода или продолжить работу с исходным переводом. Omniscien Technologies - одна из компаний, использующих этот подход, при этом NMT является основной технологией, но возвращается к SMT, если показатель достоверности ниже порогового значения или длина предложения очень короткая (например, 1 или 2 слова). SMT также используется, когда общие шаблоны ошибок, такие как несколько повторяющихся слов, появляются последовательно, как это часто бывает с NMT, когда механизм внимания сбит с толку.

Гибридная технология перевода предполагает использование статистических методов для построения словарных баз автоматическим путём на основе параллельных корпусов, формирования нескольких возможных переводов как на лексическом уровне, так и на уровне синтаксической структуры предложения выходного языка, применения постредактирования в автоматическом режиме и выбор лучшего (наиболее вероятного) перевода из возможных на основе языковой модели, построенной по определенному корпусу выходного языка.^[2]

Hybrid (SMT + RBMT) System различаются: (п.2.4.3^[4])

Rule-based MT с пост-обработкой статистического подхода.
Statistical MT с предварительной обработкой по Rule-based подходу.
Полная интеграция RBMT и SMT.^[3]

Статистический МП стремится использовать лингвистические данные, а системы с «классическим» подходом, основанном на правилах, применяют статистические методы.^[2] Добавление некоторых "сквозных" правил, то есть создание гибридных систем, несколько улучшает качество переводов, особенно при недостаточном объеме входных данных, используемых при построении индексных файлов хранения лингвистической информации машинного переводчика, базирующегося на N-граммах.^[10]

Объединение RBMT и статистического машинного перевода:

Лингвистический анализ входного предложения;
Порождение вариантов перевода;
Использование статистических технологий;
Оценка и выбор лучшего варианта перевода с использованием Языковой модели.^[11]^[12]^[13]

Этапы Гибридной технологии SMT и RBMT:^[2]

Обучение RBMT на основе параллельного корпуса с использованием статистических технологий;
Эксплуатация на основе натренированной системы.

Архитектура Гибридной технологии «SMT и RBMT»

В гибридном машинном переводе RBMT-система дополнена двумя компонентами^[14]: модулем статистического постредактирования и модулем языковых моделей. Статистическое постредактирование позволяет сгладить RB-перевод, приближая его к естественному языку и при этом сохраняя четкую структуру синтезируемого текста. Языковые модели используются для оценки гладкости и грамматической правильности вариантов перевода, порождаемых гибридной системой.

Типичная архитектура HMT:^[14]

Параллельный корпус;
Обучение;
Языковая модель;
Данные для постредактирования;
Правила синтеза;
Словарь терминологии.
Эксплуатация:
- — Гибридный перевод.

Принцип работы HMT

Совмещение, казалось бы, несовместимых методов перевода, а именно классической технологии машинного перевода Машинный перевод на основе правил (Rule-Based MT) и Статистический машинный перевод (Statistical MT) можно реализовать в гибридной технологии перевода.^[15] Кардинальное отличие нового решения состоит в том, что вместо одного варианта перевода программа порождает множество переводов, число которых у одного предложения, в зависимости от многозначности слов, конструкций, и результатов статистической обработки, может доходить до нескольких сотен. Далее вероятностная модель языка позволяет выбрать самый вероятный из предложенных вариантов.

Алгоритм работы типичной HMT:^[2]

Создание терминологического словаря из параллельных текстов для RBMT автоматическим путём.
Порождение всех возможных вариантов перевода на основе:
- — лексических вариантов;
- — вариантов синтеза разных конструкций;
- — применения постредактирования.
Выбор лучшего варианта, через реализованную Языковую модель.

Преимущества и недостатки

Что даёт гибридная технология перевода?

Быструю автоматическую настройку на основе Translation Memories заказчика;
Терминологическую точность перевода, а также единство стиля;
Получение дополнительных полезных данных — двуязычного терминологического словаря.

Преимущества и недостатки Машинного перевода на основе правил

Преимущества RBMT:^[16]

Сохраняются:

— синтаксическая и морфологическая точность;
— стабильность и предсказуемость результата;
— возможность настройки на предметную область.

Недостатки RBMT:

— трудоемкость и длительность разработки;
— необходимость поддерживать и актуализировать лингвистические БД;
— «машинный акцент» при переводе.

Недостатки нивелируются за счет использования параллельных корпусов и статистических методов.

— автоматическая настройка лингвистических баз данных (быстрое и качественное извлечение терминологии),
— исчезает «машинный» акцент при переводе (варианты синтеза и постредактирование).

Преимущества и недостатки Статистических систем перевода

Преимущества SMT:^[17]

— быстрая настройка;
— легко добавлять новые направления перевода;
— гладкость перевода.

Недостатки SMT:

— «Дефицит» параллельных корпусов;
— многочисленные грамматические ошибки;
— нестабильность перевода.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

Обработка естественного языка
Общие определения	Языковая модель Корпус текстов Речевой корпус Стоп-слова Мешок слов AI-полнота N-грамма Биграммный шифр Триграмма
Анализ текста	Сегментация текста Частеречная разметка Поверхностно-синтаксический анализ Обработка сложных слов Извлечение коллокаций Стемминг Лемматизация Распознавание именованных сущностей Разрешение кореферентности Анализ тональности текста Извлечение концептов Синтаксический анализ Разрешение лексической многозначности Извлечение терминологии Извлечение информации Идентификация языка Определение регистра
Реферирование	Извлечение предложений Генерация реферата Упрощение текста
Машинный перевод	Автоматизированный Гибридный Интерлингвальный На основе правил На основе примеров На основе словаря На основе трансформации Нейронный Статистический Синхронный
Идентификация и сбор данных	Распознавание речи Синтез речи Оптическое распознавание символов Генерация текста
Тематическая модель	Размещение патинко Латентное размещение Дирихле Латентно-семантический анализ
Рецензирование	Автоматизированная оценка сочинений Конкордансер Предиктивный ввод текста Система проверки грамматики Система проверки правописания Угадывание синтаксиса
Интерфейс на естественном языке	Виртуальный ассистент Виртуальный собеседник Вопросно-ответная система Голосовой интерфейс Интерактивная литература

Гибридный машинный перевод

Разработчики software Hybrid MT

Подходы

Многоуровненвый

Статистическая генерация правил

Многопроходный

На основе уверенности

Гибридная технология «SMT и RBMT»

Архитектура Гибридной технологии «SMT и RBMT»

Принцип работы HMT

Преимущества и недостатки

Преимущества и недостатки Машинного перевода на основе правил

Преимущества и недостатки Статистических систем перевода

См. также

Примечания

Категории