Гибридный машинный перевод
Гибридный машинный перевод (Hybrid machine translation — HMT) — интеграция разных подходов машинного перевода из возможных вариантов МП:[1]
- Rule-based machine translation (RBMT) — Машинный перевод на основе правил.
- Corpus-based machine translation (CBMT) — Машинный перевод на корпусах текстов.
- Example-based machine translation (EBMT) Машинный перевод на примерах.
- Statistical machine translation (SMT) — Статистический машинный перевод.
Ожидается, что с помощью гибридной архитектуры удастся объединить преимущества этих подходов.[1] Машинный перевод на сегодняшний день представлен двумя основными технологиями: Статистический машинный перевод (Statistical machine translation — SMT) и Машинный перевод на основе правил (Rule-Based Machine Translation — RBMT).[2]
Разработчики software Hybrid MT
Подходы
Этот подход к гибридному машинному переводу предполагает параллельное выполнение нескольких систем машинного перевода. Окончательный результат получается путем объединения результатов всех подсистем. Чаще всего в этих системах используются подсистемы статистического и основанного на правилах перевода, но были изучены и другие комбинации. Например, исследователи из Университета Карнеги-Меллона добились определенного успеха, объединив подсистемы перевода на основе примеров , передачи , знаний и статистического перевода в одну систему машинного перевода.
Этот подход включает использование статистических данных для создания лексических и синтаксических правил. Затем ввод обрабатывается с использованием этих правил, как если бы это был переводчик на основе правил . Этот подход пытается избежать сложной и отнимающей много времени задачи создания набора всеобъемлющих, детализированных лингвистических правил путем извлечения этих правил из учебного корпуса. Этот подход по-прежнему страдает от многих проблем нормального статистического машинного перевода , а именно от того, что точность перевода будет сильно зависеть от сходства входного текста с текстом обучающего корпуса. В результате этот метод имел наибольший успех в приложениях, ориентированных на конкретную предметную область, и имеет те же трудности с адаптацией предметной области, что и многие системы статистического машинного перевода.
Этот подход предполагает последовательную обработку ввода несколько раз. Наиболее распространенный метод, используемый в системах многопроходного машинного перевода, - это предварительная обработка ввода с помощью системы машинного перевода на основе правил . Выходные данные основанного на правилах препроцессора передаются в систему статистического машинного перевода , которая производит окончательный результат. Этот метод используется для ограничения объема информации, которую необходимо учитывать статистической системе, что значительно снижает требуемую вычислительную мощность. Это также устраняет необходимость в системе, основанной на правилах, быть полной системой перевода для языка, что значительно снижает количество человеческих усилий и труда, необходимых для создания системы.
Этот подход отличается от других гибридных подходов тем, что в большинстве случаев используется только одна технология перевода. Для каждого переведенного предложения создается показатель достоверности, на основе которого можно принять решение, попробовать ли вторичную технологию перевода или продолжить работу с исходным переводом. Omniscien Technologies - одна из компаний, использующих этот подход, при этом NMT является основной технологией, но возвращается к SMT, если показатель достоверности ниже порогового значения или длина предложения очень короткая (например, 1 или 2 слова). SMT также используется, когда общие шаблоны ошибок, такие как несколько повторяющихся слов, появляются последовательно, как это часто бывает с NMT, когда механизм внимания сбит с толку.
Гибридная технология «SMT и RBMT»
Гибридная технология перевода предполагает использование статистических методов для построения словарных баз автоматическим путём на основе параллельных корпусов, формирования нескольких возможных переводов как на лексическом уровне, так и на уровне синтаксической структуры предложения выходного языка, применения постредактирования в автоматическом режиме и выбор лучшего (наиболее вероятного) перевода из возможных на основе языковой модели, построенной по определенному корпусу выходного языка.[2]
Hybrid (SMT + RBMT) System различаются: (п.2.4.3[4])
- Rule-based MT с пост-обработкой статистического подхода.
- Statistical MT с предварительной обработкой по Rule-based подходу.
- Полная интеграция RBMT и SMT.[3]
Статистический МП стремится использовать лингвистические данные, а системы с «классическим» подходом, основанном на правилах, применяют статистические методы.[2] Добавление некоторых "сквозных" правил, то есть создание гибридных систем, несколько улучшает качество переводов, особенно при недостаточном объеме входных данных, используемых при построении индексных файлов хранения лингвистической информации машинного переводчика, базирующегося на N-граммах.[10]
Объединение RBMT и статистического машинного перевода:
- Лингвистический анализ входного предложения;
- Порождение вариантов перевода;
- Использование статистических технологий;
- Оценка и выбор лучшего варианта перевода с использованием Языковой модели.[11][12][13]
Этапы Гибридной технологии SMT и RBMT:[2]
- Обучение RBMT на основе параллельного корпуса с использованием статистических технологий;
- Эксплуатация на основе натренированной системы.
В гибридном машинном переводе RBMT-система дополнена двумя компонентами[14]: модулем статистического постредактирования и модулем языковых моделей. Статистическое постредактирование позволяет сгладить RB-перевод, приближая его к естественному языку и при этом сохраняя четкую структуру синтезируемого текста. Языковые модели используются для оценки гладкости и грамматической правильности вариантов перевода, порождаемых гибридной системой.
Типичная архитектура HMT:[14]
- Параллельный корпус;
- Обучение;
- Языковая модель;
- Данные для постредактирования;
- Правила синтеза;
- Словарь терминологии.
- Эксплуатация:
- — Гибридный перевод.
Совмещение, казалось бы, несовместимых методов перевода, а именно классической технологии машинного перевода Машинный перевод на основе правил (Rule-Based MT) и Статистический машинный перевод (Statistical MT) можно реализовать в гибридной технологии перевода.[15] Кардинальное отличие нового решения состоит в том, что вместо одного варианта перевода программа порождает множество переводов, число которых у одного предложения, в зависимости от многозначности слов, конструкций, и результатов статистической обработки, может доходить до нескольких сотен. Далее вероятностная модель языка позволяет выбрать самый вероятный из предложенных вариантов.
Алгоритм работы типичной HMT:[2]
- Создание терминологического словаря из параллельных текстов для RBMT автоматическим путём.
- Порождение всех возможных вариантов перевода на основе:
- — лексических вариантов;
- — вариантов синтеза разных конструкций;
- — применения постредактирования.
- Выбор лучшего варианта, через реализованную Языковую модель.
Что даёт гибридная технология перевода?
- Быструю автоматическую настройку на основе Translation Memories заказчика;
- Терминологическую точность перевода, а также единство стиля;
- Получение дополнительных полезных данных — двуязычного терминологического словаря.
Преимущества RBMT:[16]
Сохраняются:
- — синтаксическая и морфологическая точность;
- — стабильность и предсказуемость результата;
- — возможность настройки на предметную область.
Недостатки RBMT:
- — трудоемкость и длительность разработки;
- — необходимость поддерживать и актуализировать лингвистические БД;
- — «машинный акцент» при переводе.
Недостатки нивелируются за счет использования параллельных корпусов и статистических методов.
- — автоматическая настройка лингвистических баз данных (быстрое и качественное извлечение терминологии),
- — исчезает «машинный» акцент при переводе (варианты синтеза и постредактирование).
Преимущества SMT:[17]
- — быстрая настройка;
- — легко добавлять новые направления перевода;
- — гладкость перевода.
Недостатки SMT:
- — «Дефицит» параллельных корпусов;
- — многочисленные грамматические ошибки;
- — нестабильность перевода.