Модель зашумленного канала

Моде́ль зашумлённого кана́ла (англ. noisy channel model) — это технологическая концепция, применяемая в программах проверки орфографии, системах ответа на вопросы, технологиях распознавания речи и машинном переводе. В рамках этой модели задача состоит в том, чтобы определить исходное слово по наблюдаемому слову, в котором буквы каким-либо образом были искажены или перепутаны.

В проверке орфографии

Пусть имеется алфавит ,  — множество всех конечных строк над . Словарь допустимых слов является некоторым подмножеством , то есть, [1].

Зашумлённый канал задаётся матрицей

,

где  — исходное (намеренное) слово, а  — «искажённое» слово, которое было получено на выходе канала.

Задача модели зашумлённого канала — определить исходное слово по полученному искажённому слову. Функция решения  — это функция, которая по искажённому слову возвращает исходное слово.

Методы построения функции решения включают правило максимального правдоподобия, максимальное апостериорное правило и метод минимального расстояния.

В некоторых случаях целесообразнее принять искажённое слово за исходное, чем искать эквивалент в словаре. Например, слово schönfinkeling может отсутствовать в словаре, но быть на самом деле намеренным словом.

Пример

Рассмотрим английский алфавит . Подмножество составляет словарь допустимых английских слов.

При наборе текста возможны следующие типовые ошибки:

  1. Пропущенные буквы, например, ' вместо letter
  2. Лишние буквы, например, ' вместо mistake
  3. Перестановка букв, например, ' вместо received
  4. Замена букв, например, ' вместо finite

Для построения матрицы зашумлённого канала необходимо учитывать вероятность каждой ошибки для каждого исходного слова ( для всех и ). Эти вероятности можно оценить, например, с помощью расстояния Дамерау-Левенштейна между и или сравнивая черновик текста с его отредактированной версией.

В машинном переводе

Предположим[2], требуется перевести иностранный текст на английский язык. Можно напрямую моделировать : вероятность того, что английское предложение E соответствует иностранному предложению F, после чего выбирается наиболее вероятное . Однако по формуле Байеса получаем эквивалентное выражение:

[3]

Недостаток модели зашумлённого канала — вычислительная сложность байесовского вывода: вместо непосредственного нахождения наиболее вероятного перевода методом приходится учитывать значения обеих моделей (языковой и перевода), вычислять их произведение и искать максимальное значение.

В распознавании речи

Распознавание речи можно рассматривать как перевод из «языка звуков» в «язык текста». Соответствующее выражение:

Полезность модели зашумлённого канала состоит не в её универсальности (любой такой модели можно противопоставить прямую модель ), а в структурной раздельности: модель разбивается на адекватные ситуации компоненты, что придаёт ей практические преимущества.

В процессе речи человек формирует сначала текстовую мысль, затем с помощью двигательных систем, голосовых связок и других органов преобразует её в звуковую цепочку. Модель зашумлённого канала соответствует этой схеме когнитивного процесса и на практике хорошо себя зарекомендовала в задачах распознавания речи.

Пример

Пусть имеется цепочка на «языке звуков» (записанная в МФА для английского) S = aɪ wʊd laɪk wʌn tuː. Возможны три интерпретации текста :

  • I would like one to.
  • I would like one too.
  • I would like one two.

Все три интерпретации одинаково вероятны с точки зрения акустической модели: . Однако языковая модель для английского определяет , поскольку второе предложение грамматично, первое — близко к грамматически правильному («I would like one to [go].»), а третье далеко от нормативного оборота.

В результате модель зашумлённого канала выберет как наилучшую транскрипцию.

Примечания

Литература