Синтез речи

Синтез речи (англ. speech synthesis) — это искусственное воспроизведение человеческой речи. Компьютерная система, предназначенная для этого, называется синтезатором речи и может быть реализована как в программном, так и в аппаратном виде. Система преобразования текста в речь (англ. text-to-speech, TTS) переводит обычный текст на человеческом языке в речь; существуют также системы, преобразующие символическое лингвистическое представление, например фонетическую транскрипцию, в речь[1]. Обратный процесс называется распознаванием речи.

Синтезированная речь может создаваться путём конкатенации фрагментов записанной речи, хранящихся в базе данных. Системы различаются по размеру хранимых единиц: система, сохраняющая фонемы или дифоны, имеет наибольший диапазон вывода, но её речь может быть менее разборчивой. Для специализированных областей применения возможен синтез целых слов или предложений, что позволяет достичь высокого качества. Либо синтезатор может моделировать голосовой тракт и другие особенности человеческого голоса, полностью формируя «синтетическую» речь[2].

Качество синтезатора речи определяется его сходством с человеческим голосом и разборчивостью. Хороший синтезатор текста в речь помогает людям с нарушениями зрения или затруднениями при чтении прослушивать письменные тексты. Первый синтезатор речи в операционной системе появился в 1974 году в UNIX через утилиту speak. В 2000 году синтезатор Microsoft Sam был основной голосовой системой функции экранного диктора в Windows 2000 и последующих версиях Windows XP.

undefined

Система преобразования текста в речь (или «движок») обычно состоит из двух частей:[3] фронтенда (передней части) и бэкенда (задней части). Фронтенд преобразует исходный текст, содержащий числа и аббревиатуры, в слова; этот этап называется нормализацией текста, предобработкой или токенизацией. Затем фронтенд назначает каждому слову фонетическую транскрипцию и разбивает текст на просодические единицы (фразы, клаузы, предложения). Преобразование слов в фонемы называется text-to-phoneme или grapheme-to-phoneme conversion. Итоговое символическое лингвистическое представление формируется на выходе фронтенда и поступает на бэкенд, который преобразует это представление в звук. Иногда вычисление целевой просодии (тональная кривая, длительности фонем) также входит в этот этап[4].

История

Ещё до появления электронной обработки сигналов предпринимались попытки создания машин, имитирующих человеческую речь[5]. Известны и легенды о «медных головах», способных говорить, например, связанных с Папой Сильвестр II (ум. 1003), Альбертом Великим (1198–1280) и Роджером Бэконом (1214–1294)[6].

В 1779 году немецко-датский учёный Кристиан Готлиб Кратценштейн стал лауреатом конкурса Российской императорской академии наук и художеств, создав модели голосового тракта, воспроизводившие пять долгих гласныхМФА: [aː], [eː], [iː], [oː], [uː])[7]. За этим последовала ручная акустико-механическая "говорящая машина" Кемпелена (1791)[8], в которой моделировались язык и губы — позволив получать не только гласные, но и согласные. В 1837 году Чарльз Уитстон создал собственную говорящую машину, а в 1846 Джозеф Фабер продемонстрировал Euphonia. В 1923 году Пажет вновь воспроизвел устройство Уитстона.

В 1930-е годы в Bell Labs был сконструирован первый вокодер, позволяющий автоматически анализировать речь. На основе работы с вокодером Хомер Дадли разработал синтезатор "The Voder", показанный на Всемирной выставке в Нью-Йорке в 1939 году.

Доктор Франклин С. Купер и коллеги в Haskins Laboratories в конце 1940-х посторили устройство Pattern playback, превращавшее спектрограммы звуковых паттернов речи обратно в реальное звучание. С этим аппаратом Алвин Либерман и команда открыли акустические признаки фонетических сегментов речи.

Электронные устройства

undefined

Первые компьютерные системы синтеза речи появились в конце 1950-х. В 1968 году Норико Умеда и др. разработали первую англоязычную систему "текст в речь" в Японии[9]. В 1961 году физик Джон Ларри Келли-младший и Луи Герстманн использовали компьютер IBM 704 для синтеза речи, воспроизведя песню «Daisy Bell» (с музыкальным сопровождением Макса Мэтьюза). Эту сцену вдохновлённо перенял Артур Кларк для фильма Космическая одиссея 2001 года, где HAL 9000 поёт тот же самый мотив[10]. Несмотря на успехи в чисто электронном синтезе, исследования механических устройств продолжались.

Линейное предсказание речи (LPC), один из методов кодирования речи, начал разрабатываться Фумитадой Итакурой и Сюдзо Саито (NTT) в 1966 году, а позднее — Бишну Аталом и Манфредом Шрёдером в Bell Labs[11]. LPC легло в основу ранних чипов синтеза речи, например, используемых в игрушках Texas Instruments Speak & Spell с 1978 года.

В 1975 году Итакура разработал метод линейные спектральные пары (LSP) для высококомпрессионного кодирования речи, а его команда создала чип синтеза речи на этой основе, ставший стандартом в международных системах связи и мобильной телефонии[12].

В 1975 году был выпущен один из первых специализированных комплексов синтеза речи MUSA, способный читать итальянский текст и даже петь «а капелла»[13].

Демонстрация DECtalk с голосами Perfect Paul и Uppity Ursula

В 1980–1990-х годах доминировали системы DECtalk (разработки Денниса Клатта в MIT) и Bell Labs (одна из первых многоязычных, использовавшая методы обработки естественного языка)[14].

undefined
Озвучка хода в Fidelity Voice Chess Challenger, 1979
DNC(Differentiable Neural Computer).png

С появлением портативных устройств c синтезом речи в 1970-х одной из первых была создана калькулятор для слепых TSI Speech+ (1976), а также серия игрушек Speak & Spell (1978), электронный шахматный компьютер с озвучкой (1979). Первой видеоигрой с синтезом речи была Stratovox (1980), а первой компьютерной игрой — Manbiki Shoujo на PET 2001[15].

В 1976 году был создан CT-1 Speech Synthesizer для микрокомпьютеров S-100. До 1990-х синтезированные голоса были преимущественно мужскими, пока в AT&T Bell Laboratories не была создана женская модель (А. Сирдал).

С 2000-х с каждым годом синтезаторы становятся дешевле и доступнее широкой аудитории[16].

Искусственный интеллект

В 2016 году компания DeepMind представила WaveNet, продемонстрировавший возможности глубоких нейросетей в моделировании речевых сигналов и формировании речи на основе спектрограмм, что положило начало синтезу речи на основе нейросетей[17]. В 2018 году Google AI представила Tacotron 2, использующую нейросетевые архитектуры с механизмом внимания для преобразования текста в спектрограммы и далее в речь с помощью нейровокодера. В 2019 году Microsoft Research выпустила FastSpeech, а в 2020 — Glow-TTS с поддержкой передачи эмоциональных и стилистических особенностей голоса. В 2021–2024 годах платформа 15.ai позволила на практике клонровать голоса вымышленных персонажей по крайне малым объёмам данных (<15 секунд записи), что послужило толчком к взрывному росту мемов-интернет контента с ИИ-голосами[18]. В 2023 году ElevenLabs представила веб-платформу для синтеза, различающего эмоции[19]. В 2024 году OpenAI заявила о возможности клонрования голоса по 15-секундному образцу[20]. В период с 2024 по 2026 год произошёл значительный сдвиг в сторону архитектур на базе больших языковых моделей (LLM), что позволило отказаться от многоступенчатых систем в пользу единых сквозных моделей[21]. Ярким примером стала исследовательская нейрокодековая языковая модель VALL-E 2 от Microsoft, представленная в 2024 году. Она достигла паритета с человеческим качеством в задаче синтеза речи и способна клонировать голос на основе трёхсекундного образца[22]. Качественным скачком также стало появление нативных мультимодальных моделей, таких как GPT-4o от OpenAI и Gemini Live от Google. Благодаря способности обрабатывать данные в различных форматах в рамках единой нейросети, эти модели могут генерировать эмоционально окрашенную речь в реальном времени с учётом визуального и звукового контекста[23][24].

Клонирование голоса и персонализация

Современные zero-shot модели позволяют создавать качественные копии голоса на основе аудиообразца длительностью всего несколько секунд[25]. Благодаря этому технология клонирования голоса перестала быть нишевым инструментом и стала доступной широкому кругу пользователей[26].

Наблюдается массовое внедрение функций персонального синтеза речи в продукты крупных технологических компаний. В частности, Apple интегрировала функцию «Личный голос» (Personal Voice), предназначенную в первую очередь для людей с риском потери речи[27]. Коммерческие решения предлагает Microsoft в рамках облачного сервиса Azure AI Speech, предоставляя доступ к созданию кастомного нейронного голоса (Custom Neural Voice)[28].

Технические особенности

Ключевые качества системы синтеза речи — естественность и разборчивость. Естественность — насколько речь похожа на человеческую, разборчивость — насколько легко её понять. Идеальная система должна обеспечивать оба показателя.

Существует два основных подхода к синтезу речевого сигнала: конкатенативный синтез и формантный синтез. Каждый имеет свои преимущества и недостатки и сфера применения зависит от целей.

Конкатенативный синтез

Конкатенативный синтез основан на соединении заранее записанных сегментов речи. Обычно такой подход позволяет добиться наибольшей естественности, но различия в произношении и автоматизация сегментации могут вызывать артефакты. Существует несколько подтипов: выбор единиц (unit selection), дифонный синтез, доменно-специфический синтез.

К 2026 году метод считается устаревшим для передовых задач, однако он сохраняет применение в legacy-системах (информационно-справочные системы, простые IVR, объявления в общественном транспорте), где требуется высокая разборчивость при ограниченном словаре[29].[30]

Синтез через выбор единиц

Этот подход оперирует большими базами записанной речи, фрагментируя её на фонемы, дифоны, слоги, морфемы, слова, фразы, предложения; затем сегменты индексируются по акустическим параметрам (основная частота, длительность и т.д.), и в момент синтеза выбирается оптимальная последовательность единиц[31]. Данный метод требует чрезвычайно больших объёмов памяти[32].

Дифонный синтез

Использует минимальную базу, включающую все возможные дифоны — пары звуков, характерные для языка (например, для испанского ~800, для немецкого ~2500). На выходе к ним применяется целевая просодия, формируемая средствами цифровой обработки сигналов (LPC, PSOLA, MBROLA и др.). Такой синтез менее естественен и всё чаще уступает дорогим вариантам или исследовательским задачам.

Доменно-специфический синтез

Использование заранее записанных фраз и предложений для ограниченных задач (например, автоматические объявления в транспорте, прогноз погоды). Очень проста по реализации, обеспечивает максимальную естественность звучания там, где разнообразие фраз ограничено.

Формантный синтез

При формантном синтезе не используются сэмплы речи; сигнал создаётся путём аддитивного синтеза по акустической модели (физическое моделирование голосового тракта). Такой подход даёт искусственное звучание, но обеспечивает разборчивость даже на высоких скоростях, устойчив и компактен (важно для встраиваемых систем). В коммерческом применении метод практически вытеснен нейросетями[33], однако сохраняет свою ценность как фундаментальный образовательный инструмент в курсах по акустической фонетике и компьютерной лингвистике.

Артикуляционный синтез

Осуществляет моделирование процессов и органов человеческого речевого аппарата (голосовой тракт и т.д.), впервые реализован экспериментально в 1970-х в Haskins Laboratories. Современные системы могут имитировать биомеханику и аэродинамику голосовых связок, бронхов, ротовой и носовой полости.

HMM-синтез

Метод основан на скрытых марковских моделях, моделирующих одновременно спектр частот (голосовой тракт), основную частоту и длительность просодии речи. Волновые формы генерируются непосредственно на их основе по критерию максимального правдоподобия.

Синтез на основе чистых тонов

Способ, при котором форманты заменяются на чистые тоны ("свисты")[34].

Глубокие нейросети

Речь, синтезированная нейросетевым вокодером HiFi-GAN

Синтез на основе глубокого обучения использует глубокие нейросети для генерации речи по тексту (text-to-speech) или спектру (вокодер). Требует больших объёмов данных для обучения.

В 2025—2026 годах активное развитие получили диффузионные модели для синтеза речи, решившие проблемы высокой задержки при генерации и потребности в больших объёмах обучающих данных. Среди них выделяются такие архитектуры, как ARDiT (Autoregressive Diffusion Transformer), объединяющая диффузионные подходы с трансформерами для качественного синтеза «с нуля» (zero-shot)[35], и SESD (Sample-Efficient Speech Diffusion), способная эффективно обучаться на ограниченных наборах данных[36].

Параллельно появились новые эффективные вокодеры (например, Vocos, генерирующий комплексные спектрограммы напрямую без этапа апсэмплинга)[37]. Также получили развитие архитектуры, ставшие преемниками системы VITS: легковесная модель Kokoro-82M, обеспечивающая высокое качество при малом количестве параметров[38], и XTTS v2, позволяющая с высокой точностью клонировать голос по короткому аудиообразцу[39].

Нормализация текста

Процесс нормализации текста для синтеза речи сложен: требуется учитывать омографы, числа, аббревиатуры и особенности языка. Например, "project" читается по-разному в фразах "my project" и "to project". Также нелегко определять, как читать числа или сокращения, поскольку в контексте их интерпретация меняется.

Преобразование текста в фонемы

Существуют два основных подхода: словарный (по базе слов с озвученной транскрипцией) и правиловый (по набору орфографических правил языка). Первый — быстрый и точный, но не универсальный; второй — применим ко всему, но требует сложных правил для исключений. Обычно комбинируются оба способа.

Оценка качества синтеза

Долгое время сравнение технологий синтеза речи было затруднено, однако с 2005 года для разных систем стали использовать общие контрольные наборы данных[40]. К 2026 году в индустрии сложились стандарты, позволяющие всесторонне оценивать качество синтезированной речи. Эталоном субъективной оценки остаётся метрика MOS (Mean Opinion Score), основанная на прослушивании речи людьми. При этом для автоматизированной оценки стандартом стали объективные нейросетевые метрики NISQA и DNSMOS, которые способны предсказывать оценку MOS без привлечения асессоров[41].[42] Также происходит переход к автоматизированным бенчмаркам с использованием больших аудио-языковых моделей (LALM). Одним из примеров является бенчмарк EmergentTTS-Eval, который автоматически генерирует сложные тестовые сценарии и использует LALM для многопараметрической оценки просодии, интонации и точности произношения[43].

Просодика и эмоции

Исследования показывают, что слушатели распознают эмоции (например, улыбку) по интонационным особенностям синтезированной речи[44]. Современные технологии синтеза речи достигли значительного прогресса, позволяя не просто озвучивать текст, но и придавать ему выразительную эмоциональную окраску[45]. Передовые TTS-системы способны передавать тонкие эмоции, такие как шёпот и сарказм, с помощью специальных текстовых тегов[46][47]. Благодаря контекстному анализу текста нейросети могут автоматически синтезировать «улыбающийся» голос, если содержание фразы носит позитивный характер[48][49]. Кроме того, существуют инструменты, позволяющие управлять стилем и эмоциональной окраской речи в режиме реального времени[50][51].

Малые и исчезающие языки

Разработка систем синтеза речи для малых и исчезающих языков (языков с ограниченными ресурсами) сталкивается с проблемой острой нехватки данных. Для обучения качественных нейросетевых моделей требуются десятки часов аннотированных аудиозаписей, которые отсутствуют для большинства языков мира[52]. Для решения этой проблемы применяется трансферное обучение, при котором модель предварительно обучается на массивах данных распространённых языков, а затем дообучается на небольшом объёме данных целевого языка. Также используются многоязычные модели, способные выучивать общие фонетические и просодические представления сразу для множества языков[53]. Технологии синтеза речи применяются в проектах по цифровизации языкового наследия, обеспечивая присутствие малых языков в современном цифровом пространстве. В России ведётся работа по созданию моделей синтеза речи для языков коренных народов. В частности, в рамках проекта Silero были разработаны модели синтеза речи для 20 языков народов России и СНГ, для обучения которых голоса записывались непосредственно с носителями языков[54].

Проблемы и ограничения

Аудио-дипфейки и мошенничество

В 2023 году зафиксированы случаи, когда синтезированные голоса с помощью ElevenLabs позволяли обходить биометрическую аутентификацию (аудио дипфейки)[55]. В период с 2024 по 2026 год значительно возросло использование аудио-дипфейков в мошеннических схемах[56]. Наиболее распространёнными сценариями стали «звонок от руководителя» (CEO-fraud), когда злоумышленники от лица начальства приказывают сотрудникам перевести средства, и схема «родственник в беде», при которой сгенерированный голос близкого человека сообщает о вымышленной чрезвычайной ситуации и просит срочной финансовой помощи[57][58]. Базовые системы банковской голосовой биометрии оказались уязвимыми к атакам клонирования голоса, так как стандартные алгоритмы проверки не справляются с продвинутыми дипфейками[59]. В ответ на эти угрозы финансовый сектор начал переход к многофакторной защите, сочетающей голосовую биометрию с другими методами аутентификации и поведенческим анализом[60][61].

Безопасность и правовое регулирование

В ответ на угрозы, связанные с дипфейками, развиваются законодательные инициативы. В частности, принятый в 2024 году Закон ЕС об искусственном интеллекте (EU AI Act) обязывает к августу 2026 года внедрить обязательную маркировку контента, созданного или изменённого с помощью систем искусственного интеллекта, включая синтез речи[62][63].

Параллельно совершенствуются технические средства защиты. Для обнаружения синтезированной речи активно применяются методы машинного обучения с использованием архитектуры трансформеров, которые позволяют эффективно выявлять признаки поддельного аудио[64]. Кроме того, разработчики систем синтеза речи внедряют стандарты подтверждения происхождения контента, такие как C2PA, позволяющие встраивать в медиафайлы защищённые метаданные для отслеживания их источника[65][66].

Примечания

Литература

Taylor, Paul. Text-to-speech synthesis. — Cambridge University Press, 2009. — P. 3. — ISBN 9780521899277.