Комфортный шум
Комфортный шум (англ. comfort noise, CNG (Comfort Noise Generation)[1], также комфортный тон) — это искусственно синтезируемый фоновый шум низкого уровня[2], используемый в радио и беспроводных коммуникациях для заполнения искусственных пауз в передаче, возникающих вследствие работы алгоритмов детектирования голосовой активности либо из-за высокой чистоты звучания современных цифровых линий связи.
Некоторые современные телефонные системы (такие как беспроводные системы и VoIP) используют детектор голосовой активности (VAD — Voice Activity Detection), разновидность шумоподавления, при которой передающее устройство игнорирует сигналы с низким уровнем громкости. В цифровых аудиопередачах это позволяет экономить пропускную способность канала передачи данных с помощью технологии прерывистой передачи (DTX — Discontinuous Transmission)[2], не передавая никаких сигналов, если уровень громкости источника опускается ниже заданного порога, отправляя только более громкие звуки (например, речь). Однако совершенствование технологий подавления фонового шума иногда приводит к полной фильтрации всех шумов. Несмотря на то, что максимизация качества соединения обычно является приоритетной задачей, избыточное удаление шума может не соответствовать привычному поведению терминалов в системе общей телефонной сети.
Проблемы, связанные с тишиной
Полное отсутствие звука в течение продолжительного времени может вызвать у слушателя нежелательные эффекты, а именно:
- слушатель может решить, что соединение прервано, и преждевременно положить трубку;
- речь собеседника может восприниматься «рваной», что затрудняет понимание;
- резкое изменение уровня громкости может быть психологически некомфортным.
- человеческий мозг обрабатывает абсолютную тишину как сигнал о проблеме, так как она неестественна[3];
- неожиданные провалы в звуке увеличивают когнитивную нагрузку на пользователя[3].
Чтобы свести к минимуму эти эффекты, на стороне приёмника, обычно в беспроводных или VoIP-системах, добавляется комфортный шум — искусственный фоновый сигнал, заполняющий участки тишины в передаче.
Генерация шума
Сгенерированный комфортный шум воспроизводится на низком, но различимом уровне громкости, который измеряется в относительных величинах (дБов) и динамически адаптируется к фоновому шуму, чтобы избежать резких изменений восприятия[4][5].
Во многих VoIP-продуктах пользователи могут самостоятельно настраивать параметры работы VAD и комфортного шума либо полностью отключать эту функцию.
Реализация генерации комфортного шума в протоколах SIP и SDP основана на механизме согласования медиа-параметров по модели «предложение/ответ» (offer/answer). Для этого в SDP-описании применяется атрибут a=rtpmap с явным указанием формата CN[6].
Стандарты и кодеки
В рамках аудио-видео профиля RTP стандарт RFC 3389 определяет единый способ передачи информации о комфортном шуме в VoIP-системах[6]. В современных системах (например, WebRTC) используется кодек Opus со встроенным механизмом генерации комфортного шума (in-band CNG), для которого применение отдельного стандарта RFC 3389 не рекомендуется[7][8].
В стандартах мобильной связи 3GPP (включая GSM, LTE и 5G) для оптимизации голосовой связи применяется механизм прерывистой передачи (DTX). Во время пауз в разговоре вместо тишины передаются специальные кадры SID (Silence Insertion Descriptor). В речевых кодеках AMR и AMR-WB эти кадры содержат параметры фонового шума, позволяющие принимающей стороне генерировать реалистичный комфортный шум[9].[10]
В современных сетях (таких как VoLTE и 5G) используется кодек EVS (Enhanced Voice Services), который поддерживает усовершенствованные схемы генерации комфортного шума: LP-CNG (на основе линейного предсказания) и FD-CNG (работающую в частотной области и лучше воспроизводящую сложные типы шумов)[11].
Механизм DTX играет важную роль в экономии сетевого трафика и снижении уровня радиопомех. Технология также способствует энергосбережению мобильных устройств и сетевого оборудования[12]. В стандарте 5G-Advanced получает развитие технология micro-DTX, позволяющая базовым станциям переходить в спящий режим при отсутствии данных для передачи, что дополнительно снижает общее энергопотребление сетей[13].
Многие радиостанции, в периоды запланированной тишины, транслируют звуки природы — пение птиц, шум городского движения и другие атмосферные фоновые шумы. Например, в Великобритании во время минуты молчания на Дне памяти звучит фоновый шум Лондона, чтобы слушатели были уверены, что радиостанция продолжает вещание, а также чтобы системы автоматического резервирования не запускали воспроизведение аварийных музыкальных записей при обнаружении молчания в эфире.
Во время блокады Ленинграда в качестве комфортного шума на радиосети Ленинграда звучал равномерный сигнал метронома, который показывал, что сеть продолжает работу[14].
Родственные понятия
Близким по смыслу является понятие сайдтона, при котором звук с микрофона телефонной трубки на низком уровне подаётся в её же наушник и служит своеобразной акустической обратной связью для абонента.
Примечания
Литература
- Gao Research — VAD/CNG
- Ньютон, Г. Newton’s Telecom Dictionary. 20-е издание. 2004.