Функции слуховых аппаратов. Часть 2. Методы подавления шума
Мы продолжаем важный разговор, который начали в первой части статьи. На первый взгляд он может показаться очевидным. Хорошо известно, что каждый слуховой аппарат имеет определенный набор функций, обеспечивающих его качественную работу и позволяющих получить от его использования максимальную пользу. Первая часть статьи была посвящена функции подавления обратной связи и ее значении в эффективной работе слухового аппарата. Сегодня мы поговорим о методах подавления шума. В основу материала легли исследования специалистов Любекской академии акустики (ФРГ), опубликованные в журнале «Horakustik».

Часть 2.

Методы подавления шума Самой сложной слуховой ситуацией, несомненно, является понимание речи в шумной обстановке. Одной из важнейших целей слухопротезирования становится улучшение SNR, то есть отношения сигнал/шум (signal-to-noise ratio), которое описывает разницу сигнала (полезного сигнала, например, речи или музыки) к шуму (шумовому сигналу, например, уличному гулу или звону посуды).  Рассмотрим более подробно это отношение. При его определении уровень шума всегда вычитается из уровня полезного сигнала (из отношения звуковых давлений при расчете с учетом логарифмического закона получается вычитание). Положительное отношение SNR означает, что полезный сигнал громче шумового сигнала. И наоборот, отрицательное значение SNR значит, что шумовой сигнал громче полезного сигнала.
Примеры

Нормально слышащий человек способен понимать речь даже при отрицательном отношении SNR (например, на дискотеке, в торговом центре, на улице или на вечеринке). Слабослышащему же в большинстве случаев требуется положительное значение SNR, в том числе и после успешного протезирования слуховыми аппаратами. Поэтому необходимо улучшить отношение SNR.

История работы над проблемой подавления шума

В процессе разработки слуховых аппаратов производители достаточно долго пытаются внедрять различные алгоритмы, направленные на снижение уровня шума, и постоянно их совершенствуют. Во времена аналоговых СА не существовало специальных алгоритмов подавления шума. Поэтому на характеристику передачи в основном влияли посредством снижения усиления в низкочастотном диапазоне. По мере эволюции слуховых аппаратов частотную характеристику стали приспосабливать к конкретным ситуациям с помощью компрессионных изменений. При этом речь, с одной стороны, преимущественно шла о низкочастотном шуме (уличный гул), а с другой стороны – о среднечастотном шуме (шум вечеринки, звон посуды).

В первом случае для низкочастотной области настраивалась сильная компрессия. Такая характеристика передачи называлась BILL (bass increase at low levels, или басовое возрастание при низких уровнях). В переводе это означает, что усиление для низких частот должно быть тем больше, чем меньше становится входной уровень сигнала. Здесь подразумевается снижение усиления в низкочастотном диапазоне при шуме, становящемся громче/сильнее, например, таком как шум уличного движения или как шум в супермаркете. Это одновременно приводит к усиленному акцентированию среднечастотного диапазона и к улучшению разборчивости речи. На диаграмме «вход/выход» можно увидеть, что компрессия в низкочастотной области значительно больше, чем в среднечастотной и высокочастотной  (Рис. 1).

Рис. 1. BILL: Диаграмма ВУЗД/частота с группой кривых и диаграмма вход/выход для двух частот в качестве примера.

Рис. 1. BILL: Диаграмма ВУЗД/частота с группой кривых и диаграмма вход/выход для двух частот в качестве примера.

Во втором случае компрессия применяется в среднечастотном и высокочастотном диапазоне. Здесь проблема заключается в том, что шумовые сигналы и полезные сигналы состоят из речи и таким образом перекрывают друг друга. Используемая при этом стратегия передачи называется TILL (treble increase at low levels, высокочастотное возрастание при низких уровнях) и означает, что усиление для средних/высоких частот должно быть тем больше, чем меньше становится входной уровень сигнала. Цель такого подхода – улучшение разборчивости речи среди шума голосов.

Рис. 2. TILL. Диаграмма ВУЗД/частота с группой кривых и диаграмма вход/выход для двух частот в качестве примера.

Рис. 2. TILL. Диаграмма ВУЗД/частота с группой кривых и диаграмма вход/выход для двух частот в качестве примера.

Главный принцип современного подхода к подавлению шума

Сегодня существует гораздо больше возможностей подавления шума. Рассмотрим несколько таких подходов. Основной принцип современных алгоритмов подавления шума заключается в распознавании речи и шума. Таким образом, система подавления шума в слуховых аппаратах должна быть способна уверенно различать речь и шум. Это становится возможным благодаря разным физическим свойствам сигналов.

Речь. Типичный временной рисунок речи содержит модуляции, которые варьируются от 3 до 8 Гц (в среднем 4 Гц). Эта частота модуляции описывает число слогов, произнесенных в секунду. Динамика (колебания громкости) слогов для устной речи с нормальной громкостью 65 дБ составляет примерно 30 дБ (Рис. 3).

Рис. 3. Диаграмма уровень/время для речи (6 секунд).

Рис. 3. Диаграмма уровень/время для речи (6 секунд).

Помимо этого, во временном рисунке сохраняется основная частота голоса говорящего человека. При большом увеличении можно рассмотреть, что определенный временной рисунок повторяется (Рис. 4). Это повторение возникает из-за периодического колебания голосовых связок. В данном примере временной рисунок повторяется каждые 10 миллисекунд. Это явление называется автокорреляцией, то есть сигнал повторяет сам себя. Из этих 10 мс складывается основная частота величиной 100 Гц. В отрезках длиной 10 мс помимо основной частоты сохраняются еще и обертоны точной структуры. Они формируют тембр голоса, т.е. произносимые гласные звуки. Основная частота 100 Гц показывает, что этот голос принадлежит мужчине. Женские голоса имеют вдвое большую основную частоту, примерно 200 Гц.

Рис. 4. Диаграмма уровень/время для речи, автокорреляция.

Рис. 4. Диаграмма уровень/время для речи, автокорреляция.
 
Шум. В качестве шума определяются все те сигналы, которые человек не хотел бы слышать. Когда они перекрывают речевой сигнал, то снижают понимание речи и повышают слуховые усилия. При этом речь также может выступать в качестве шума. Обычно временной рисунок речи и шума отличается. На Рис. 5 показан временной рисунок уличного шума. Здесь хорошо видно, что число модуляций в секунду гораздо больше, чем у речи. Частота модуляции составляет примерно от 10 до 50 Гц. Динамика тоже гораздо меньше, чем у речи, и составляет примерно 5-10 дБ.

Рис. 5. Диаграмма уровень/время для уличного шума (6 секунд).

Рис. 5. Диаграмма уровень/время для уличного шума (6 секунд).
 
Эти типичные, противоречащие друг другу свойства речи и шума позволяют алгоритмам в слуховых аппаратах распознавать и правильно классифицировать эти виды сигналов.

Фильтр Винера

Описанные выше разные физические характеристики речи и шума дают возможность использовать фильтр Винера (разработан нобелевским лауреатом Норбертом Винером). Цель – освобождение от нежелательного шума сигнала, состоящего из речи и шума. Для этого непрерывно проводится анализ, в ходе которого общий сигнал исследуется на типичные свойства речи и шума. При этом рассматриваются такие факторы, как глубина модуляции, частота модуляции, автокорреляция или тональные аспекты  (основная частота и обертоны).
 
Этот принцип особенно хорошо действует тогда, когда шумовой сигнал сильно отличается от речи (т.е. большая частота модуляции, малая степень модуляции), а его общий уровень как можно более постоянен (например, шум в автомобиле, едущем по шоссе). Если анализ распознает какие-то компоненты сигнала как шумовые, проводится их ослабление в общем спектре. Частотные компоненты шума можно очень хорошо оценить в паузах речи. Когда шумовые и полезные сигналы наблюдаются одновременно, фильтр Винера вычитает сохраненный ранее шумовой сигнал из текущего общего сигнала. Таким образом, этот метод может снижать и частотные компоненты полезного сигнала.
 
Теоретически существует возможность полностью отфильтровать шумовые составляющие. Но на практике это не дает особого преимущества. При слишком сильном фильтровании возникают, во-первых, музыкальные тона (слышимые тональные частотные компоненты), а во-вторых, звук речи теряет свою естественность. Даже при идеальном безошибочном фильтровании полное освобождение от шумов нецелесообразно, так как это изменяет акустическое окружение (например, ресторан начинает звучать как жилая комната).
 
На Рис. 6 и 7 представлены спектрограммы сигнала (речь и шум) с фильтрованием и без него. Спектрограмма показывает частотное распределение сигналов во времени, а содержащаяся в них энергия обозначается разными цветами. Цветовая палитра простирается от черного до белого, и чем темнее оттенок, тем меньше присущая ему энергия.

На Рис. 6 в первую очередь можно увидеть красный цвет. Он равномерно распределяется по всему частотному спектру и длительно присутствует во времени. Сигнал с вышеописанными свойствами называется «белый шум». Желтые, более богатые энергией области перекрывают красные, менее богатые энергией области и представляют собой речевой сигнал. Гласные и согласные можно распознать по разному положению желтых областей на спектрограмме.

Рис. 6. Спектрограмма сигнала перед подавлением шума (по оси X – время 5 секунд, по оси Y – частота от 0 до 8 кГц).

Рис. 6. Спектрограмма сигнала перед подавлением шума (по оси X – время 5 секунд, по оси Y – частота от 0 до 8 кГц).

Рис. 7 показывает комбинацию сигналов после успешной обработки фильтром Винера. Ранее красные (богатые энергией) области шумового сигнала стали фиолетовыми, т.е. более насыщенными энергией. В отличие от этого, речевой сигнал (желтый) практически не изменился. Визуальный контраст между сигналами значительно усилился. С акустической точки зрения это значит, что шум стал тише, а речевые сигналы сохранились. Таким образом, здесь можно говорить об улучшении отношения сигнал/шум.

Рис. 7. Спектрограмма сигнала после подавления шума (по оси Х – время 5 секунд, по оси Y – частота от 0 до 8 кГц).

Рис. 7. Спектрограмма сигнала после подавления шума (по оси Х – время 5 секунд, по оси Y – частота от 0 до 8 кГц).

Направленный микрофон

Другая возможность улучшить понимание речи в критических для коммуникации ситуациях – применение технологии направленного микрофона. Вначале для этого использовался микрофон с механической направленностью. Он имеет два отверстия для входа звука (Рис. 8) на корпусе слухового аппарата. Сигнал, генерируемый микрофоном, будет образовываться из разности сигналов, поступающих спереди и сзади. Эта разница возникает за счет того, что звук поступает из обоих отверстий по разные стороны мембраны микрофона. Когда звук поступает спереди, то он в первую очередь попадает в переднее отверстие и отклоняет мембрану. Позднее по более длительному пути звук попадает в заднее отверстие, проходит через звуковой канал с замедлением во времени и ослабляется демпфирующим элементом. Тем самым этот сигнал вносит лишь небольшой вклад в образование разницы. Это значит, что сигнал на выходе микрофона определяется сигналом из переднего отверстия. Если звук поступает сзади, то он сначала проходит в заднее отверстие, а затем, позднее, в переднее отверстие. В идеальном случае звуковой канал и демпфирующий элемент заднего отверстия расположены так, что входной сигнал из заднего отверстия по уровню и фазе соответствует входному сигналу из переднего отверстия. Тогда на мембрану с обеих сторон попадает одинаковый сигнал, что приводит к нейтрализации обоих компонентов сигнала. Максимальной пользы микрофон с механической направленностью добивается в том случае, когда полезный сигнал (речь) попадает в отверстие прямо спереди (0 градусов), а шумовой сигнал – прямо сзади (180 градусов).

Рис. 8. Схема строения микрофона с механической направленностью.

Рис. 8. Схема строения микрофона с механической направленностью.

По мере технологического совершенствования микрофон с механической направленностью был заменен двойным направленным микрофоном (Рис. 9). Лежащий в основе его конструкции физический принцип соответствует микрофону с механической направленностью. Разница заключается в том, что в СА встроены два отдельных микрофона. Поступающие звуковые сигналы обрабатываются цифровым способом. Сигналы заднего микрофона задерживаются и приглушаются с помощью специального алгоритма. Такой алгоритм способен рассчитывать разные величины запаздывания и приглушения, что позволяет реализовать достаточно много разных направленных характеристик (Рис. 10).

Рис. 9. Схема строения цифрового двойного направленного микрофона.

Рис. 9. Схема строения цифрового двойного направленного микрофона.

Рис. 10. Примеры разных направленных характеристик при разном времени запаздывания.

Рис. 10. Примеры разных направленных характеристик при разном времени запаздывания.

Дальнейшее совершенствование технологий со временем привело к появлению адаптивного управления характеристиками направленности. При этом направленная характеристика постоянно варьируется посредством дифференцирования речи и шума, что позволяет распознавать, преследовать и подавлять даже шум от движущегося источника. Надеемся, что на этом научный прогресс не остановится, и модели слуховых аппаратов в будущем смогут предложить максимально приближенную к человеческому уху способность управлять окружающим шумом.

Фолькер Бурмайстер, Тилман Харрис,
преподаватели Любекской академии акустики слуховых аппаратов

Это интересно:

Статьи для специалистов