Binaural VoiceStream Technology®: Интеллектуальные бинауральные алгоритмы улучшения разборчивости речи
Binaural VoiceStream Technology® позволяет реализовать бинауральные алгоритмы, повышающие разборчивость речи в сложной акустической обстановке.

Введение

За последние 20 лет технические возможности слуховых аппаратов существенно расширились. К трем основным достижениям можно отнести:
  • поканальную компрессию, предложенную в конце 1980-х годов;
  • цифровую обработку сигнала, используемую с середины 1990-х годов;
  • бинауральную обработку сигнала в реальном времени, впервые примененную в 2008 году.
Эти достижения привели не только к миниатюризации и усложнению слуховых аппаратов, но и к большей удовлетворенности пользователей своими аппаратами. Хронологически это можно проиллюстрировать результатами анализа рынка MarkeTrak (Kochkin, 2010). Непрерывно растет доля бинауральных продаж (Kochkin, 2009), а вместе с ней и направленность исследований на бинауральную обработку сигнала. Следует ожидать появления новых подходов в этой области. Создание платформы Phonak Quest раздвигает границы использования бинауральных алгоритмов, рассчитанных на восстановление возможностей естественного слуха пользователей слуховых аппаратов. Бинауральные алгоритмы позволяют решить проблемы, связанные с коррекцией слуха (Kochkin, 2010):
  • Понимание речи находящегося перед пользователем собеседника при разговоре в большой группе людей.
  • Понимание речи в шуме при невозможности повернуться лицом к собеседнику.
  • Телефонный разговор в шумной обстановке.
  • Понимание речи на ветру.
В данной статье мы подробнее остановимся на описании функции, предназначенной для решения последней из перечисленных выше проблем.

Binaural VoiceStream Technology®

Важным шагом к использованию технологий бинауральной обработки сигнала является обмен аудиоданными между слуховыми аппаратами. Он позволяет поддерживать не только периферические, но и бинауральные слуховые механизмы пользователя. Однако беспроводная система, необходимая для обмена данными между слуховыми аппаратами, должна отвечать целому ряду требований. Важно, чтобы задержка передачи и потребление энергии были минимальными. Поэтому система основана на индуктивном принципе, характеризующемся небольшим энергопотреблением. Однако, в отличие от индукционной катушки, в нашем случае происходит передача цифровых данных, обеспечивающая стабильность, необходимую для бинауральных алгоритмов обработки сигнала. Беспроводная система использует частоту передачи 10,6 МГц. Эта относительно низкая частота (по сравнению с Bluetooth, использующим частоту 2,4 ГГц) была выбрана в связи с необходимостью снижения энергопотребления. Кроме того, она больше подходит для индуктивной связи. Ширина диапазона акустического сигнала равна 8 кГц, что вполне достаточно для бинауральных алгоритмов. Передача сигнала осуществляется в двух направлениях, поэтому скорость передачи должна удваиваться. Наша система обеспечивает общую скорость передачи аудио- и управляющих данных 300 кбит/с.

При использовании линейного кодирования двусторонняя передача аудиосигнала требует скорости передачи 640 кбит/с при частоте дискретизации 20 кГц и разрешении 16 бит. Поэтому существующая система не может обеспечить передачу всего сигнала. Проблема решается путем предварительного кодирования (подобного MP3-кодированию). Применяемый кодек использует скорость передачи данных 300 кбит/с и приводит к задержке около 2 мс. Он оптимизирован для бинаурального применения. Основанная на нем беспроводная система обеспечивает буферную емкость, достаточную для обмена управляющими данными между двумя слуховыми аппаратами. Чрезвычайно малая задержка сохраняет естественную информацию о пространственно разнесенных объектах.

(Auto) StereoZoom

Ключевым элементом отделения эффективного сигнала от шума, позволяющим заметно повысить разборчивость речи, является многомикрофонная технология (Ricketts, Mueller, 1999; Chung, 2004). Система микрофонов, обрабатывающая сигналы двух ненаправленных микрофонов, называется направленным микрофоном первого порядка. Если рассматривать два слуховых аппарата как единую систему, мы получим четыре одновременно действующих микрофона. Это соответствует естественному бинауральному механизму человека, также объединяющему две индивидуальные диаграммы направленности, создаваемые обеими ушными раковинами. StereoZoom объединяет и обрабатывает сигналы 2-микрофонных систем правого и левого слуховых аппаратов с использованием беспроводного канала связи. В результате образуется 4-микрофонная система третьего порядка.

В слуховых аппаратах Quest функция StereoZoom стала автоматической. На основании анализа окружающей обстановки оба слуховых аппарата принимают совместное решение о целесообразности включения данной функции или же о возвращении в исходный режим работы. Программа, использующая StereoZoom, стала пятым компонентом набора SoundFlow и получила название «Речь в громком шуме».

Речь на ветру

Ухудшение ОСШ на ветру играет важную роль во многих повседневных ситуациях (Chung, 2012a, 2012b). Безусловно, это относится и к пользователям слуховых аппаратов, т.к. они подвергаются воздействию фонового шума, создаваемого ветром, дующим на микрофоны аппаратов. Для борьбы с этим было предложено много различных способов, основанных на механической защите или на цифровой обработке сигналов. Несмотря на эффективность чисто механических решений, они недостаточно акустически прозрачны. Электронные подходы также не лишены недостатков. Например, если фильтры микрофонов загрязняются в процессе использования, алгоритм отделения полезного сигнала от шума ветра, основанный на адаптивной фильтрации, зачастую приводит лишь к уменьшению усиления в определенном частотном диапазоне. Это способствует уменьшению фонового шума, однако одновременно снижается и речевой сигнал; в результате подобное решение не может обеспечить хорошей разборчивости речи во многих ситуациях. Помимо неадекватного подавления шума ветра, возможны ошибки механизма его обнаружения, что приведет к непредсказуемому поведению слухового аппарата. Например, ложно-положительное «обнаружение» ветра в его отсутствие расценивается как ошибка специфичности, а ложно-отрицательное заключение об отсутствии ветра при реальном его наличии приводит к ошибке чувствительности.

Речь на верту

Новая функция «Речь на ветру» нацелена на решение двух отмеченных выше проблем. С одной стороны, мы старались повысить чувствительность и специфичность обнаружения шума ветра, а с другой – фильтрация шума ветра осуществляется на более высоком интеллектуальном уровне, что дополнительно повышает разборчивость речи.

Обнаружение

В соответствии с существующей технологией Phonak, индикатором шума ветра служит низкочастотный компонент входного сигнала. Кроме того, Phonak Quest анализирует сигналы двухмикрофонной системы. При отсутствии прямой корреляции между уровнем и фазой сигналов обоих микрофонов в определенном частотном диапазоне в течение некоторого периода времени (системная постоянная времени) делается предположение о наличии ветра. Кроме того, для определения силы ветра анализируется соотношение между определенными частотными компонентами. Через несколько секунд включается подавление шума ветра, скорость инициализации и степень которого зависят как от результатов вышеупомянутого анализа, так и от настройки чувствительности автоматической системы SoundFlow.

Этот новый алгоритм требует наличия двух отдельных микрофонных сигналов. Если слуховой аппарат снабжен только одним микрофоном или настроен так, что доступным оказывается только один из аналого-цифровых преобразователей предусилителя (второй аналого-цифровой преобразователь может быть задействован, например, в канале аудиоадаптера), обнаружение ветра происходит по принципу, использовавшемуся платформой Spice+.

Подавление

Система подавления шума ветра, используемая новой платформой Quest, рассчитывает степень подавления, исходя из разности уровней шума ветра и речевого сигнала. Если уровень речевого сигнала выше уровня шума ветра, степень подавления уменьшается. В результате речевая составляющая входного сигнала не будет чрезмерно подавлена, что положительно скажется не только на комфортности звука, но и на разборчивости речи. Новая система подавления шума ветра работает также в зависимости от измеренного уровня шума ветра. При этом учитывается частотный состав замеряемых параметров, позволяющий судить о силе шума ветра. Если шум ветра невелик, аттенюация уменьшается; если же шум ветра усиливается, аттенюация возрастает.

Для обеспечения адекватности подавления шума ветра при более открытых вариантах протезирования пороговая частота, ниже которой происходит подавление, поставлена в зависимость от размеров вента. Например, для открытых систем граничная частота составляет 3,5 кГц, тогда как в полностью закрытой системе она снижается до 1,6 кГц.

Повышение разборчивости речи

Подавление шума ветра повышает комфортность использования слуховых аппаратов в ветреную погоду, но обычно не облегчает общения с находящимся рядом собеседником. Именно поэтому в новейшей работе, опубликованной Kochkin (2010), разговор на ветру по-прежнему относится к числу наиболее сложных проблем. Важно не только повысить комфортность, но и улучшить разборчивость речи при пребывании на ветру. Для решения этой задачи новая функция «Речь на ветру» применяет бинауральную обработку сигнала с использованием беспроводного канала связи между слуховыми аппаратами. Новый бинауральный алгоритм передает независимые данные об уровне ветра с каждой стороны в противоположный аппарат, где происходит сравнение уровней ипси- и контралатерального сигналов. Если значения параметров примерно одинаковы с обеих сторон, система не активируется, т.к. предполагает, что шум ветра симметричен и достаточно задействовать монауральную функцию WindBlock в каждом из аппаратов. Если же, напротив, сравниваемые значения неодинаковы, система предполагает, что слуховые аппараты подвергаются воздействию ветра несимметрично. В этом случае сигнал передается с менее ветреной стороны на противоположную. Здесь сигналы обоих аппаратов подвергаются фильтрации и наложению. При этом низкочастотная составляющая сигнала аппарата, находящегося с более ветреной стороны, замещается соответствующим частотным компонентом, переданным со стороны с меньшим уровнем шума ветра. Высокочастотная же часть остается неизменной. В результате компоненты сигналов, ответственные за бинауральный слух и локализацию, максимально сохраняются.

Комбинированный сигнал обрабатывается аппаратом в соответствии с его настройками. На рис. 1 показан пример асимметричного шума ветра и реакции на него различных систем. На рис. 1а представлены входные сигналы правого и левого слуховых аппаратов. Входной сигнал правого аппарата искажен шумом ветра. Сигнал шума ветра не подавляется, т.к. функции WindBlock или «Речь на ветру» не включены (рис. 1а). На рис. 1b активирована функция WindBlock. Система обнаружила шум ветра справа и понизила уровень входного сигнала для сохранения комфортности. На рис. 1с активирована функция «Речь на ветру». Поскольку измеренный уровень шума ветра ниже с левой стороны, аудиосигнал передается слева направо. Это означает, что оба слуховых аппарата будут усиливать относительно чистый сигнал, в результате чего разборчивость речи существенно возрастет.

Рисунок 1.
Рисунок 1. Демонстрация функции "Речь на ветру". Показаны сигналы микрофонов правого и левого аппаратов. L - левый, R - правый. (а) Функция "Речь на ветру" включена. Сигнал микрофона правого аппарата искажен шумом ветра, тогда как сигнал микрофона левого аппарата представляет собой неискаженный речевой сигнал. (b) Активирована функция WindBlock. Сигнал микрофона левого аппарата не меняется, так как система не обнаруживает шума ветра с этой стороны. Сигнал микрофона правого аппарата значительно аттенюирован.(с) Активирована функция "Речь на ветру". Система обнаружила, что шум ветра слева слабее (или отсутствует), поэтому речевой сигнал передается слева направо по беспроводному каналу.

Итак, Phonak предлагает эффективное решение для сложной ситуации «Разборчивость речи при разговоре на ветру», основанное на Binaural VoiceStream Technology®.

Материал предоставлен компанией Phonak

Статьи для специалистов