Разработка программы для анализа звуков речи
Секция: Технические науки
XLI Студенческая международная заочная научно-практическая конференция «Молодежный научный форум: технические и математические науки»
Разработка программы для анализа звуков речи
Произношение звуков
Человеческий голос начинает свой путь, когда диафрагма выталкивает воздух из легких навстречу ротовой и голосовой полостям. Воздушный поток должен пройти через орган, называемый голосовая щель, который можно рассматривать как ворота к голосовому тракту (Рис. 1). Голосовая щель определяет распределение частот в голосе, в то время как голосовой тракт (состоящий из гортани и ротовой полости) – источник энергии, распределенной по частотам. Основными компонентами голосовой щели являются голосовые связки и то, каким образом они реагирует на воздух из легких. Реакция голосовых связок позволяет различать два основных класса звуков, которые могут издавать люди. Когда голосовые связки вибрирует, звук называется гласным, иначе он называется согласным. В любом языке все слова могут быть рассмотрены как последовательность элементарных звуков, называемых фонемами, которых конечное множество. Так, для западных языков множество фонем составляет 35–40 элементов в среднем и каждая фонема либо гласная, либо согласная.
Рисунок 1. Строение голосового аппарата
Когда фонема произносится, голосовые связки вибрирует, следуя циклу, изображенному на Рис. 2. Когда в голосовую щель приходит воздух, возрастает разница давлений по отношению к голосовому тракту, до тех пор, пока голосовые связки не откроются, чтобы установить равновесие. Когда оно достигнуто, голосовые связки снова закрываются и этот цикл повторяется до тех пор, пока фонемы произносятся. Частота вибрации голосовые связок – индивидуальная характеристика и называется основной частотой F0, которая вносит наибольший вклад в формирование основного тона голоса. Более того, большая часть энергии человеческого голоса распределена на так называется формантах, то есть звуковых компонентах, с частотами, которые являются целыми множителями основной частоты и появляются в результате резонанса голосового тракта. Обычно значение F0 находится в пределах между 60 и 300 Гц для взрослых мужчин и маленьких детей (или взрослых женщин) соответственно. Это значит, что первые 10–12 формант, на которых распределена большая часть энергии, лежат в пределах менее 4000 Гц. Этот факт оказывается серьезное влияние на то, как устроен человеческий слуховой аппарат.
Рисунок 2. Цикл произношения звука
Продуцирование согласных фонем не включает в себя вибрацию голосовых связок. Следствием этого является то, что частотная характеристика согласных звуков не так хорошо определена и стабильна и их энергия, в среднем, ниже чем у гласных.
Восприятие звуков
Периферийная слуховая система человека состоит из трех частей – внешнего, среднего и внутреннего уха. Внешнее ухо – ушная раковина, которую можно увидеть с двух сторон головы. Согласно недавним исследованиям роль внешнего уха важнее, чем считалось ранее, так как оно очень сильно помогает в определении источника звука. Среднее уход состоит из звукового канала, длиной приблизительно 1.3 см, которое соединяет внешнюю среду с внутренним ухом.
Рисунок 3. Слуховая система человека
Несмотря на, казалось бы, простую структуру, среднее ухо имеет два важных свойства – первое это оптимизация передачи частот между 500 и 4000 ГЦ, а вторая – роль согласования нагрузок по отношению ко внутреннему уху. Первое свойство важно, так как оно делает слуховую систему особенно эффективной для работы в частотах человеческого голоса, второе важно потому, что акустическое сопротивление внутреннего уха выше, чем у воздуха и все звуки просто отразились бы от его поверхности.
Разработка программы
Для анализа звуков была разработана программа с графическим интерфейсом на языке JavaScript, которая выполняется в браузере. С ее помощью можно записать звуковой отрезок и динамически просматривать часть этого отрезка и его спектр.
Рисунок 4. Отрезок длительностью 26 мс. звука «А»
Для спектрального представления используется быстрое преобразование Фурье. В программе предусмотрена возможность выбора количества отсчетов (N), которые будут браться для анализа.
Посмотрим на спектр при различном количестве отсчетов.
N = 128
Рисунок 5. Спектр звукового отрезка. N = 128
N = 512
Рисунок 6. Спектр звукового отрезка. N = 512
Видно, что при увеличении количества отсчетов спектр становится более детализованным.