Статья:

Выбор длины отрезка речевого сигнала при кратковременном анализе звуков речи

Конференция: XL Студенческая международная заочная научно-практическая конференция «Молодежный научный форум: технические и математические науки»

Секция: Технические науки

Выходные данные
Ха К.Н. Выбор длины отрезка речевого сигнала при кратковременном анализе звуков речи // Молодежный научный форум: Технические и математические науки: электр. сб. ст. по мат. XL междунар. студ. науч.-практ. конф. № 11(40). URL: https://nauchforum.ru/archive/MNF_tech/11(40).pdf (дата обращения: 29.11.2024)
Лауреаты определены. Конференция завершена
Эта статья набрала 0 голосов
Мне нравится
Дипломы
лауреатов
Сертификаты
участников
Дипломы
лауреатов
Сертификаты
участников
на печатьскачать .pdfподелиться

Выбор длины отрезка речевого сигнала при кратковременном анализе звуков речи

Ха Куанг Нинь
студент, Белгородский государственный национальный исследовательский университет, РФ, г. Белгород
Прохоренко Екатерина Ивановна
научный руководитель, канд. техн. наук, доц., Белгородский государственный национальный исследовательский университет, РФ, г. Белгород

 

В работе рассматривается вопрос выбора длины «окна» (длительности анализируемого отрезка) при кратковременном анализе звуков речи. Данный вопрос актуален в задачах обработки речи, требующих анализа характеристик конкретных отдельных звуков, например, в задачах распознавания.

Звуки речи образуются речевым аппаратом человека. Речевой аппарат – это совокупность и взаимодействие органов человека, необходимых для производства речи. Он состоит из двух отделов: центрального и периферического. Центральный отдел – это головной мозг с его корой, подкорковыми узлами, проводящими путями и ядрами соответствующих нервов. Переферический отдел – это вся совокупность исполнительных органов речи (глотка, ротовая полость с языком, лёгкие, носовая полость, губы, зубы), включающая в себя кости, хрящи, мышцы и связоки, а также периферические чувственные и двигательные нервы, при помощи которых осуществляется управление работой указанных органов [1; 3].

В зависимости от работы речевого аппарата звуки речи подразделяются на шумы и тоны: тоны в речи возникают в результате колебания голосовых складок; шумы образуются в результате непериодических колебаний выходящей из лёгких струи воздуха. Тонами являются обычно гласные; почти же все глухие согласные относятся к шумам. Звонкие согласные образуются путём слияния шумов и тонов.

Звуки речи человека генерируются, как правило, артикуляционным аппаратом. В общем его математическую модель можно представить в виде возбуждающих генераторов тонового и белого шума и группы фильтров, модуляторов и ключей (рот, нос, язык, губы), обеспечивающих фильтрацию и формирование определённого ощущения звука.

Речевой аппарат человека при генерации речи использует следующие физические принципы для получения различных типов звуков:

·     гласный – в этом случае голосовая щель генерирует звуковые импульсы;

·     шипящий согласный – в этом случае голосовая щель отключена и артикуляционный аппарат формирует шумовой сигнал;

·     смешанные шипяще-тоновые звуки типа [з] [ж], где одновременно присутствует шумовая составляющая модулированная голосовой щелью, или типа [р], где модулируется тоновый сигнал;

·     сонорные звуки типа [л] [м] [н];

·     взрывной согласный – генерация звука основана на перекрытии потока воздуха артикуляционными органами и последующем акустическом ударе;

·     пауза – отсутствие звука, длина паузы влияет на ощущение следующего за ней звука;

·     изменение параметров артикуляции в процессе генерации (их динамика) также создаёт ощущение определённого звука (дифтонги);

·     интонация – относительное изменение основного тона [2].

Шумы и тоны исследуются по их высоте, тембру, силе и многим другим характеристикам. Важнейшей характеристикой является частотный состав звука. Не маловажной характеристикой речевого сигнала является так же основной тон. Эта характеристика представляет собой низко-частотную модуляцию сигнала, параметры которой легко измеряются (установлено, что частота основного тона разных людей (мужчин, женщин, детей) находится в диапазоне 50 - 450 Гц.).

Ключевым вопросом при исследовании характеристик звуков речи является вопрос выбора длительности анализируемого отрезка. Речь - это нестационарный случайный процесс. Характеристики реального сигнала изменяются во времени, но на малых интервалах речевой сигнал имеет квази-периодический характер на протяжении генерации одного звука, т.е. на малых интервалах ее можно рассматривать как локально стационарный случайный процесс.

При выборе длительности анализируемого отрезка, необходимо руководствоваться следующими соображениями: 1) длительность не может быть меньше периода основного тона, наиболее низкочастотной составляющей спектра сигнала, 2) нежелательно, чтобы на отрезке анализа нарушалась квази-периодичность, т.е. в анализируемый отрезок “попало” больше, чем один звук.

В данной работе рассмотрена задача оптимального выбора длительности окна анализа характеристик речевого сигнала.

На первом этапе исследования были измерены длительности различных звуков в записаном фрагменте речевого сигнала. Результат измерения показан в таблице 1.

Таблица 1.

Результат измерения длительности речевого звука

Слово

Звук

Начало

Конец

Длительность, мс

я

я

0:00.260

0:00.605

345

вас

в

0:00.631

0:00.695

 64

а

0:00.695

0:00.895

200

с

0:00.895

0:01.000

105

любил

л

0:01.025

0:01.150

125

ю

0:01.150

0:01.393

243

б

0:01.393

0:01.480

 87

и

0:01.480

0:01.684

204

л

0:01.684

0:01.825

141

так

т

0:01.840

0:01.901

 56

а

0:01.901

0:02.020

119

к

0:02.020

0:02.120

100

искренно

и

0:02.141

0:02.322

181

с

0:02.322

0:02.423

101

к

0:02.423

0:02.526

103

р

0:02.526

0:02.654

128

е

0:02.654

0:02.803

149

н

0:02.803

0:02.874

 71

н

0:02.874

0:02.949

 75

о

0:02.949

0:03.099

150

так

т

0:03.122

0:03.179

 57

а

0:03.179

0:03.303

124

к

0:03.303

0:03.408

105

нежно

н

0:03.442

0:03.597

155

е

0:03.597

0:03.853

256

ж

0:03.853

0:04.107

254

н

0:04.107

0:04.192

 85

о

0:04.192

0:04.337

145

Далее звуки были сгруппированы в соответствии с классификацией: группа 1 - гласные составленные вокализованные; группа 2 - взрывные согласные; группа 3 - гласные составленные простые вокализованные; группа 4 - сонорные; группа 5 - смешанные шипяще-тоновые (таблица 2).

Таблица 2.

Результат группирования речевого звука

Группа

Звук

Длительность, мс

Интервал времени, мс

Среднее значение длительности, мс

Группа 1

я

345

149 - 345

248

ю

243

е1

149

е2

256

Группа 2

в

64

 56 - 105

 82

к1

100

к2

103

к3

105

б1

 87

т1

 56

т2

 57

Группа 3

а1

200

119 - 200

160

а2

119

а3

124

и1

204

и2

181

о1

150

о2

145

Группа 4

л1

125

 71 - 155

109

л2

141

н1

 71

н2

 75

н3

155

н4

 85

Группа 5

р

128

101 - 254

147

ж

254

с1

105

с2

101

 

Из таблиц видно, что наименьшее среднее значение длительности у звуков группы 2, а наибольшее - у звуков группы 1. Представляется правильным, при анализе звуков речи, выбирать наименьшую длину окна анализа, для ислючения попадания разных звуков в одно окно в максимальном количестве случаев.

На рисунке 1 показаны фрагмент речевого сигнала (звук “в”, T = 64 мс), выбранный “в ручную” и при автоматическом выборе, при различных значениях длины окна анализа (T = 82 мс (значение, полученное в таблице 2), T = 41 мс (в два раза меньше), T = 164 мс (в два раза больше)).

 

Рисунок 1. Фрагмент звука речи

 

Для каждого из случаев автоматического выбора была рассчитна корреляция с фрагменом, выбранным “в ручную”, т.е. случаем оптимального попадания “окна” в границы анализируемого звука.

Коэффициент корреляции рассчитывается по формуле:

,

где Х - отсчеты сигнала выбранного “вручную”; У - отсчеты сигнала, выбранного автоматически.

Получены следующие результаты:

- при T = 64 мс: K0 = 1.0000;

- при T = 82 мс: K1 = 0.7680;

- при T = 41 мс: K2 = 0.8607;

- при T = 164 мс: K3 = 0.4114.

Таким образом, максимальная корреляция достигается при Т = 41 мс, то есть минимальном отрезке из выбранных для исследования.

Аналогичные действия были выполнены для звука “а” (T = 200 мс) и получены следующие результаты:

- при T = 200 мс: K0 = 1.0000;

- при T = 160 мс: K1 = 0.9413;

- при T = 80 мс: K2 = 0.4555;

- при T = 320 мс: K3 = 0.4012.

В данном случае, максимальное значение коэффициента корреляции получено при Т = 160 мс, которое не является минимальным, а получено из таблицы 1.

Но в обоих случаях при увеличении длины окна анализа коэффицент корреляции существенно уменьшался. Таким образом, для задач, в которых требуется анализ характеристик конкретного звука (например, задач распознавания), длина окна анализа не должна превышать 200 мс при автоматическом кратковременном анализе.

 

Список литературы:
1. Речевой аппарат и его работа. - [Электронный ресурс] - Режим доступа. -URL: http://www.sibkursy.ru/pages/staty/speech/2-speech-apparat (Дата обращения: 12.02.2016).
2. Речевой звук. - [Электронный ресурс] - Режим доступа. -URL: https://ru.wikipedia.org/wiki/Речевой_звук (Дата обращения: 14.02.2016).
3. Рабинер Л.Р., Шафер Р.В. Цифровая обработка речевых сигналов. - Москва, 1981.