Статья:

Выбор длины отрезка речевого сигнала при кратковременном анализе звуков речи

Конференция: XL Студенческая международная заочная научно-практическая конференция «Молодежный научный форум: технические и математические науки»

Секция: Технические науки

Выходные данные

Ха К.Н. Выбор длины отрезка речевого сигнала при кратковременном анализе звуков речи // Молодежный научный форум: Технические и математические науки: электр. сб. ст. по мат. XL междунар. студ. науч.-практ. конф. № 11(40). URL: https://nauchforum.ru/archive/MNF_tech/11(40).pdf (дата обращения: 24.08.2025)

Скачать сборник

Лауреаты определены. Конференция завершена

Эта статья набрала 0 голосов

Мне нравится

Дипломы
лауреатов

Сертификаты
участников

Дипломы
лауреатов

Сертификаты
участников

XL Студенческая международная заочная научно-практическая конференция «Молодежный научный форум: технические и математические науки»

на печатьскачать .pdf поделиться

Выбор длины отрезка речевого сигнала при кратковременном анализе звуков речи

Ха Куанг Нинь

студент, Белгородский государственный национальный исследовательский университет, РФ, г. Белгород

Прохоренко Екатерина Ивановна

научный руководитель, канд. техн. наук, доц., Белгородский государственный национальный исследовательский университет, РФ, г. Белгород

В работе рассматривается вопрос выбора длины «окна» (длительности анализируемого отрезка) при кратковременном анализе звуков речи. Данный вопрос актуален в задачах обработки речи, требующих анализа характеристик конкретных отдельных звуков, например, в задачах распознавания.

Звуки речи образуются речевым аппаратом человека. Речевой аппарат – это совокупность и взаимодействие органов человека, необходимых для производства речи. Он состоит из двух отделов: центрального и периферического. Центральный отдел – это головной мозг с его корой, подкорковыми узлами, проводящими путями и ядрами соответствующих нервов. Переферический отдел – это вся совокупность исполнительных органов речи (глотка, ротовая полость с языком, лёгкие, носовая полость, губы, зубы), включающая в себя кости, хрящи, мышцы и связоки, а также периферические чувственные и двигательные нервы, при помощи которых осуществляется управление работой указанных органов [1; 3].

В зависимости от работы речевого аппарата звуки речи подразделяются на шумы и тоны: тоны в речи возникают в результате колебания голосовых складок; шумы образуются в результате непериодических колебаний выходящей из лёгких струи воздуха. Тонами являются обычно гласные; почти же все глухие согласные относятся к шумам. Звонкие согласные образуются путём слияния шумов и тонов.

Звуки речи человека генерируются, как правило, артикуляционным аппаратом. В общем его математическую модель можно представить в виде возбуждающих генераторов тонового и белого шума и группы фильтров, модуляторов и ключей (рот, нос, язык, губы), обеспечивающих фильтрацию и формирование определённого ощущения звука.

Речевой аппарат человека при генерации речи использует следующие физические принципы для получения различных типов звуков:

· гласный – в этом случае голосовая щель генерирует звуковые импульсы;

· шипящий согласный – в этом случае голосовая щель отключена и артикуляционный аппарат формирует шумовой сигнал;

· смешанные шипяще-тоновые звуки типа [з] [ж], где одновременно присутствует шумовая составляющая модулированная голосовой щелью, или типа [р], где модулируется тоновый сигнал;

· сонорные звуки типа [л] [м] [н];

· взрывной согласный – генерация звука основана на перекрытии потока воздуха артикуляционными органами и последующем акустическом ударе;

· пауза – отсутствие звука, длина паузы влияет на ощущение следующего за ней звука;

· изменение параметров артикуляции в процессе генерации (их динамика) также создаёт ощущение определённого звука (дифтонги);

· интонация – относительное изменение основного тона [2].

Шумы и тоны исследуются по их высоте, тембру, силе и многим другим характеристикам. Важнейшей характеристикой является частотный состав звука. Не маловажной характеристикой речевого сигнала является так же основной тон. Эта характеристика представляет собой низко-частотную модуляцию сигнала, параметры которой легко измеряются (установлено, что частота основного тона разных людей (мужчин, женщин, детей) находится в диапазоне 50 - 450 Гц.).

Ключевым вопросом при исследовании характеристик звуков речи является вопрос выбора длительности анализируемого отрезка. Речь - это нестационарный случайный процесс. Характеристики реального сигнала изменяются во времени, но на малых интервалах речевой сигнал имеет квази-периодический характер на протяжении генерации одного звука, т.е. на малых интервалах ее можно рассматривать как локально стационарный случайный процесс.

При выборе длительности анализируемого отрезка, необходимо руководствоваться следующими соображениями: 1) длительность не может быть меньше периода основного тона, наиболее низкочастотной составляющей спектра сигнала, 2) нежелательно, чтобы на отрезке анализа нарушалась квази-периодичность, т.е. в анализируемый отрезок “попало” больше, чем один звук.

В данной работе рассмотрена задача оптимального выбора длительности окна анализа характеристик речевого сигнала.

На первом этапе исследования были измерены длительности различных звуков в записаном фрагменте речевого сигнала. Результат измерения показан в таблице 1.

Таблица 1.

Результат измерения длительности речевого звука

Слово	Звук	Начало	Конец	Длительность, мс
я	я	0:00.260	0:00.605	345
вас	в	0:00.631	0:00.695	64
	а	0:00.695	0:00.895	200
	с	0:00.895	0:01.000	105
любил	л	0:01.025	0:01.150	125
	ю	0:01.150	0:01.393	243
	б	0:01.393	0:01.480	87
	и	0:01.480	0:01.684	204
	л	0:01.684	0:01.825	141
так	т	0:01.840	0:01.901	56
	а	0:01.901	0:02.020	119
	к	0:02.020	0:02.120	100
искренно	и	0:02.141	0:02.322	181
	с	0:02.322	0:02.423	101
	к	0:02.423	0:02.526	103
	р	0:02.526	0:02.654	128
	е	0:02.654	0:02.803	149
	н	0:02.803	0:02.874	71
	н	0:02.874	0:02.949	75
	о	0:02.949	0:03.099	150
так	т	0:03.122	0:03.179	57
	а	0:03.179	0:03.303	124
	к	0:03.303	0:03.408	105
нежно	н	0:03.442	0:03.597	155
	е	0:03.597	0:03.853	256
	ж	0:03.853	0:04.107	254
	н	0:04.107	0:04.192	85
	о	0:04.192	0:04.337	145

Далее звуки были сгруппированы в соответствии с классификацией: группа 1 - гласные составленные вокализованные; группа 2 - взрывные согласные; группа 3 - гласные составленные простые вокализованные; группа 4 - сонорные; группа 5 - смешанные шипяще-тоновые (таблица 2).

Таблица 2.

Результат группирования речевого звука

Группа	Звук	Длительность, мс	Интервал времени, мс	Среднее значение длительности, мс
Группа 1	я	345	149 - 345	248
	ю	243
	е1	149
	е2	256
Группа 2	в	64	56 - 105	82
	к1	100
	к2	103
	к3	105
	б1	87
	т1	56
	т2	57
Группа 3	а1	200	119 - 200	160
	а2	119
	а3	124
	и1	204
	и2	181
	о1	150
	о2	145
Группа 4	л1	125	71 - 155	109
	л2	141
	н1	71
	н2	75
	н3	155
	н4	85
Группа 5	р	128	101 - 254	147
	ж	254
	с1	105
	с2	101

Из таблиц видно, что наименьшее среднее значение длительности у звуков группы 2, а наибольшее - у звуков группы 1. Представляется правильным, при анализе звуков речи, выбирать наименьшую длину окна анализа, для ислючения попадания разных звуков в одно окно в максимальном количестве случаев.

На рисунке 1 показаны фрагмент речевого сигнала (звук “в”, T = 64 мс), выбранный “в ручную” и при автоматическом выборе, при различных значениях длины окна анализа (T = 82 мс (значение, полученное в таблице 2), T = 41 мс (в два раза меньше), T = 164 мс (в два раза больше)).

Рисунок 1. Фрагмент звука речи

Для каждого из случаев автоматического выбора была рассчитна корреляция с фрагменом, выбранным “в ручную”, т.е. случаем оптимального попадания “окна” в границы анализируемого звука.

Коэффициент корреляции рассчитывается по формуле:

где Х - отсчеты сигнала выбранного “вручную”; У - отсчеты сигнала, выбранного автоматически.

Получены следующие результаты:

- при T = 64 мс: K0 = 1.0000;

- при T = 82 мс: K1 = 0.7680;

- при T = 41 мс: K2 = 0.8607;

- при T = 164 мс: K3 = 0.4114.

Таким образом, максимальная корреляция достигается при Т = 41 мс, то есть минимальном отрезке из выбранных для исследования.

Аналогичные действия были выполнены для звука “а” (T = 200 мс) и получены следующие результаты:

- при T = 200 мс: K0 = 1.0000;

- при T = 160 мс: K1 = 0.9413;

- при T = 80 мс: K2 = 0.4555;

- при T = 320 мс: K3 = 0.4012.

В данном случае, максимальное значение коэффициента корреляции получено при Т = 160 мс, которое не является минимальным, а получено из таблицы 1.

Но в обоих случаях при увеличении длины окна анализа коэффицент корреляции существенно уменьшался. Таким образом, для задач, в которых требуется анализ характеристик конкретного звука (например, задач распознавания), длина окна анализа не должна превышать 200 мс при автоматическом кратковременном анализе.

Список литературы:

1. Речевой аппарат и его работа. - [Электронный ресурс] - Режим доступа. -URL: http://www.sibkursy.ru/pages/staty/speech/2-speech-apparat (Дата обращения: 12.02.2016).

2. Речевой звук. - [Электронный ресурс] - Режим доступа. -URL: https://ru.wikipedia.org/wiki/Речевой_звук (Дата обращения: 14.02.2016).

3. Рабинер Л.Р., Шафер Р.В. Цифровая обработка речевых сигналов. - Москва, 1981.

Выбор длины отрезка речевого сигнала при кратковременном анализе звуков речи

Похожие статьи