Статья:

ИНТЕРАКТИВНАЯ СИСТЕМА ПРЕОБРАЗОВАНИЯ ТЕКСТА В РЕЧЬ, ИНТЕГРИРОВАННАЯ В ADOBE ANIMATE ДЛЯ ЭЛЕКТРОННОГО ОБУЧЕНИЯ

Конференция: XCII Международная научно-практическая конференция «Научный форум: технические и физико-математические науки»

Секция: Вычислительная математика

Выходные данные
Нгуен Т.С. ИНТЕРАКТИВНАЯ СИСТЕМА ПРЕОБРАЗОВАНИЯ ТЕКСТА В РЕЧЬ, ИНТЕГРИРОВАННАЯ В ADOBE ANIMATE ДЛЯ ЭЛЕКТРОННОГО ОБУЧЕНИЯ // Научный форум: Технические и физико-математические науки: сб. ст. по материалам XCII междунар. науч.-практ. конф. — № 1(92). — М., Изд. «МЦНО», 2026.
Конференция завершена
Мне нравится
на печатьскачать .pdfподелиться

ИНТЕРАКТИВНАЯ СИСТЕМА ПРЕОБРАЗОВАНИЯ ТЕКСТА В РЕЧЬ, ИНТЕГРИРОВАННАЯ В ADOBE ANIMATE ДЛЯ ЭЛЕКТРОННОГО ОБУЧЕНИЯ

Нгуен Тхе Сон
магистр, Офицерское училище Военно-Воздушных Сил, Вьетнам, г. Кхань хоа

 

AN INTERACTIVE TEXT-TO-SPEECH SYSTEM INTEGRATED INTO ADOBE ANIMATE FOR E-LEARNING APPLICATIONS

 

Nguyen The Sơn

Master, Air Force Officer’s College, Vietnam, Khanh Hoa

 

Аннотация. В условиях цифровой трансформации образования наблюдается устойчивый рост потребности в интерактивных электронных лекциях и мультимедийных учебных материалах, объединяющих текстовую, речевую и анимационную информацию. В статье представлена интерактивная система преобразования текста в речь, реализованная в среде Adobe Animate с использованием ActionScript 3 и ориентированная на задачи электронного обучения. Предложенное решение основано на трёхуровневом гибридном алгоритме семантической сегментации текста, модуле многостадийного управления воспроизведением аудио с отслеживанием позиции байтов и мультиконтейнерной архитектуре, обеспечивающей независимую обработку нескольких текстовых областей. Экспериментальные результаты подтверждают повышение естественности синтезированной речи, устойчивости работы системы и уровня интерактивности по сравнению с традиционными подходами к использованию технологий TTS.

Abstract. In the context of digital transformation in education, there is a growing demand for interactive electronic lectures that integrate text, speech, and animation. This paper presents a text-to-speech system implemented in Adobe Animate using ActionScript 3 and designed for e-learning applications. The proposed solution is based on a three-level semantic text segmentation algorithm, a multi-stage audio playback control module, and a multi-container architecture. Experimental results demonstrate improved speech naturalness, system stability, and interactivity compared to traditional TTS approaches.

 

Ключевые слова: Преобразование текста в речь, Adobe Animate, электронное обучение, цифровое образование; семантическая сегментация текста; мультимедийный контент.

Keywords: Text-to-Speech, Adobe Animate, E-learning, digital education; semantic text segmentation; multimedia content.

 

1. Введение.

Быстрое развитие цифровых образовательных экосистем и онлайн‑платформ обучения обусловило активное внедрение мультимедийных технологий, направленных на повышение эффективности усвоения знаний и качества образовательного процесса. Одной из ключевых таких технологий является преобразование текста в речь (Text‑to‑Speech, TTS), позволяющее автоматизировать озвучивание учебных материалов, повысить доступность образовательных ресурсов для обучающихся с нарушениями зрения и снизить затраты на создание мультимедийного контента по сравнению с традиционной записью дикторского голоса.

Несмотря на широкое распространение TTS‑технологий, их практическое применение в современных системах электронного обучения остаётся ограниченным. Большинство существующих решений ориентированы на линейное воспроизведение коротких текстовых фрагментов, не предоставляют средств интерактивного управления процессом озвучивания и не обеспечивают синхронизацию речи с элементами пользовательского интерфейса и анимации. Данные ограничения существенно снижают педагогическую и дидактическую эффективность мультимедийных учебных материалов.

 

Рисунок 1. Иллюстративный пример программного обеспечения, разработанного с использованием Adobe Animate со встроенной функцией преобразования текста в речь (TTS)

 

Среда Adobe Animate широко используется при разработке интерактивных электронных лекций, учебных симуляций и анимационных обучающих модулей. Вместе с тем в данной среде отсутствуют встроенные средства синтеза речи, а язык ActionScript 3 не предоставляет нативных механизмов для расширенного управления воспроизведением аудио, таких как приостановка и возобновление проигрывания. В результате разработчики электронного обучения сталкиваются с существенными трудностями при создании автоматизированных систем озвучивания, глубоко интегрированных в логику учебного контента.

Научная новизна настоящей работы заключается в разработке интерактивной системной архитектуры преобразования текста в речь, интегрированной в Adobe Animate и ориентированной на задачи электронного обучения. Впервые предложен трёхуровневый гибридный алгоритм семантической сегментации текста, обеспечивающий устойчивую обработку длинных текстовых блоков в условиях ограничений облачных TTS‑сервисов. Кроме того, реализован оригинальный механизм многостадийного управления воспроизведением аудио на основе отслеживания позиции байтов, а также мультиконтейнерная архитектура, позволяющая независимо управлять несколькими текстовыми областями и синхронизировать речь с анимацией.

Цель исследования состоит в повышении интерактивности, устойчивости и дидактической эффективности электронного обучения за счёт глубокой интеграции технологий синтеза речи в мультимедийные образовательные среды.

2. ПРОЕКТИРОВАНИЕ СИСТЕМЫ И МЕТОДОЛОГИЯ

2.1. Сбор и упорядочивание текстовых элементов

В проектах Adobe Animate текстовые данные, как правило, размещаются внутри иерархии вложенных объектов типа MovieClip. Для формирования корректной последовательности озвучивания, соответствующей визуальному восприятию обучающихся, в рамках предлагаемой системы используется алгоритм рекурсивного обхода иерархического дерева отображаемых объектов. Целью данного алгоритма является автоматизированное извлечение всех активных элементов TextField, представленных на сцене.

Для каждого текстового элемента вычисляются его глобальные координаты, после чего выполняется сортировка в порядке сверху вниз и слева направо. Такой подход обеспечивает корректную обработку сложных пользовательских интерфейсов, включая глубоко вложенные MovieClip‑элементы, маскированные объекты и текст, распределённый по различным кадрам анимации.

2.2. Трёхуровневый гибридный алгоритм семантической сегментации текста

Одной из ключевых проблем при использовании облачных TTS‑сервисов, в частности Google Text‑to‑Speech, являются ограничения на длину текстовых запросов и снижение естественности речи при синтезе длинных строк. Для преодоления данных ограничений в работе предложен трёхуровневый гибридный алгоритм семантической сегментации текста.

На первом уровне осуществляется разбиение текста по сильным знакам препинания с сохранением базовой синтаксической структуры предложений. Второй уровень предназначен для дополнительного деления чрезмерно длинных фрагментов с использованием союзов и дискурсивных маркеров с целью соблюдения оптимальных ограничений длины TTS‑запросов. Третий уровень основан на семантико‑дискурсивных эвристических правилах, учитывающих фокус содержания, границы подлежащего и сказуемого, а также точки логических переходов.

В отличие от традиционных подходов, основанных исключительно на формально‑синтаксических признаках, предложенный алгоритм сочетает структурные и семантические характеристики текста, что позволяет приблизить просодическую структуру синтезированной речи к естественной человеческой интонации и повысить качество восприятия учебного материала.

2.3. Многостадийное управление воспроизведением аудио

В связи с отсутствием в ActionScript 3 нативной поддержки функций приостановки и возобновления воспроизведения аудио в системе реализован механизм управления на основе отслеживания позиции байтов объекта SoundChannel. При постановке воспроизведения на паузу текущая позиция сохраняется, а при возобновлении аудиосигнал повторно загружается и воспроизводится, начиная с сохранённого положения. Данный подход обеспечивает устойчивую реализацию интерактивных функций управления воспроизведением.

2.4. Мультиконтейнерная архитектура

Система построена на основе мультиконтейнерной архитектуры, в рамках которой каждая текстовая область обладает собственной очередью синтеза речи, состоянием воспроизведения и механизмами синхронизации с анимацией. Такой подход обеспечивает независимую обработку нескольких текстовых блоков и поддерживает нелинейные траектории обучения, ориентированные на индивидуальные особенности обучающихся.

2.5. Мониторинг состояния сети и синхронизация с анимацией

Для повышения устойчивости работы системы в условиях нестабильного сетевого соединения реализован модуль мониторинга сети, автоматически управляющий состоянием элементов управления и повторной загрузкой аудиоданных. Каждый сегмент текста связан с соответствующими анимационными состояниями, что обеспечивает синхронизацию речи с визуальными событиями и способствует более глубокому когнитивному восприятию учебного материала.

3. Особенности практической реализации системы

Предлагаемая система была реализована и интегрирована в реальные мультимедийные учебные модули, разработанные в среде Adobe Animate. В процессе практической реализации особое внимание уделялось обработке ограничений облачных TTS-сервисов, управлению очередями синтеза речи, восстановлению воспроизведения при сетевых сбоях, а также синхронизации аудиоконтента с анимационными элементами.\n\nПрактическое использование системы подтвердило её корректную работу при озвучивании протяжённых текстовых материалов и взаимодействии с несколькими независимыми текстовыми контейнерами в рамках одного учебного сценария. Полученные результаты свидетельствуют о применимости предложенных архитектурных и алгоритмических решений для разработки интерактивных образовательных мультимедийных приложений.

4. Заключение

В статье представлена интерактивная система преобразования текста в речь, интегрированная в среду Adobe Animate и ориентированная на задачи электронного обучения. Использование трёхуровневого гибридного алгоритма семантической сегментации текста, многостадийного управления воспроизведением аудио и мультиконтейнерной архитектуры позволяет эффективно преодолеть ограничения традиционных TTS‑решений и повысить дидактическую эффективность мультимедийных учебных материалов.

Предложенный подход может рассматриваться как перспективное направление развития интеллектуальных мультимедийных систем электронного обучения и служить основой для дальнейших исследований, связанных с интеграцией нейросетевых моделей синтеза речи и адаптацией системы к современным веб‑платформам.

 

Список литературы:
1. Google Developers. Text-to-Speech API. 2024.
2. Adobe Inc. Adobe Animate ActionScript 3 Documentation. 2023.
3. Taylor P. Text-to-Speech Synthesis. Cambridge University Press, 2020.
4. Schultz T., Kirchhoff K. Multilingual Processing in Speech Technology. Elsevier, 2019.
5. Gales M. et al. Speech Synthesis and Applications. IEEE Signal Processing Magazine, 2021.