Статья:

Кластерный анализ создания навыков для чат-бота

Конференция: XXIV Студенческая международная научно-практическая конференция «Технические и математические науки. Студенческий научный форум»

Секция: Технические науки

Выходные данные
Семыкина А.А. Кластерный анализ создания навыков для чат-бота // Технические и математические науки. Студенческий научный форум: электр. сб. ст. по мат. XXIV междунар. студ. науч.-практ. конф. № 1(24). URL: https://nauchforum.ru/archive/SNF_tech/1(24).pdf (дата обращения: 25.02.2020)
Лауреаты определены. Конференция завершена
Эта статья набрала 0 голосов
Мне нравится
Дипломы
лауреатов
Сертификаты
участников
Дипломы
лауреатов
Сертификаты
участников
на печатьскачать .pdfподелиться

Кластерный анализ создания навыков для чат-бота

Семыкина Анастасия Анатольевна
магистрант, Институт энергетики, информационных технологий и управляющих систем, Белгородский Государственный Технологический Университет имени Владимира Григорьевича Шухова, РФ, г. Белгород

 

В мире информационных технологий главным умением является способность подстраиваться под современный темп жизни. Для экономии времени, которое может быть затрачено на поиск,  существует много посторонних ресурсов, но будет ли найденная информация соответствовать заданным требованиям пользователя?

Палочкой-выручалочкой можно считать виртуальные голосовые помощники, которые распознают естественную речь, имитируют живой диалог, дают ответы на вопросы пользователя и, благодаря запрограммированным навыкам, решают прикладные задачи. Навык — сервис, активирующийся по ключевой фразе и работающий в интерфейсе бота. Навык решает задачу пользователя. Для экономии времени пользователя, а также получения информации в достаточном объёме, проведён кластерный анализ для создания навыков.

При создании навыков нужно помнить, что общение пользователя с искусственным интеллектом – диалог. И для того чтобы информация была корректно предоставлена пользователю, проведён анализ пользовательских сценариев. Решение задач классификации слов по семантическим группам позволяют повысить качество решения автоматической обработки текстов. В качестве входных данных для метода кластеризации были составлены несколько связей:

  • <глагол, существительное>
  • <вопросительное местоименное наречие, глагол, существительное>
  • <вопросительное местоимение, глагол>
  •  <глагол, предлог+прилагательное+существительное>
  •  <вопросительное местоименное наречие, существительное>
  • <существительное, существительное>.

Например, пользователь хочет узнать, когда будет спектакль по пьесе А. П. Чехова «Вишнёвый сад». Таким образом, из предложения запроса пользователя «Когда будет спектакль «Вишнёвый сад», будет извлечено четыре группы следующего вида:

  • <когда+будет>;
  • <будет+спектакль>;
  • <когда+спектакль>;
  • <спектакль+«Вишневый сад»>.

У каждого активационного имени есть свои параметры, а созданная база данных содержит коллокации и их частоты встречаемости.

Полученная база данных может быть описана как множество, состоящее из множеств. Для корректной работы необходимо выделить словарь главных и словарь зависимых слов. Словари – вспомогательные множества, которые используются для расчёта меры сходства встречаемости слов. Для этого необходимо получить вектор признаков слова  a, содержащий в себе частоты встречаемости данного слова со словами из множества зависимых слов. Мера сходства слов а и в определяется в таком случае с использованием косинусной меры сходства между векторами признаков.

Для того чтобы уменьшить количество ошибок при формировании ответа, необходимо отфильтровать часть объектов, которые вносят шум во входные данные. Далее используются только те сочетания, у которых частота встречаемости превосходит заданный порог. Также используются словосочетания только с теми главными словами, которые встречаются более чем в заданном количестве различных комбинаций.

На начальном этапе кластеризации отдельный кластер – каждое слово. На этом шаге метода кластеризации рассчитывается матрица расстояний, которая основана на расчёте косинусов меры сходства. Из полученной матрицы берётся n самых максимальных значений или все значения, превосходящие порог. Для определения расстояния применяется метод, в котором расстояние рассчитывается как среднее между всеми элементами двух кластеров. После первого шага на каждом последующем шаге кластеризации выбираются два ближайших кластера. Далее происходит объединение, с пересчётом расстояний до других кластеров, в один. Алгоритм работает до того момента, пока расстояние между объединяемыми кластерами не станет меньше заданного порога. Большие кластеры могут содержать в себе несколько более мелких, не связанных с собой по смыслу. Но слишком большое значение порога приведёт к тому, что будут кластеризованы не все слова, но качество полученных кластеров будет выше.

Для оценки результатов кластеризации используется формула нормализованной взаимной информации NMI(A, B)  и   - меру.

NMI(A, B) = ;

 =   

где  - количество общих элементов в кластере и классе золотого стандарта H(A) – энтропия кластеров, H(B) – энтропия классов золотого стандарта. - мера представляет собой удвоенное среднегармоническое значение покрытия (recall) и точности (precision). Энтропия определяется по формуле Шеннона: , где p(i) - вероятность вхождения элемента в кластер: p(i) = n/N, n  - число элементов в кластере, N - общее число элементов.

Для экономии времени пользователя при создании навыков учитываются такие параметры, как определение местоположения и локальное время. У пользователя пропадает необходимость запрашивать дополнительную информацию, например, о какой-то выставке, если бот подскажет, в какое время будет работать музей и как далеко находится от его местоположения.

Благодаря проведённому кластерному анализу на основе голосового помощника, была решена задача классификации слов по семантическим группам, которая повысила качество автоматической обработки текстов. Мощь информационных технологий, соединённых с техническими решениями, позволяет создавать продукты, которые не только экономят время пользователя, но и предоставляют достаточное количество информации в реальном времени.

 

Список литературы:
1. Активация и деактивация языка [Электронный ресурс] – Режим доступа. –URL: https://yandex.ru/dev/dialogs/alice/doc/activation-docpage/ (Дата обращения: 10.12.2019).
2. Алиса (голосовой помощник) [Электронный ресурс] – Режим доступа. –URL: https://ru.wikipedia.org/wiki/Алиса_(голосовой_помощник) (Дата обращения: 12.12.2019).
3. Кластерный анализ [Электронный ресурс] – Режим доступа. –URL:
https://ru.wikipedia.org/wiki/Кластерный_анализ#Методы_кластеризации  (Дата обращения: 27.12.2019)