Статья:

К вопросу о сложности создания системы автоматического понимания текста

Конференция: LI Студенческая международная научно-практическая конференция «Молодежный научный форум: гуманитарные науки»

Секция: Филология

Выходные данные
Павлова Я.С. К вопросу о сложности создания системы автоматического понимания текста // Молодежный научный форум: Гуманитарные науки: электр. сб. ст. по мат. LI междунар. студ. науч.-практ. конф. № 11(50). URL: https://nauchforum.ru/archive/MNF_humanities/11(50).pdf (дата обращения: 26.01.2022)
Лауреаты определены. Конференция завершена
Эта статья набрала 0 голосов
Мне нравится
Дипломы
лауреатов
Сертификаты
участников
Дипломы
лауреатов
Сертификаты
участников
на печатьскачать .pdfподелиться

К вопросу о сложности создания системы автоматического понимания текста

Павлова Яна Сергеевна
магистрант Марийского государственного университета, РФ, Респ. Марий Эл, г. Йошкар-Ола

 

Система автоматического понимания текста (АПТ) - одна из наиболее трудных областей обработки естественного языка (ОЕЯ).

Под АПТ необходимо понимать не только поиск смысловых связей между компонентами текста (чем занимается семантический анализ), но и – этот этап предшествует автоматическому синтезу осмысленного текста и отчасти решает эту проблему - построение некоторой визуализированной модели смысла текста с последующим “закреплением” определённых программой смысловых концептов в памяти воспринимающего устройства для последующего обращения к этим данным с целью генерации осмысленных текстов на основе имеющихся в памяти смысловых концептов.

Иначе говоря, необходимо «научить» компьютер «понимать» тексты.

Попытка представить пространство текста, как правило, осуществляется следующим путём:

· производится графематический анализ текста с целью обозначить начала и окончания слов, предложений, абзацев и т.п.;

· осуществляется морфологический анализ текста, чтобы определить частеречную принадлежность слов, их леммы или стеммы, а также формальные грамматические характеристики;

· производится синтаксический анализ текста, давая на выходе структуру в виде деревьев зависимостей, грамматик непосредственных составляющих или в ином формате;

· осуществляется семантический анализ, как правило, через обращение к онтологии или тезаурусу, установление смысловых связей между элементами и визуализированное представление данных связей (например, при помощи графов);

· производится синтез текста/реферирование исходного текста/иные действия (этот шаг является теоретическим, поскольку не существует в данный момент настолько развитых систем ОЕЯ).

 

Первейшая проблема, которую необходимо разрешить, - проблема неоднозначности, существующая на любом уровне языка:

1. Мы ночевали в замке (зАмок или замОк);

2. Она пришла в платье (она, одетая в платье, или пришла (куда?) в платье);

3. Она пришла в отель (она, одетая в отель, или пришла (куда?) в отель);

4. Я предложил помыть посуду (имеется в виду, что посуду помою «я» или адресат высказывания?) и под.

Такие проблемы не стоят перед носителями языка, поскольку решаются интуитивно за счёт имеющихся фоновых знаний о мире: нам известно, что нельзя одеться в отель, а платье не может быть местом назначения, однако компьютеры такой информации не имеют.

Соответственно, необходимо снабдить компьютер необходимыми данными.

Один из очевидных выходов - создание онтологий, представляющих собой структуры формализованных данных о мире.

Онтологии могут быть общими или предметными.

Приоритет имеют последние, поскольку общие онтологии, ориентируясь на фоновые знания о мире вообще, теряют в весе: формализовать всю информацию об окружающем человека пространстве в данный момент невозможно (данные собираются вручную).

Как следствие, продуктивным решением является создание предметных онтологий, охватывающих одну конкретную область (например, школа, медицина, животные, самолёты и т.д.).

С примером 4 ситуация обстоит более запутанно. Предположим, мы имеем следующий текст:

· У мамы был день рождения. Когда гости ушли, она решила убраться, а я захотел ей помочь и предложил помыть посуду.

Из контекста мы понимаем, что некто “я” сам будет мыть посуду. Предположим, у нас есть такое предложение:

· Мама сказала, что ей скучно и нечем заняться, тогда я предложил помыть посуду.

В этой ситуации мы понимаем, что субъект “я” имеет в виду, что посуду будет мыть другой субъект (в данном случае “мама”).

Люди воспринимают такие вещи интуитивно, а не логически выводят их, однако компьютер сделать это не может, поскольку устроен иначе, чем человеческий мозг.

Следовательно, необходимо “объяснить” машине, что такое контекст и “научить” определять его.

Следующая проблема - анафора и кореферентность [2]. В первом случае мы имеем дело со словами, значение которых нельзя определить без контекста, например:

· Там я никогда не был.

Слово “там” лексически пустое, оно не имеет смыслового наполнения без контекста:

· Мама ездила в Прагу. Там я никогда не был.

Слово “Прага” является антецедентом слова “там”. Необходимо, чтобы компьютер “понимал”, что Прага и там связаны отношениями тождественности.

Подобные проблемы будут возникать со словами-”пустышками” типа: он, она, они, я, ты, здесь, тут, туда, этот, тот и под. Решений для автоматической обработки анафор в данный момент не существует [Боярский].

Более трудная ситуация - отношения кореференции, неизбежно присутствующие почти в любом тексте. Кореферентны те слова, которые имеют один денотат. Например:

· Мама была в Праге. Столица Чехии - невероятно красивое место! В этом городе огромное количество российских туристов.

Прага, столица Чехии, этот город связаны отношением кореференции, поскольку все три элемента имеют один денотат - реально существующий город Прага.

Обе проблемы (анафора и кореференция) связаны с “глобальной” проблемой при АОТ - проблемой контекста [2].

В данный момент она не имеет решения.

Очевидно, что для автоматического семантического анализа потребуется также модуль смысловых, или семантических связей, заранее определённых. На этом этапе основной проблемой является отсутствие общепринятой классификации смысловых связей, их количества и наименований.

Как правило, смысловые связи в разных исследованиях [ср., например, Леонтьева и Шелманов] означают одно и то же, но называются по-разному (например, отношение субъекта действия и действия типа “он идёт” у Шелманова [6] называется “аргумент предиката”, у Леонтьевой [3,5] - “SUB”).

Решив проблему смысловых связей, необходимо будет “научить” компьютер обрабатывать неизвестные слова (неологизмы и окказионализмы, отсутствующие в тезаурусах, онтологиях и т.д.) и слова с ошибками.

Это возможно за счёт “привязки” к основным модулям модулей аффиксов и грамматических словарей, с помощью которых компьютер сможет определять грамматические характеристики слов, однако всё равно не будет в состоянии “понять” их значение.

Очевидно, эта проблема решается за счёт подключения модуля с лексическим значением аффиксов, включая корневые морфемы, чтобы на основании сложения смыслов морфем генерировалось лексическое значение слова.

Проблемы при создании инструмента для автоматической обработки текста заключаются и вовне: ко многим инструментам доступ ограничен (например, aot.ru [1], ЭТАП-3 [4] и др.), к некоторым закрыт, поскольку они являются коммерческими продуктами, в то время как открытость исходных кодов могла бы способствовать научному прорыву в области ОЕЯ.

Разрозненность при конструировании инструментов обработки текста, несогласованность научных методологий, отсутствие сформированных российских научных школ компьютерной лингвистики затрудняет исследование вопросов ОЕЯ.

 

Список литературы:
1. Автоматическая обработка текста © 2003 / [Электронный ресурс]. – URL: http://aot.ru/ (дата обращения: 10.11.2017).
2. Боярский К. К. Введение в компьютерную лингвистику. Учебное пособие. – СПб: НИУ ИТМО, 2013. – 72 с.
3. Леонтьева Н. Н. Автоматическое понимание текстов: системы, модели, ресурсы: учеб. пособие для студ. лингв. фак. вузов. – М.: Издательский центр “Академия”, 2006. – 304 с.
4. Лингвистический процессор ЭТАП-3 / [Электронный ресурс]. –  URL: http://cl.iitp.ru/ru/etap3 (дата обращения: 10.11.2017).
5. Сокирко А. В. Семантические словари в автоматической обработке текста: По материалам системы ДИАЛИНГ: диссертация ... кандидата технических наук: 05.13.17. – Москва, 2001. – 120 с.: ил.
6. Шелманов А. О. дис. Исследование методов автоматического анализа текстов и разработка интегрированной системы семантико-синтаксического анализа канд. техн. н. Институт системного анализа Российской академии наук, Москва, 2015.