Статья:

ЛИНГВИСТИКА НЕЙРОСЕТЕЙ КАК НОВОЕ МЕЖДИСЦИПЛИНАРНОЕ НАПРАВЛЕНИЕ

Конференция: CCCXXVI Студенческая международная научно-практическая конференция «Молодежный научный форум»

Секция: Филология

Выходные данные
Ян И. ЛИНГВИСТИКА НЕЙРОСЕТЕЙ КАК НОВОЕ МЕЖДИСЦИПЛИНАРНОЕ НАПРАВЛЕНИЕ // Молодежный научный форум: электр. сб. ст. по мат. CCCXXVI междунар. студ. науч.-практ. конф. № 47(326). URL: https://nauchforum.ru/archive/MNF_interdisciplinarity/47(326).pdf (дата обращения: 12.01.2026)
Лауреаты определены. Конференция завершена
Эта статья набрала 0 голосов
Мне нравится
Дипломы
лауреатов
Сертификаты
участников
Дипломы
лауреатов
Сертификаты
участников
на печатьскачать .pdfподелиться

ЛИНГВИСТИКА НЕЙРОСЕТЕЙ КАК НОВОЕ МЕЖДИСЦИПЛИНАРНОЕ НАПРАВЛЕНИЕ

Ян Итань
бакалавр, Хэнаньский университет, Китай, провинция Хэнань

 

NEURAL NETWORK LINGUISTICS AS A NEW INTERDISCIPLINARY FIELD

 

Yan Yitan

Bachelor’s Degree Holder, Henan University, Henan Province, China

 

Аннотация. Статья посвящена обоснованию лингвистики нейросетей как нового научного направления на стыке лингвистики, компьютерных наук и когнитивистики. Исследование анализирует и сопоставляет компьютерную и корпусную лингвистику, выявляет их задачи и взаимодействие с искусственным интеллектом. Особое внимание уделяется терминологическому аппарату лингвистики нейросетей, этапам обработки текста нейросетями и задачам обработки данных на естественном языке, включая выделение сущностей, анализ тональности и построение языковых моделей. Отмечается значимость лингвистики нейросетей для улучшения взаимодействия человека и машины, а также ее перспективы в создании мультимодальных моделей, изучении редких языков и исследовании когнитивных механизмов. Рассматриваются современные архитектуры нейронных сетей и формулируются выводы, создающие основу для дальнейшего развития данного междисциплинарного направления.

Abstract. This article is devoted to substantiating neural network linguistics as a new scientific field at the intersection of linguistics, computer science, and cognitive science. The study analyzes and compares computational and corpus linguistics, identifies their objectives, and examines their interaction with artificial intelligence. Particular attention is paid to the terminological framework of neural network linguistics, the stages of text processing by neural networks, and tasks in natural language data processing, including named entity recognition, sentiment analysis, and language modeling. The significance of neural network linguistics for enhancing human–machine interaction is emphasized, along with its prospects in developing multimodal models, studying low-resource languages, and exploring cognitive mechanisms. Modern neural network architectures are examined, and conclusions are drawn that provide a foundation for the further development of this interdisciplinary field.

 

Ключевые слова: нейросети, искусственный интеллект, ChatGPT-4, токенизация, генеративные модели, эмбеддинг, лингвистика нейросетей, корпус, обработка естественного языка.

Keywords: neural networks, artificial intelligence, ChatGPT-4, tokenization, generative models, embeddings, neural network linguistics, corpus, natural language processing.

 

Вопрос взаимодействия языка и искусственного интеллекта является одним из актуальных в современной науке. Активное внедрение нейросетей во все научные области требует их теоретического осмысления в рамках лингвистики. Искусственный интеллект исследуется в кибернетике, информатике и других технических дисциплинах. Лингвисты освоили использование нейросетей в переводе, лингводидактике, редактировании и анализе текстов. Однако лингвистика нейросетей как самостоятельное научное направление с четко определенными объектом, целями и задачами пока не сформирована, что делает данное исследование актуальным.

Первоначальные основы ИИ были заложены Норбертом Винером в кибернетике. В 1930–1940-х годах появились модели искусственного нейрона, имитирующие работу биологического. Модель МакКаллока–Питтса представляла простую логическую схему с бинарным выходом. В 1957 году Фрэнк Розенблатт создал перцептрон — первую искусственную нейронную сеть. Значительный прорыв произошел в 2012 году, когда команда Джеффри Хинтона с AlexNet выиграла конкурс ImageNet, продемонстрировав потенциал глубокого обучения [1, с. 4].

Компьютерная лингвистика изучает язык с точки зрения обработки компьютером, включая алгоритмы анализа, интерпретации, синтеза и понимания естественного языка. Основные задачи: обработка естественного языка, машинный перевод, распознавание речи, генерация текста, извлечение информации, семантический анализ [2, с. 4-16].

Корпусная лингвистика анализирует язык с опорой на эмпирические данные и текстовые корпуса, включая социальные медиа, диалекты и мультимодальные данные. Она обеспечивает инструменты для фундаментальных и прикладных исследований, включая лексикографию и ИИ [3,4].

Несмотря на пересечения, компьютерная и корпусная лингвистика являются самостоятельными направлениями. Корпуса используются для обучения моделей ИИ, а методы ИИ помогают анализировать и структурировать корпуса.

Лингвистика нейросетей изучает взаимодействие языка и технологий ИИ, направленных на обработку естественного языка. Она охватывает:

  • алгоритмы обработки текста;
  • морфологический и синтаксический анализ;
  • интерпретацию смыслов и контекста;
  • моделирование многозначности;
  • генерацию текста;
  • распознавание речи.

Практическая значимость: совершенствование машинного перевода, генерация текста с эмоциональной окраской, распознавание устной речи и моделирование когнитивных процессов.

Этические и прикладные проблемы: предвзятость данных, культурные различия, ограниченная поддержка редких языков. Для редких языков, таких как баскский или ненецкий, требуется создание специализированных корпусов с участием местных сообществ.

Перспективы развития: мультимодальные модели (текст, аудио, изображение), технологии изучения редких языков, когнитивные исследования процессов понимания языка.

Человек воспринимает текст через зрительные сигналы, обрабатываемые корой мозга, с учетом знаний букв, слов и грамматики. Машина фиксирует изображение текста камерой или сканером, обрабатывает его с помощью OCR и применяет модели NLP для интерпретации. Контекст используется и человеком, и ИИ для устранения двусмысленности, но нейросети ограничены обучающими данными.

Этапы обработки текста нейросетью (на примере ChatGPT-4):

  1. Предварительное обучение на больших корпусах текстов.
  2. Токенизация: разбиение текста на токены.
  3. Эмбеддинги: преобразование токенов в числовые векторные представления [5].
  4. Контекстуальная обработка токенов с помощью механизма внимания.
  5. Генерация текста через предсказание последовательности токенов.
  6. Постобработка: преобразование токенов обратно в текст.
  7. Обновление модели и оптимизация обучения [6].

Современные архитектуры нейросетей:

  • BERT — двунаправленная обработка текста для улучшения понимания контекста.
  • GPT — генерация текста через авторегрессию, предсказывает следующий токен.
  • T5 — универсальная модель для преобразования текста в текст, объединяющая преимущества BERT и GPT [7].

Основные задачи анализа текста:

  • NER — распознавание именованных сущностей.
  • POS-tagging — частеречная разметка текста.
  • Sentiment Analysis — определение эмоциональной окраски текста.
  • Language Modeling — предсказание вероятности последовательности слов.
  • Parsing — разбор грамматической структуры предложения.

Ключевые термины лингвистики нейросетей:

  • NLP (обработка естественных языков);
  • корпус;
  • токенизация;
  • эмбеддинги;
  • контекстуальные эмбеддинги.

Лингвистика нейросетей формирует новое междисциплинарное направление, объединяющее лингвистику, ИИ и когнитивистику. Она исследует обработку, анализ и генерацию текста нейросетями, а также взаимодействие человека и машины в языковой коммуникации. Изучение механизмов восприятия и обработки текста способствует развитию теоретических и прикладных аспектов науки и созданию терминологического аппарата для исследований ИИ и ЕИ.

 

Список литературы:
1. Гудфеллоу Я., Бенджио И., Курвилль А. Глубокое обучение. Москва: ДМК Пресс, 2018.
2. Боярский К.К. Введение в компьютерную лингвистику: учебное пособие. Санкт-Петербург: НИУ ИТМО, 2013.
3. Мамонтова В.В. Корпусная лингвистика в современной языковедческой парадигме. Актуальные вопросы современной науки. 2010; № 12: 230-238.
4. Захаров В.П. Корпусная лингвистика: учебно-методическое пособие. Санкт-Петербург, 2005.
5. Рогачев А.Ф., Мелихова Е.В. Разработка искусственных нейронных сетей со сверточными слоями для анализа ретроспективных данных интернет-контента. Международный журнал прикладных наук и технологий INTEGRAL. 2020; № 2-1: 20.
6. Бурков А. Машинное обучение без лишних слов. Перевод с английского А. Киселева. Санкт-Петербург: Питер, 2020.
7. Саттон РС, Барто Э.Дж. Обучение с подкреплением: Введение. Москва: ДМК Пресс, 2020.