Статья:

О корпусе изучающих корейский язык

Конференция: XXXVI Студенческая международная научно-практическая конференция «Гуманитарные науки. Студенческий научный форум»

Секция: Филология

Выходные данные
Ховрова С.Н. О корпусе изучающих корейский язык // Гуманитарные науки. Студенческий научный форум: электр. сб. ст. по мат. XXXVI междунар. студ. науч.-практ. конф. № 1(36). URL: https://nauchforum.ru/archive/SNF_humanities/1(36).pdf (дата обращения: 22.11.2024)
Лауреаты определены. Конференция завершена
Эта статья набрала 0 голосов
Мне нравится
Дипломы
лауреатов
Сертификаты
участников
Дипломы
лауреатов
Сертификаты
участников
на печатьскачать .pdfподелиться

О корпусе изучающих корейский язык

Ховрова Сахаяна Николаевна
магистрант, Северо-Восточный федеральный университет им. М.К. Аммосова, РФ, г. Якутск

 

ABOUT KOREAN LEARNER’S CORPUS SEARCH ENGINE

 

Sakhaiana Khovrova

Master student, Northeastern Federal University named after M.K. Ammosov, Russia, Yakutsk

 

Аннотация. Данная статья посвящена корпусу изучающих корейский язык как иностранный (한국어 학습자 말뭉치 나눔터 - Korean Learner’s Corpus Search Engine). В статье рассматривается структура сайта корпуса, описываются материалы корпуса, принципы поиска словоупотреблений на сайте.

Abstract. This article focuses on the Korean Learner’s Corpus Search Engine (한국어 학습자 말뭉치 나눔터). The article examines the structure of the corpus site, describes the corpus materials, principles of word usage search on the site.

 

Ключевые слова: корпусная лингвистика, корпус корейского языка, корейский язык.

Keywords: corpus linguistics, corpus of Korean language, Korean language.

 

В данной статье рассматривается корпус изучающих корейский язык как иностранный язык (한국어 학습자 말뭉치 나눔터 - Korean Learner’s Corpus Search Engine), который создан на базе Национального института корейского языка (국립국어원). Данный корпус доступен в сети интернет по адресу: https://kcorpus.korean.go.kr/ и открыт для свободного доступа.

Корпус изучающих корейский язык (한국어 학습자 말뭉치 나눔터) – это языковой материал, который был собран из текстовых и разговорных материалов иностранцев, изучающих корейский как второй иностранный язык.

Формирование корпуса. Национальный институт корейского языка разработал данный корпус в 2015 году и в течение 5 лет исследовал материалы корпуса. Главным источником текстов для корпуса стали тексты, созданные иностранцами, изучающие корейский язык как второй иностранный язык. Тексты корпуса были собраны и компьютеризованы в данный корпус. В текстах допустимы грамматические и орфографические ошибки, так как тексты были созданы иностранцами, которые изучают корейский язык.

Данный корпус, собранный на основе текстов иностранцев, изучающих корейский в Корее и за рубежом, служит материалом в исследованиях и разработке учебных материалов для корейских и зарубежный исследователей и преподавателей корейского языка. Также созданный корпус может использоваться в систематизации словаря корейского языка и приложений для изучения корейского языка.

Сайт корпуса состоит из двух вкладок, в которых представлена поисковая система корпуса (검색) и статистика корпуса (통계). Также сверху представлена информация о корпусе (소개말) и вкладка загружаемых разработчиками инструкций и открытых материалов (알립니다) (Рис.1).

 

Рисунок 1. Внешний интерфейс корпуса изучающих корейских язык

 

Статистика. Для создания данного корпуса были собраны материалы представителей 142 стран, которые изучают корейский как иностранный язык. Представители данных 142 стран говорят на 93 языках.

На текущий момент в базе данных корпуса присутствует массив текстов 3 784 091 словоупотреблений, из них текстовые – 2 952 566 слов, разговорных – 831 525 слов. Общее количество документов – 26 152 документов, из них текстовых – 24 342 (93,1%) документов, разговорных – 1 810 (6,9%) документов.

В разделе статистика разработчики распределяют словоупотребления по представителям стран (количество в документах): Китай – 10 243 (39,2%), Япония – 3 407 (13,0%), Вьетнам – 1 945 (7,4%), Гонконг – 1 091 (4,2%), Тайвань – 877 (3,4%), США – 799 (3,1%), другие страны – 7 790 (29,8%) (Рис.2).

 

Рисунок 2. Распределение словоупотреблений по национальности

 

Также предоставлено процентное соотношение словоупотреблений по родному языку, на котором говорят иностранцы, изучающие корейский язык (количество в документах): китайский – 11 495 (44,0%), японский – 3 500 (13,4%), вьетнамский – 1 942 (7,4%), английский – 1 682 (6,4%), китайский (кантонский) – 1 074 (4,1%), русский – 1 043 (4,0%), другие языки – 5 416 (20,7%) (Рис.3).

 

Рисунок 3. Распределение словоупотреблений по родному языку

 

Национальный институт корейского языка также распределил количество словоупотреблений по уровням владения корейского языка (количество в документах): 1 уровень – 5 763 (22,0%), 2 уровень – 5 327 (20,4%), 3 уровень – 5 187 (19,8%), 4 уровень – 4 412 (16,9%), 5 уровень – 3 148 (12,0%), 6 уровень – 2 125 (8,1%), выше 6 уровня – 169 (0,6%) (Рис. 4).

 

Рисунок 4. Распределение количества словоупотреблений по уровню владения корейским языком

 

Так, из детализированной таблицы можно узнать количество словоупотреблений, изучающих корейский язык из России (количество в документах): 1 уровень – 134, 2 уровень – 118, 3 уровень – 144, 4 уровень – 102, 5 уровень – 78, 6 уровень – 26, выше 6 уровня – 7.  Также владеющих русским языком (количество в документах): 1 уровень – 203, 2 уровень – 214, 3 уровень – 238, 4 уровень – 180, 5 уровень – 144, 6 уровень – 51, выше 6 уровня – 9.

В разделе статистики по морфологической системе (주석 말뭉치 표지별 통계) представлена система обозначений грамматических категорий данного корпуса.

 

Рисунок 5. Система обозначений грамматических категорий корпуса

 

Также в морфологической системе можно сформировать таблицу отдельно по грамматической категории, где выходит таблица, первый столбец – слова (в рис. существительные), второй столбец – обозначение грамматической категории, последующие столбцы - количество словоупотреблений по уровням владения корейским языком и общее количество словоупотреблений.

 

Рисунок 6. Таблица, сформированная по грамматической категории

 

Поиск. Корпус изучающих корейский язык имеет интересную и уникальную возможность поиска. Поисковая система данного корпуса разделена на три части:

  • основной поиск (원시 말뭉치 검색);
  • поиск по морфологической системе (형태 주석 말뭉치 검색);
  • поиск по ошибочной системе (오류 주석 말뭉치 검색).

Искать можно по слову, словосочетанию, грамматической конструкции.

Основной поиск (원시 말뭉치 검색). В этом подразделе поисковой системы корпуса выводятся результаты поиска по введенному слову пользователя. Поиск выводит найденное количество документов и словоупотреблений, а также таблицу: первый столбец – нумерация, второй столбец – язык, на котором говорит автор данного текста, третий столбец – уровень владения корейским языком, четвертый столбец – левая часть предложения, пятый столбец – поисковое слово, шестой столбец – правая часть предложения.

При нажатии поискового слова выводится контекстная информация и информация об авторе текста: национальность, родной язык, возраст, профессия, цель изучения корейского языка, уровень владения корейским языком и тип корпуса (текстовой или разговорный).

В данном поиске (рис.7) было введено поисковое слово «неологизмы -신조어». Из результата поиска можно увидеть, что слово «неологизмы -신조어» употребляют студенты с высоким уровнем знания корейского языка. Данный поиск показал, что самое используемое словосочетание это «신조어와 유행어 – неологизмы и популярные выражения». Все результаты можно скачать в Excel версии.

 

Рисунок 7. Результаты поиска

 

Поиск по морфологической системе (형태 주석 말뭉치 검색). В этом подразделе поиск возможен по морфологической системе. Также можно выбрать национальность, родной язык, уровень владения, возраст, цель изучения, тип корпуса и место изучения корейского языка. Данный тип поиска может быть использован для изучения и составления учебного материала.

 

Рисунок 8. Поиск по морфологической системе

 

Поиск по ошибочной системе (오류 주석 말뭉치 검). В данном поиске выводятся тексты, где изучающие допустили грамматические и орфографические ошибки. В данном примере было введено поисковое слово «학생 – студент» и были выведены результаты текстов с грамматической и орфографической ошибкой в этом слове. При нажатии на поисковое слово выводится объяснение грамматической ошибки с исправлением в виде формулы, например 학생/NNG+들/XSN+을/JKO.

 

Рисунок 9. Поиск по ошибочной системе

 

Таким образом, на базе Национального института корейского языка существует корпус изучающих корейский как иностранный язык (한국어 학습자 말뭉치 나눔터 - Korean Learner’s Corpus Search Engine), который является интересным и уникальным корпусом. Рассмотрев систему данного корпуса, можно сказать, что данный корпус действительно служит хорошим материалом для исследователей и преподавателей корейского языка при составлении исследовательских работ и учебных материалов.

Преподаватели корейского языка как второго иностранного языка могут использовать данный корпус при составлении учебных материалов по корейскому языку, а также приводить примеры правильных и ошибочных словоупотреблений. Студенты, которые изучают корейский язык как второй иностранный язык, могут использовать данный корпус при изучении языка, подготовке к экзамену TOPIK (Test of Proficiency in Korean) и при написании выпускной квалификационной работы, связанной с педагогической темой. Также данный корпус может послужить примером для создания корпуса изучающих русский язык как иностранный. В настоящее время иностранцы, изучающие русский язык, сдают экзамен ТРКИ – Тест по русскому языку как иностранному (TORFL – Test of Russian as a Foreign Language), в состав которой входит часть «Письмо». Из работ данной части можно составить корпус изучающих русский язык. В результате исследователи и преподаватели русского языка как иностранный могут использовать данные тексты в разработке учебных материалов русского языка для иностранцев.

 

Список литературы:
1. 한국어 학습자 말뭉치 나눔터 - Korean Learner’s Corpus Search Engine. Режим доступа: https://kcorpus.korean.go.kr/ (Дата обращения: 18.11.2020)