Статья:

Роль индивидуального словаря носителя языка при восприятии и понимании текста

Конференция: LII Студенческая международная научно-практическая конференция «Молодежный научный форум: гуманитарные науки»

Секция: Филология

Выходные данные
Салимова А.Т. Роль индивидуального словаря носителя языка при восприятии и понимании текста // Молодежный научный форум: Гуманитарные науки: электр. сб. ст. по мат. LII междунар. студ. науч.-практ. конф. № 12(51). URL: https://nauchforum.ru/archive/MNF_humanities/12(51).pdf (дата обращения: 23.12.2024)
Лауреаты определены. Конференция завершена
Эта статья набрала 0 голосов
Мне нравится
Дипломы
лауреатов
Сертификаты
участников
Дипломы
лауреатов
Сертификаты
участников
на печатьскачать .pdfподелиться

Роль индивидуального словаря носителя языка при восприятии и понимании текста

Салимова Акерке Тулкубаевна
магистрант, Евразийский Национальный университет имени Л.Н. Гумилева, РК, г. Астана
Əбдуəлиұлы Бекжан
научный руководитель, профессор, Евразийский Национальный университет имени Л.Н. Гумилева, РК, г. Астана

 

В нашей статье будет рассматриваться вопрос об устоновлении основных принципов формализации содержания казахского текста, в  частотности статистического содержания. Решение такой задачи основывается нами на принципах частотности лингвистических единиц текста с опорой на высокочастотные зоны словаря  и на характеристику равномерной покрываемости текстов.

В вероятностно-статистических закономерностях проявляются всеобщие связи явлений в природе и обществе, которые, как правило, измеряются отношением частотой и вероятностью. Говоря о частоте лингвистических явлений, можно утверждать, что она относится к универсальным лингвистическим категориям. Здесь речь идет о том, что языку объективно присущи количественные признаки [1.с 11], так как они внутренне связаны  с качественными характеристиками языка. Не оспоримым является тот факт, что, как бы разнообразны ни были естественные языки, при их функционировании наблюдаются повторяющиеся языковые явления. Наблюдая за частатой различных речевых явлений, можно судить о наличии или отсуствии статистических  закономерностей в системе языка в целом  или в каких-то его подсистемах.  С этой целью состовляются различные частотные словари слов, словоформ, словосочитаний или грамматических явлений. На материалах частотных словарей решаются многия лингвистические задачи как традиционного характера, так и задачи, относящиеся к прикладным аспектам.

Остоновимся на некоторых из них. В традиционном плане частотные словари  позволяют глубже исследовать лексическую и системную организацию языка, а именно выделить лексику отдельных функциональных стилей, их общую часть, разграничить национальную лексику от заимствованной, общеупотребительную от терминологической. Частотный словарь позволяет выделить неологизмы, архаизмы и другие группы лексических единиц. Основываясь на статистических характеристиках слов, можно устоновить роль, место и функции этих слов в  общей языковой системе. В итоге, такие частотные словари должны отчетливее показать картину отдельного языка в целом.

Через количественные соотношения слов и словоформ можно говорить о лексическом богатстве и стилевых различиях языка, о способах образования новых слов. Частотные словари помогают и сопоставительно-типологическом изучении родственных и  разноструктурных языков [2. 143 с]. Таким образом образование частотного словаря значительно повлияет на развитие сопостовительного метода изучения языка и поможет установить или же опровергнуть исторические связи между языками, поспособствует развитию тех разделов языкознания, которые изучают родственные языки, в данном случае тюркологии, по средствам изучения тождественных аспектов родственных языков.

По поводу полезности частотных словорей в исследовпаниях традиционного плана хорошо сказано Л.Н. Засориной: «Материалы частотных словарей исключительно ценны и для собственно лингвистических исследований. Они оказывают влияние на судьбы традиционной лексикографии. Ими пользуются в решении основной проблемы общей лексикологии – выделение словарного фонда активного и периферического словаря; они полезны и при изучении вопросов стилистики, семантики и литературной нормы языка» [3. 3-4 с.].

Очень велика роль частотных словарей в решении прикладных задач. Особо можно отметить их значение для машинного перевода с одного языка на другой, а также при индексировании, аннотировании или реферировании научно-технических текстов. Без таких словарей невозможны автоматизация лингвистических работ, организация эффективного информационного поиска и ряд других прикладных работ. Возможно то, что  с помощью таких словарей можно разработать некую стилистическую формулу, которая поможет определить нужное слово из ряда синонимов при машинном переводе. Учитывая то, что до настоящего времени так и не разработаны методы машинного перевода казахского языка, это вполне обясняет нам актуальность данных словарей.

Р. Г. Пиотровский считает, что для машинного перевода особо важно составить частотные словари наиболее часто употребляемых и информационна эффективных слов [4. 5с.]. С учетом избыточности естественных языков, материалы частотных словорей могут быть использованы для рациональной организации преподования языков, а именно при состовлении словарей-минимумов, которые необходимы для изучения национальных и иностранных языков. Можно согласиться с утверждением исследователей о том, что «разумная методика обучения языку должна основываться в первую очередь на статистических характеристиках языковых явлений. При состовлении учебных пособий, словарей-минимумов, терминологических справочников и словарей главным критерием отбора материала должен стать принцип частотности..» [5. 209 с.]. В полной мере это спроведливо и при обучении казахскому языку.

Известно что в каждом языке выделяются функциональные стили или «подьязыки», которые обладают, по сравнению с языком в целом, ограниченным количеством лингвистических  единиц  и определенной спецификой их употребления. Выбирая наиболее частые и информационно насыщенные единицы языка,  а также типовые контексты их употреления, можно построить такую модель языка (базовый язык), которая будет являться некоторым приблежением к реальной системе подъязыка, порождающей тексты узкой тематики [4.с. 21-23]. Критерием отбора высокочастотных лингвистическизх единиц, специфичных для определенного подязыка. Для более ясного представления этого понятия («покрываемость текста») приведем примеры из статистических исследований некоторых текстов на казахском языке. Известно, что всякий достоточно протяженный текст, независимо от его характера и языка, обладает следующим свойством: соотношения между числом «самых частных» слов и «длиной» текста, покрываемого этими словами  в процетном выражении, имеют близкие значения. Иначе говоря, если по достаточно большому текстовому массиву состовить частотный словарь  и расположить в нем слова  в порядке убывания их частот (по степени активности), то оказывается, что в первые 2000 слов словаря занимают примерно 0,8 всего массива, т.е. заполняют около 80% его полной длины [6. с.151].

Приведем данные покрываемости текста группой наиболее частных слов по некоторым тюркским языкам. Пока еще не издан частотной словарь казахского языка в целом, но состовлены частотные словари  по отдельным жанровым разновидностям. В таблице  приводятся данные покрываемости текстов группой наиболее частных слов частотных словорей, состовленных по различным жанрам (или подязыкам) казахского языка. Как видно из данной таблицы, различные жанры казахского языка, хотя имеют свою специфику по характеристике покрываемости длины текста высокочастотными словами, все же они колеблятся между некоторой средней величиной. Увелечением процента покрываемости  рассматриваемых шести текстов такова: 1000 наиболее частых слов покрывают 76,58%, 2000 слов – 85,80 % и 300 слов – 88,70% массива текста. В седьмом тексте, т.е. в 20-томном собрании сочинений М.Ауэзова, смешаны тексты разных жанров, несмотря на это, проценты покрываемости текста группой высокочастотных слов отражают картину, свойственную различным казахским текстам [7. с.151].

Это может говорить не только о неких жанрах казахского языка, а так же поможет описать индивидуальный стиль самого автора, охарактеризовать в некотором уровне его языковую картину мира.

Таблица 1.

Покрываемость  текста группой наиболее частных слов

П/П

Тексты

Объем текста

Длина

слов-

ника

Ранговый интервал слов и % их покрываемости

1-50

1-100

1-500

1-1000

1-2000

1-3000

1

М.Ауэзов

«Абай жолы»

465373

17188

30,5

39,2

62

71,6

79,9

84

2

М.Ауэзов

«Өскен өркен»

90929

7674

31

41,3

68

70,2

89,2

93,2

3

Абай

Поэзия

46847

6017

33,1

45

69,2

89,7

88,9

93,4

4

Газетные

тексты

146764

12423

23

31,7

59,7

72,8

83,9

88,9

5

Детская

литература

98040

10076

26,8

35,4

58,4

69,1

79,5

86,1

6

Казахские

сказки

98058

5840

41,5

51,8

76,6

86

93,4

96,6

7

М. Ауэзов

20-томн.пр.

1706195

29483

31,3

41,4

66,3

76,4

85,7

90,1

 

Исходя из приведенных данных, напрашивается естественный вопрос: можно ли сделать вывод о том, что человек, изучающий казахский язык и знающий эти 1000 (или 1227) наиболее употребительных слов, сможет понимать около 80% текста современной казахской художественной прозы? Видимо это не совсем достаточно, так как в их числе немало многозначных лексем, в некоторые из них входят как компоненты устойчивых словосочетаний и фразеологических единиц. Чтобы понять остальные 20% лексем нам придется знать граматику данного языка или же природу языка в целом. К тому же, трудно утверждать то, что для понятия остальных 20% лексем достаточно лишь знание грамматики языка, не говоря о когнитивных аспектах данного текста.

Интересен специальный эксперимент, проведенной Р.М. Фрумкиновой для проверки на эфиктивность словаря Э. А. Штейнтальдт. Была постовлена такая задача: выяснить, в какой мере данные, полученные по текстам ограниченного объема и жанра, будет верны  для других русских литературных текстов, относящихся к иным жанрам и периодам. С этой целью был подсчитан процент покрываемости текста наиболее частыми словами для 60 различных текстов длиной в 1000 слов. Эксперимент показал, что первые 1300 и тем более первые 2000слов дают вполне удовлетворительный средний процент покрываемости, колеблясь от средней величины от 0,68 до 0,81 [8. с.21-22].

Покрываемость различных текстов высокочастотными словоформами для отдельных тюрксих групп языков подробно изложена в книге К. Б. Бектаева «Статистико-информационная типология тюркского текста» [2. с.151]. Отметим только что покрываемость  казахских текстов имеет различия, например, от индоевропейских языков. Если в последнем100-150 словоформ покрывают 50% обследуемого текста, то в казахском подъязыке публицистики и в художественном тексте (роман «Абай жолы») такой процент покрываемости текста соответствует 700-800 словоформам [7. с.533].  К. Б. Бектаев приводит такие сравнительные данные по покрываемости текстов: в высокочастотной зоне покраваемости 1000 первых казахских словоформ колеблятся от 47%  до 60%,  а для индоевропейских языков – от 62 до 85%. Когда единицой словаря служит не словоформа, а слово, то на 1000 слов высокочастотной зоны словаря покрываемость по казахским текстам варьирует от 63 до 86%, а по текстам индоевропейских языков – от 64 до 89%.

Такое различие в процентах покрываемости казахских словоформ  К.Б. Бектаев объясняет тем, что «...в тюрксих языках агглютинативнаяконструкция по своимфункциям часто идентична не столько словоформе, сколько словосочетанию в индоевропейских яхыках» [2.с.39].  Далее автор раскрывает причину такого несоответствия тем, что в языках агглюнативного строя слова имеют более разнообразные виды формообразования по сравнению с языками флективного строя. Действительно, в казахском языке только у существительных количество формообразующих аффиксов достигает 500, а большинство казахских глаголов имеют до 100 различных форм [9. с.36].

Таким оброзом, сравнительно небольшая группа  наиболее частных слов в суммесостовляет огромное число словоупотреблений. Последнее дает возможность, рассматривая незначительную часть инвентаря языка, зафиксированную  в частотном словаре, делать выводы о большой части единиц речи.

Подводя итог, можно сделать следующий вывод об объеме индивидуального словаря носителя казахского языка: для понимания 80% казахского  текста дасточно хорошо знать значения казахских слов в пределах от 2 тыс. до 3 тыс. Слов из высокочостотной зоны частотного словаря, состовленного по различным жанром этого языка. Остовшиеся 20%  значений лексем можно узнать  по отдельным отраслевым терминологическим словарям или по словарю новых слов. Не исключено, что зная этих слов можно будет понять из соответстующего контекста и по догадке. Последнее, в основном, зависит от уровня знания данного предмета (о котором идеть речь в тексте) индивидуальным носителем языка.

 

Список литературы:
1. Засорина Л. Н. Частотные словари и вопросы лексико-статистики. // Межвузовская бонференция по вопросам частотных словарей и автоматизации. Л., 1966. – С. 3-4.
2. Бектаев К.Б.  Статистико-информоционная типология тюркского текста. Алма-Ата: Наука, 1978. – 183 с
3. Николаева В. П. Структурно-композиционные особенности начальных и конечных абзацев. – В. кн.:  Лингвистика текста. Материалы научной конференции. Часть 1.- М.,1974. – С. 206-209.  
4. Пиотровский Р. Г. Текст, машина, человек. – Л.: Наука, 1975. – 327 с. 
5. Новиков А. И. Семантика текста и  ее формализация. М.: Наука, 1983. – 216 с. 
6. Головин Б. Н. Язык и статистика. – М., 1971. – 190 с. 
7. Жұбанов А.Қ. Қолданбалы лингвистика: қазақ тілінің статистикасы: Оқу құралы. – Алматы: Қазақ университеті, 2004. – 209 б. 
8. Фрумкина Р. М., Штейнтальдт Э. А. Статистические методы отбора лексики для словаря-минимум по русскому языку//Рускский язык в национальный школе.-М., 1960. №6.-С.17-25.
9. Ахабаев Ә., Бектаев Ә. Б. Зат есім сөздердің морфологиялық құрылымына статистикалық талдау. В сб.: Статистика казахского текста. Алма-Ата: Наука 1973. С. 49-88.