Статья:

Мәтіннің статистикалық өңдеуін жүргізуге арналған компьютерлік құрал

Журнал: Научный журнал «Студенческий форум» выпуск №17(153)

Рубрика: Технические науки

Выходные данные
Сертаева М.К. Мәтіннің статистикалық өңдеуін жүргізуге арналған компьютерлік құрал // Студенческий форум: электрон. научн. журн. 2021. № 17(153). URL: https://nauchforum.ru/journal/stud/153/91697 (дата обращения: 06.02.2023).
Журнал опубликован
Мне нравится
на печатьскачать .pdfподелиться

Мәтіннің статистикалық өңдеуін жүргізуге арналған компьютерлік құрал

Сертаева Мадина Кирановна
магистранты Л.Н. Гумилев атындағы Еуразия ұлттық университеті, Казақстан, Нұр-Сұлтан қ
Бакиев Мурат Наурызбаевич
научный руководитель, И.о доцент, Л.Н. Гумилев атындағы Еуразия ұлттық университеті, Казақстан, Нұр-Сұлтан қ

 

COMPUTER TOOL FOR CONDUCTING STATISTICAL PROCESSING TEXTS

 

Madina Sertayeva

Student of L.N. Gumilyov Eurasian National University, Kazakhstan, Nur-Sultan

 

Кіріспе

Жиілік сөздіктері  статистика кеңінен қамтылған сияқты әр түрлі тілдік мәселелерді: орыс тілі сөзжасамның динамикалық құралдарын анықтау және заманауи талдау, орфографиялық және графикалық мәселелерді жетілдіру, лексика туралы статистикалық ақпаратты ескеруге байланысты (комбинациялардың мүмкін сипаттамаларын ескеру қажет түрлері бойынша тілдік бірліктерде жүзеге асырылатын графемалар әріптер комбинациясы), практикалық транслитерация мен транскрипцияны қолдану, баспадағы автоматтандыру мәселелерін шешу, автоматты түрде оқу және әріптік мәтінді тану сияқты мәселелерді шешу үшін қолданылады [43]..

Жиілік сөздігі екі бөлімнен тұрады:

1) жиілік тізімі - сөздерді жиіліктің кему ретімен анықтайды;

2) әріптік-жиіліктік тізім - сөздер алфавиттік тәртіпте[50].

Жиілік сөздіктері жоғары жиіліктегі және төмен жиілікті сөздерді бөліп көрсетеді, бұл сөздік қорының негізі мен перифериясын бөліп көрсетуге, пассивті және белсенді тілдік қорды ажыратуға, сонымен қатар лексиканың стилистикалық және жанрлық байланысын, оның әлеуметтік және жастық стратификациясын анықтауға мүмкіндік береді

Негізгі бөлім

Қазіргі тіл білімінде «корпус» ұғымы әр түрлі нысандарға байланысты. Неғұрлым нақты болу үшін сарапшылар мәтіндер корпусы  сияқты терминді қолданады. Бұл мәтіндердің немесе мәтіннің бөліктерінің қай жерде екенін білдіреді. Мәтін - бұл лингвистикалық тұжырымдардың тәуелсіз тізбегі, мазмұны жағынан бір-бірімен байланысты, ал мәтіннің бір бөлігі берік мәтін фрагменті. Ауқымды мағынада мәтін корпусы- бұл проблемалық аймақтан деректерді іріктеудің белгілі бір ережелерін қалыптастырады, ол «деректер корпусының түрі, оның өлшем бірліктері мәтіндер немесе олардың айтарлықтай фрагменттері болып табылады [12, б.115]

Осылайша, табиғи тіл корпусы оған негізделген сипаттама  соншалықты қарапайым тізім болып көрінетін, жинақталған бейне етіп береді [35, б. 13].

Орысша жиіліктегі сөздік жасау үшін алдымен қажетті мәтіндер корпусын жинадым.

Мәтіндерді таңдау көзі ретінде  Александр Сергеевич  Пушкиннің «Метель» шығармасын қолдандым.

Деректерді жүктеу және көрсету

Алдымен біз 1-суретте көрсетілгендей бағдарламалық ортасында өзімізге қажетті құжатты ашамыз.1суретте көрсетілгендей pushkin-metel.txt құжатымызды ашқан соң

Load file батырмасын басамыз бізге ол берілген мәтінді ашып береді.

 

Сурет 1. Деректерді жүктеу ортасы

 

Мәтіннің құрылымын көрсету

Көріп отырғанымыздай 2-суретте біз Load File батырмасын басқан соң,бізге мәтінді шығарып береді.Содан соң RESULTS батырмасын басқанда мәтінде қанша анафора,эпифора,символдар,әрбір сөздің қайталануын көрсетеді

 

Сурет 2. Мәтіннің құрылымын көрсету

 

Қорытынды

Ғылыми  жұмыс   мәтіннің құрылымын анықтауға негізделген бағадарламаны  жасауға арналған.

Мәтіндік корпустың негізгі міндеті - тілдің құрылымы және оның қызмет етуі  туралы толық түсінік беру. Сонымен қатар,ол лингвистикалық құбылыстардың жиілігі туралы толық статистикалық ақпарат дайындауға көмектеседі. Корпустың көмегімен жеке сөздердің қолданылу ерекшелігі мен олардың көрсетілуі, сондай-ақ олардың әр түрлі тілдердегі ерекшеліктерін салыстыру үшін жұмыс істейді.

Ғылыми жұмыста мәтіндік корпусты қолдана отырып сөздің жиілігін анықтадық.

Корпусты құру принциптері әзірленетін шешу міндеттеріне тікелей байланысты. Корпустың негізгі түрлері: мамандандырылған корпус, жалпы корпус, салыстырмалы корпус, параллельді корпус, педагогикалық корпус, оқулық корпусы, тарихи / диахронды корпус және монитор корпусы.

Жиілік сөздіктері дегеніміз - белгілі бір жазушының немесе шығарманың тілінде сөздерді, сөз формаларын немесе сөз тіркестерін қолдану туралы сандық мәліметтерді беретін сөздіктер, мұнда қолдану сипаты - белгілі бір сөздің мәтінде белгілі бір көлемде  болуы. Жиілік сөздіктері лингвистикалық типология, тіл үйрету, статистикалық лексикография, әлеуметтік ғылымдар, тіл мен сөйлеу теориясы сияқты әртүрлі салаларда қолданылады. Осы типтегі сөздік статистикалық әдістерді қолдану нәтижелерінің бірі болып табылады.

 

Пайдаланылған әдебиеттер тізімі:
1. Баранов, А.Н. Введение в прикладную лингвистику / А.Н. Баранов. – М.: Эдиториал УРСС, 2001. – 358 с. 
2. Дубовик А.Р Автоматическое определение стилистической принадлежности текстов по их статистическим параметрам Санкт–Петербург 2017
3. Михайлов, М.Н. Параллельные корпуса художественных текстов: дис. … канд. филол. наук / М.Н. Михайлов. – University of Tampere: The School of Languages and Translation Studies, 2003. – 348 с. 
4. Сальников А.А  Создание частотных словарей на базе корпусов текстов. Челябинск. 2018.
5. Фрумкина, Р.М. Статистические методы изучения лексики / Р.М. Фрумкина. – М.: Наука, 1964. – 115 с.
6. Частотный словарь русского языка / под ред. Л.Н. Засориной. – М.: Изд-во «Русский язык», 1977. – 936 с
7. Интернет Библиотека Алексея Комарова. – URL: https://www.ilibrary.ru/text/1066/index.html. – (қаралған уақыты: 12.04.2021).