РАЗРАБОТКА СИСТЕМЫ РЕЙТИНГОВАНИЯ САЙТОВ ПО ЛИНГВИСТИЧЕСКОМУ СОДЕРЖАНИЮ
Секция: 3. Информационные технологии
XXVIII Студенческая международная заочная научно-практическая конференция «Молодежный научный форум: технические и математические науки»
РАЗРАБОТКА СИСТЕМЫ РЕЙТИНГОВАНИЯ САЙТОВ ПО ЛИНГВИСТИЧЕСКОМУ СОДЕРЖАНИЮ
Актуальность исследования.
Развитие информационно-коммуникационных технологий (ИКТ) и их внедрение во все сферы общественной жизни приобрело в настоящее время лавинообразный характер. В связи с этим резко усилилось влияние ИКТ на общественные процессы, сознание людей и культуру общества. Немалое место в этом явлении отводится развитию сети Интернет, влияние которого на общество возрастает в связи с развитием технологий доступа к размещённым информационным ресурсам, в первую очередь – мобильных технологий, использующих телекоммуникационные устройства и переносные ЭВМ.
Вопросы взаимодействия общества и Интернет, человека и Интернет активно изучаются специалистами в областях психологии, философии, социологии, педагогики. В качестве одних из основных аспектов исследований выступают влияние информации, размещаемой в сети на культуру общества (например [4]), его структуру и состояние (например [8]) сознание пользователей (например [3; 5; 6]), вопросы переработки социально-значимой информации, вопросы взаимосвязи развития информационных технологий и информационной культуры общества, влияние на личность (например [1]) и пр.
В этой связи, представляется целесообразным проведение анализа соответствия информации, получаемой пользователями из Интернета, их предпочтениям (можно ввести термин «информационные предпочтения») и представлениям о потребностях общества и человека. Особый интерес это исследование приобретает в молодёжной среде, как в наиболее активной Интернет-аудитории, представляющей собой основной потенциал общества и обладающей еще не устоявшимися взглядами на жизнь, в большой степени подверженной влиянию внешних систем, в качестве одной из которых, в частности, выступает сеть Интернет во всём её многообразии.Этот вопрос находится в сфере интересов различных исследователей, существует множество подходов к его решению, нам представляется наиболее значимым подход, основанный на установлении соответствия содержимого Интернет-ресурса ценностям общества, выявленным в ходе экспертного опроса, проводимого администрацией Президента РФ в рамках деятельности по формированию основных направлений государственной политики в области сохранения и развития культурных и нравственных ценностей во взаимодействии с Российским гуманитарным научным фондом. Результаты социологического исследования, проведённые в молодёжной среде, принятые за основу настоящего исследования были опубликованы в работе [2]. В этой же связи осуществлялись попытки поиска и реализации технических решений, связанных с приведением интернет-контента, получаемого детьми, к системе упомянутых ценностей общества, опубликованные, например в [7].
Формулирование проблемы и цель исследования.
В настоящее время не существует сколько-нибудь распространённого технического решения, которое приводило бы интернет-контент к соответствию «ценностям общества».
Это обусловлено рядом причин, основной из которых является многообразие средств и возможностей доступа к сети Интернет, что является источником возникновения, например, следующих проблем:
· Неэффективное использование средств ограничения доступа в Интернет типа «Родительский контроль» одновременно сразу на всех устройствах доступных ребёнку.
· Отсутствие контроля доступа для подростковой и молодёжной аудитории.
· Неэффективная работа средств контроля, основанных на «чёрных» списках запрещённых сайтов.
· Отсутствие обоснованной системы оценки содержимого Интернет-сайтов и средств реализации подобной оценки.
Можно привести множество других негативных факторов, возникающих вокруг содержимого сети Интернет, но в рамках данного исследования, нам представляется, что основополагающим фактором для построения вообще какой-либо системы, имеющей целью семантический или лингвистический анализ информации, в том числе существующей в виде Интернет-источников, является разработка системы оценки информации на соответствие принятой обществом системе ценностей, в нашем случае «ценностям общества», обозначенным в разделе 1.
Целью данного исследования является разработка системы рейтингования интернет-сайтов, основанной на оценке соответствия содержимого сайта ценностям общества, а именно системе критериев, отвечающих данным ценностям. За основу были взяты показатели, приведённые в работах [2; 7; 9].
Данная система оценки должна отвечать следующим требованиям:
· Основываться на действительных показателях, отвечающих общественным ценностям.
· Поддерживать высокую актуальность оценки Интернет-источников в соответствии с их модификацией.
· Иметь средства реализации, обеспечивающие лёгкое и беспрепятственное использование.
· Основываться на адекватной математической модели оценки, учитывающей многообразие, противоречивость и разносторонность показателей.
· Иметь широкую аудиторию, участвующую в использовании и поддержании актуальности системы.
Система должна оценивать, как отдельные показатели, так и формировать обобщённый показатель в виде рейтинга сайта.
В Интернет-сообществе идея рейтингования сайтов по их содержанию или качествам не является принципиально новой. Существуют различные системы, основанные как на использовании расширений для браузеров, так и на иных принципах и решениях отображения результатов оценки. К наиболее известным системам, относящимся к классу систем Web-рейтингования можно отнести «Сайтер», WOT, WebRep, Blockski. Сравнительный анализ представленных систем приведён в таблице 1.
Таблица 1.
Сравнительный анализ существующих систем Web-рейтингования
Название |
Технология |
Описание |
Достоинства |
Недостатки |
Сайтер |
|
Отображает зеленый значок с плюсом на сайтах, о которых отзываются положительно, и красный с восклицательным знаком на сайтах, у которых много отрицательных отзывов. Подведя мышку к значку можно узнать подробную информацию об отзывахо сайте. |
Поддерживает расширения для следующих браузеров: Chrome, Firefox, InternetExplorer. Существует вариант использования без установки расширения. |
Отсутствует автоматический анализ сайта. Отсутствует система оценки экспертов. Ранжирование булевского формата больше ориентировано на отзывы пользователей. Имеет возможность за счет сервиса рекламировать сайты. |
WOT |
|
Использует принципы Байесового вывода для вычисления репутации по оценкам. Использует принцип меритократии для определения надежности оценок пользователей. Дополнительный вклад вносят данные от тщательно отобранных Интернет-провайдеров. |
Также учитывает вирусные сайты, спам, фишинг и сайты с некоторыми видами интернет угроз. Имеет мировую аудиторию для оценки. |
Интегрируется только в Chrome и Opera на основе Chrome. Недостаточное количество оценок имеют автоматическую природу, используется всего 4 критерия оценки. |
WebRep |
CommunityIQ |
Основается на оценках пользователей продуктов Avast. Модуль интегрируется в браузер, в результате чего просматривать рейтинги сайтов можно прямо в браузере. |
Интегрирование в браузер любого типа. Имеет мировую аудиторию для оценки. |
Отсутствует автоматический анализ сайта. Отсутствует система оценки экспертов. |
Blockski |
|
Веб фильтр, позволяющий уведомлять или блокировать страницы по состояниям, указанными пользователями в настройках по 79 критериям. Также имеет возможность показать тематику сайта по введенному URL. |
База данных на 76 миллионов сайтов. 79 критериев оценки. Также фильтрует результаты поисковых систем и видео на Youtube. |
Имеется только плагин для Opera. Не осуществлен вывод оценок к пользователю. Отсутствует работа с внешними экспертами. Источник оценок не указывается. |
В дополнение к табл. 1 можно указать общий для всех приведённых систем недостаток – отсутствие явно сформулированной системы критериев, подтверждённых социологическими исследования и прошедшими экспертную оценку полномочным экспертным сообществом.
Анализ существующих разработок позволяет сделать вывод, что в настоящее время не существует реального технического решения, предоставляющего пользователю лингвистическую и семантическую оценку текстового содержимого в системе критериев ценностей общества, принятых в Российской Федерации.
Функциональная архитектура системы рейтингования.
Система реализует следующие функции:
· получение обобщённого рейтинга сайта;
· просмотр показателей сайта.
Варианты использования системы (BusinessUseCase – BUC), реализующие данные функции, приведены на рис. 1.
Рисунок 1. Диаграмма вариантов использования системы
Приведённые на рис. 4. BUC, реализуются системой с помощью вспомогательных вариантов использования (BusinessUseCaseRealization–BUCR), а именно:
· Get_Rating;
· Watch_Indicators,
которые являются собственно реализацией бизнес-функций системы, а также обязательного включаемого варианта использования (UseCaseRealization–UCR) – Расчёт_Рейтинга и дополнительного UCRОбновление_Рейтинга, обеспечивающих актуальность системы (рис. 2).
Рисунок 2. Диаграмма трассировки вариантов использования
Для выполнения каждого из вариантов реализации, приведённых на рис. 2 разработан необходимый набор классов, участвующих в обеспечении процессов. Диаграммы классов VOPC (ViewOfParticipationsClasses) для UCRи BUCR, приведённых на рис. 2 приведены соответственно на рис. 3–5.
Рисунок 3. VOPC Get_RatingиWatch_Indicators
Рисунок 4. VOPC Обновление_Рейтинга
Рисунок 5. VOPC Расчёт_Рейтинга
Реализация варианта использования «Получить рейтинг».
Для того чтобы пользователь смог получить рейтинг сайта разработан сценарий, реализующий взаимодействие всех приведённых выше классов. Диаграмма последовательности, иллюстрирующая данный сценарий, приведена на рис. 6. Обобщённый рейтинг выводится в поле значка расширения для браузера в виде числового показателя.
Рисунок 6. Диаграмма последовательности для UCRGet_Rating
Реализация варианта использования «Посмотреть показатели».
Помимо получения обобщённого рейтинга, пользователь должен иметь возможность посмотреть оценки всех частных показателей, участвовавших в формировании обобщённого показателя. Для этой цели реализован сценарий, диаграмма последовательности которого приведена на рис. 7. Показатели выводятся в виде числовых значений и диаграммы на специально сформированной Web-страницы, на которую перенаправляется браузер пользователя.
Рисунок 7. Диаграмма последовательности для UCRWatch_Indicators
Реализация варианта использования «Обновление рейтинга».
Данный сценарий реализуется системой для поддержания базы рейтингов в актуальном состоянии.Диаграмма последовательности, иллюстрирующая данный сценарий, приведена на рис. 8.
Рисунок 8. Диаграмма последовательности для UCR Обновление_рейтинга
Реализация варианта использования «Расчёт рейтинга».
Данный сценарий реализует работу по расчёту рейтинга соответствующим программным модулем. Диаграмма последовательности, иллюстрирующая данный сценарий приведена, на рис. 9.
Рисунок 9. Диаграмма последовательности для UCR Расчёт_рейтинга
Заключение.
В работе получены следующие практические результаты:
1. Разработаны структуры компонентов и подсистем системы рейтингования сайтов по критерию социальной значимости.
2. Разработаны основные компоненты и классы проектирования системы.
3. Разработаны варианты использования и сценарии их реализации.
Полученные результаты могут быть использованы в качестве рабочего проекта при реализации данной системы, а также в качестве рабочего прототипа для аналогичных систем рейтингования.
Список литературы:
- Алексеева И.Ю. Интернет и проблема субъекта // Влияние Интернета на сознание и структуру знания. – М.: ИФ РАН, 2004. С. 24–57.
- Барели Д.Г., Исмаилов Н.Р., Корниенко М.В., Протопопов А.С., Сироткин А.В. Анализ информационных предпочтений молодёжи в сети Интернет. // Северо-Восточный научный журнал. 2013, № 1. С. 13–17.
- Катречко С.Л. Интернет и сознание: к концепции виртуального человека // Влияние Интернета на сознание и структуру знания. – М.: ИФ РАН, 2004. С. 57–73.
- Кихтан В.В. Информационные технологии и информационная культура // ВЕСТНИК ВГУ. Серия: Филология. Журналистика. 2009, № 2. С. 151.
- Поликарпова Е.В. Сознание человека и обработка социальной информации // Известия ЮФУ. Технические науки. Тематический выпуск. С. 253–258.
- Поликарпова Е.В. ИКТ и психокосмос человека. – Таганрог: Изд-во ТТИ ЮФУ, 2011. 218 с.
- Протопопов А.С., Сироткин А.В. Техническое решение защиты детей от интернет-угроз в Магадане. Концептуальное обоснование // Информационные технологии в обществе, образовании и науке. Материалы Международной научно-практической интернет-конференции 26–27 ноября 2013 г. / ответ.ред. Т.А. Брачун. – Магадан: СВГУ, 2014. – С. 167–175. ISBN 978-5-91260-125-5.
- Розин В.M. Интернет – новая информационная технология, семиозис, виртуальная среда // Влияние Интернета на сознание и структуру знания. – М.: ИФ РАН, 2004. С. 3–24.
- Шарыпов С.А. Автоматизация контентного рейтингования интернет-сайтов на основе лингвистического анализа – [Электронный ресурс] // http://sibac.info/18568. (Дата обращения 1.09.2015) – Яз.рус.