Upload
kiele
View
49
Download
3
Embed Size (px)
DESCRIPTION
XIII РОССИЙСКАЯ КОНФЕРЕНЦИЯ С УЧАСТИЕМ ИНОСТРАННЫХ УЧЕНЫХ "РАСПРЕДЕЛЕННЫЕ ИНФОРМАЦИОННЫЕ И ВЫЧИСЛИТЕЛЬНЫЕ РЕСУРСЫ" (DICR'2010). Исследование строения и динамики развития научного веб-пространства на примере СО РАН. Клименко О.А. Петров И.С. Новосибирск, 30 ноября - 3 декабря 2010 г. Введение. - PowerPoint PPT Presentation
Citation preview
Исследование строения и динамики
развития научного веб-пространства на
примере СО РАНКлименко О.А.Петров И.С.
Новосибирск, 30 ноября - 3 декабря 2010 г.
XIII РОССИЙСКАЯ КОНФЕРЕНЦИЯ С УЧАСТИЕМ ИНОСТРАННЫХ УЧЕНЫХ "РАСПРЕДЕЛЕННЫЕ ИНФОРМАЦИОННЫЕ И ВЫЧИСЛИТЕЛЬНЫЕ РЕСУРСЫ"
(DICR'2010)
Введение
• Проблема исследования научного веб-пространства является актуальной в связи со стремительным развитием сети интернет и научных ресурсов. В частности, эти исследования позволяют определить научные связи организации, ресурсы, которые наиболее интересны в научном сообществе, направления перспективных исследований.
Веб-пространство• Под веб-пространством мы понимаем совокупность
документов, представленных в сети Интернет и соединенных ссылками.
• Веб-пространство - новый тип информационной системы без централизованного контроля, без координированного индексирования содержания.
• Однако веб-пространство - не хаотическая система, в нем происходит самоорганизация в группы. Связи между документами устанавливаются с помощью ссылок. Изучение этих ссылок позволяет определить устройство веб-пространства.
Обзор текущих исследований• Исследования веб-пространства ведутся лабораторией
Cybermetrics Lab, которая принадлежит Consejio Superior de Investigaciones Cientificas – крупнейшему исследовательскому центру Испании. http://www.webometrics.info
• Другим центром исследования веб–пространства является Statistical Cybermetrics Research Group, на базе научной школы информационных технологий Вулвергемптонского университета, Великобритания.
• В России исследования проводятся в Институте прикладных математических исследований Карельского научного центра РАН. http://webometrics.krc.karelia.ru/
Методы исследования веб-пространства
• Первый подход заключается в использовании возможностей поисковых машин, таких как Google, Yahoo, и др.
• Второй подход состоит в анализе данных с помощью методов вебометрики.
• Третий подход связан с написанием своей программы-крауера, которая путём обхода и анализа всех страниц на заданном множестве сайтов, выявляет связи между элементами множества.
Результаты работы
• В процессе работы было написано несколько версий краулера. Сначала однопоточная версия, потом многопоточная, где одновременно обрабатываются все сайты.
• Была разработана структура хранения данных на основе файлов, для экономии ресурсов системы.
• В последней версии программы учитываются только уникальные гиперссылки.
• Программа имеет большую точность работы.• Краулер находится в стадии тестирования, но
уже сейчас им удобно пользоваться, и его может использовать любой исследователь.
Результаты работы
• На основе собранных данных был построен ориентированный граф взаимосвязей. В этом графе G (V, E) узлы соответствуют организациям. Дуга (u, v) E; u, v V, если существует страница на сайте организации u, на которой находится гиперссылка на сайт организации v. На множестве дуг графа G также определено отображение NE: E → N +.
Результаты работы
• Построены графы взаимосвязей: Всех организаций СО РАН Отдельные графы для каждого из научных центров СО РАН Отдельные графы для каждого из направлений научной деятельности Отдельные графы для интеграционных проектов СО РАН
• Было выявлено, что некоторые организации взаимно ссылаются друг на друга, другие организации имеют множество исходящих ссылок, третьи изолированы, а четвертые имеют много входящих ссылок, что говорит о ценности информации, размещенной на сайте.
Результаты работы
• Дополнительную информацию можно извлечь, используя поиск по ключевым словам, которые присутствуют в ссылках и заголовках страниц.
• На графах ясно видно какие сайты хорошо представлены в сети интернет, а какие слабо. Более того, наглядно видно как сайты различных организаций взаимодействуют друг с другом, и на основе этого можно сделать выводы, что в данный момент взаимодействие организаций СО РАН достаточно слабое.
0
Публикации
• Клименко О.А., Петров И.С. Исследование строения и динамики развития научного Веб-пространства на примере СО РАН // Труды XVI Байкальской Всеросийской конференции "Информационные и матетматические технологии в науке и управлении". Часть III. - Иркутск: ИСЭМ СО РАН, 2010. - 92-97с.