Upload
brigit
View
38
Download
0
Embed Size (px)
DESCRIPTION
Исследование регламентируемых фрагментов российского Веба. Печников Андрей Анатольевич, к.ф.-м.н., ст.н.с. Институт прикладных математических исследований Карельского научного центра РАН. - PowerPoint PPT Presentation
Citation preview
Исследование регламентируемых фрагментов российского Веба
Печников Андрей Анатольевич, к.ф.-м.н., ст.н.с.
Институт прикладных математических исследований Карельского научного центра РАН
2
•Регламентируемый веб-ресурс - это веб-ресурс, для которого существует (должен существовать) нормативный документ, в котором изложены цели, задачи, основные структурные составляющие, правила обновления, добавления и изменения информации веб-ресурса.
•Целевое множество - задаваемое прямым перечислением множество регламентируемых сайтов.
•Сопутствующее множество - множество сайтов, не входящих в целевое множество, на которые существуют гиперссылки с сайтов целевого множества.
•Фрагмент Веба - объединение сайтов целевого и сопутствующего множеств и множество связывающих их гиперссылок.
2
3
Объекты исследований: •академический фрагмент Веба (целевое множество – официальные
сайты научных учреждений РАН);•университетский фрагмент Веба (целевое множество – официальные
сайты классических университетов РФ);•бюрократический фрагмент Веба (целевое множество – официальные
сайты органов государственной власти Республики Карелия).
3
Информационная система для вебометрических исследований:
1.Робот-сборщик гиперссылок
2.База данных
Операции, функции, фильтры БД ВИ:
Разработаны около 20 штук по мере возникновения
необходимости.
Первая – ВЫБОРКА, ....
затем – ССЫЛКИ НА ЗАДАННЫЙ САЙТ, ССЫЛКИ С
ЗАДАННОГО САЙТА,
СОПУТСТВУЮЩЕЕ МНОЖЕСТВО,
.... МАТРИЦА СМЕЖНОСТИ,
..... И т.д.
4
5
Академический Веб: 288 сайтов целевого множества, отсканированы все,2,190,000 страниц, обнаруженных ссылок – 720,000, из них уникальных 82500.Из 23000 сайтов сопутствующего множества отсканировано 2300, обнаруженных ссылок – 1,100,000, из них уникальных 125000.
уровень, откуда, зачем, кудаПример
<02>< mathem.krc.karelia.ru/event.php> <XI Всероссийская конференция RCDL’2009> <rcdl2009.krc.karelia.ru>
Уникальная гиперссылка – это ссылка из множества всех гиперссылок, имеющих одинаковый контекст и адрес целевой страницы, сделанная со страницы с наивысшим уровнем.
6
Много ссылок – с 10 и Много ссылок – с 10 и
более сайтов из более сайтов из TT,,
Мало – менее, чем с 10 Мало – менее, чем с 10 сайтов из сайтов из TT..
На примере академического Веба
Диаграмма академического Веба
Дробь N/R обозначает
количество сайтов, входящих в данное подмножество (N)
и
среднее количество уникальных гиперссылок, сделанных на сайты этого подмножества с целевого множества (R).
Вывод 1: слабая связность на целевом множестве
Максимальная компонента сильной связности содержит 175 сайтов и имеет диаметр, равный 6 (вершины более темного цвета), а каждая из остальных 113 состоит из единственной вершины (более светлые вершины).
Прикладные проблемы управления макросистемами 2010 9
Академические коллекторы (17)1 РФФИ 102 92 Научная электронная библиотека 62 13 ВАК 44 34 Московский государственный университет 33 45 МАИК Наука_Интерпериодика 53 26 Роснаука РФ 26 3
Примеры: Сайты-коммуникаторы академического Веба
Академические посредники (8)1 Новосибирский государственный университет 27 102 Отделение ГПНТБ СО РАН 23 143 Междисциплинарный научный сервер 23 1184 Московский физико-технический институт 22 135 Библиотека по естественным наукам РАН 19 37
6Новосибирский государственный технический университет 16 10
Академические индукторы (8)1 Все о геологии 8 242 Общероссийский математический портал 8 133 Портал для аспирантов 7 174 Библиотека Академии Наук 6 20
5 Исторический факультет МГУ 6 196 Издательство СО РАН 6 20
Вывод 2 : ценность коммуникаторов
•При добавлении коллекторов: мощность максимальной компоненты связности увеличивается
до 214.
•При добавлении индукторов:мощность максимальной компоненты связности увеличивается
до 190.
•При добавлении посредников:мощность максимальной компоненты связности увеличивается
до 191.
•При добавлении всех трех подмножеств коммуникаторов:мощность максимальной компоненты связности увеличивается
до 237.
•Во всех четырех случаях диаметр наибольшей компоненты связности становится равным 7.
11
Пример взвешенного веб-графа для 4 сайтов.
Граф – сильно связный.
Дуги имеют различные веса.
d(i,t) – длина кратчайшего пути из вершины i в вершину t в графе G(T,Е), где i,tT. Критерий доступности сайта t на множестве T - средняя длина пути в заданную вершину tT из любой вершины iT, i≠t, которая задается следующим образом:
( )
1-
,)(
∑≠,∈
n
tidtmidd tiTi= На примере для вершины 1:
midd(1)=(1+3+1)/3=5/3.
Далее будем использовать просто сумму, а не среднюю сумму, т.к. это не влияет на результат.
Задача дележа затрат (1)
12
Вариант 2.
сайт midd(i) middhub(i)выигрыш
v(i)
1 5 4 1
2 13 6 7
3 9 6 3
4 17 6 11
Задача дележа затрат (2)
13
Вариант 3. Кооперативные игры.
Вектор Шепли — принцип оптимальности распределения выигрыша между игроками в задачах теории кооперативных игр. Представляет собой распределение, в котором выигрыш каждого игрока равен его среднему вкладу в благосостояние тотальной коалиции при определенном механизме ее формирования.
Задача дележа затрат (3)
14
На нашем примере
сайт midd(i) (i)выигрыш
w(i)
1 5 4,67 0,33
2 13 5,83 7,17
3 9 2,67 6,33
4 17 8,83 8,17
выигрыш v(i)
Вар 2 выигрыш w(i)
Вар 3
1 4,55% 0,33 1,50%7 31,82% 7,17 32,59%3 13,64% 6,33 28,77%
11 50,00% 8,17 37,14%
Задача дележа затрат (4)
Пустьn – количество участников,ci – значимость i-го участника, ci>0, i=1..n,
mi – максимально возможное количество прямых ссылок от i-го на других участников, mi>0, i=1..n.
Матрица ссылок X=(xij), i,j=1..n,
где xij=1, если существует ссылка от i-го участника к j-му, и xij=0, если нет.
Ограничения будут определены несколько ниже.F(X) функция, характеризующая некоторый интегральный показатель значимости всех ‑
участников веб-системы и зависящая от того, каким образом расставлены ссылки между ее участниками.
Функция приращения значимости:
– чем больше ссылок на ресурс, тем он становится «значимее»,– чем больше значимость ресурса i, тем больше возрастает значимость ресурса j, если xij=1,
– чем больше исходящих ссылок от ресурса i, тем меньше приращение значимости каждого ресурса j, для которого xij=1.
∑∑1
1
~ n
iin
kik
ij
jj cx
xcс
Задача расстановки ссылок в локализованной системе веб-ресурсов (1)
• Ограничения
• Целевая функция 1
Чем меньше , тем больше
• Целевая функция 2
0=iix , ni ,1=
1,0=ijx , ni ,1= , nj ,1=
i
n
jij mx ≤∑
1=
, ni ,1=
1≥∑1
n
jijx
=
, ni ,1=
( )
Xj
n
jjcXF max→~∑
1
=
=
ijx
n
jj
n
kk
cn
cXF min~
~2
1
1
1≤0 j< jc
Задача расстановки ссылок в локализованной системе веб-ресурсов (2)
Задача расстановки ссылок в локализованной системе веб-ресурсов (3)
Апробация и модификация моделей на данных Яндекса ограничение заменено на строгое равенство,
в качестве приняты значения тИЦ,
отобрано 20 реальных сообществ, содержащих от 7 до 84 участников.
По модели 1:• Религия. Православие,• Баннерная сеть Ket.Ru,• Министерства РФ,• Сайты КарНЦ РАН (0.905),• Целлюлозно-Бумажная Баннерная Сеть По модели 2:• Сайты КарНЦ РАН,• Министерства РФ,• Баннерная сеть Ket.Ru,• Религия. Православие,• Целлюлозно-Бумажная Баннерная Сеть.
i
n
jij mx ≤∑
1=
,
nici ,1,~ =
Задача расстановки ссылок в локализованной системе веб-ресурсов (3)
18