Upload
ines-feki
View
21
Download
0
Embed Size (px)
Citation preview
Analyse des rseaux sociaux et web
smantique: un tat de l'art
Emetteur Guillaume Erto ([email protected])
Contributeurs Guillaume Erto, Fabien Gandon, Michel Buffa, Patrick Grohan
Relecteurs Talel Abdessalem
Date de livraison
prvue
T0+6: 2009/08/01
Date de livraison 2009/07/20
Workpackage T3. Social management of shared knowledge representations
Delivrable T3.2 Analyse des rseaux sociaux et web smantique: un tat de l'art
Rfrence ISICIL-DOC-EA1-SNAetWS-20090720
Version 0.2
Destinataires Membres ISICIL
Projet ISICIL :
Intgration Smantique de l'Information
par des Communauts d'Intelligence en Ligne
Appel ANR CONTINT 2008
ANR-08-CORD-011-05
ISICIL : Intgration Smantique de l'Information
par des Communauts d'Intelligence en Ligne
ANR-08-CORD-011-05
Document mis le : 20/07/2009
Rf : ISICIL-DOC-EA1-SNAetWS-20090720
Analyse des rseaux sociaux et web smantique: un tat de l'art Page 2 sur 44
Sommaire
1. Reprsentation d'un rseau social : .......................................................................................4
2. Indicateurs et Algorithmes .....................................................................................................9
a) Indicateurs ..............................................................................................................................9
b) Algorithmes ..........................................................................................................................15
c) Conclusion partielle ..............................................................................................................25
3. Les rseaux sociaux en ligne.................................................................................................25
d) Web 1 et web 2.....................................................................................................................26
e) Web smantique ..................................................................................................................30
4. Analyse smantique des rseaux sociaux ............................................................................36
5. Conclusion et discussion.......................................................................................................37
ISICIL : Intgration Smantique de l'Information
par des Communauts d'Intelligence en Ligne
ANR-08-CORD-011-05
Document mis le : 20/07/2009
Rf : ISICIL-DOC-EA1-SNAetWS-20090720
Analyse des rseaux sociaux et web smantique: un tat de l'art Page 3 sur 44
A. Objet du document
Ce document constitue le premier rsultat d'une thse ralise conjointement au sein du
laboratoire BIZZ/MUSE et rattache l'objet de recherche Health Care and Vertical Application et
au sein de lquipe Edelweiss de lINRIA de Sophia Antipolis.
Cette thse constitue aussi une contribution au projet ANR ISICIL qui a pour thme l'Intgration
Smantique de l'Information par des Communauts d'Intelligence en Ligne dont l'un des objectifs
est de montrer que non seulement les approches WEB2.0 peuvent bnficier des apports des
plateformes du WEB smantique mais qu'elles peuvent rellement tre amliores grce
l'introduction, dans les interactions avec un utilisateur, d'un comportement intelligent produit par
des infrences additionnelles. Grce aux rsultats attendus par le projet, on se propose de jeter un
pont entre le WEB 2.0 et le WEB smantique, d'adopter la modlisation ontologique pour
reprsenter des rseaux sociaux, et de fournir une meilleure utilisabilit du WEB 2.0 par des
entreprises.
Dans ce cadre d'tude, notre travail de recherche se focalise sur l'utilisation de modles
ontologiques pour reprsenter et analyser les rseaux sociaux. Un des objectifs scientifiques est
d'amliorer l'analyse des rseaux sociaux en ralisant des infrences sur des graphes reprsentatifs
de ces rseaux grce l'utilisation d'ontologies ddies. Cette nouvelle fonctionnalit va permettre
dans un premier temps de dtecter plus facilement des communauts d'intrts et dans un second
temps, grce la conception d'algorithmes adapts permettant de suivre l'activit de ces
communauts, de concevoir des services valeur ajoute grce aux connaissances acquises dans
l'tape d'analyse.
L'tat de l'art prsent concerne les techniques classiques d'analyse des rseaux sociaux et
l'utilisation des technologies du web smantique pour modliser les interactions en ligne. La
premire partie prsente la dmarche qui consiste utiliser le modle de graphe pour reprsenter
un rseau social. On rappelle un certain nombre de dfinitions qui formalisent les notions
manipules par la thorie des graphes. Dans la seconde partie on prsente, d'une part, un certain
nombre d'indicateurs (densit, centralit, cycle) destins caractriser la structure d'un rseau
social et d'autre part un ensemble d'algorithmes qui peuvent tre hirarchiques (agglomratifs ou
sparatifs) ou non hirarchiques ( base d'heuristiques) et qui vont permettre de dcouper le
graphe en un certain nombre de clusters. Dans la troisime partie, on s'attache fournir une
manire de reprsenter smantiquement un rseau social au travers d'un ensemble d'ontologies
telles que SIOC,1 FOAF
2 , SKOS
3 et SKOT
4. La dernire partie prsente une architecture permettant
1 SIOC Semantically-Interlinked Online Communities
2 FOAF Friend of a Friend
3 SKOS Simple Knowledge Organisation System
4 SKOT Social Semantic Cloud of Tags
ISICIL : Intgration Smantique de l'Information
par des Communauts d'Intelligence en Ligne
ANR-08-CORD-011-05
Document mis le : 20/07/2009
Rf : ISICIL-DOC-EA1-SNAetWS-20090720
Analyse des rseaux sociaux et web smantique: un tat de l'art Page 4 sur 44
d'exploiter le meilleur de ces deux approches en s'orientant vers une analyse smantique des
rseaux sociaux.
B. Analyses des rseaux sociaux et web smantique : un
tat de l'art
Les interactions des utilisateurs au travers des usages du web 2.0 amnent la communaut
scientifique rflchir sur les moyens de capter ces usages pour y appliquer les techniques
d'analyse des rseaux sociaux. Les applications bien connues l'origine de l'mergence du web 2.0
sont les blogs, les wikis (ex : wikipedia), les services de social bookmarking (ex : del.ico.us), les sites
de partages de mdias (ex : youtube, flickr) et bien sr les sites de rseaux sociaux (ex : facebook,
LinkedIn). Ces applications ont considrablement accru la participation, les interactions et le partage
entre les utilisateurs du web. L'analyse et la comprhension de tels rseaux sociaux suscitent de vifs
intrts au sein de plusieurs communauts scientifiques.
Le web smantique fournit des formalismes pour la reprsentation smantique des personnes et de
leurs usages sur le web. L'ontologie FOAF dcrit "les personnes, les liens entre elles, ce qu'elles
crent et ce quelles font". L'ontologie SIOC dcrit "l'information contenue explicitement et
implicitement dans les moyens de communication d'internet" comme, par exemple, les blogs.
Gruber propose une ontologie des folksonomies [Gruber 2005] et l'ontologie SCOT est un moyen de
"reprsenter la structure et la smantique des donnes du social tagging afin de les partager et de
les rutiliser". Les ontologies SKOS (reprsentation de thsaurus et autres ressources linguistiques)
et MOAT [Passant et al 2008] (dsambigisation des tags) sont quant elles souvent utilises pour
modliser la signification des tags.
En regard de ces moyens de reprsentation il existe un certain nombre de propositions dutilisation
des mthodes d'analyse des rseaux sociaux pour extraire des informations, comme la construction
de rseaux d'accointances ou la dtection de communauts d'intrt. La plupart de ces mthodes
d'analyses sont bases sur la thorie des graphes. Par exemple, [Mika 2005] exploite les
folksonomies en utilisant la thorie des graphes afin d'identifier des champs smantiques et des
communauts d'intrt. L'approche de [Paolillo et al 2006] utilise une base d'annotations FOAF
pour identifier des communauts d'intrt. D'autres chercheurs [Anyanwu et al 2007] [Kochut et al
2007] [Alkhateeb et al 2007] [Corby 2008] ont tendu des outils SPARQLafin d'extraire des chemins
entre des ressources smantiquement lies dans les graphes RDF, fournissant ainsi une base pour
une reprsentation et une analyse smantique d'un rseau social.
1. Reprsentation d'un rseau social
La premire personne avoir reprsent un rseau social est Jacob Levy Moreno au
dbut des annes 1930 [Moreno, 1933]. Son objectif tant de visualiser graphiquement un
rseau social, il a reprsent les personnes par des points et une relation entre deux personnes
ISICIL : Intgration Smantique de l'Information
par des Communauts d'Intelligence en Ligne
ANR-08-CORD-011-05
Document mis le : 20/07/2009
Rf : ISICIL-DOC-EA1-SNAetWS-20090720
Analyse des rseaux sociaux et web smantique: un tat de l'art Page 5 sur 44
par des flches. Cette reprsentation est depuis dsigne par le terme sociogramme, mais on
parlait galement de toiles en raison de leur aspect en toile d'araigne. Cette forme de
visualisation, aussi peu innovante qu'elle puisse paratre de nos jours, fut un premier outil
d'identification rapide des caractristiques d'un rseau social. Moreno a ainsi introduit le
concept d'toile pour dsigner les personnes ayant le plus de relations dans un rseau social, en
rfrence l'toile forme par un point et ses connections.
Les mathmaticiens ont rapidement fait le rapprochement entre les reprsentations sociogrammes
et la thorie des graphes au sens mathmatique. [Scott 2000] passe en revue l'volution de la
reprsentation des rseaux sociaux . Au milieu du vingtime sicle, Cartwright et Harary sont les
premiers avoir appliqu la thorie des graphes l'analyse des rseaux sociaux. Le graphe est
devenu par la suite la reprsentation adopte par toutes les sciences manipulant l'analyse des
rseaux sociaux, dont la sociologie, les mathmatiques et l'informatique. Les dfinitions suivantes
listes quelques notions manipules par la thorie des graphes pour les rseaux sociaux:
Un sommet est l'unit de base d'un rseau, il en reprsente une ressource. Dans un rseau
social on parle d'acteur. Le terme nud est galement utilis pour dsigner un sommet.
Une arte est une connexion entre deux sommets. On parle galement d'arc ou de lien.
Une hyperarte (hyperedge) est une arte qui connecte 2 ou plusieurs sommets.
Une arte est oriente si elle ne s'utilise que dans une seule direction. Inversement, on parle
d'arte non oriente pour une arte qui s'utilise dans les deux directions.
Une arte est pondre lorsqu'on lui attribue un poids.
Une arte est tiquete lorsqu'on lui attribue un label.
Un graphe est dfini par un ensemble de sommets et un ensemble d'artes.
Un hypergraphe est dfine par un ensemble de sommets et un ensemble d'hyperarte.
[Berge 1985]
Un graphe orient dsigne un graphe avec des artes orientes.
Un graphe pondr dsigne un graphe avec des artes pondres.
Un graphe tiquett dsigne un graphe avec des artes tiqute.
Un graphe multipartite dsigne un graphe avec des sommets de types diffrents.
Le degr d'un sommet est le nombre de ses artes adjacentes.
Un chemin est une squence d'artes qui relie deux sommets.
Un chemin orient est une squence d'artes qui relie deux sommets en respectant
lorientation du parcours chaque arrte.
Une godsique est l'un des plus courts chemins entre deux sommets donns.
Le diamtre d'un graphe est le plus long chemin godsique de ce graphe.
Un graphe est complet lorsqu'il existe une arte entre toute paire de sommets.
Un graphe est dit connexe lorsqu'il existe un chemin entre toute paire de sommets.
Nous utiliserons la notation suivante pour la suite de ce document :
Nous notons un graphe G = (V, E) avec V l'ensemble des sommets, E l'ensemble des artes,
n=|V| et le nombre de sommets et m=|E| et le nombre darrtes.
Un sous graphe de G est not G' = (V', E') avec V' V, E' E et restreint des arrtes reliant
des sommets de V, n'=|V'| et m'=|E'|.
ISICIL : Intgration Smantique de l'Information
par des Communauts d'Intelligence en Ligne
ANR-08-CORD-011-05
Document mis le : 20/07/2009
Rf : ISICIL-DOC-EA1-SNAetWS-20090720
Analyse des rseaux sociaux et web smantique: un tat de l'art Page 6 sur 44
vi dsigne le ime
sommet.
(vi,vj) dsigne une arte entre les sommets vi et vj.
Le degr d'un sommet vi est not ki.
dij reprsente la longueur d'une godsique entre les sommets vi et vj. La moyenne des
godsiques est note l.
Les graphes non orients sont adapts pour les rseaux sociaux avec des relations non orients. Les
graphes orients sont adapts pour reprsenter des relations non symtriques comme les rseaux
de confiance par exemple. Les graphes pondrs sont adapts aux rseaux sociaux qui contiennent
diffrents niveau d'intensits dans les relations. Les graphes tiquets permettent de reprsenter
diffrents types de relations.Les graphes multipartites sont adapts pour des rseaux sociaux
incluant diffrent types de ressources manipules par les acteurs et qui sont le support
d'intractions.
Nous prendrons comme exemple, le clbre rseau d'amis du club de karat de Zachary en 1977,
reprsent par un graphe non orient, non pondr et non tiquet(Figure 1). Ce club a t scind
en deux clubs, les membres du premier sont reprsents par des sommets ronds et blancs, les
membres du deuxime sont reprsents par des sommets carrs et griss.
Figure 1 : Le club de karat de Zachary s'est divis en deux clubs, les membres du premier club sont
reprsents par des ronds blancs et les membres du second par des carrs griss.
La matrice est l'objet mathmatique le plus utilis pour manipuler ces concepts, mais des approches
ensemblistes ont aussi tait proposes [Scott 2000].
On distingue deux types de matrices dans un rseau social, les matrices d'incidence (figure 2) et les
matrices d'adjacence. On parle de matrice d'adjacence lorsqu'on a les mmes ressources en ligne et
en colonne, on obtient ainsi une matrice carre avec la ligne i et la colonne i reprsentant la mme
ISICIL : Intgration Smantique de l'Information
par des Communauts d'Intelligence en Ligne
ANR-08-CORD-011-05
Document mis le : 20/07/2009
Rf : ISICIL-DOC-EA1-SNAetWS-20090720
Analyse des rseaux sociaux et web smantique: un tat de l'art Page 7 sur 44
ressource. Un graphe peut ainsi tre reprsent sous la forme d'une matrice M n lignes et n
colonnes reprsentant un tableau. Chaque case de ce tableau est note aij avec i et j les numros
respectifs de ligne et de colonne de la case. La valeur contenue dans la case aij est le poids de la
relation entre les ressources vi et vj (gal 1 dans le cas d'un graphe non pondr), 0 correspond
une absence de relation.
Les matrices d'incidence contiennent deux types de ressources, les lignes reprsentent un type et
les colonnes un autre type. Une matrice d'incidence est convertible en deux matrices d'adjacence
reprsentant chacune les ressources des lignes et des colonnes (figures 3 et 4), les valeurs des cases
contiennent les points communs entre les ressources correspondantes dans la matrice d'incidence,
aii n'ayant pas de valeur.
Projet1 Projet2 Projet3 Projet4
Employ1 1 1 1 0
Employe2 1 0 0 0
Employe3 1 1 1 1
Employe4 0 0 1 1
Figure 2: Exemple de matrice d'incidence indiquant sur quel projet travaille chaque employ
Employe1 Employe2 Employe3 Employe4
Employe1 - 1 3 1
Employe2 1 - 1 0
Employe3 3 1 - 2
Employe4 1 0 2 -
Figure 3: Matrice d'adjacence des employs dduite de la figure 2, chaque case reprsente le nombre de
projets partags entre les employs correspondants
Projet 1 Projet 2 Projet 3 Projet 4
Projet 1 - 2 2 1
ISICIL : Intgration Smantique de l'Information
par des Communauts d'Intelligence en Ligne
ANR-08-CORD-011-05
Document mis le : 20/07/2009
Rf : ISICIL-DOC-EA1-SNAetWS-20090720
Analyse des rseaux sociaux et web smantique: un tat de l'art Page 8 sur 44
Projet 2 2 - 2 1
Projet 3 2 2 - 2
Projet 4 1 1 2 -
Figure 4: Matrice d'adjacence des projets dduite de la figure 2, chaque case reprsente le nombre
demploys partags entre les projets correspondants
V1 V2 V3 V4 V5 V6 V7
V1 - 1 1 1 1 1 1
V2 1 - 1 1 0 0 0
V3 1 1 - 1 0 0 0
V4 1 1 1 - 0 0 0
V5 1 0 0 0 - 0 1
V6 1 0 0 0 0 - 1
V7 1 0 0 0 1 1 -
Figure 5 : Extrait de la matrice d'adjacence du rseau social du club de karat de Zachary, chaque
case prcise s'il existe une arte entre les deux sommets (valeur 1) ou pas (valeur 0)
La figure 5 permet de visualiser la matrice d'adjacence du club de karat de ZAKARY (figure 1)
Un graphe peut tre galement reprsent par une matrice de Laplace qui se diffrencie par la
valeur contenue dans ses cases (ki dsigne le degr du nud vi) :
=
=
autrement
Evvetjisijisik
a ji
i
ij
0 1
),(
ISICIL : Intgration Smantique de l'Information
par des Communauts d'Intelligence en Ligne
ANR-08-CORD-011-05
Document mis le : 20/07/2009
Rf : ISICIL-DOC-EA1-SNAetWS-20090720
Analyse des rseaux sociaux et web smantique: un tat de l'art Page 9 sur 44
2. Indicateurs et Algorithmes
a) Indicateurs
La Densit indique la quantit de liens au sein d'un rseau et permet de dfinir la
cohsion d'un rseau social. Selon [Scott 2000] cette mesure peut-tre utilise dans l'optique d'une
analyse socio-centre ou gocentre Une analyse centre sur l'individu consiste mesurer la
densit des liens autour d'un nud donn. Une telle analyse montre notamment l'influence du
nud analys sur la densit du sous graphe auquel il appartient avec ses voisins. Une analyse socio-
centre considre la densit sur l'ensemble du graphe et mesure la contrainte du rseau sur ses
membres. Le calcul de la densit est relatif au nombre maximal de lignes que peut contenir un
graphe. Or, ce nombre maximal est lui-mme fonction de la taille du graphe, ainsi toute
comparaison de densit entre graphes ne fournit aucun rsultat significatif. [Scott 2000] proposent
une approche intressante dans le calcul du nombre maximal de connexions dans un rseau social.
En effet, la gestion de relations sociales est consommatrice en temps, ainsi le temps limite le
nombre de contacts qu'une personne peut conserver et plus un rseau social est grand, moins la
densit est leve. [Dunbar 1998] argumente le cot cognitif inhrent l'entretien de relations
sociales. La densit varie galement en fonction du type de relations considres dans un rseau
social, un rseau bas sur des relations amoureuses est beaucoup moins dense qu'un rseau de
relations professionnelles notamment en raison des caractristiques des liens (ex : nature exclusive,
diffrence de temps ou de ressources requis pour l'entretien, etc.). Ainsi le typage des relations
dans un rseau social permettrait de paramtrer la densit, par exemple une densit est maximale
pour un sommet ayant une relation, ds lors qu'on considre le sous graphe d'une relation
exclusive.
La centralit d'un rseau social a t largement discute. La problmatique est de dfinir ce qui
rend un nud plus central qu'un autre, on parle alors de centralit locale. Plusieurs approches ont
t considres. [Freeman, 1979] reprend l'ensemble de ces approches et en extrait trois
principales.
La premire approche appele centralit de degr [Nieminem 1974], considre comme centraux les
nuds qui possdent les degrs les plus levs du graphe. En effet, ces nuds suscitent un grand
intrt, sont trs visibles, et ont un potentiel lev faire circuler l'information, par leur forte
connectivit aux autres lments du rseau. [Scott J. 2000] propose d'tendre la notion de degr
des distances variables, en considrant par exemple tous les voisins une distance infrieure ou
gale deux.
La centralit d'intermdiarit [Freeman, 1979] se concentre sur la capacit d'un nud servir
d'intermdiaire dans un graphe. Un nud situ sur un chemin godsique possde une position
stratgique dans la cohsion d'un rseau et dans la circulation de l'information, d'autant plus si ce
chemin est unique. Par exemple, un nud situ sur l'unique chemin reliant deux ensembles
ISICIL : Intgration Smantique de l'Information
par des Communauts d'Intelligence en Ligne
ANR-08-CORD-011-05
Document mis le : 20/07/2009
Rf : ISICIL-DOC-EA1-SNAetWS-20090720
Analyse des rseaux sociaux et web smantique: un tat de l'art Page 10 sur 44
connects de nuds possde un fort contrle sur la communication de ces deux groupes. Plus un
nud est intermdiaire, plus le rseau est dpendant de lui et plus il a de pouvoir.
Enfin, la centralit de proximit [Freeman, 1979] mesure la centralit d'un nud en se basant sur la
taille des chemins qui le lient aux autres nuds. Cette mesure reprsente la capacit d'un nud
se connecter rapidement avec les autres nuds du rseau.
Dans le rseau social du club de karat de Zachary (figure 1), les sommets 1, 33 et 34 possdent des
degrs bien suprieurs au reste du rseau et sont les plus centraux en termes de centralit de degr
et de proximit. Toutefois on constate que les sommets 3, 9, 14, 20, 31 et 32 sont les plus centraux
en termes d'intermdiarit, leur absence ou la rupture de leurs liens avec un des deux clubs
couperait le rseau en deux groupes
[Freeman, 1979] explicite comment valuer le caractre centralis de la structure d'un rseau
social. Cette mesure est base sur les 3 approches explicites prcdemment. La centralit globale,
ou centralisation, d'un rseau social est calcule partir des centralits locales des sommets.
L'indice de centralit locale choisi dtermine le sens de la centralit globale. Le calcul de la
centralisation dpend de la dfinition de centralit locale que l'on considre, savoir si on
considre la centralit comme le contrle, l'indpendance ou l'activit. En considrant une
centralit locale de degr, le calcul de la centralit globale permet d'tablir les points dominants, les
centres d'intrts, dans un rseau social, savoir une activit concentre autour de certaines
ressources. Une mesure de la centralisation d'un rseau social, partir des centralits locales
d'intermdiarit, fournit un indice de la dpendance de l'efficacit de ce rseau par rapport
certains nuds. Enfin une mesure de la centralit globale d'un rseau, base sur une centralit
locale de proximit, permet de mesurer la performance de la communication dans ce rseau,
notamment pour la circulation d'informations.
Pour chacun de ces indices de calcul de centralit locale et globale, Freeman propose une mthode
de calcul dpendante de la taille du rseau social et une mesure indpendante permettant de
comparer des rseaux sociaux.
Toutefois, [Freeman, 1979] ne considre que les graphes non orients. Or dans un
rseau social, l'orientation des relations contient elle seule beaucoup de
smantique. Par exemple, pour analyser la propagation d'informations dans un
rseau, l'orientation des arcs est primordiale, pour acheminer une information d'un
point A un point B, les chemins allant uniquement de B A ne sont pas prendre en
compte.
La prise en compte de la direction des relations nous amne la notion de prestige, qui partir de
l'orientation des arcs d'un sommet montre son positionnement par rapport ses voisins. On
dtermine deux types de prestiges suivant que l'on considre les arcs entrants ou sortants. Un arc
entrant est considr comme support pour le nud cible alors qu'un arc sortant reprsente une
ISICIL : Intgration Smantique de l'Information
par des Communauts d'Intelligence en Ligne
ANR-08-CORD-011-05
Document mis le : 20/07/2009
Rf : ISICIL-DOC-EA1-SNAetWS-20090720
Analyse des rseaux sociaux et web smantique: un tat de l'art Page 11 sur 44
influence de la part de ce nud. Les trois mesures de centralit voques prcdemment sont donc
nuances si l'on prend en compte l'orientation des arcs.
La centralit de degr mesurera le support ou l'influence de l'activit des nuds.
La notion de centralit d'intermdiarit reste la mme, mais son calcul est lgrement modifi car
l'orientation des arcs doit tre considre pour prendre en compte le sens de circulation de
l'information.
La centralit de proximit value la capacit d'un nud atteindre un autre nud ou tre atteint
par un autre nud.
[Scott 2000] aborde une approche intressante en argumentant qu'un calcul de centralit d'un
sommet doit prendre en compte la centralit des sommets adjacents. En effet, un point proche d'un
point ayant une centralit leve profite d'une partie de l'avantage offert par cette position. La
centralit d'un sommet est ainsi gale la somme de ses connections, pondre par la centralit de
chacun des sommets correspondants.
D'autres approches se sont concentres sur la centralit gocentre, qui dtermine l'influence d'un
nud par rapport son voisinage. Cette approche est considre plus en profondeur par [Everett et
Borgatti 2005] qui dmontre une corrlation entre la centralit et l'go-centralit d'un sommet.
En relation avec la centralit locale d'intermdiarit, [Burt 1992] introduit la notion de trou
structural qu'il dfinit comme une sparation entre deux contacts non-redondants. Des contacts
sont redondants lorsqu'ils sont en contact direct ou qu'ils appartiennent un mme sous-groupe de
contacts. Il argumente qu'un trou structural possde un bnfice informationnel. Les trous
structuraux offrent deux atouts majeurs aux personnes contrlant ces trous. Tout d'abord, ils
offrent un bnfice informationnel, en permettant un accs rapide des informations non
redondantes. L'information entre contacts redondants est gnralement partage, l'apport de
nouvelles informations dans un groupe cohrent provient donc de l'extrieur et les trous
structuraux sont les canaux de circulation de cette information. Ainsi, les contacts les plus proches
des trous structuraux sont mieux informs et plus rapidement. Ensuite les personnes qui contrlent
les trous structuraux possdent un avantage sur le contrle de cette information et peuvent en tirer
le meilleur profit par leur pouvoir d'intermdiarit. Dans [Burt 2004], Burt dmontre que les
personnes proches des trous structuraux sont les plus susceptibles d'avoir des "bonnes ides", grce
au bnfice informationnel apports par les trous structuraux.
L'ensemble de ces notions nous amne la rsistance d'un rseau social au retrait de sommets ou
d'artes (dpart dune ressource, suppression d'une relation). [Newman 2003] nous offre un aperu
des travaux concernant cette notion. Nous avons vu prcdemment que la mesure de la
centralisation d'un rseau montre la dpendance d'un rseau par rapport ses sommets. Cette
dpendance peut galement tre mesure par l'impact du retrait d'un sommet ou d'une arte sur la
connectivit du rseau. En effet, le retrait d'un nud ou d'une arte stratgique, par exemple un
nud ayant une forte centralit d'intermdiarit ou de proximit, peut augmenter la longueur du
ISICIL : Intgration Smantique de l'Information
par des Communauts d'Intelligence en Ligne
ANR-08-CORD-011-05
Document mis le : 20/07/2009
Rf : ISICIL-DOC-EA1-SNAetWS-20090720
Analyse des rseaux sociaux et web smantique: un tat de l'art Page 12 sur 44
plus court chemin entre de nombreux autres nuds voir scinder un rseau en deux ou plusieurs
rseaux non relis. Cette mesure s'effectue sur deux types de retraits possibles, des retraits
alatoires et des retraits cibls. En gnral, les structures des rseaux sociaux sont assez rsistantes
des retraits alatoires de sommets ou d'artes alors qu'un retrait cibl peut affecter srieusement
ces structures. Par exemple, le retrait d'un pont entre deux groupes de sommets fortement
connects rduit considrablement voire coupe la communication entre ces deux groupes. [Holme
et al 2002] rappellent l'ensemble des stratgies possibles d'attaque de rseaux cibles sur les
sommets stratgiques et tend ces stratgies des attaques bases sur les artes.
L'extension de ces stratgies aux artes a amen [Holme et al 2002] tendre les notions de degr
et d'intermdiarit des artes. Le degr d'une arte est relatif au degr des sommets (min, max,
somme ou produit) qu'elle relie alors que l'intermdiarit d'une arte est tout comme
l'intermdiarit d'un sommet relative aux chemins godsiques sur lesquels elle se trouve.
L'adaptation de la dfinition de degr et de l'intermdiarit des sommets aux artes est alors
utilise pour appliquer la centralit aux artes. Ainsi, les stratgies d'attaques numres dans cet
article consistent retirer itrativement les nuds (resp. artes) les plus centraux en termes de
degr ou d'intermdiarit, en recalculant ou non les centralits chaque itration.
Dtection de communauts Nous avons parl de groupes, de rseaux de contacts redondants, il est maintenant ncessaire de
dfinir la notion de cohsion dans un groupe qui a aussi t largement discute et qui est
fortement lie aux notions prcdentes. Par exemple, la dtection de communauts permet, entre
autres, de dtecter les communauts non connectes et donc les trous structuraux. En connaissant
les groupes fortement connects, on peut aussi facilement dduire les sommets les plus
intermdiaires.
En plus de son lien troit avec les notions prcdemment mentionnes et tout particulirement la
centralit d'intermdiarit, la dtection de communaut suscite d'autres intrts. Dans un rseau
social, la dtection des communauts permet de dterminer la rpartition des acteurs et des
activits. Dans l'laboration de sa thorie sur les trous structuraux, Burt dfinie la contrainte de
rseau qui est une mesure de la redondance des contacts d'une personne. Plus les contacts d'une
personne sont relis entre eux, plus le comportement de cette personne est contraint par le rseau.
Cette notion se rapproche de la notion de fermeture de rseau, argumente par [Coleman 1988],
qu'il dfinit comme un rseau dense o tous les nuds sont connects de manire connatre
l'information dtenue par chacun. [Burt 2001] explique comment la redondance des contacts
facilite la fois la sanction et la confiance. En effet, au sein d'un tel rseau, ou sous-rseau, les
erreurs d'une personne se propagent rapidement jusqu' ses contacts directs, augmentant ainsi la
probabilit de sanction envers cette personne. Une sanction possible est notamment l'isolement
dans le rseau, par la perte de confiance. La facilitation de la sanction tend viter la diffusion de
mauvaises informations et les mauvais comportements, diminuant ainsi le risque d'accorder sa
ISICIL : Intgration Smantique de l'Information
par des Communauts d'Intelligence en Ligne
ANR-08-CORD-011-05
Document mis le : 20/07/2009
Rf : ISICIL-DOC-EA1-SNAetWS-20090720
Analyse des rseaux sociaux et web smantique: un tat de l'art Page 13 sur 44
confiance tort. De plus les chemins entre les personnes tant rduits, la perte de qualit dans la
transmission de l'information est minimise. Dans un but ducatif ou en entreprise, l'analyse du
rseau social form par un ensemble de personnes permet de former des groupes de travail
productifs et d'amliorer la communication.
[Scott 2000] identifie trois structures principales de groupes fortement connects: les composants,
les cliques et les cycles. La premire structure aborde par Scott est le composant. Un composant
est un ensemble de nuds connects entre eux par un ou plusieurs chemins avec aucun lien vers
d'autres nuds l'extrieur du composant. Un composant fort est un composant dont les chemins
ne contiennent pas de changement de direction. Un composant faible ne tient pas compte des
directions des connexions, seule la prsence de liens est prise en compte.
Ensuite, [Scott 2000] traite les cliques et les diffrentes variantes proposes. Une clique est un sous-
graphe complet d'un rseau, savoir un ensemble de nuds deux deux connects. Cette
dfinition manque de souplesse et quelques dfinitions en proposent des variantes. Une n-clique
est un ensemble de nuds relis entre eux par des chemins de longueur maximale n. Toutefois les
chemins reliant les sommets d'une n-clique peuvent contenir des sommets exclus de cette clique.
Un n-clan est une restriction de la dfinition de n-clique, c'est un ensemble de nuds tous relis
entre eux par des chemins de longueur maximale n et formant un sous graphe d'un diamtre
infrieur ou gal n. La figure 6 illustre la diffrence entre une n-clique et un n-clan. Un k-plex est
un graphe dont tous les sommets sont relis tous les autres sommets sauf k.
Figure 6 : Pierre, Paul, Jacques, Carmen et Yvonne forment une 2-clique et un 3-clan. L'unique godsique entre Yvonne et Jacques est de longueur 2 et passe par Grard.
Enfin la dernire structure que mentionne [Scott 2000] est le cycle. Un cycle est un chemin qui revient son point d'origine. Encore une fois, un cycle fort est un chemin qui ne contient pas de changements de direction alors que la dfinition d'un cycle faible le permet. Les cycles de longueur
ISICIL : Intgration Smantique de l'Information
par des Communauts d'Intelligence en Ligne
ANR-08-CORD-011-05
Document mis le : 20/07/2009
Rf : ISICIL-DOC-EA1-SNAetWS-20090720
Analyse des rseaux sociaux et web smantique: un tat de l'art Page 14 sur 44
trois sont appels triades. Les rseaux sociaux ont une forte tendance au clustering, savoir que deux sommets relis un mme nud ont une forte probabilit d'tre lis entre eux. Cette tendance au clustering est value par un coefficient de clustering qui est pour un rseau donn le rapport du nombre de triades sur le nombre maximum de triades possibles pour ce rseau soit :
TRIPLETSTRIADES3
avec |TRIADES| et |TRIPLETS| les nombres de triades et de triplets de sommets connects du rseau. Les triplets connects du rseau sont les nuds contenus sur les chemins de longueur deux. Le coefficient de clustering d'un sommet est de la mme manire dfini par :
TRIPLETSiTRIADESi
Ci =
avec |TRIADESi| et |TRIPLETSi| le nombre de triades et de tripls connects contenant le sommet i. On peut ainsi calculer alternativement le coefficient de clustering du rseau partir des valeurs locales:
i
Cin
1.
Toujours en relation avec la notion de cycle, Scott introduit les composants cycliques. Un composant cyclique est constitu de cycles qui ne se chevauchent pas et qui sont relis entre eux par des ponts.
Nous noterons galement les LS-SET qui sont des sous-ensembles de sommets S tels que tout sous-ensemble propre de S (sous ensemble de S diffrent de S) a plus de liens vers son complment dans S que vers l'extrieur de S.
Ces dfinitions sont toutefois trop thoriques et ne correspondent pas la structure des
communauts contenues dans les rseaux sociaux rels. Par exemples, dans le rseau social du club
de karat de Zachary, on distingue clairement de manire visuelle deux groupes, et aucun ne
possde strictement les proprits mentionnes prcdemment. De ce fait des notions plus larges
ont t prises en compte pour la dtection de communauts dans les rseaux sociaux. Ces notions
sont abordes dans la partie algorithmique.
Structure d'un rseau social [Newman 2003] et [Mika 2007] rappellent les caractristiques relatives la structure des rseaux
sociaux. La principale caractristique est l'effet de petit monde issu de la clbre exprience de
[Milgram 1967]. Ainsi toute personne dans un rseau social est connecte toute autre personne
par un chemin de courte distance. Le plus court chemin entre deux sommets dans un rseau social
de taille n est de l'ordre de log(n). Ainsi lorsque la taille du rseau augmente, la longueur des plus
courts chemins n'augmente que trs peu. De plus les membres de ce rseau possdent la facult de
ISICIL : Intgration Smantique de l'Information
par des Communauts d'Intelligence en Ligne
ANR-08-CORD-011-05
Document mis le : 20/07/2009
Rf : ISICIL-DOC-EA1-SNAetWS-20090720
Analyse des rseaux sociaux et web smantique: un tat de l'art Page 15 sur 44
trouver facilement ces plus courts chemins [Newman 2003]. Une autre caractristique est issue de
la tendance de l'homme se socialiser en groupe ce qui donne aux rseaux sociaux une forte
tendance au clustering et une structure en communauts. Si un sommet A est connect un
sommet B et que ce sommet B est connect un sommet C, alors A et C ont une forte probabilit
d'tre galement connects, on parle aussi de transitivit. On arrive ainsi une structure en
communaut, savoir des groupes de sommets avec une forte densit d'artes et relis entre eux
par des ponts. Cette socialisation s'effectue avec une tendance l'affiliation entre des nuds ayant
des proprits quasi-quivalentes. On constate galement que la distribution des degrs suit une
loi de puissance, savoir que plus on considre un degr lev, plus le nombre de sommets qui ont
ce degr dans un mme rseau est faible. La figure 7 montre la rpartition des degrs dans le
rseau social du club de karat du club de Zachari (figure 1).
02468
1012
2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17degr
no
mbr
e d'
acte
urs
Figure 7: rpartition des degrs du club de karat de Zachary
b) Algorithmes
Nous avons vu prcdemment que les principaux indices fournissant des informations importantes
sur la structure et l'aspect fonctionnel d'un rseau social sont la centralit, la rpartition des degrs,
la circulation/qualit de l'information, la rsistance du rseau et la dtection des communauts.
L'valuation de ces indices passe tout d'abord par le calcul des paramtres de base que sont: le
degr d'un nud, les godsiques, la densit, la dtection des clusters. En effet, les calculs qui
permettent d'valuer la centralit sont lis au degr et aux godsiques. La rpartition des degrs
est par dfinition dpendante du calcul du degr des nuds, l'instar du calcul du diamtre et des
godsiques.
Les Algorithmes de clustering Les algorithmes de clustering sont utiliss afin de dtecter ces communauts afin d'obtenir une vue
globale d'un rseau social.
Algorithmes hirarchiques
ISICIL : Intgration Smantique de l'Information
par des Communauts d'Intelligence en Ligne
ANR-08-CORD-011-05
Document mis le : 20/07/2009
Rf : ISICIL-DOC-EA1-SNAetWS-20090720
Analyse des rseaux sociaux et web smantique: un tat de l'art Page 16 sur 44
Un premier ensemble d'algorithmes regroupe les algorithmes hirarchiques. Tout d'abord ils
attribuent un poids chaque paire de sommets ou aux artes. Ce poids reprsente la connectivit
de cette paire dans la structure du rseau. Ensuite ils construisent un arbre dont les nuds sont des
groupes de sommets plus ou moins proches. Les nuds les plus profonds de l'arbre reprsentent
les groupes de sommets les plus proches. Ainsi, plus on remonte dans l'arbre plus on considre de
grandes communauts, la racine reprsentant le rseau complet. Il existe deux catgories, les
algorithmes agglomratifs et les algorithmes sparatifs. Ils se distinguent dans la construction de
l'arbre et dans la logique d'attribution des poids aux artes.
Algorithmes agglomratifs
Dans ces algorithmes, on retrouve trois principaux critres d'attribution des poids aux paires de
sommets. Le premier critre d'attribution de poids, est le nombre de chemins qui passent par ces
nuds. Les deux autres critres sont des variantes, les chemins considrs n'ont pas de nud en
commun pour un et pas d'artes en commun pour l'autre. Une fois ces poids attribus, ils
regroupent itrativement les sommets en considrant les poids par ordre dcroissant, jusqu' avoir
considr tous les poids.
Le principal dfaut de ces algorithmes est qu'ils excluent dans la plupart des cas les membres
priphriques, plus isols de leur communaut.
[Donetti et Munoz 2004] utilisent les vecteurs propres de la matrice de Laplace du graphe pour
mesurer les similarits entre les sommets, cet algorithme fonctionne en temps O(n3).
L'algorithme netwalk [Zhou et Lipowsky 2004] est lui "bas sur le temps moyen d'atteinte d'un
sommet par des marches alatoires" pour mesurer la similarit entre les sommets. Sa complexit en
temps est de O(n3).
Algorithmes sparatifs
Ces algorithmes construisent l'arbre de manire inverse. Le poids attribu chaque arte
reprsente son caractre sparatif entre ses extrmits. L'arbre est construit partir du graphe
entier, en retirant itrativement les artes par poids dcroissant.
L'algorithme le plus connu est celui de [Girvan and Newman 2002] qui tablit les poids des artes en
fonction de leur intermdiarit, ainsi les nuds "les plus intermdiaires" sont retirs en premier.
Cette technique fournit de trs bonnes coupes d'un rseau et est adapte la structure d'un rseau
social. Toutefois, cet algorithme ncessite le calcul des centralits d'intermdiarit couteux en
temps, et possde une complexit en O(m.n) avec m le nombre d'artes et n le nombre de
sommets. Il n'est donc exploitable que sur des petits rseaux. [Bothorel et Bouklit 2008] adapte cet
algorithme pour les hypergraphes.
[Fortunato et al 2004] utilisent eux une notion plus stricte de la centralit, offrant un meilleur
dcoupage mais de faibles performances en temps, O(m3.n).
ISICIL : Intgration Smantique de l'Information
par des Communauts d'Intelligence en Ligne
ANR-08-CORD-011-05
Document mis le : 20/07/2009
Rf : ISICIL-DOC-EA1-SNAetWS-20090720
Analyse des rseaux sociaux et web smantique: un tat de l'art Page 17 sur 44
[Radicchi et al 2004] tendent la notion de coefficient de clustering des sommets aux artes et
propose un algorithme qui retire les artes ayant les coefficients les plus faibles. Le coefficient de
clustering d'une arte correspond au nombre de cycles, d'une longueur donne, auxquels
appartient cette arte sur le nombre de cycle possibles en fonction des degrs des extrmits.
Algorithmes base d'heuristiques
Un certain nombre d'algorithmes non hirarchiques ont t proposs, ils sont bass sur des
heuristiques lies la structure en communaut des rseaux.
Newman propose un algorithme efficace [Newman 2004] pour des rseaux de grande taille avec
une complexit en O(n.log(n)). Cet algorithme fournit une coupe du graphe optimisant une
fonction de modularit :
)( ij
ij aeQ =
avec eij la part d'artes du rseau qui relie des sommets des groupes i et j et =j
iji ea . En d'autres
termes, la modularit est, pour un dcoupage en communauts donn, la diffrence entre la part
d'artes intra-communautaires du rseau analys et la mme valeur avec une rpartition alatoire
des artes. Les valeurs ngatives sont ramenes 0 et la valeur maximale est 1. Cette fonction de
modularit est la diffrence entre le nombre d'artes dans un groupe et le nombre d'artes
attendues en se basant sur la probabilit d'avoir une arte entre chaque sommet. Dans [Newman
2008], il gnralise la notion de modularit aux graphes orients et propose une approche
alternative de cet algorithme. [Djidev 2007] rduit le problme du calcul de modularit celui de
coupe minimale pondre et propose un algorithme en O(n.log(n)+m). [Barber 2007] propose une
dfinition de la modularit pour les graphes bipartites. Enfin [Chen et al 2009] propose une variante
qui optimise le degr moyen entrant l'intrieur de la communaut et minimise le degr sortant
des nuds frontires.
[Wu 2004] fait l'analogie entre un graphe et un rseau lectrique et fournit ainsi un algorithme bas
sur la simulation de rpartition d'un courant lectrique. Cette mthode fournie un rsultat en temps
linaire en pratique mais impose une contrainte forte qui est de connatre le nombre de clusters
l'avance.
Plusieurs algorithmes s'appuient sur les parcours alatoires dans un graphe. Dans cette catgorie,
l'algorithme de [Pons et al 2005] est le plus performant en temps (O (n.log(n)) en pratique) mais
plus couteux en espace O(n), il est bas sur l'hypothse qu'un parcours alatoire dans un graphe
tend se retrouver "pig" dans les parties du graphe fortement connectes correspondant des
communauts. Nous noterons galement le plus connu, Markov Cluster Algorithme, qui fonctionne
quand lui en temps O(n3). [Pons et al 2005] propose un aperu plus large sur cette approche.
ISICIL : Intgration Smantique de l'Information
par des Communauts d'Intelligence en Ligne
ANR-08-CORD-011-05
Document mis le : 20/07/2009
Rf : ISICIL-DOC-EA1-SNAetWS-20090720
Analyse des rseaux sociaux et web smantique: un tat de l'art Page 18 sur 44
L'algorithme de [Capocci et al 2004] bas sur une analyse spectrale de la matrice d'adjacence, qui
prend en considration l'orientation et la pondration des arcs. Cette solution a une complexit de
O (n) en temps.
L'algortihme par propagation de label de [Raghavan et al 2007] est l'algorithme le plus performant
en pratique, mais avec une terminaison non dterministe. Tous les nuds se voient attribuer un
label initial reprsentant la communaut auquel ils appartiennent. A chaque tape chaque nud
change son label en prenant le plus rparti dans son voisinage. Ce processus itratif amne en
pratique un consensus avec un label unique pour chaque communaut.
Les algorithmes mentionns prcdemment sont les plus utiliss. Toutefois, d'autres algorithmes
sont galement dcrits dans [Danon 2005] [Newman 2004 bis] [Girvan et Newman 2004].
La plupart des algorithmes de clustering, ne considrent que des graphes non-tiquets, non
orients et ils fournissent tous des clusters non-recouvrants. En ignorant l'orientation des artes
nous en perdons toute la signification, alors que la notion de prestige, prcdemment aborde,
nous en montre la richesse. Le typage des liens dans un rseau social apporte lui aussi beaucoup de
smantique, tout comme le typage des sommets qui permet de dcrire un rseau social
multipartite. De plus une personne est susceptible d'appartenir plusieurs communauts, avec des
degrs d'implication diffrents. Ces algorithmes ne lui attribueront qu'une appartenance la
communaut dont elle est le plus proche.
Partant de cette dernire hypothse, [Pissard 2008] propose l'algorithme FOCAL (Fast Overlapping
Clustering ALgorithm) qui restitue des communauts recouvrantes. Son approche est intressante
car elle tient compte des caractristiques structurelles des rseaux sociaux (petits mondes,
transitivit) et des communauts. Toutefois il pose une hypothse forte lie son cadre
d'application qui considre des communauts de tailles homognes. L'algorithme SCAN [Xu et al
2007] permet aussi de dtecter des communauts recouvrantes. En se basant sur l'ide de base que
la structure communautaire d'un nud est dfinie par ses voisins, cet algorithme forme des
communauts en dterminant un score minimum de similarit structurel entre un nud et ses
voisins.
Le tableau 1 synthtise les catgories et performances des algorithmes prcdemment mentionns.
Type
d'algorithme
Refrence Complexit en
temps
Taille des
graphes
Caractristiques
de graphe pris
en compte
Hirarchiques
agglomratifs
[Donetti et
Munoz
2004]
O(n3) 10
3 sommets Non-typs
Non-orients
ISICIL : Intgration Smantique de l'Information
par des Communauts d'Intelligence en Ligne
ANR-08-CORD-011-05
Document mis le : 20/07/2009
Rf : ISICIL-DOC-EA1-SNAetWS-20090720
Analyse des rseaux sociaux et web smantique: un tat de l'art Page 19 sur 44
Non-pondr
[Zhou et
Lipowsky
2004]
O(n3) 10
4 sommets Non-typs
Non-orients
Non-pondr
[Girvan et
Newman
2002]
O(m.n) pour
un graphe non-
pondr
O(m.n.log(n))
pour un graphe
pondr.
104 sommets Non-typs
Non-orients
Pondrs
Hirarchiques
Spartifs
[Radicchi et
al 2004]
O(n) 104
sommets Non-typs
Non-orients
Non-pondrs
[Newman
2004]
O(n.log(n)) 105 sommets Non-typs
Non-pondr,
Non-orients
[Newman
2008]
O(n.log(n)) 105 sommets Non-typs
Non-pondrs,
orients
[Djidev
2007]
O(n.log(n)+m) 105 sommets Non-typs
Non-pondr,
Non-orients
[Wu 2004] O(n+m) 105 sommets Non-typs
Non-orients
A base
d'heuristique
[Pons et al
2005]
O(m.n) dans le
pire des cas et
104 sommets Non-typs
Non-orients
ISICIL : Intgration Smantique de l'Information
par des Communauts d'Intelligence en Ligne
ANR-08-CORD-011-05
Document mis le : 20/07/2009
Rf : ISICIL-DOC-EA1-SNAetWS-20090720
Analyse des rseaux sociaux et web smantique: un tat de l'art Page 20 sur 44
O(n.log(n)) en
moyenne
Non-pondrs
[Capocci et
al 2004]
O(n) 104 sommets Non-typs,
Orients,
pondrs
[Raghavan
et al 2007]
Terminaison
non
dterministe
106 sommets Non-typs,
Non Orients,
Non pondrs
Tableau 1 : Catgories et performances des algorithmes de dtection de communauts.
Validation d'un dcoupage en communauts [Bolshakova et Azuaje 2003] proposent trois indices permettant d'valuer la qualit d'un dcoupage
en cluster d'un graphe. L'indice de Silhouette mesure les proprits d'isolation et d'htrognit
des clusters obtenus. L'indice de Dunn et l'indice de Davies-Bouldin, calculent le nombre de
clusters denses et spars, ils permettent de dterminer la qualit du nombre de clusters obtenus.
Dans [Girvan et Newman 2004], une approche diffrente est propose: le calcul de la modularit.
Plus le rsultat du calcul est proche de 1 plus le dcoupage est prcis. La modularit est
actuellement la mesure de rfrence pour valuer la qualit d'un dcoupage en communauts.
Dans [Gustafsson et al 2006], une comparaison est effectue entre la modularit et l'indice de
Silhouette et la modularit est mise en avant comme plus pertinente.
[Rattigan 2007] propose quant lui deux indices complmentaires pour mesurer la qualit d'un
dcoupage en communauts. Ces deux indices sont la proportion d'artes intercommunautaires et
la proportion d'artes intra-communautaires. Ils sont tous les deux compris entre 0 et 1. Un bon
dcoupage en communauts possde un faible taux d'artes intercommunautaires et un taux lev
d'artes intra-communautaires.
Calcul de la centralit La centralit permet de dtecter les positions stratgiques dans un rseau social. Plusieurs
mthodes d'valuation de la centralit ont t proposes en fonction du critre choisi pour
considrer un nud comme plus central qu'un autre. Ces mthodes sont rappeles dans cette
partie avant de rentrer plus en dtail sur les algorithmes proposs pour calculer la centralit
d'intermdiarit.
ISICIL : Intgration Smantique de l'Information
par des Communauts d'Intelligence en Ligne
ANR-08-CORD-011-05
Document mis le : 20/07/2009
Rf : ISICIL-DOC-EA1-SNAetWS-20090720
Analyse des rseaux sociaux et web smantique: un tat de l'art Page 21 sur 44
[Freeman 1979] propose 2 mthodes de calcul pour chacun des trois indicateurs de centralit locale
(degr, intermdiarit, proximit) qu'il prsente, une mesure dpendante de la taille du rseau et
une mesure indpendante. La premire mesure est intressante pour mesurer l'influence de
l'activit d'un nud dans un rseau alors que la deuxime, indpendante de la taille du rseau,
offre un indicateur de comparaison entre des nuds de diffrents rseaux. Le fait de s'affranchir de
la taille d'un rseau dans un indice permet galement de comparer diffrents rsultats locaux issus
d'un mme rseau, notamment pour comparer diffrents types de liens et donc diffrents types de
rseaux dans un graphe multipartite. De plus, cela fournit une mthode gnrique de calcul de
centralit globale, base sur la centralit locale choisie.
La centralit de degr locale d'un nud est tout simplement son degr.
La mthode de calcul de la centralit d'intermdiarit locale d'un nud consiste effectuer la
somme des valeurs d'intermdiarit de ce nud pour chaque couple de nud du rseau. La valeur
d'intermdiarit d'un nud A pour un couple de nud B et C, est le rapport du nombre de chemins
godsiques entre B et C contenant A sur le nombre total de chemins godsiques entre B et C.
Le calcul de la centralit locale de proximit consiste effectuer la somme des distances d'un nud
aux autres nuds du graphe. Cette mesure est plutt une mesure de "dcentralit", savoir que les
nuds qui obtiennent un score plus lev sont les moins centraux. Ainsi pour faire un parallle avec
les deux mthodes prcdentes, il est opportun de mesurer la centralit de proximit en
considrant l'inverse de la somme des distances du nud aux autres nuds.
Pour rendre indpendantes ces mesures de la taille du rseau, Freeman propose dans les 3 cas de
diviser le rsultat obtenu par la valeur maximale possible. La valeur maximale est atteinte chaque
fois par le point central dans un rseau en toile. Ainsi pour un rseau de taille n, la valeur maximale
de la centralit de degr est n-1 et la valeur maximale d'intermdiarit est (n -3n +2)/2. Pour le
calcul de la centralit de proximit, la somme minimale des distances est n-1, ainsi la valeur
maximale de la centralit de proximit d'un nud est le rapport de n-1 sur la somme des distances
avec les autres nuds du rseau.
Enfin Freeman fournit une formule de calcul de la centralit globale d'un rseau adaptable pour
chacun des 3 indices de centralit locale exposs. Le principe est de mesurer l'cart entre la valeur
de centralit la plus leve par rapport celle des autres nuds du graphe.
Les dfinitions prcdentes mettent en avant la complexit de calcul de chacun de ces trois indices.
Le calcul de la centralit de degr est bien videmment trivial. Par contre les calculs de centralit
d'intermdiarit et de proximit sont bien plus complexes en raison de leur dpendance au calcul
des godsiques. Toutefois la proprit de petit monde des rseaux sociaux cre un lien troit entre
la centralit de degr d'un sommet et sa centralit de proximit. De plus l'indice de centralit le plus
significatif est l'intermdiarit qui met en avant les individus les plus influents dans un rseau.
L'intermdiarit est ainsi l'indice de centralit le plus considr dans la littrature. L'ensemble des
ISICIL : Intgration Smantique de l'Information
par des Communauts d'Intelligence en Ligne
ANR-08-CORD-011-05
Document mis le : 20/07/2009
Rf : ISICIL-DOC-EA1-SNAetWS-20090720
Analyse des rseaux sociaux et web smantique: un tat de l'art Page 22 sur 44
travaux mentionns ci-dessous traitent principalement cet indice, mais certaines des notions et
mthodes de calcul fournies sappliquent galement pour la mesure des autres indices.
Algorithmes exacts
Plusieurs algorithmes de calcul d'intermdiarit exacts ont t proposs. Ils sont applicables sur
des rseaux de petites tailles, de l'ordre de 105 sommets pour le plus performant. Ces algorithmes
proposent pour la plupart une version pour les graphes pondrs et non pondrs. Les principaux
sont bass sur le calcul des godsiques dans un premier temps puis sur les sommes des
godsiques o se trouve un sommet, et ce pour chaque sommet [Douglas et Borgatti
1994][Brandes 2001] [Newman 2001]. Les autres sont bass sur une rpartition optimale du flot
d'information dans le rseau entre les diffrents chemins possibles [Freeman et Borgatti 1991].
[Latora et Marchiori 2004] proposent une approche qui combine les deux premires. L'algorithme
exact le plus performant est celui dcrit dans [Brandes 2001], il offre un rsultat en O (n+m) en
espace et en temps O (nm) et O(nm+log(n)), respectivement pour des graphes non pondrs et
pondrs. Cet algorithme s'appuie sur un ensemble de lemmes permettant de ne considrer que les
calculs indispensables et de rduire ainsi la complexit des mthodes optimales bases sur le calcul
des godsiques. Par exemple, si vs se trouve sur une godsique de vr vt ,alors drt
ISICIL : Intgration Smantique de l'Information
par des Communauts d'Intelligence en Ligne
ANR-08-CORD-011-05
Document mis le : 20/07/2009
Rf : ISICIL-DOC-EA1-SNAetWS-20090720
Analyse des rseaux sociaux et web smantique: un tat de l'art Page 23 sur 44
voisinage direct. Cette mesure permet d'extraire les sommets les plus influents par rapport leur
voisinage direct.
[Bothorel et Bouklit 2008] propose un algorithme de calcul de la centralit d'intermdiarit pour les
hypergraphes.
Algorithmes approchs
Plusieurs autres algorithmes, proposent des estimations de la centralit d'intermdiarit [Radicchi
et al 2004][Brandes et Pich 2007][Bader et al 2007][Geisberger et al 2008], fournissant des rsultats
un peu moins prcis mais avec de bien meilleures performances, les rendant utilisables pour des
rseaux de l'ordre de 106 sommets. La qualit de ces derniers algorithmes dpend de leur technique
d'chantillonnage. [Brandes et Pich 2007][Bader et al 2007][Geisberger et al 2008] proposent des
approximations partir d'un chantillon de sommets rpartis dans le rseau.
Algorithmes parallles
Enfin [Bader et Madduri 2006] et [Santos et al 2006] fournissent des contributions majeures en
terme de performance avec des algorithmes parallles du calcul de la centralit d'intermdiarit
permettant de traiter des rseaux sociaux de l'ordre du million de sommets avec un rsultat exact
pour l'un et une approximation pour l'autre. L'algorithme de [Santos et al 2006] est tout
particulirement intressant par son approche incrmentale qui fournit tout moment un rsultat
approximatif de plus en plus prcis avec un calcul rparti correspondant bien aux contraintes du
web. L'algorithme de [Bader et Madduri 2006] fournit un rsultat exact en paralllisant l'algorithme
de [Brandes 2001].
Le tableau 2 synthtise les catgories et performances des algorithmes de calcul des centralits
d'intermdiarit.
Rfrence Exact parallle Complexit Taille des
graphes
Incrm
ental
Type de graphe
considr
[Newman
2001]
Oui Non O(n.m) et
O(n.m.log(n)
respectivement
pour des graphes
non pondrs et
pondrs
105
sommets
Non Pondr
Non typs
Non orients
[Brandes
2001]
Oui Non O(n.m) et O(n.m +
n.log(n))
respectivement
pour des graphes
non pondrs et
105
sommets
Non Pondr
Non typs
Non orients
ISICIL : Intgration Smantique de l'Information
par des Communauts d'Intelligence en Ligne
ANR-08-CORD-011-05
Document mis le : 20/07/2009
Rf : ISICIL-DOC-EA1-SNAetWS-20090720
Analyse des rseaux sociaux et web smantique: un tat de l'art Page 24 sur 44
pondrs
[Geisberger
et al 2008]
[Brandes et
Pich 2007]
Non Non ~[Brandes 2004]
mais approximation
partir de k
noeuds.
106
sommets
Oui Graphes pondrs
Non typs
Non orients
[Bader et
Madduri
2006]
Oui oui O(n.m) et O(n.m +
n.log(n))
respectivement
pour des graphes
non pondrs et
pondrs
106
sommets
Non Graphes pondrs
Non typs
Non orients
[Santos et
al 2006]
Non Oui Non estim 105
oui Graphes pondrs
Non typs
Non orients
Tableau 2: Catgories et performances des algorithmes de calcul des centralits d'intermdiarit.
Jeux de donnes couramment utiliss La qualit et la performance des algorithmes utiliss sont values sur plusieurs jeux de donnes.
Ces jeux de donnes sont gnrs ou bass sur des rseaux rels. Concernant la gnration de
rseaux, trois mthodes principales sont utilises, la gnration de graphes alatoires [Gilbert
1959], "preferential attachement" [Barabasi et Albert 1999] et "small world" de [Watts et Strogatz
1998]. La gnration alatoire de graphe produit des rseaux n'ayant aucune proprit d'un rseau
social. Le modle de [Watts et Strogatz] reproduit la proprit des petits mondes que l'on retrouve
dans tous les graphes. [Barabasi et Albert 1999] fournit une solution permettant de gnrer un
graphe possdant une structure proche de celle des rseaux sociaux, en fournissant notamment
une rpartition des degrs suivant une loi de puissance. Toutefois ces rseaux tant gnrs
automatiquement, ils servent surtout de tmoins et de point de comparaison entre les diffrentes
mthodes. Plusieurs jeux de donnes rels reviennent alors rgulirement pour juger de l'efficacit
et de la qualit d'un algorithme d'analyse de rseau social. Les tous premiers rseaux tudis
taient construits partir de questionnaires, en demandant par exemple des personnes de citer
des amis. Le rseau social du club de karat de Zachary ne possde qu'une trentaine de nud mais
il est souvent utilis comme preuve du bon fonctionnement d'un algorithme de clustering.
Toutefois, l'amlioration de la complexit des algorithmes ncessite des rseaux de grandes tailles
pour valuer leurs performances, juger leur qualit et en observer les limites. L'extraction d'un sous-
ISICIL : Intgration Smantique de l'Information
par des Communauts d'Intelligence en Ligne
ANR-08-CORD-011-05
Document mis le : 20/07/2009
Rf : ISICIL-DOC-EA1-SNAetWS-20090720
Analyse des rseaux sociaux et web smantique: un tat de l'art Page 25 sur 44
ensemble du graphe du web form par les hyperliens entre les pages est rgulirement utilise, un
crawl du web offre la possibilit d'obtenir des rseaux de trs grandes tailles. Les articles
scientifiques sont galement beaucoup utiliss. On retrouve ainsi deux rseaux extraits partir des
articles scientifiques, le rseau de citation et le rseau de co-auteurs. La source principale servant
d'extraction de ce type de rseaux est CiteSeer ( http://citeseer.ist.psu.edu/ ).
c) Conclusion partielle
Nous avons abord ici les principaux algorithmes de calcul de clustering et d'intermdiarit. Les
algorithmes de clustering les plus apprcis pour leur dcoupage sont les algorithmes hirarchiques
sparatifs bass sur l'intermdiarit. Toutefois la complexit de calcul de l'intermdiarit est une
limite liminatoire pour utiliser ces algorithmes sur de larges rseaux sociaux tels que ceux du web
qui contiennent plusieurs millions de sommets. Les approches telles que celles de [Newman 2004]
sont donc privilgies pour les trs grands rseaux.
[Radicchi et al 2004] a ouvert la porte l'utilisation de mthodes approximatives du calcul de la
centralit d'intermdiarit pour le clustering. Ainsi, le calcul des centralits d'intermdiarit partir
d'chantillons de [Brandes et Pich 2007][Bader et al 2007][Geisberger et al 2008] sont des pistes
intressantes pour rduire le temps de calcul de l'algorithme de [Girvan et Newman 2002], tout en
conservant la mme complexit. Nous noterons tout particulirement l'approche [Rattigan et al
2006] qui indexe la structure du graphe et optimise grandement les calculs de plus courts chemins
et des centralits d'intermdiarit. Il utilise ensuite ces index pour optimiser deux algorithmes, dont
celui de [Girvan et Newman 2002].
Certains de ces algorithmes mentionns sont adaptables pour prendre en compte l'orientation, la
pondration, l'tiquetage des artes et le typage des sommets. Ainsi [Brandes 2008] tend son
algorithme [Brandes 2001] pour prendre en compte diffrentes caractristiques de graphes pour
calculer la centralit d'intermdiarit, ce qui ouvre dsormais la porte l'utilisation de ces
diffrents algorithmes pour adapter [Girvan et Newman 2002].
Enfin nous avons vu sur quels rseaux la qualit et la performance de ces mthodes sont values.
Nous allons maintenant montrer que l'avnement du web 2.0 et l'mergence du web smantique
amnent appliquer les mthodes d'analyse des rseaux sur de nouvelles traces gnres par les
usages du web.
3. Les rseaux sociaux en ligne
Le web fournit des outils de communications qui s'imposent toujours plus en tant qu'lment
majeur des modes d'interaction de notre socit. La communication est un lment essentiel de la
socialisation et les interactions des utilisateurs du web au travers de leurs usages sont devenues des
sources de choix pour extraire et analyser des rseaux sociaux de trs grandes tailles (de l'ordre de
106
108 sommets). Les discussions lectroniques et la structure en hyperliens du web tait les
ISICIL : Intgration Smantique de l'Information
par des Communauts d'Intelligence en Ligne
ANR-08-CORD-011-05
Document mis le : 20/07/2009
Rf : ISICIL-DOC-EA1-SNAetWS-20090720
Analyse des rseaux sociaux et web smantique: un tat de l'art Page 26 sur 44
principales sources du web disposition des chercheurs jusqu' l'avnement du web 2.0. La
popularit montante des outils collaboratifs du web 2.0 permet d'tudier de nouveaux rseaux avec
des acteurs qui fournissent toujours plus d'informations sur eux-mmes mais galement sur les
personnes avec qui ils interagissent. Ainsi [Mika 2007] distingue trois catgories de rseaux sociaux
sur le web :
Les rseaux sociaux infrs avec des techniques de web mining: citations entre pages
personnels, pagerank, cooccurrence de noms.
Les discussions lectroniques: mails, chat, forum.
Les applications sociales du web 2.0: outils de publication (wiki, blog, news), rseaux
sociaux, sites de partage (contenu, produits, vnements, etc.) et jeux collaboratifs.
[Wellman 2001] argumente que les relations en ligne forment des rseaux sociaux virtuels
reprsentatifs des rseaux sociaux rels. En effet ces rseaux virtuels sont crs partir
d'interactions inities par des personnes physiques. Cet argument est confirm par [Mika 2007],
mais il souligne le caractre incomplet de ces rseaux sociaux en raison de l'absence en ligne de
certaines composantes de la ralit. [Hendler et al 2008] montre que le web 2.0 et le web
smantique amplifient la connectivit des utilisateurs du web et rapprochent qualitativement les
rseaux virtuels des rseaux rels.
Cette partie traite dans un premier temps de l'application des techniques d'analyse des rseaux
sociaux prcdemment voques aux rseaux sociaux du web, puis de l'apport du web smantique
l'analyse des rseaux sociaux.
d) Web 1 et web 2
[Buffa 2008] " dresse l'historique des outils collaboratifs de l'poque prcdant l'arrive du web
nos jours". La "libralisation" d'internet la fin des annes 80 a trs rapidement t suivie "par la
cration du web par Tim Berners Lee" au dbut des annes 90. Les moyens de communication
synchrones et asynchrones proposs par ces technologies ont t massivement adopts par les
particuliers dans un premier temps et par les entreprises ensuite. Les sociologues se sont
rapidement intresss aux rseaux sociaux mergeant de ces nouveaux moyens de communication
plus grands et plus faciles reconstituer qu' l'aide de questionnaires. L'explosion du volume de
connaissance prsent sur le web est l'origine du web mining, discipline destine la dcouverte
de cette connaissance sur le web, dont un cas d'application est l'extraction de rseaux sociaux.
L'affranchissement des barrires gographiques proposes par internet a t vite peru comme une
aubaine pour la facilitation de la collaboration. Depuis le milieu des annes 90 et l'apparition du
premier wiki, cr par Ward Cunnigham, les logiciels sociaux n'ont cess de prolifrer sur le web
jusqu' donner aux internautes la possibilit d'amliorer grandement leur visibilit et devenir des
acteurs importants dans le paysage du web et dans son dveloppement.
ISICIL : Intgration Smantique de l'Information
par des Communauts d'Intelligence en Ligne
ANR-08-CORD-011-05
Document mis le : 20/07/2009
Rf : ISICIL-DOC-EA1-SNAetWS-20090720
Analyse des rseaux sociaux et web smantique: un tat de l'art Page 27 sur 44
Web mining [Adamic et Adar 2003] propose une mthode d'extraction des rseaux d'amis des universits de
Stanford et du MIT, partir des pages personnelles des tudiants. Les tudiants de ces universits,
au moment de l'tude, avaient pour usage de mettre des hyperliens de leur page personnelle vers la
page personnelle de leurs amis. Ainsi, dans un premier temps, les auteurs dmontrent que le
graphe form par la structure en hyperliens de ces pages possde les proprits des rseaux
sociaux : "small world", distribution des degrs en loi de puissance, et un taux de clustering lev.
Ensuite, un indice de similarit entre les pages personnelles est dfini partir de la cooccurrence
d'lments textuels et de la prsence d'hyperliens entre les pages.
[Kautz et al 1997] [Mika 2005 bis] [Matsuo et al 2006] et [Jin et al 2007] se sont intresss
l'extraction de rseaux sociaux partir des cooccurrences de noms sur les pages web. Le principe de
ces mthodes, consiste mesurer la force d'une relation entre deux personnes en se basant sur les
cooccurrences de leur nom. [Kautz et al 1997] et [Mika 2005 bis] utilisent le coefficient de Jaccard
qui pour une paire de noms X et Y vaut nXY/(nX+ny) avec nx et ny le nombre de pages contenant
repectivement les noms X et Y, et nXY. le nombre de pages contenant la fois X et Y. [Matsuo et al
2006] et [Jin et al 2007] utilisent le coefficient de recouvrement qui, avec la mme notation, est
dfini ainsi : nXY/min(nX,ny). Le nombre de pages contenant un nom ou une cooccurrence de noms
est obtenu par une requte un moteur de recherche, Altavista pour [Kautz et al 1997] et Google
pour les autres. Ces quatre articles proposent des mthodes d'extraction de rseaux sociaux trs
proches mais ils exploitent ces rseaux diffremment. [Kautz et al 1997] propose un outil
d'exploration de son rseau social pour la recherche d'experts. [Mika 2005 bis] et [Matsuo et al
2006] appliquent la cooccurrence entre des noms et des termes afin d'extraire des rseaux
d'affiliation. [Mika 2005 bis] exploite ce rseau d'affiliation pour extraire et construire une ontologie
lgre des termes du web smantique. [Matsuo et al 2006] propose un outil d'animation de
communauts de chercheurs, POLYPHONET, qui extrait et exploite ce rseau d'affiliation. [Jin et al
2007] rapplique les techniques de [Matsuo et al 2006] pour extraire du web des rseaux d'artistes
et de grandes firmes japonaises.
Les discussions synchrones et asynchrones [Tyler et al 2003] construit un graphe d'interaction entre les personnes d'une entreprise partir de
l'analyse des enttes des emails qui contiennent l'metteur et le destinataire. Aprs avoir dmontr
que ce graphe possde les proprits inhrentes aux rseaux sociaux il dtermine des
communauts de pratique en appliquant la mthode de [Wilkinson et Huberman 2002] base sur
l'algorithme de clustering de [Girvan et Newman 2002]. Le dcoupage en communauts et les
personnes appartenant ces communauts sont valids par des entretiens avec des membres de
sept communauts choisies alatoirement parmi les soixante six communauts dtectes.
ISICIL : Intgration Smantique de l'Information
par des Communauts d'Intelligence en Ligne
ANR-08-CORD-011-05
Document mis le : 20/07/2009
Rf : ISICIL-DOC-EA1-SNAetWS-20090720
Analyse des rseaux sociaux et web smantique: un tat de l'art Page 28 sur 44
web 2.0
Figure 9: Panorama des mdias sociaux propos par Fred Cavazza [Cavazza 2009]
La figure 9 synthtise le panorama des mdias sociaux propos par Fred Cavazza sur son blog
[Cavazza 2009]. Il dcompose ces rseaux sociaux en 4 catgories principales, les outils d'expression
pour publier, discuter et aggrger sa vie sociale, de rseautage pour rechercher, se connecter et
interagir avec des personnes, de partage pour publier et s'changer des resources, et des jeux en
ligne bass sur la collaboration. Certaines plateformes sociales comme Facebook sont extensibles
par API et permettent ainsi d'agrger ces diffrentes pratiques sociales avec des applications
ddies.
Le social tagging, qui consiste classifier collaborativement des ressources en les annotant avec des
tags, s'est impos avec l'mergence du web 2.0 comme l'outil dominant de classification des
ressources partages en lignes (flickr, del.icio.us). [Mika 2005] modlise le social tagging avec un
graphe tripartite, les sommets tant des utilisateurs, des tags ou des ressources annotes. Les
arrtes de ce graphe sont ternaires pour reprsenter l'association d'un tag une ressource par un
acteur. Il considre ensuite de plus prs deux sous graphes bipartites. Le premier relie les acteurs
aux concepts (tags). Ce graphe permet de dduire un rseau social d'affiliation, les liens sont entre
ISICIL : Intgration Smantique de l'Information
par des Communauts d'Intelligence en Ligne
ANR-08-CORD-011-05
Document mis le : 20/07/2009
Rf : ISICIL-DOC-EA1-SNAetWS-20090720
Analyse des rseaux sociaux et web smantique: un tat de l'art Page 29 sur 44
les acteurs ayant utilis les mmes concepts avec des poids reprsentant le nombre de concepts
manipuls conjointement. On en dduit similairement un rseau de concepts, une arte entre deux
concepts tant pondre par le nombre d'utilisateurs utilisant ces deux concepts. Le deuxime sous
graphe bipartite relie les concepts aux instances (ressources) et permet d'obtenir un rseau de
concepts supplmentaires, un lien entre deux tags est pondr par le nombre d'instances annotes
avec ces deux tags. Ainsi partir d'un crawl des flux RSS de del.icio.us, Peter Mika cre les graphes
simples forms par les deux rseaux de concepts mentionns et les normalise afin d'obtenir deux
graphes de mme taille. La densit et le coefficient de clustering moyen sont utiliss pour comparer
la cohsion de ces deux rseaux. Il est ensuite dmontr que les concepts ayant les coefficients de
clustering les plus levs sont les plus spcialiss. Inversement, les termes avec les coefficients de
clustering les moins importants et une forte centralit d'intermdiarit sont les plus gnraux. Enfin
un algorithme de clustering, bas sur la dfinition de LS-SET, est appliqu en utilisant [UCINET 2002]
afin de dterminer les centres d'intrts des utilisateurs. [Bothorel et Bouklit 2008] modlise une
folksonomie extraite partir de flickr avec un hypergraphe. Ils proposent une gnralisation de
l'algorithme de dtection de communauts de [Girvan and Newman 2002] pour gnrer des nuages
de tags thmatiques et "vrifier s'il apparat un consensus ou des conflits dans l'utilisation des tags
parmi les communauts".
Les sites de rseaux sociaux en ligne sont devenus des applications phares du web 2.0 et
connaissent les plus fortes audiences du web. Parmi les premiers, on retrouve Friendster et Orkut,
mais les plus connus et les plus visits aujourd'hui sont Facebook et Myspace. Ces sites permettent
leurs utilisateurs de maintenir en ligne leur rseau social rel. La grande audience de ses sites
(plus de 100 million dutilisateurs pour Myspace) et l'accs leur rseau par API en font ainsi des
sources de choix pour analyser des rseaux sociaux de trs grandes tailles. En effet, les utilisateurs
dclarent explicitement leurs relations, il n'est plus ncessaire d'tablir des heuristiques sur leurs
usages pour dterminer l'existence de relations entre deux personnes, la nature mme de ces
relations est fournie. L'un des problmes les plus discuts ces derniers temps est l'interoprabilit
de ces plateformes. Les "agrgateurs" proposent de centraliser le contenu de plusieurs rseaux
sociaux. Toutefois ces plateformes sont obliges de manipuler diffrentes API et l'agrgation d'une
nouvelle application ncessite l'apprentissage d'une nouvelle API. Pour palier cette contrainte,
l'initiative "google open social" propose l'interoprabilit entre les rseaux sociaux au travers d'une
seule et unique API. La figure 9 reprsente le rseau social de Guillaume Erto sur facebook
construit par l'application TouchGraph avec l'API de Facebook.
[Bonneau et al 2009] analyse le rseau facebook des tudiants de Stanford et Harvard partir
seulement des 8 amis affichs sur les profils publics. Ils montrent qu'un petit ensemble du rseau
est suffisant pour analyser un rseau social et obtenir des informations essentielles telles que la
couverture maximum, la centralit d'intermdiarit ou un dcoupage en communaut.
ISICIL : Intgration Smantique de l'Information
par des Communauts d'Intelligence en Ligne
ANR-08-CORD-011-05
Document mis le : 20/07/2009
Rf : ISICIL-DOC-EA1-SNAetWS-20090720
Analyse des rseaux sociaux et web smantique: un tat de l'art Page 30 sur 44
Figure 9: Le rseau social de Guillaume Erto extrait par l'application TouchGraph avec l'API facebook
e) Web smantique
Le web smantique offre la possibilit aux machines de comprendre et d'exploiter les ressources du
web de manire interoprable. Pour cela le w3c propose des formalismes dots dune syntaxe XML
permettant de modliser les concepts du web, de les instancier et de les interroger. Les langages
OWL (Ontology Web Language) et RDFS (Ressource Description Framework Schema) permettent de
dcrire une ontologie, "ensemble structur des termes et concepts fondant le sens d'un champ
d'informations" (http://fr.wikipedia.org/wiki/Ontologie_(informatique)). Le langage RDF (Ressource
Description Framework) permet de dcrire les ressources du web, identifies par une URI, avec les
ISICIL : Intgration Smantique de l'Information
par des Communauts d'Intelligence en Ligne
ANR-08-CORD-011-05
Document mis le : 20/07/2009
Rf : ISICIL-DOC-EA1-SNAetWS-20090720
Analyse des rseaux sociaux et web smantique: un tat de l'art Page 31 sur 44
proprits et concepts d'une ontologie, SPARQL en est le langage de requte. La structure de RDF
est un modle de graphe, sur lequel nous sommes intuitivement amens appliquer les techniques
d'analyses des rseaux sociaux lorsque les ressources dcrites incluent les internautes.
Reprsentation smantique d'un rseau social Avec le caractre toujours plus participatif du web, le paysage de la toile est dsormais le produit de
ses utilisateurs, devenus une des ressources majeures du web. En rponse ce phnomne social,
la communaut du web smantique propose des modles ontologiques pour reprsenter et
exploiter les profils des utilisateurs, leurs usages et leur rseau social.
L'initiative la plus clbre et la plus adopte est l'ontologie FOAF, Friend Of A Friend. Cette ontologie
dcrit "les personnes, les liens entre elles et ce qu'elles crent et font". Tout d'abord un large
ensemble de proprits reprsentent la plupart des concepts ncessaires la description d'un
profil. Par exemple "family_name", "nick" et "interest" permettent respectivement de dfinir le
nom de famille, le surnom et un intrt d'une personne. Ensuite la proprit "knows" est utilise
pour connecter les profils entre eux et ainsi former le rseau social des profils FOAF. Enfin FOAF
modlise les usages des utilisateurs avec des classes pour reprsenter les ressources manipules
(OnlineAccount, Document, Group) et des proprits pour les interactions des utilisateurs avec ces
ressources (holdsOnlineAccount, weblog, member).
Nous avons vu que si FOAF permet de dcrire prcisment les profils utilisateurs, la modlisation
des relations entre utilisateurs et les usages est elle trs large. Les bases proposes sont ainsi
tendues par plusieurs ontologies. L'ontologie RELATIONSHIP5 spcialise les relations dans le rseau
social en proposant un ensemble de proprits tendant la proprit "knows" de FOAF.
RELATIONSHIP modlise un grand nombre de liens entre les personnes comme les relations
familiales, amicales ou encore professionnelles. Les activits en lignes principalement modlises
dans l'ontologie FOAF par la classe "OnlineAccount" et la proprit "holdsOnlineAccount" sont
spcialises dans l'ontologie SIOC. SIOC dcrit "l'information contenue explicitement et
implicitement dans les moyens de communication d'internet". Pour cela, cette ontologie modlise
les concepts issus des applications sociales du web, tels que les "Posts" des forums. SIOC rutilise
au mieux les ontologies existantes et sest presque impose comme standard smantique pour
certaines applications ddies, la plus connue tant le moteur de blog WordPress
(http://wordpress.org). Ainsi, la gestion des proprits des documents utilise l'ontologie du Dublin
Core6 qui fournit notamment les proprits "title", "creator" et "subject". La gestion de l'articulation
des concepts manipuls au travers des usages est galement dlgue l'ontologie spcialise:
SKOS. Cette dernire offre la possibilit de dfinir les labels associs un concept avec les
proprits "prefLabel" et "altLabel", l'articulation entre ces concepts avec "narrower", "broader" et
5 http://vocab.org/relationship/
6 http://dublincore.org/
ISICIL : Intgration Smantique de l'Information
par des Communauts d'Intelligence en Ligne
ANR-08-CORD-011-05
Document mis le : 20/07/2009
Rf : ISICIL-DOC-EA1-SNAetWS-20090720
Analyse des rseaux sociaux et web smantique: un tat de l'art Page 32 sur 44
"related", mais aussi les liens avec les documents et la gestion des significations. La figure 10 illustre
l'articulation des ontologies SIOC, FOAF et SKOS.
Figure 10 : Exemple d'articulation des ontologies SIOC, FOAF et SKOS
Le social tagging consiste partager des ressources et les classifier avec des annotations sous
forme de tags. Le fruit du social tagging est une classification de ressources librement tablie par les
utilisateurs, appele folksonomie. L'adoption massive de cette pratique par les utilisateurs du
web2.0 et la classification propose par les folksonomies ont amen la communaut du web
smantique s'intresser de prs ces usages. Ainsi [Gruber 2005] pose les bases d'une ontologie
dcrivant les concepts essentiels d'une folksonomie. Il dfinit tout particulirement le noyau d'une
folksonomie, savoir l'action de "tagging" compose d'une ressource, d'un tag et d'un utilisateur.
[Knerr 2007] s'appuie sur cette base pour proposer une ontologie qui prend notamment en compte
la gestion de la vie prive et utilise FOAF pour modliser les acteurs. L'ensemble des tags manipuls
par une personne ou un groupe de personnes est appel un nuage de tags. Le nuage de tags est
l'une des alternatives pour naviguer au sein des ressources d'une folksonomie. L'ontologie SCOT
[Kim et al 2007] s'intresse de prs ces nuages de tags et commence s'imposer comme moyen
de "reprsenter la structure et la smantique des donnes du social tagging afin de les partager et
de les rutiliser". SCOT [Kim et al 2007] dans la suite de SIOC s'intgre parfaitement au sein du trio
ontologique FOAF, SIOC et SKOS (figure 11). L'initiative MOAT [Passant et al 2008], Mining Of A Tag,
complte cet ensemble ontologique en permettant de modliser la signification des tags. Enfin
[Limpens et al 2009] propose une ontologie pour modliser les points de vues des utilisateurs sur la
structuration des folksonomies en leur permettant de valider ou d'invalider des infrences
algorithmiques de liens smantiques.
ISICIL : Intgration Smantique de l'Information
par des Communauts d'Intelligence en Ligne
ANR-08-CORD-011-05
Document mis le : 20/07/2009
Rf : ISICIL-DOC-EA1-SNAetWS-20090720
Analyse des rseaux sociaux et web smantique: un tat de l'art Page 33 sur 44
Figure 8 : Articulation de SCOT avec FOAF, SIOC et SKOS
Dans la reprsentation smantique des personnes et des usages, il est important de mentionner les
microformats. Comme l'argumente [Khare and Celik 2006], cette initiative est importante dans la
marche en avant vers un web smantique qui doit passer par une smantique lgre avant
d'atteindre le but attendu par la communaut. Le principe des microformats est d'utiliser les
attributs de HTML de manire consensuelle dans l'optique d'ajouter de la smantique embarque
dans un document XHTML. Les rgles mises en place permettent de s'abstenir de l'usage