Isicil Anr Ea01 Snaetws 0906

Embed Size (px)

Citation preview

  • Analyse des rseaux sociaux et web

    smantique: un tat de l'art

    Emetteur Guillaume Erto ([email protected])

    Contributeurs Guillaume Erto, Fabien Gandon, Michel Buffa, Patrick Grohan

    Relecteurs Talel Abdessalem

    Date de livraison

    prvue

    T0+6: 2009/08/01

    Date de livraison 2009/07/20

    Workpackage T3. Social management of shared knowledge representations

    Delivrable T3.2 Analyse des rseaux sociaux et web smantique: un tat de l'art

    Rfrence ISICIL-DOC-EA1-SNAetWS-20090720

    Version 0.2

    Destinataires Membres ISICIL

    Projet ISICIL :

    Intgration Smantique de l'Information

    par des Communauts d'Intelligence en Ligne

    Appel ANR CONTINT 2008

    ANR-08-CORD-011-05

  • ISICIL : Intgration Smantique de l'Information

    par des Communauts d'Intelligence en Ligne

    ANR-08-CORD-011-05

    Document mis le : 20/07/2009

    Rf : ISICIL-DOC-EA1-SNAetWS-20090720

    Analyse des rseaux sociaux et web smantique: un tat de l'art Page 2 sur 44

    Sommaire

    1. Reprsentation d'un rseau social : .......................................................................................4

    2. Indicateurs et Algorithmes .....................................................................................................9

    a) Indicateurs ..............................................................................................................................9

    b) Algorithmes ..........................................................................................................................15

    c) Conclusion partielle ..............................................................................................................25

    3. Les rseaux sociaux en ligne.................................................................................................25

    d) Web 1 et web 2.....................................................................................................................26

    e) Web smantique ..................................................................................................................30

    4. Analyse smantique des rseaux sociaux ............................................................................36

    5. Conclusion et discussion.......................................................................................................37

  • ISICIL : Intgration Smantique de l'Information

    par des Communauts d'Intelligence en Ligne

    ANR-08-CORD-011-05

    Document mis le : 20/07/2009

    Rf : ISICIL-DOC-EA1-SNAetWS-20090720

    Analyse des rseaux sociaux et web smantique: un tat de l'art Page 3 sur 44

    A. Objet du document

    Ce document constitue le premier rsultat d'une thse ralise conjointement au sein du

    laboratoire BIZZ/MUSE et rattache l'objet de recherche Health Care and Vertical Application et

    au sein de lquipe Edelweiss de lINRIA de Sophia Antipolis.

    Cette thse constitue aussi une contribution au projet ANR ISICIL qui a pour thme l'Intgration

    Smantique de l'Information par des Communauts d'Intelligence en Ligne dont l'un des objectifs

    est de montrer que non seulement les approches WEB2.0 peuvent bnficier des apports des

    plateformes du WEB smantique mais qu'elles peuvent rellement tre amliores grce

    l'introduction, dans les interactions avec un utilisateur, d'un comportement intelligent produit par

    des infrences additionnelles. Grce aux rsultats attendus par le projet, on se propose de jeter un

    pont entre le WEB 2.0 et le WEB smantique, d'adopter la modlisation ontologique pour

    reprsenter des rseaux sociaux, et de fournir une meilleure utilisabilit du WEB 2.0 par des

    entreprises.

    Dans ce cadre d'tude, notre travail de recherche se focalise sur l'utilisation de modles

    ontologiques pour reprsenter et analyser les rseaux sociaux. Un des objectifs scientifiques est

    d'amliorer l'analyse des rseaux sociaux en ralisant des infrences sur des graphes reprsentatifs

    de ces rseaux grce l'utilisation d'ontologies ddies. Cette nouvelle fonctionnalit va permettre

    dans un premier temps de dtecter plus facilement des communauts d'intrts et dans un second

    temps, grce la conception d'algorithmes adapts permettant de suivre l'activit de ces

    communauts, de concevoir des services valeur ajoute grce aux connaissances acquises dans

    l'tape d'analyse.

    L'tat de l'art prsent concerne les techniques classiques d'analyse des rseaux sociaux et

    l'utilisation des technologies du web smantique pour modliser les interactions en ligne. La

    premire partie prsente la dmarche qui consiste utiliser le modle de graphe pour reprsenter

    un rseau social. On rappelle un certain nombre de dfinitions qui formalisent les notions

    manipules par la thorie des graphes. Dans la seconde partie on prsente, d'une part, un certain

    nombre d'indicateurs (densit, centralit, cycle) destins caractriser la structure d'un rseau

    social et d'autre part un ensemble d'algorithmes qui peuvent tre hirarchiques (agglomratifs ou

    sparatifs) ou non hirarchiques ( base d'heuristiques) et qui vont permettre de dcouper le

    graphe en un certain nombre de clusters. Dans la troisime partie, on s'attache fournir une

    manire de reprsenter smantiquement un rseau social au travers d'un ensemble d'ontologies

    telles que SIOC,1 FOAF

    2 , SKOS

    3 et SKOT

    4. La dernire partie prsente une architecture permettant

    1 SIOC Semantically-Interlinked Online Communities

    2 FOAF Friend of a Friend

    3 SKOS Simple Knowledge Organisation System

    4 SKOT Social Semantic Cloud of Tags

  • ISICIL : Intgration Smantique de l'Information

    par des Communauts d'Intelligence en Ligne

    ANR-08-CORD-011-05

    Document mis le : 20/07/2009

    Rf : ISICIL-DOC-EA1-SNAetWS-20090720

    Analyse des rseaux sociaux et web smantique: un tat de l'art Page 4 sur 44

    d'exploiter le meilleur de ces deux approches en s'orientant vers une analyse smantique des

    rseaux sociaux.

    B. Analyses des rseaux sociaux et web smantique : un

    tat de l'art

    Les interactions des utilisateurs au travers des usages du web 2.0 amnent la communaut

    scientifique rflchir sur les moyens de capter ces usages pour y appliquer les techniques

    d'analyse des rseaux sociaux. Les applications bien connues l'origine de l'mergence du web 2.0

    sont les blogs, les wikis (ex : wikipedia), les services de social bookmarking (ex : del.ico.us), les sites

    de partages de mdias (ex : youtube, flickr) et bien sr les sites de rseaux sociaux (ex : facebook,

    LinkedIn). Ces applications ont considrablement accru la participation, les interactions et le partage

    entre les utilisateurs du web. L'analyse et la comprhension de tels rseaux sociaux suscitent de vifs

    intrts au sein de plusieurs communauts scientifiques.

    Le web smantique fournit des formalismes pour la reprsentation smantique des personnes et de

    leurs usages sur le web. L'ontologie FOAF dcrit "les personnes, les liens entre elles, ce qu'elles

    crent et ce quelles font". L'ontologie SIOC dcrit "l'information contenue explicitement et

    implicitement dans les moyens de communication d'internet" comme, par exemple, les blogs.

    Gruber propose une ontologie des folksonomies [Gruber 2005] et l'ontologie SCOT est un moyen de

    "reprsenter la structure et la smantique des donnes du social tagging afin de les partager et de

    les rutiliser". Les ontologies SKOS (reprsentation de thsaurus et autres ressources linguistiques)

    et MOAT [Passant et al 2008] (dsambigisation des tags) sont quant elles souvent utilises pour

    modliser la signification des tags.

    En regard de ces moyens de reprsentation il existe un certain nombre de propositions dutilisation

    des mthodes d'analyse des rseaux sociaux pour extraire des informations, comme la construction

    de rseaux d'accointances ou la dtection de communauts d'intrt. La plupart de ces mthodes

    d'analyses sont bases sur la thorie des graphes. Par exemple, [Mika 2005] exploite les

    folksonomies en utilisant la thorie des graphes afin d'identifier des champs smantiques et des

    communauts d'intrt. L'approche de [Paolillo et al 2006] utilise une base d'annotations FOAF

    pour identifier des communauts d'intrt. D'autres chercheurs [Anyanwu et al 2007] [Kochut et al

    2007] [Alkhateeb et al 2007] [Corby 2008] ont tendu des outils SPARQLafin d'extraire des chemins

    entre des ressources smantiquement lies dans les graphes RDF, fournissant ainsi une base pour

    une reprsentation et une analyse smantique d'un rseau social.

    1. Reprsentation d'un rseau social

    La premire personne avoir reprsent un rseau social est Jacob Levy Moreno au

    dbut des annes 1930 [Moreno, 1933]. Son objectif tant de visualiser graphiquement un

    rseau social, il a reprsent les personnes par des points et une relation entre deux personnes

  • ISICIL : Intgration Smantique de l'Information

    par des Communauts d'Intelligence en Ligne

    ANR-08-CORD-011-05

    Document mis le : 20/07/2009

    Rf : ISICIL-DOC-EA1-SNAetWS-20090720

    Analyse des rseaux sociaux et web smantique: un tat de l'art Page 5 sur 44

    par des flches. Cette reprsentation est depuis dsigne par le terme sociogramme, mais on

    parlait galement de toiles en raison de leur aspect en toile d'araigne. Cette forme de

    visualisation, aussi peu innovante qu'elle puisse paratre de nos jours, fut un premier outil

    d'identification rapide des caractristiques d'un rseau social. Moreno a ainsi introduit le

    concept d'toile pour dsigner les personnes ayant le plus de relations dans un rseau social, en

    rfrence l'toile forme par un point et ses connections.

    Les mathmaticiens ont rapidement fait le rapprochement entre les reprsentations sociogrammes

    et la thorie des graphes au sens mathmatique. [Scott 2000] passe en revue l'volution de la

    reprsentation des rseaux sociaux . Au milieu du vingtime sicle, Cartwright et Harary sont les

    premiers avoir appliqu la thorie des graphes l'analyse des rseaux sociaux. Le graphe est

    devenu par la suite la reprsentation adopte par toutes les sciences manipulant l'analyse des

    rseaux sociaux, dont la sociologie, les mathmatiques et l'informatique. Les dfinitions suivantes

    listes quelques notions manipules par la thorie des graphes pour les rseaux sociaux:

    Un sommet est l'unit de base d'un rseau, il en reprsente une ressource. Dans un rseau

    social on parle d'acteur. Le terme nud est galement utilis pour dsigner un sommet.

    Une arte est une connexion entre deux sommets. On parle galement d'arc ou de lien.

    Une hyperarte (hyperedge) est une arte qui connecte 2 ou plusieurs sommets.

    Une arte est oriente si elle ne s'utilise que dans une seule direction. Inversement, on parle

    d'arte non oriente pour une arte qui s'utilise dans les deux directions.

    Une arte est pondre lorsqu'on lui attribue un poids.

    Une arte est tiquete lorsqu'on lui attribue un label.

    Un graphe est dfini par un ensemble de sommets et un ensemble d'artes.

    Un hypergraphe est dfine par un ensemble de sommets et un ensemble d'hyperarte.

    [Berge 1985]

    Un graphe orient dsigne un graphe avec des artes orientes.

    Un graphe pondr dsigne un graphe avec des artes pondres.

    Un graphe tiquett dsigne un graphe avec des artes tiqute.

    Un graphe multipartite dsigne un graphe avec des sommets de types diffrents.

    Le degr d'un sommet est le nombre de ses artes adjacentes.

    Un chemin est une squence d'artes qui relie deux sommets.

    Un chemin orient est une squence d'artes qui relie deux sommets en respectant

    lorientation du parcours chaque arrte.

    Une godsique est l'un des plus courts chemins entre deux sommets donns.

    Le diamtre d'un graphe est le plus long chemin godsique de ce graphe.

    Un graphe est complet lorsqu'il existe une arte entre toute paire de sommets.

    Un graphe est dit connexe lorsqu'il existe un chemin entre toute paire de sommets.

    Nous utiliserons la notation suivante pour la suite de ce document :

    Nous notons un graphe G = (V, E) avec V l'ensemble des sommets, E l'ensemble des artes,

    n=|V| et le nombre de sommets et m=|E| et le nombre darrtes.

    Un sous graphe de G est not G' = (V', E') avec V' V, E' E et restreint des arrtes reliant

    des sommets de V, n'=|V'| et m'=|E'|.

  • ISICIL : Intgration Smantique de l'Information

    par des Communauts d'Intelligence en Ligne

    ANR-08-CORD-011-05

    Document mis le : 20/07/2009

    Rf : ISICIL-DOC-EA1-SNAetWS-20090720

    Analyse des rseaux sociaux et web smantique: un tat de l'art Page 6 sur 44

    vi dsigne le ime

    sommet.

    (vi,vj) dsigne une arte entre les sommets vi et vj.

    Le degr d'un sommet vi est not ki.

    dij reprsente la longueur d'une godsique entre les sommets vi et vj. La moyenne des

    godsiques est note l.

    Les graphes non orients sont adapts pour les rseaux sociaux avec des relations non orients. Les

    graphes orients sont adapts pour reprsenter des relations non symtriques comme les rseaux

    de confiance par exemple. Les graphes pondrs sont adapts aux rseaux sociaux qui contiennent

    diffrents niveau d'intensits dans les relations. Les graphes tiquets permettent de reprsenter

    diffrents types de relations.Les graphes multipartites sont adapts pour des rseaux sociaux

    incluant diffrent types de ressources manipules par les acteurs et qui sont le support

    d'intractions.

    Nous prendrons comme exemple, le clbre rseau d'amis du club de karat de Zachary en 1977,

    reprsent par un graphe non orient, non pondr et non tiquet(Figure 1). Ce club a t scind

    en deux clubs, les membres du premier sont reprsents par des sommets ronds et blancs, les

    membres du deuxime sont reprsents par des sommets carrs et griss.

    Figure 1 : Le club de karat de Zachary s'est divis en deux clubs, les membres du premier club sont

    reprsents par des ronds blancs et les membres du second par des carrs griss.

    La matrice est l'objet mathmatique le plus utilis pour manipuler ces concepts, mais des approches

    ensemblistes ont aussi tait proposes [Scott 2000].

    On distingue deux types de matrices dans un rseau social, les matrices d'incidence (figure 2) et les

    matrices d'adjacence. On parle de matrice d'adjacence lorsqu'on a les mmes ressources en ligne et

    en colonne, on obtient ainsi une matrice carre avec la ligne i et la colonne i reprsentant la mme

  • ISICIL : Intgration Smantique de l'Information

    par des Communauts d'Intelligence en Ligne

    ANR-08-CORD-011-05

    Document mis le : 20/07/2009

    Rf : ISICIL-DOC-EA1-SNAetWS-20090720

    Analyse des rseaux sociaux et web smantique: un tat de l'art Page 7 sur 44

    ressource. Un graphe peut ainsi tre reprsent sous la forme d'une matrice M n lignes et n

    colonnes reprsentant un tableau. Chaque case de ce tableau est note aij avec i et j les numros

    respectifs de ligne et de colonne de la case. La valeur contenue dans la case aij est le poids de la

    relation entre les ressources vi et vj (gal 1 dans le cas d'un graphe non pondr), 0 correspond

    une absence de relation.

    Les matrices d'incidence contiennent deux types de ressources, les lignes reprsentent un type et

    les colonnes un autre type. Une matrice d'incidence est convertible en deux matrices d'adjacence

    reprsentant chacune les ressources des lignes et des colonnes (figures 3 et 4), les valeurs des cases

    contiennent les points communs entre les ressources correspondantes dans la matrice d'incidence,

    aii n'ayant pas de valeur.

    Projet1 Projet2 Projet3 Projet4

    Employ1 1 1 1 0

    Employe2 1 0 0 0

    Employe3 1 1 1 1

    Employe4 0 0 1 1

    Figure 2: Exemple de matrice d'incidence indiquant sur quel projet travaille chaque employ

    Employe1 Employe2 Employe3 Employe4

    Employe1 - 1 3 1

    Employe2 1 - 1 0

    Employe3 3 1 - 2

    Employe4 1 0 2 -

    Figure 3: Matrice d'adjacence des employs dduite de la figure 2, chaque case reprsente le nombre de

    projets partags entre les employs correspondants

    Projet 1 Projet 2 Projet 3 Projet 4

    Projet 1 - 2 2 1

  • ISICIL : Intgration Smantique de l'Information

    par des Communauts d'Intelligence en Ligne

    ANR-08-CORD-011-05

    Document mis le : 20/07/2009

    Rf : ISICIL-DOC-EA1-SNAetWS-20090720

    Analyse des rseaux sociaux et web smantique: un tat de l'art Page 8 sur 44

    Projet 2 2 - 2 1

    Projet 3 2 2 - 2

    Projet 4 1 1 2 -

    Figure 4: Matrice d'adjacence des projets dduite de la figure 2, chaque case reprsente le nombre

    demploys partags entre les projets correspondants

    V1 V2 V3 V4 V5 V6 V7

    V1 - 1 1 1 1 1 1

    V2 1 - 1 1 0 0 0

    V3 1 1 - 1 0 0 0

    V4 1 1 1 - 0 0 0

    V5 1 0 0 0 - 0 1

    V6 1 0 0 0 0 - 1

    V7 1 0 0 0 1 1 -

    Figure 5 : Extrait de la matrice d'adjacence du rseau social du club de karat de Zachary, chaque

    case prcise s'il existe une arte entre les deux sommets (valeur 1) ou pas (valeur 0)

    La figure 5 permet de visualiser la matrice d'adjacence du club de karat de ZAKARY (figure 1)

    Un graphe peut tre galement reprsent par une matrice de Laplace qui se diffrencie par la

    valeur contenue dans ses cases (ki dsigne le degr du nud vi) :

    =

    =

    autrement

    Evvetjisijisik

    a ji

    i

    ij

    0 1

    ),(

  • ISICIL : Intgration Smantique de l'Information

    par des Communauts d'Intelligence en Ligne

    ANR-08-CORD-011-05

    Document mis le : 20/07/2009

    Rf : ISICIL-DOC-EA1-SNAetWS-20090720

    Analyse des rseaux sociaux et web smantique: un tat de l'art Page 9 sur 44

    2. Indicateurs et Algorithmes

    a) Indicateurs

    La Densit indique la quantit de liens au sein d'un rseau et permet de dfinir la

    cohsion d'un rseau social. Selon [Scott 2000] cette mesure peut-tre utilise dans l'optique d'une

    analyse socio-centre ou gocentre Une analyse centre sur l'individu consiste mesurer la

    densit des liens autour d'un nud donn. Une telle analyse montre notamment l'influence du

    nud analys sur la densit du sous graphe auquel il appartient avec ses voisins. Une analyse socio-

    centre considre la densit sur l'ensemble du graphe et mesure la contrainte du rseau sur ses

    membres. Le calcul de la densit est relatif au nombre maximal de lignes que peut contenir un

    graphe. Or, ce nombre maximal est lui-mme fonction de la taille du graphe, ainsi toute

    comparaison de densit entre graphes ne fournit aucun rsultat significatif. [Scott 2000] proposent

    une approche intressante dans le calcul du nombre maximal de connexions dans un rseau social.

    En effet, la gestion de relations sociales est consommatrice en temps, ainsi le temps limite le

    nombre de contacts qu'une personne peut conserver et plus un rseau social est grand, moins la

    densit est leve. [Dunbar 1998] argumente le cot cognitif inhrent l'entretien de relations

    sociales. La densit varie galement en fonction du type de relations considres dans un rseau

    social, un rseau bas sur des relations amoureuses est beaucoup moins dense qu'un rseau de

    relations professionnelles notamment en raison des caractristiques des liens (ex : nature exclusive,

    diffrence de temps ou de ressources requis pour l'entretien, etc.). Ainsi le typage des relations

    dans un rseau social permettrait de paramtrer la densit, par exemple une densit est maximale

    pour un sommet ayant une relation, ds lors qu'on considre le sous graphe d'une relation

    exclusive.

    La centralit d'un rseau social a t largement discute. La problmatique est de dfinir ce qui

    rend un nud plus central qu'un autre, on parle alors de centralit locale. Plusieurs approches ont

    t considres. [Freeman, 1979] reprend l'ensemble de ces approches et en extrait trois

    principales.

    La premire approche appele centralit de degr [Nieminem 1974], considre comme centraux les

    nuds qui possdent les degrs les plus levs du graphe. En effet, ces nuds suscitent un grand

    intrt, sont trs visibles, et ont un potentiel lev faire circuler l'information, par leur forte

    connectivit aux autres lments du rseau. [Scott J. 2000] propose d'tendre la notion de degr

    des distances variables, en considrant par exemple tous les voisins une distance infrieure ou

    gale deux.

    La centralit d'intermdiarit [Freeman, 1979] se concentre sur la capacit d'un nud servir

    d'intermdiaire dans un graphe. Un nud situ sur un chemin godsique possde une position

    stratgique dans la cohsion d'un rseau et dans la circulation de l'information, d'autant plus si ce

    chemin est unique. Par exemple, un nud situ sur l'unique chemin reliant deux ensembles

  • ISICIL : Intgration Smantique de l'Information

    par des Communauts d'Intelligence en Ligne

    ANR-08-CORD-011-05

    Document mis le : 20/07/2009

    Rf : ISICIL-DOC-EA1-SNAetWS-20090720

    Analyse des rseaux sociaux et web smantique: un tat de l'art Page 10 sur 44

    connects de nuds possde un fort contrle sur la communication de ces deux groupes. Plus un

    nud est intermdiaire, plus le rseau est dpendant de lui et plus il a de pouvoir.

    Enfin, la centralit de proximit [Freeman, 1979] mesure la centralit d'un nud en se basant sur la

    taille des chemins qui le lient aux autres nuds. Cette mesure reprsente la capacit d'un nud

    se connecter rapidement avec les autres nuds du rseau.

    Dans le rseau social du club de karat de Zachary (figure 1), les sommets 1, 33 et 34 possdent des

    degrs bien suprieurs au reste du rseau et sont les plus centraux en termes de centralit de degr

    et de proximit. Toutefois on constate que les sommets 3, 9, 14, 20, 31 et 32 sont les plus centraux

    en termes d'intermdiarit, leur absence ou la rupture de leurs liens avec un des deux clubs

    couperait le rseau en deux groupes

    [Freeman, 1979] explicite comment valuer le caractre centralis de la structure d'un rseau

    social. Cette mesure est base sur les 3 approches explicites prcdemment. La centralit globale,

    ou centralisation, d'un rseau social est calcule partir des centralits locales des sommets.

    L'indice de centralit locale choisi dtermine le sens de la centralit globale. Le calcul de la

    centralisation dpend de la dfinition de centralit locale que l'on considre, savoir si on

    considre la centralit comme le contrle, l'indpendance ou l'activit. En considrant une

    centralit locale de degr, le calcul de la centralit globale permet d'tablir les points dominants, les

    centres d'intrts, dans un rseau social, savoir une activit concentre autour de certaines

    ressources. Une mesure de la centralisation d'un rseau social, partir des centralits locales

    d'intermdiarit, fournit un indice de la dpendance de l'efficacit de ce rseau par rapport

    certains nuds. Enfin une mesure de la centralit globale d'un rseau, base sur une centralit

    locale de proximit, permet de mesurer la performance de la communication dans ce rseau,

    notamment pour la circulation d'informations.

    Pour chacun de ces indices de calcul de centralit locale et globale, Freeman propose une mthode

    de calcul dpendante de la taille du rseau social et une mesure indpendante permettant de

    comparer des rseaux sociaux.

    Toutefois, [Freeman, 1979] ne considre que les graphes non orients. Or dans un

    rseau social, l'orientation des relations contient elle seule beaucoup de

    smantique. Par exemple, pour analyser la propagation d'informations dans un

    rseau, l'orientation des arcs est primordiale, pour acheminer une information d'un

    point A un point B, les chemins allant uniquement de B A ne sont pas prendre en

    compte.

    La prise en compte de la direction des relations nous amne la notion de prestige, qui partir de

    l'orientation des arcs d'un sommet montre son positionnement par rapport ses voisins. On

    dtermine deux types de prestiges suivant que l'on considre les arcs entrants ou sortants. Un arc

    entrant est considr comme support pour le nud cible alors qu'un arc sortant reprsente une

  • ISICIL : Intgration Smantique de l'Information

    par des Communauts d'Intelligence en Ligne

    ANR-08-CORD-011-05

    Document mis le : 20/07/2009

    Rf : ISICIL-DOC-EA1-SNAetWS-20090720

    Analyse des rseaux sociaux et web smantique: un tat de l'art Page 11 sur 44

    influence de la part de ce nud. Les trois mesures de centralit voques prcdemment sont donc

    nuances si l'on prend en compte l'orientation des arcs.

    La centralit de degr mesurera le support ou l'influence de l'activit des nuds.

    La notion de centralit d'intermdiarit reste la mme, mais son calcul est lgrement modifi car

    l'orientation des arcs doit tre considre pour prendre en compte le sens de circulation de

    l'information.

    La centralit de proximit value la capacit d'un nud atteindre un autre nud ou tre atteint

    par un autre nud.

    [Scott 2000] aborde une approche intressante en argumentant qu'un calcul de centralit d'un

    sommet doit prendre en compte la centralit des sommets adjacents. En effet, un point proche d'un

    point ayant une centralit leve profite d'une partie de l'avantage offert par cette position. La

    centralit d'un sommet est ainsi gale la somme de ses connections, pondre par la centralit de

    chacun des sommets correspondants.

    D'autres approches se sont concentres sur la centralit gocentre, qui dtermine l'influence d'un

    nud par rapport son voisinage. Cette approche est considre plus en profondeur par [Everett et

    Borgatti 2005] qui dmontre une corrlation entre la centralit et l'go-centralit d'un sommet.

    En relation avec la centralit locale d'intermdiarit, [Burt 1992] introduit la notion de trou

    structural qu'il dfinit comme une sparation entre deux contacts non-redondants. Des contacts

    sont redondants lorsqu'ils sont en contact direct ou qu'ils appartiennent un mme sous-groupe de

    contacts. Il argumente qu'un trou structural possde un bnfice informationnel. Les trous

    structuraux offrent deux atouts majeurs aux personnes contrlant ces trous. Tout d'abord, ils

    offrent un bnfice informationnel, en permettant un accs rapide des informations non

    redondantes. L'information entre contacts redondants est gnralement partage, l'apport de

    nouvelles informations dans un groupe cohrent provient donc de l'extrieur et les trous

    structuraux sont les canaux de circulation de cette information. Ainsi, les contacts les plus proches

    des trous structuraux sont mieux informs et plus rapidement. Ensuite les personnes qui contrlent

    les trous structuraux possdent un avantage sur le contrle de cette information et peuvent en tirer

    le meilleur profit par leur pouvoir d'intermdiarit. Dans [Burt 2004], Burt dmontre que les

    personnes proches des trous structuraux sont les plus susceptibles d'avoir des "bonnes ides", grce

    au bnfice informationnel apports par les trous structuraux.

    L'ensemble de ces notions nous amne la rsistance d'un rseau social au retrait de sommets ou

    d'artes (dpart dune ressource, suppression d'une relation). [Newman 2003] nous offre un aperu

    des travaux concernant cette notion. Nous avons vu prcdemment que la mesure de la

    centralisation d'un rseau montre la dpendance d'un rseau par rapport ses sommets. Cette

    dpendance peut galement tre mesure par l'impact du retrait d'un sommet ou d'une arte sur la

    connectivit du rseau. En effet, le retrait d'un nud ou d'une arte stratgique, par exemple un

    nud ayant une forte centralit d'intermdiarit ou de proximit, peut augmenter la longueur du

  • ISICIL : Intgration Smantique de l'Information

    par des Communauts d'Intelligence en Ligne

    ANR-08-CORD-011-05

    Document mis le : 20/07/2009

    Rf : ISICIL-DOC-EA1-SNAetWS-20090720

    Analyse des rseaux sociaux et web smantique: un tat de l'art Page 12 sur 44

    plus court chemin entre de nombreux autres nuds voir scinder un rseau en deux ou plusieurs

    rseaux non relis. Cette mesure s'effectue sur deux types de retraits possibles, des retraits

    alatoires et des retraits cibls. En gnral, les structures des rseaux sociaux sont assez rsistantes

    des retraits alatoires de sommets ou d'artes alors qu'un retrait cibl peut affecter srieusement

    ces structures. Par exemple, le retrait d'un pont entre deux groupes de sommets fortement

    connects rduit considrablement voire coupe la communication entre ces deux groupes. [Holme

    et al 2002] rappellent l'ensemble des stratgies possibles d'attaque de rseaux cibles sur les

    sommets stratgiques et tend ces stratgies des attaques bases sur les artes.

    L'extension de ces stratgies aux artes a amen [Holme et al 2002] tendre les notions de degr

    et d'intermdiarit des artes. Le degr d'une arte est relatif au degr des sommets (min, max,

    somme ou produit) qu'elle relie alors que l'intermdiarit d'une arte est tout comme

    l'intermdiarit d'un sommet relative aux chemins godsiques sur lesquels elle se trouve.

    L'adaptation de la dfinition de degr et de l'intermdiarit des sommets aux artes est alors

    utilise pour appliquer la centralit aux artes. Ainsi, les stratgies d'attaques numres dans cet

    article consistent retirer itrativement les nuds (resp. artes) les plus centraux en termes de

    degr ou d'intermdiarit, en recalculant ou non les centralits chaque itration.

    Dtection de communauts Nous avons parl de groupes, de rseaux de contacts redondants, il est maintenant ncessaire de

    dfinir la notion de cohsion dans un groupe qui a aussi t largement discute et qui est

    fortement lie aux notions prcdentes. Par exemple, la dtection de communauts permet, entre

    autres, de dtecter les communauts non connectes et donc les trous structuraux. En connaissant

    les groupes fortement connects, on peut aussi facilement dduire les sommets les plus

    intermdiaires.

    En plus de son lien troit avec les notions prcdemment mentionnes et tout particulirement la

    centralit d'intermdiarit, la dtection de communaut suscite d'autres intrts. Dans un rseau

    social, la dtection des communauts permet de dterminer la rpartition des acteurs et des

    activits. Dans l'laboration de sa thorie sur les trous structuraux, Burt dfinie la contrainte de

    rseau qui est une mesure de la redondance des contacts d'une personne. Plus les contacts d'une

    personne sont relis entre eux, plus le comportement de cette personne est contraint par le rseau.

    Cette notion se rapproche de la notion de fermeture de rseau, argumente par [Coleman 1988],

    qu'il dfinit comme un rseau dense o tous les nuds sont connects de manire connatre

    l'information dtenue par chacun. [Burt 2001] explique comment la redondance des contacts

    facilite la fois la sanction et la confiance. En effet, au sein d'un tel rseau, ou sous-rseau, les

    erreurs d'une personne se propagent rapidement jusqu' ses contacts directs, augmentant ainsi la

    probabilit de sanction envers cette personne. Une sanction possible est notamment l'isolement

    dans le rseau, par la perte de confiance. La facilitation de la sanction tend viter la diffusion de

    mauvaises informations et les mauvais comportements, diminuant ainsi le risque d'accorder sa

  • ISICIL : Intgration Smantique de l'Information

    par des Communauts d'Intelligence en Ligne

    ANR-08-CORD-011-05

    Document mis le : 20/07/2009

    Rf : ISICIL-DOC-EA1-SNAetWS-20090720

    Analyse des rseaux sociaux et web smantique: un tat de l'art Page 13 sur 44

    confiance tort. De plus les chemins entre les personnes tant rduits, la perte de qualit dans la

    transmission de l'information est minimise. Dans un but ducatif ou en entreprise, l'analyse du

    rseau social form par un ensemble de personnes permet de former des groupes de travail

    productifs et d'amliorer la communication.

    [Scott 2000] identifie trois structures principales de groupes fortement connects: les composants,

    les cliques et les cycles. La premire structure aborde par Scott est le composant. Un composant

    est un ensemble de nuds connects entre eux par un ou plusieurs chemins avec aucun lien vers

    d'autres nuds l'extrieur du composant. Un composant fort est un composant dont les chemins

    ne contiennent pas de changement de direction. Un composant faible ne tient pas compte des

    directions des connexions, seule la prsence de liens est prise en compte.

    Ensuite, [Scott 2000] traite les cliques et les diffrentes variantes proposes. Une clique est un sous-

    graphe complet d'un rseau, savoir un ensemble de nuds deux deux connects. Cette

    dfinition manque de souplesse et quelques dfinitions en proposent des variantes. Une n-clique

    est un ensemble de nuds relis entre eux par des chemins de longueur maximale n. Toutefois les

    chemins reliant les sommets d'une n-clique peuvent contenir des sommets exclus de cette clique.

    Un n-clan est une restriction de la dfinition de n-clique, c'est un ensemble de nuds tous relis

    entre eux par des chemins de longueur maximale n et formant un sous graphe d'un diamtre

    infrieur ou gal n. La figure 6 illustre la diffrence entre une n-clique et un n-clan. Un k-plex est

    un graphe dont tous les sommets sont relis tous les autres sommets sauf k.

    Figure 6 : Pierre, Paul, Jacques, Carmen et Yvonne forment une 2-clique et un 3-clan. L'unique godsique entre Yvonne et Jacques est de longueur 2 et passe par Grard.

    Enfin la dernire structure que mentionne [Scott 2000] est le cycle. Un cycle est un chemin qui revient son point d'origine. Encore une fois, un cycle fort est un chemin qui ne contient pas de changements de direction alors que la dfinition d'un cycle faible le permet. Les cycles de longueur

  • ISICIL : Intgration Smantique de l'Information

    par des Communauts d'Intelligence en Ligne

    ANR-08-CORD-011-05

    Document mis le : 20/07/2009

    Rf : ISICIL-DOC-EA1-SNAetWS-20090720

    Analyse des rseaux sociaux et web smantique: un tat de l'art Page 14 sur 44

    trois sont appels triades. Les rseaux sociaux ont une forte tendance au clustering, savoir que deux sommets relis un mme nud ont une forte probabilit d'tre lis entre eux. Cette tendance au clustering est value par un coefficient de clustering qui est pour un rseau donn le rapport du nombre de triades sur le nombre maximum de triades possibles pour ce rseau soit :

    TRIPLETSTRIADES3

    avec |TRIADES| et |TRIPLETS| les nombres de triades et de triplets de sommets connects du rseau. Les triplets connects du rseau sont les nuds contenus sur les chemins de longueur deux. Le coefficient de clustering d'un sommet est de la mme manire dfini par :

    TRIPLETSiTRIADESi

    Ci =

    avec |TRIADESi| et |TRIPLETSi| le nombre de triades et de tripls connects contenant le sommet i. On peut ainsi calculer alternativement le coefficient de clustering du rseau partir des valeurs locales:

    i

    Cin

    1.

    Toujours en relation avec la notion de cycle, Scott introduit les composants cycliques. Un composant cyclique est constitu de cycles qui ne se chevauchent pas et qui sont relis entre eux par des ponts.

    Nous noterons galement les LS-SET qui sont des sous-ensembles de sommets S tels que tout sous-ensemble propre de S (sous ensemble de S diffrent de S) a plus de liens vers son complment dans S que vers l'extrieur de S.

    Ces dfinitions sont toutefois trop thoriques et ne correspondent pas la structure des

    communauts contenues dans les rseaux sociaux rels. Par exemples, dans le rseau social du club

    de karat de Zachary, on distingue clairement de manire visuelle deux groupes, et aucun ne

    possde strictement les proprits mentionnes prcdemment. De ce fait des notions plus larges

    ont t prises en compte pour la dtection de communauts dans les rseaux sociaux. Ces notions

    sont abordes dans la partie algorithmique.

    Structure d'un rseau social [Newman 2003] et [Mika 2007] rappellent les caractristiques relatives la structure des rseaux

    sociaux. La principale caractristique est l'effet de petit monde issu de la clbre exprience de

    [Milgram 1967]. Ainsi toute personne dans un rseau social est connecte toute autre personne

    par un chemin de courte distance. Le plus court chemin entre deux sommets dans un rseau social

    de taille n est de l'ordre de log(n). Ainsi lorsque la taille du rseau augmente, la longueur des plus

    courts chemins n'augmente que trs peu. De plus les membres de ce rseau possdent la facult de

  • ISICIL : Intgration Smantique de l'Information

    par des Communauts d'Intelligence en Ligne

    ANR-08-CORD-011-05

    Document mis le : 20/07/2009

    Rf : ISICIL-DOC-EA1-SNAetWS-20090720

    Analyse des rseaux sociaux et web smantique: un tat de l'art Page 15 sur 44

    trouver facilement ces plus courts chemins [Newman 2003]. Une autre caractristique est issue de

    la tendance de l'homme se socialiser en groupe ce qui donne aux rseaux sociaux une forte

    tendance au clustering et une structure en communauts. Si un sommet A est connect un

    sommet B et que ce sommet B est connect un sommet C, alors A et C ont une forte probabilit

    d'tre galement connects, on parle aussi de transitivit. On arrive ainsi une structure en

    communaut, savoir des groupes de sommets avec une forte densit d'artes et relis entre eux

    par des ponts. Cette socialisation s'effectue avec une tendance l'affiliation entre des nuds ayant

    des proprits quasi-quivalentes. On constate galement que la distribution des degrs suit une

    loi de puissance, savoir que plus on considre un degr lev, plus le nombre de sommets qui ont

    ce degr dans un mme rseau est faible. La figure 7 montre la rpartition des degrs dans le

    rseau social du club de karat du club de Zachari (figure 1).

    02468

    1012

    2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17degr

    no

    mbr

    e d'

    acte

    urs

    Figure 7: rpartition des degrs du club de karat de Zachary

    b) Algorithmes

    Nous avons vu prcdemment que les principaux indices fournissant des informations importantes

    sur la structure et l'aspect fonctionnel d'un rseau social sont la centralit, la rpartition des degrs,

    la circulation/qualit de l'information, la rsistance du rseau et la dtection des communauts.

    L'valuation de ces indices passe tout d'abord par le calcul des paramtres de base que sont: le

    degr d'un nud, les godsiques, la densit, la dtection des clusters. En effet, les calculs qui

    permettent d'valuer la centralit sont lis au degr et aux godsiques. La rpartition des degrs

    est par dfinition dpendante du calcul du degr des nuds, l'instar du calcul du diamtre et des

    godsiques.

    Les Algorithmes de clustering Les algorithmes de clustering sont utiliss afin de dtecter ces communauts afin d'obtenir une vue

    globale d'un rseau social.

    Algorithmes hirarchiques

  • ISICIL : Intgration Smantique de l'Information

    par des Communauts d'Intelligence en Ligne

    ANR-08-CORD-011-05

    Document mis le : 20/07/2009

    Rf : ISICIL-DOC-EA1-SNAetWS-20090720

    Analyse des rseaux sociaux et web smantique: un tat de l'art Page 16 sur 44

    Un premier ensemble d'algorithmes regroupe les algorithmes hirarchiques. Tout d'abord ils

    attribuent un poids chaque paire de sommets ou aux artes. Ce poids reprsente la connectivit

    de cette paire dans la structure du rseau. Ensuite ils construisent un arbre dont les nuds sont des

    groupes de sommets plus ou moins proches. Les nuds les plus profonds de l'arbre reprsentent

    les groupes de sommets les plus proches. Ainsi, plus on remonte dans l'arbre plus on considre de

    grandes communauts, la racine reprsentant le rseau complet. Il existe deux catgories, les

    algorithmes agglomratifs et les algorithmes sparatifs. Ils se distinguent dans la construction de

    l'arbre et dans la logique d'attribution des poids aux artes.

    Algorithmes agglomratifs

    Dans ces algorithmes, on retrouve trois principaux critres d'attribution des poids aux paires de

    sommets. Le premier critre d'attribution de poids, est le nombre de chemins qui passent par ces

    nuds. Les deux autres critres sont des variantes, les chemins considrs n'ont pas de nud en

    commun pour un et pas d'artes en commun pour l'autre. Une fois ces poids attribus, ils

    regroupent itrativement les sommets en considrant les poids par ordre dcroissant, jusqu' avoir

    considr tous les poids.

    Le principal dfaut de ces algorithmes est qu'ils excluent dans la plupart des cas les membres

    priphriques, plus isols de leur communaut.

    [Donetti et Munoz 2004] utilisent les vecteurs propres de la matrice de Laplace du graphe pour

    mesurer les similarits entre les sommets, cet algorithme fonctionne en temps O(n3).

    L'algorithme netwalk [Zhou et Lipowsky 2004] est lui "bas sur le temps moyen d'atteinte d'un

    sommet par des marches alatoires" pour mesurer la similarit entre les sommets. Sa complexit en

    temps est de O(n3).

    Algorithmes sparatifs

    Ces algorithmes construisent l'arbre de manire inverse. Le poids attribu chaque arte

    reprsente son caractre sparatif entre ses extrmits. L'arbre est construit partir du graphe

    entier, en retirant itrativement les artes par poids dcroissant.

    L'algorithme le plus connu est celui de [Girvan and Newman 2002] qui tablit les poids des artes en

    fonction de leur intermdiarit, ainsi les nuds "les plus intermdiaires" sont retirs en premier.

    Cette technique fournit de trs bonnes coupes d'un rseau et est adapte la structure d'un rseau

    social. Toutefois, cet algorithme ncessite le calcul des centralits d'intermdiarit couteux en

    temps, et possde une complexit en O(m.n) avec m le nombre d'artes et n le nombre de

    sommets. Il n'est donc exploitable que sur des petits rseaux. [Bothorel et Bouklit 2008] adapte cet

    algorithme pour les hypergraphes.

    [Fortunato et al 2004] utilisent eux une notion plus stricte de la centralit, offrant un meilleur

    dcoupage mais de faibles performances en temps, O(m3.n).

  • ISICIL : Intgration Smantique de l'Information

    par des Communauts d'Intelligence en Ligne

    ANR-08-CORD-011-05

    Document mis le : 20/07/2009

    Rf : ISICIL-DOC-EA1-SNAetWS-20090720

    Analyse des rseaux sociaux et web smantique: un tat de l'art Page 17 sur 44

    [Radicchi et al 2004] tendent la notion de coefficient de clustering des sommets aux artes et

    propose un algorithme qui retire les artes ayant les coefficients les plus faibles. Le coefficient de

    clustering d'une arte correspond au nombre de cycles, d'une longueur donne, auxquels

    appartient cette arte sur le nombre de cycle possibles en fonction des degrs des extrmits.

    Algorithmes base d'heuristiques

    Un certain nombre d'algorithmes non hirarchiques ont t proposs, ils sont bass sur des

    heuristiques lies la structure en communaut des rseaux.

    Newman propose un algorithme efficace [Newman 2004] pour des rseaux de grande taille avec

    une complexit en O(n.log(n)). Cet algorithme fournit une coupe du graphe optimisant une

    fonction de modularit :

    )( ij

    ij aeQ =

    avec eij la part d'artes du rseau qui relie des sommets des groupes i et j et =j

    iji ea . En d'autres

    termes, la modularit est, pour un dcoupage en communauts donn, la diffrence entre la part

    d'artes intra-communautaires du rseau analys et la mme valeur avec une rpartition alatoire

    des artes. Les valeurs ngatives sont ramenes 0 et la valeur maximale est 1. Cette fonction de

    modularit est la diffrence entre le nombre d'artes dans un groupe et le nombre d'artes

    attendues en se basant sur la probabilit d'avoir une arte entre chaque sommet. Dans [Newman

    2008], il gnralise la notion de modularit aux graphes orients et propose une approche

    alternative de cet algorithme. [Djidev 2007] rduit le problme du calcul de modularit celui de

    coupe minimale pondre et propose un algorithme en O(n.log(n)+m). [Barber 2007] propose une

    dfinition de la modularit pour les graphes bipartites. Enfin [Chen et al 2009] propose une variante

    qui optimise le degr moyen entrant l'intrieur de la communaut et minimise le degr sortant

    des nuds frontires.

    [Wu 2004] fait l'analogie entre un graphe et un rseau lectrique et fournit ainsi un algorithme bas

    sur la simulation de rpartition d'un courant lectrique. Cette mthode fournie un rsultat en temps

    linaire en pratique mais impose une contrainte forte qui est de connatre le nombre de clusters

    l'avance.

    Plusieurs algorithmes s'appuient sur les parcours alatoires dans un graphe. Dans cette catgorie,

    l'algorithme de [Pons et al 2005] est le plus performant en temps (O (n.log(n)) en pratique) mais

    plus couteux en espace O(n), il est bas sur l'hypothse qu'un parcours alatoire dans un graphe

    tend se retrouver "pig" dans les parties du graphe fortement connectes correspondant des

    communauts. Nous noterons galement le plus connu, Markov Cluster Algorithme, qui fonctionne

    quand lui en temps O(n3). [Pons et al 2005] propose un aperu plus large sur cette approche.

  • ISICIL : Intgration Smantique de l'Information

    par des Communauts d'Intelligence en Ligne

    ANR-08-CORD-011-05

    Document mis le : 20/07/2009

    Rf : ISICIL-DOC-EA1-SNAetWS-20090720

    Analyse des rseaux sociaux et web smantique: un tat de l'art Page 18 sur 44

    L'algorithme de [Capocci et al 2004] bas sur une analyse spectrale de la matrice d'adjacence, qui

    prend en considration l'orientation et la pondration des arcs. Cette solution a une complexit de

    O (n) en temps.

    L'algortihme par propagation de label de [Raghavan et al 2007] est l'algorithme le plus performant

    en pratique, mais avec une terminaison non dterministe. Tous les nuds se voient attribuer un

    label initial reprsentant la communaut auquel ils appartiennent. A chaque tape chaque nud

    change son label en prenant le plus rparti dans son voisinage. Ce processus itratif amne en

    pratique un consensus avec un label unique pour chaque communaut.

    Les algorithmes mentionns prcdemment sont les plus utiliss. Toutefois, d'autres algorithmes

    sont galement dcrits dans [Danon 2005] [Newman 2004 bis] [Girvan et Newman 2004].

    La plupart des algorithmes de clustering, ne considrent que des graphes non-tiquets, non

    orients et ils fournissent tous des clusters non-recouvrants. En ignorant l'orientation des artes

    nous en perdons toute la signification, alors que la notion de prestige, prcdemment aborde,

    nous en montre la richesse. Le typage des liens dans un rseau social apporte lui aussi beaucoup de

    smantique, tout comme le typage des sommets qui permet de dcrire un rseau social

    multipartite. De plus une personne est susceptible d'appartenir plusieurs communauts, avec des

    degrs d'implication diffrents. Ces algorithmes ne lui attribueront qu'une appartenance la

    communaut dont elle est le plus proche.

    Partant de cette dernire hypothse, [Pissard 2008] propose l'algorithme FOCAL (Fast Overlapping

    Clustering ALgorithm) qui restitue des communauts recouvrantes. Son approche est intressante

    car elle tient compte des caractristiques structurelles des rseaux sociaux (petits mondes,

    transitivit) et des communauts. Toutefois il pose une hypothse forte lie son cadre

    d'application qui considre des communauts de tailles homognes. L'algorithme SCAN [Xu et al

    2007] permet aussi de dtecter des communauts recouvrantes. En se basant sur l'ide de base que

    la structure communautaire d'un nud est dfinie par ses voisins, cet algorithme forme des

    communauts en dterminant un score minimum de similarit structurel entre un nud et ses

    voisins.

    Le tableau 1 synthtise les catgories et performances des algorithmes prcdemment mentionns.

    Type

    d'algorithme

    Refrence Complexit en

    temps

    Taille des

    graphes

    Caractristiques

    de graphe pris

    en compte

    Hirarchiques

    agglomratifs

    [Donetti et

    Munoz

    2004]

    O(n3) 10

    3 sommets Non-typs

    Non-orients

  • ISICIL : Intgration Smantique de l'Information

    par des Communauts d'Intelligence en Ligne

    ANR-08-CORD-011-05

    Document mis le : 20/07/2009

    Rf : ISICIL-DOC-EA1-SNAetWS-20090720

    Analyse des rseaux sociaux et web smantique: un tat de l'art Page 19 sur 44

    Non-pondr

    [Zhou et

    Lipowsky

    2004]

    O(n3) 10

    4 sommets Non-typs

    Non-orients

    Non-pondr

    [Girvan et

    Newman

    2002]

    O(m.n) pour

    un graphe non-

    pondr

    O(m.n.log(n))

    pour un graphe

    pondr.

    104 sommets Non-typs

    Non-orients

    Pondrs

    Hirarchiques

    Spartifs

    [Radicchi et

    al 2004]

    O(n) 104

    sommets Non-typs

    Non-orients

    Non-pondrs

    [Newman

    2004]

    O(n.log(n)) 105 sommets Non-typs

    Non-pondr,

    Non-orients

    [Newman

    2008]

    O(n.log(n)) 105 sommets Non-typs

    Non-pondrs,

    orients

    [Djidev

    2007]

    O(n.log(n)+m) 105 sommets Non-typs

    Non-pondr,

    Non-orients

    [Wu 2004] O(n+m) 105 sommets Non-typs

    Non-orients

    A base

    d'heuristique

    [Pons et al

    2005]

    O(m.n) dans le

    pire des cas et

    104 sommets Non-typs

    Non-orients

  • ISICIL : Intgration Smantique de l'Information

    par des Communauts d'Intelligence en Ligne

    ANR-08-CORD-011-05

    Document mis le : 20/07/2009

    Rf : ISICIL-DOC-EA1-SNAetWS-20090720

    Analyse des rseaux sociaux et web smantique: un tat de l'art Page 20 sur 44

    O(n.log(n)) en

    moyenne

    Non-pondrs

    [Capocci et

    al 2004]

    O(n) 104 sommets Non-typs,

    Orients,

    pondrs

    [Raghavan

    et al 2007]

    Terminaison

    non

    dterministe

    106 sommets Non-typs,

    Non Orients,

    Non pondrs

    Tableau 1 : Catgories et performances des algorithmes de dtection de communauts.

    Validation d'un dcoupage en communauts [Bolshakova et Azuaje 2003] proposent trois indices permettant d'valuer la qualit d'un dcoupage

    en cluster d'un graphe. L'indice de Silhouette mesure les proprits d'isolation et d'htrognit

    des clusters obtenus. L'indice de Dunn et l'indice de Davies-Bouldin, calculent le nombre de

    clusters denses et spars, ils permettent de dterminer la qualit du nombre de clusters obtenus.

    Dans [Girvan et Newman 2004], une approche diffrente est propose: le calcul de la modularit.

    Plus le rsultat du calcul est proche de 1 plus le dcoupage est prcis. La modularit est

    actuellement la mesure de rfrence pour valuer la qualit d'un dcoupage en communauts.

    Dans [Gustafsson et al 2006], une comparaison est effectue entre la modularit et l'indice de

    Silhouette et la modularit est mise en avant comme plus pertinente.

    [Rattigan 2007] propose quant lui deux indices complmentaires pour mesurer la qualit d'un

    dcoupage en communauts. Ces deux indices sont la proportion d'artes intercommunautaires et

    la proportion d'artes intra-communautaires. Ils sont tous les deux compris entre 0 et 1. Un bon

    dcoupage en communauts possde un faible taux d'artes intercommunautaires et un taux lev

    d'artes intra-communautaires.

    Calcul de la centralit La centralit permet de dtecter les positions stratgiques dans un rseau social. Plusieurs

    mthodes d'valuation de la centralit ont t proposes en fonction du critre choisi pour

    considrer un nud comme plus central qu'un autre. Ces mthodes sont rappeles dans cette

    partie avant de rentrer plus en dtail sur les algorithmes proposs pour calculer la centralit

    d'intermdiarit.

  • ISICIL : Intgration Smantique de l'Information

    par des Communauts d'Intelligence en Ligne

    ANR-08-CORD-011-05

    Document mis le : 20/07/2009

    Rf : ISICIL-DOC-EA1-SNAetWS-20090720

    Analyse des rseaux sociaux et web smantique: un tat de l'art Page 21 sur 44

    [Freeman 1979] propose 2 mthodes de calcul pour chacun des trois indicateurs de centralit locale

    (degr, intermdiarit, proximit) qu'il prsente, une mesure dpendante de la taille du rseau et

    une mesure indpendante. La premire mesure est intressante pour mesurer l'influence de

    l'activit d'un nud dans un rseau alors que la deuxime, indpendante de la taille du rseau,

    offre un indicateur de comparaison entre des nuds de diffrents rseaux. Le fait de s'affranchir de

    la taille d'un rseau dans un indice permet galement de comparer diffrents rsultats locaux issus

    d'un mme rseau, notamment pour comparer diffrents types de liens et donc diffrents types de

    rseaux dans un graphe multipartite. De plus, cela fournit une mthode gnrique de calcul de

    centralit globale, base sur la centralit locale choisie.

    La centralit de degr locale d'un nud est tout simplement son degr.

    La mthode de calcul de la centralit d'intermdiarit locale d'un nud consiste effectuer la

    somme des valeurs d'intermdiarit de ce nud pour chaque couple de nud du rseau. La valeur

    d'intermdiarit d'un nud A pour un couple de nud B et C, est le rapport du nombre de chemins

    godsiques entre B et C contenant A sur le nombre total de chemins godsiques entre B et C.

    Le calcul de la centralit locale de proximit consiste effectuer la somme des distances d'un nud

    aux autres nuds du graphe. Cette mesure est plutt une mesure de "dcentralit", savoir que les

    nuds qui obtiennent un score plus lev sont les moins centraux. Ainsi pour faire un parallle avec

    les deux mthodes prcdentes, il est opportun de mesurer la centralit de proximit en

    considrant l'inverse de la somme des distances du nud aux autres nuds.

    Pour rendre indpendantes ces mesures de la taille du rseau, Freeman propose dans les 3 cas de

    diviser le rsultat obtenu par la valeur maximale possible. La valeur maximale est atteinte chaque

    fois par le point central dans un rseau en toile. Ainsi pour un rseau de taille n, la valeur maximale

    de la centralit de degr est n-1 et la valeur maximale d'intermdiarit est (n -3n +2)/2. Pour le

    calcul de la centralit de proximit, la somme minimale des distances est n-1, ainsi la valeur

    maximale de la centralit de proximit d'un nud est le rapport de n-1 sur la somme des distances

    avec les autres nuds du rseau.

    Enfin Freeman fournit une formule de calcul de la centralit globale d'un rseau adaptable pour

    chacun des 3 indices de centralit locale exposs. Le principe est de mesurer l'cart entre la valeur

    de centralit la plus leve par rapport celle des autres nuds du graphe.

    Les dfinitions prcdentes mettent en avant la complexit de calcul de chacun de ces trois indices.

    Le calcul de la centralit de degr est bien videmment trivial. Par contre les calculs de centralit

    d'intermdiarit et de proximit sont bien plus complexes en raison de leur dpendance au calcul

    des godsiques. Toutefois la proprit de petit monde des rseaux sociaux cre un lien troit entre

    la centralit de degr d'un sommet et sa centralit de proximit. De plus l'indice de centralit le plus

    significatif est l'intermdiarit qui met en avant les individus les plus influents dans un rseau.

    L'intermdiarit est ainsi l'indice de centralit le plus considr dans la littrature. L'ensemble des

  • ISICIL : Intgration Smantique de l'Information

    par des Communauts d'Intelligence en Ligne

    ANR-08-CORD-011-05

    Document mis le : 20/07/2009

    Rf : ISICIL-DOC-EA1-SNAetWS-20090720

    Analyse des rseaux sociaux et web smantique: un tat de l'art Page 22 sur 44

    travaux mentionns ci-dessous traitent principalement cet indice, mais certaines des notions et

    mthodes de calcul fournies sappliquent galement pour la mesure des autres indices.

    Algorithmes exacts

    Plusieurs algorithmes de calcul d'intermdiarit exacts ont t proposs. Ils sont applicables sur

    des rseaux de petites tailles, de l'ordre de 105 sommets pour le plus performant. Ces algorithmes

    proposent pour la plupart une version pour les graphes pondrs et non pondrs. Les principaux

    sont bass sur le calcul des godsiques dans un premier temps puis sur les sommes des

    godsiques o se trouve un sommet, et ce pour chaque sommet [Douglas et Borgatti

    1994][Brandes 2001] [Newman 2001]. Les autres sont bass sur une rpartition optimale du flot

    d'information dans le rseau entre les diffrents chemins possibles [Freeman et Borgatti 1991].

    [Latora et Marchiori 2004] proposent une approche qui combine les deux premires. L'algorithme

    exact le plus performant est celui dcrit dans [Brandes 2001], il offre un rsultat en O (n+m) en

    espace et en temps O (nm) et O(nm+log(n)), respectivement pour des graphes non pondrs et

    pondrs. Cet algorithme s'appuie sur un ensemble de lemmes permettant de ne considrer que les

    calculs indispensables et de rduire ainsi la complexit des mthodes optimales bases sur le calcul

    des godsiques. Par exemple, si vs se trouve sur une godsique de vr vt ,alors drt

  • ISICIL : Intgration Smantique de l'Information

    par des Communauts d'Intelligence en Ligne

    ANR-08-CORD-011-05

    Document mis le : 20/07/2009

    Rf : ISICIL-DOC-EA1-SNAetWS-20090720

    Analyse des rseaux sociaux et web smantique: un tat de l'art Page 23 sur 44

    voisinage direct. Cette mesure permet d'extraire les sommets les plus influents par rapport leur

    voisinage direct.

    [Bothorel et Bouklit 2008] propose un algorithme de calcul de la centralit d'intermdiarit pour les

    hypergraphes.

    Algorithmes approchs

    Plusieurs autres algorithmes, proposent des estimations de la centralit d'intermdiarit [Radicchi

    et al 2004][Brandes et Pich 2007][Bader et al 2007][Geisberger et al 2008], fournissant des rsultats

    un peu moins prcis mais avec de bien meilleures performances, les rendant utilisables pour des

    rseaux de l'ordre de 106 sommets. La qualit de ces derniers algorithmes dpend de leur technique

    d'chantillonnage. [Brandes et Pich 2007][Bader et al 2007][Geisberger et al 2008] proposent des

    approximations partir d'un chantillon de sommets rpartis dans le rseau.

    Algorithmes parallles

    Enfin [Bader et Madduri 2006] et [Santos et al 2006] fournissent des contributions majeures en

    terme de performance avec des algorithmes parallles du calcul de la centralit d'intermdiarit

    permettant de traiter des rseaux sociaux de l'ordre du million de sommets avec un rsultat exact

    pour l'un et une approximation pour l'autre. L'algorithme de [Santos et al 2006] est tout

    particulirement intressant par son approche incrmentale qui fournit tout moment un rsultat

    approximatif de plus en plus prcis avec un calcul rparti correspondant bien aux contraintes du

    web. L'algorithme de [Bader et Madduri 2006] fournit un rsultat exact en paralllisant l'algorithme

    de [Brandes 2001].

    Le tableau 2 synthtise les catgories et performances des algorithmes de calcul des centralits

    d'intermdiarit.

    Rfrence Exact parallle Complexit Taille des

    graphes

    Incrm

    ental

    Type de graphe

    considr

    [Newman

    2001]

    Oui Non O(n.m) et

    O(n.m.log(n)

    respectivement

    pour des graphes

    non pondrs et

    pondrs

    105

    sommets

    Non Pondr

    Non typs

    Non orients

    [Brandes

    2001]

    Oui Non O(n.m) et O(n.m +

    n.log(n))

    respectivement

    pour des graphes

    non pondrs et

    105

    sommets

    Non Pondr

    Non typs

    Non orients

  • ISICIL : Intgration Smantique de l'Information

    par des Communauts d'Intelligence en Ligne

    ANR-08-CORD-011-05

    Document mis le : 20/07/2009

    Rf : ISICIL-DOC-EA1-SNAetWS-20090720

    Analyse des rseaux sociaux et web smantique: un tat de l'art Page 24 sur 44

    pondrs

    [Geisberger

    et al 2008]

    [Brandes et

    Pich 2007]

    Non Non ~[Brandes 2004]

    mais approximation

    partir de k

    noeuds.

    106

    sommets

    Oui Graphes pondrs

    Non typs

    Non orients

    [Bader et

    Madduri

    2006]

    Oui oui O(n.m) et O(n.m +

    n.log(n))

    respectivement

    pour des graphes

    non pondrs et

    pondrs

    106

    sommets

    Non Graphes pondrs

    Non typs

    Non orients

    [Santos et

    al 2006]

    Non Oui Non estim 105

    oui Graphes pondrs

    Non typs

    Non orients

    Tableau 2: Catgories et performances des algorithmes de calcul des centralits d'intermdiarit.

    Jeux de donnes couramment utiliss La qualit et la performance des algorithmes utiliss sont values sur plusieurs jeux de donnes.

    Ces jeux de donnes sont gnrs ou bass sur des rseaux rels. Concernant la gnration de

    rseaux, trois mthodes principales sont utilises, la gnration de graphes alatoires [Gilbert

    1959], "preferential attachement" [Barabasi et Albert 1999] et "small world" de [Watts et Strogatz

    1998]. La gnration alatoire de graphe produit des rseaux n'ayant aucune proprit d'un rseau

    social. Le modle de [Watts et Strogatz] reproduit la proprit des petits mondes que l'on retrouve

    dans tous les graphes. [Barabasi et Albert 1999] fournit une solution permettant de gnrer un

    graphe possdant une structure proche de celle des rseaux sociaux, en fournissant notamment

    une rpartition des degrs suivant une loi de puissance. Toutefois ces rseaux tant gnrs

    automatiquement, ils servent surtout de tmoins et de point de comparaison entre les diffrentes

    mthodes. Plusieurs jeux de donnes rels reviennent alors rgulirement pour juger de l'efficacit

    et de la qualit d'un algorithme d'analyse de rseau social. Les tous premiers rseaux tudis

    taient construits partir de questionnaires, en demandant par exemple des personnes de citer

    des amis. Le rseau social du club de karat de Zachary ne possde qu'une trentaine de nud mais

    il est souvent utilis comme preuve du bon fonctionnement d'un algorithme de clustering.

    Toutefois, l'amlioration de la complexit des algorithmes ncessite des rseaux de grandes tailles

    pour valuer leurs performances, juger leur qualit et en observer les limites. L'extraction d'un sous-

  • ISICIL : Intgration Smantique de l'Information

    par des Communauts d'Intelligence en Ligne

    ANR-08-CORD-011-05

    Document mis le : 20/07/2009

    Rf : ISICIL-DOC-EA1-SNAetWS-20090720

    Analyse des rseaux sociaux et web smantique: un tat de l'art Page 25 sur 44

    ensemble du graphe du web form par les hyperliens entre les pages est rgulirement utilise, un

    crawl du web offre la possibilit d'obtenir des rseaux de trs grandes tailles. Les articles

    scientifiques sont galement beaucoup utiliss. On retrouve ainsi deux rseaux extraits partir des

    articles scientifiques, le rseau de citation et le rseau de co-auteurs. La source principale servant

    d'extraction de ce type de rseaux est CiteSeer ( http://citeseer.ist.psu.edu/ ).

    c) Conclusion partielle

    Nous avons abord ici les principaux algorithmes de calcul de clustering et d'intermdiarit. Les

    algorithmes de clustering les plus apprcis pour leur dcoupage sont les algorithmes hirarchiques

    sparatifs bass sur l'intermdiarit. Toutefois la complexit de calcul de l'intermdiarit est une

    limite liminatoire pour utiliser ces algorithmes sur de larges rseaux sociaux tels que ceux du web

    qui contiennent plusieurs millions de sommets. Les approches telles que celles de [Newman 2004]

    sont donc privilgies pour les trs grands rseaux.

    [Radicchi et al 2004] a ouvert la porte l'utilisation de mthodes approximatives du calcul de la

    centralit d'intermdiarit pour le clustering. Ainsi, le calcul des centralits d'intermdiarit partir

    d'chantillons de [Brandes et Pich 2007][Bader et al 2007][Geisberger et al 2008] sont des pistes

    intressantes pour rduire le temps de calcul de l'algorithme de [Girvan et Newman 2002], tout en

    conservant la mme complexit. Nous noterons tout particulirement l'approche [Rattigan et al

    2006] qui indexe la structure du graphe et optimise grandement les calculs de plus courts chemins

    et des centralits d'intermdiarit. Il utilise ensuite ces index pour optimiser deux algorithmes, dont

    celui de [Girvan et Newman 2002].

    Certains de ces algorithmes mentionns sont adaptables pour prendre en compte l'orientation, la

    pondration, l'tiquetage des artes et le typage des sommets. Ainsi [Brandes 2008] tend son

    algorithme [Brandes 2001] pour prendre en compte diffrentes caractristiques de graphes pour

    calculer la centralit d'intermdiarit, ce qui ouvre dsormais la porte l'utilisation de ces

    diffrents algorithmes pour adapter [Girvan et Newman 2002].

    Enfin nous avons vu sur quels rseaux la qualit et la performance de ces mthodes sont values.

    Nous allons maintenant montrer que l'avnement du web 2.0 et l'mergence du web smantique

    amnent appliquer les mthodes d'analyse des rseaux sur de nouvelles traces gnres par les

    usages du web.

    3. Les rseaux sociaux en ligne

    Le web fournit des outils de communications qui s'imposent toujours plus en tant qu'lment

    majeur des modes d'interaction de notre socit. La communication est un lment essentiel de la

    socialisation et les interactions des utilisateurs du web au travers de leurs usages sont devenues des

    sources de choix pour extraire et analyser des rseaux sociaux de trs grandes tailles (de l'ordre de

    106

    108 sommets). Les discussions lectroniques et la structure en hyperliens du web tait les

  • ISICIL : Intgration Smantique de l'Information

    par des Communauts d'Intelligence en Ligne

    ANR-08-CORD-011-05

    Document mis le : 20/07/2009

    Rf : ISICIL-DOC-EA1-SNAetWS-20090720

    Analyse des rseaux sociaux et web smantique: un tat de l'art Page 26 sur 44

    principales sources du web disposition des chercheurs jusqu' l'avnement du web 2.0. La

    popularit montante des outils collaboratifs du web 2.0 permet d'tudier de nouveaux rseaux avec

    des acteurs qui fournissent toujours plus d'informations sur eux-mmes mais galement sur les

    personnes avec qui ils interagissent. Ainsi [Mika 2007] distingue trois catgories de rseaux sociaux

    sur le web :

    Les rseaux sociaux infrs avec des techniques de web mining: citations entre pages

    personnels, pagerank, cooccurrence de noms.

    Les discussions lectroniques: mails, chat, forum.

    Les applications sociales du web 2.0: outils de publication (wiki, blog, news), rseaux

    sociaux, sites de partage (contenu, produits, vnements, etc.) et jeux collaboratifs.

    [Wellman 2001] argumente que les relations en ligne forment des rseaux sociaux virtuels

    reprsentatifs des rseaux sociaux rels. En effet ces rseaux virtuels sont crs partir

    d'interactions inities par des personnes physiques. Cet argument est confirm par [Mika 2007],

    mais il souligne le caractre incomplet de ces rseaux sociaux en raison de l'absence en ligne de

    certaines composantes de la ralit. [Hendler et al 2008] montre que le web 2.0 et le web

    smantique amplifient la connectivit des utilisateurs du web et rapprochent qualitativement les

    rseaux virtuels des rseaux rels.

    Cette partie traite dans un premier temps de l'application des techniques d'analyse des rseaux

    sociaux prcdemment voques aux rseaux sociaux du web, puis de l'apport du web smantique

    l'analyse des rseaux sociaux.

    d) Web 1 et web 2

    [Buffa 2008] " dresse l'historique des outils collaboratifs de l'poque prcdant l'arrive du web

    nos jours". La "libralisation" d'internet la fin des annes 80 a trs rapidement t suivie "par la

    cration du web par Tim Berners Lee" au dbut des annes 90. Les moyens de communication

    synchrones et asynchrones proposs par ces technologies ont t massivement adopts par les

    particuliers dans un premier temps et par les entreprises ensuite. Les sociologues se sont

    rapidement intresss aux rseaux sociaux mergeant de ces nouveaux moyens de communication

    plus grands et plus faciles reconstituer qu' l'aide de questionnaires. L'explosion du volume de

    connaissance prsent sur le web est l'origine du web mining, discipline destine la dcouverte

    de cette connaissance sur le web, dont un cas d'application est l'extraction de rseaux sociaux.

    L'affranchissement des barrires gographiques proposes par internet a t vite peru comme une

    aubaine pour la facilitation de la collaboration. Depuis le milieu des annes 90 et l'apparition du

    premier wiki, cr par Ward Cunnigham, les logiciels sociaux n'ont cess de prolifrer sur le web

    jusqu' donner aux internautes la possibilit d'amliorer grandement leur visibilit et devenir des

    acteurs importants dans le paysage du web et dans son dveloppement.

  • ISICIL : Intgration Smantique de l'Information

    par des Communauts d'Intelligence en Ligne

    ANR-08-CORD-011-05

    Document mis le : 20/07/2009

    Rf : ISICIL-DOC-EA1-SNAetWS-20090720

    Analyse des rseaux sociaux et web smantique: un tat de l'art Page 27 sur 44

    Web mining [Adamic et Adar 2003] propose une mthode d'extraction des rseaux d'amis des universits de

    Stanford et du MIT, partir des pages personnelles des tudiants. Les tudiants de ces universits,

    au moment de l'tude, avaient pour usage de mettre des hyperliens de leur page personnelle vers la

    page personnelle de leurs amis. Ainsi, dans un premier temps, les auteurs dmontrent que le

    graphe form par la structure en hyperliens de ces pages possde les proprits des rseaux

    sociaux : "small world", distribution des degrs en loi de puissance, et un taux de clustering lev.

    Ensuite, un indice de similarit entre les pages personnelles est dfini partir de la cooccurrence

    d'lments textuels et de la prsence d'hyperliens entre les pages.

    [Kautz et al 1997] [Mika 2005 bis] [Matsuo et al 2006] et [Jin et al 2007] se sont intresss

    l'extraction de rseaux sociaux partir des cooccurrences de noms sur les pages web. Le principe de

    ces mthodes, consiste mesurer la force d'une relation entre deux personnes en se basant sur les

    cooccurrences de leur nom. [Kautz et al 1997] et [Mika 2005 bis] utilisent le coefficient de Jaccard

    qui pour une paire de noms X et Y vaut nXY/(nX+ny) avec nx et ny le nombre de pages contenant

    repectivement les noms X et Y, et nXY. le nombre de pages contenant la fois X et Y. [Matsuo et al

    2006] et [Jin et al 2007] utilisent le coefficient de recouvrement qui, avec la mme notation, est

    dfini ainsi : nXY/min(nX,ny). Le nombre de pages contenant un nom ou une cooccurrence de noms

    est obtenu par une requte un moteur de recherche, Altavista pour [Kautz et al 1997] et Google

    pour les autres. Ces quatre articles proposent des mthodes d'extraction de rseaux sociaux trs

    proches mais ils exploitent ces rseaux diffremment. [Kautz et al 1997] propose un outil

    d'exploration de son rseau social pour la recherche d'experts. [Mika 2005 bis] et [Matsuo et al

    2006] appliquent la cooccurrence entre des noms et des termes afin d'extraire des rseaux

    d'affiliation. [Mika 2005 bis] exploite ce rseau d'affiliation pour extraire et construire une ontologie

    lgre des termes du web smantique. [Matsuo et al 2006] propose un outil d'animation de

    communauts de chercheurs, POLYPHONET, qui extrait et exploite ce rseau d'affiliation. [Jin et al

    2007] rapplique les techniques de [Matsuo et al 2006] pour extraire du web des rseaux d'artistes

    et de grandes firmes japonaises.

    Les discussions synchrones et asynchrones [Tyler et al 2003] construit un graphe d'interaction entre les personnes d'une entreprise partir de

    l'analyse des enttes des emails qui contiennent l'metteur et le destinataire. Aprs avoir dmontr

    que ce graphe possde les proprits inhrentes aux rseaux sociaux il dtermine des

    communauts de pratique en appliquant la mthode de [Wilkinson et Huberman 2002] base sur

    l'algorithme de clustering de [Girvan et Newman 2002]. Le dcoupage en communauts et les

    personnes appartenant ces communauts sont valids par des entretiens avec des membres de

    sept communauts choisies alatoirement parmi les soixante six communauts dtectes.

  • ISICIL : Intgration Smantique de l'Information

    par des Communauts d'Intelligence en Ligne

    ANR-08-CORD-011-05

    Document mis le : 20/07/2009

    Rf : ISICIL-DOC-EA1-SNAetWS-20090720

    Analyse des rseaux sociaux et web smantique: un tat de l'art Page 28 sur 44

    web 2.0

    Figure 9: Panorama des mdias sociaux propos par Fred Cavazza [Cavazza 2009]

    La figure 9 synthtise le panorama des mdias sociaux propos par Fred Cavazza sur son blog

    [Cavazza 2009]. Il dcompose ces rseaux sociaux en 4 catgories principales, les outils d'expression

    pour publier, discuter et aggrger sa vie sociale, de rseautage pour rechercher, se connecter et

    interagir avec des personnes, de partage pour publier et s'changer des resources, et des jeux en

    ligne bass sur la collaboration. Certaines plateformes sociales comme Facebook sont extensibles

    par API et permettent ainsi d'agrger ces diffrentes pratiques sociales avec des applications

    ddies.

    Le social tagging, qui consiste classifier collaborativement des ressources en les annotant avec des

    tags, s'est impos avec l'mergence du web 2.0 comme l'outil dominant de classification des

    ressources partages en lignes (flickr, del.icio.us). [Mika 2005] modlise le social tagging avec un

    graphe tripartite, les sommets tant des utilisateurs, des tags ou des ressources annotes. Les

    arrtes de ce graphe sont ternaires pour reprsenter l'association d'un tag une ressource par un

    acteur. Il considre ensuite de plus prs deux sous graphes bipartites. Le premier relie les acteurs

    aux concepts (tags). Ce graphe permet de dduire un rseau social d'affiliation, les liens sont entre

  • ISICIL : Intgration Smantique de l'Information

    par des Communauts d'Intelligence en Ligne

    ANR-08-CORD-011-05

    Document mis le : 20/07/2009

    Rf : ISICIL-DOC-EA1-SNAetWS-20090720

    Analyse des rseaux sociaux et web smantique: un tat de l'art Page 29 sur 44

    les acteurs ayant utilis les mmes concepts avec des poids reprsentant le nombre de concepts

    manipuls conjointement. On en dduit similairement un rseau de concepts, une arte entre deux

    concepts tant pondre par le nombre d'utilisateurs utilisant ces deux concepts. Le deuxime sous

    graphe bipartite relie les concepts aux instances (ressources) et permet d'obtenir un rseau de

    concepts supplmentaires, un lien entre deux tags est pondr par le nombre d'instances annotes

    avec ces deux tags. Ainsi partir d'un crawl des flux RSS de del.icio.us, Peter Mika cre les graphes

    simples forms par les deux rseaux de concepts mentionns et les normalise afin d'obtenir deux

    graphes de mme taille. La densit et le coefficient de clustering moyen sont utiliss pour comparer

    la cohsion de ces deux rseaux. Il est ensuite dmontr que les concepts ayant les coefficients de

    clustering les plus levs sont les plus spcialiss. Inversement, les termes avec les coefficients de

    clustering les moins importants et une forte centralit d'intermdiarit sont les plus gnraux. Enfin

    un algorithme de clustering, bas sur la dfinition de LS-SET, est appliqu en utilisant [UCINET 2002]

    afin de dterminer les centres d'intrts des utilisateurs. [Bothorel et Bouklit 2008] modlise une

    folksonomie extraite partir de flickr avec un hypergraphe. Ils proposent une gnralisation de

    l'algorithme de dtection de communauts de [Girvan and Newman 2002] pour gnrer des nuages

    de tags thmatiques et "vrifier s'il apparat un consensus ou des conflits dans l'utilisation des tags

    parmi les communauts".

    Les sites de rseaux sociaux en ligne sont devenus des applications phares du web 2.0 et

    connaissent les plus fortes audiences du web. Parmi les premiers, on retrouve Friendster et Orkut,

    mais les plus connus et les plus visits aujourd'hui sont Facebook et Myspace. Ces sites permettent

    leurs utilisateurs de maintenir en ligne leur rseau social rel. La grande audience de ses sites

    (plus de 100 million dutilisateurs pour Myspace) et l'accs leur rseau par API en font ainsi des

    sources de choix pour analyser des rseaux sociaux de trs grandes tailles. En effet, les utilisateurs

    dclarent explicitement leurs relations, il n'est plus ncessaire d'tablir des heuristiques sur leurs

    usages pour dterminer l'existence de relations entre deux personnes, la nature mme de ces

    relations est fournie. L'un des problmes les plus discuts ces derniers temps est l'interoprabilit

    de ces plateformes. Les "agrgateurs" proposent de centraliser le contenu de plusieurs rseaux

    sociaux. Toutefois ces plateformes sont obliges de manipuler diffrentes API et l'agrgation d'une

    nouvelle application ncessite l'apprentissage d'une nouvelle API. Pour palier cette contrainte,

    l'initiative "google open social" propose l'interoprabilit entre les rseaux sociaux au travers d'une

    seule et unique API. La figure 9 reprsente le rseau social de Guillaume Erto sur facebook

    construit par l'application TouchGraph avec l'API de Facebook.

    [Bonneau et al 2009] analyse le rseau facebook des tudiants de Stanford et Harvard partir

    seulement des 8 amis affichs sur les profils publics. Ils montrent qu'un petit ensemble du rseau

    est suffisant pour analyser un rseau social et obtenir des informations essentielles telles que la

    couverture maximum, la centralit d'intermdiarit ou un dcoupage en communaut.

  • ISICIL : Intgration Smantique de l'Information

    par des Communauts d'Intelligence en Ligne

    ANR-08-CORD-011-05

    Document mis le : 20/07/2009

    Rf : ISICIL-DOC-EA1-SNAetWS-20090720

    Analyse des rseaux sociaux et web smantique: un tat de l'art Page 30 sur 44

    Figure 9: Le rseau social de Guillaume Erto extrait par l'application TouchGraph avec l'API facebook

    e) Web smantique

    Le web smantique offre la possibilit aux machines de comprendre et d'exploiter les ressources du

    web de manire interoprable. Pour cela le w3c propose des formalismes dots dune syntaxe XML

    permettant de modliser les concepts du web, de les instancier et de les interroger. Les langages

    OWL (Ontology Web Language) et RDFS (Ressource Description Framework Schema) permettent de

    dcrire une ontologie, "ensemble structur des termes et concepts fondant le sens d'un champ

    d'informations" (http://fr.wikipedia.org/wiki/Ontologie_(informatique)). Le langage RDF (Ressource

    Description Framework) permet de dcrire les ressources du web, identifies par une URI, avec les

  • ISICIL : Intgration Smantique de l'Information

    par des Communauts d'Intelligence en Ligne

    ANR-08-CORD-011-05

    Document mis le : 20/07/2009

    Rf : ISICIL-DOC-EA1-SNAetWS-20090720

    Analyse des rseaux sociaux et web smantique: un tat de l'art Page 31 sur 44

    proprits et concepts d'une ontologie, SPARQL en est le langage de requte. La structure de RDF

    est un modle de graphe, sur lequel nous sommes intuitivement amens appliquer les techniques

    d'analyses des rseaux sociaux lorsque les ressources dcrites incluent les internautes.

    Reprsentation smantique d'un rseau social Avec le caractre toujours plus participatif du web, le paysage de la toile est dsormais le produit de

    ses utilisateurs, devenus une des ressources majeures du web. En rponse ce phnomne social,

    la communaut du web smantique propose des modles ontologiques pour reprsenter et

    exploiter les profils des utilisateurs, leurs usages et leur rseau social.

    L'initiative la plus clbre et la plus adopte est l'ontologie FOAF, Friend Of A Friend. Cette ontologie

    dcrit "les personnes, les liens entre elles et ce qu'elles crent et font". Tout d'abord un large

    ensemble de proprits reprsentent la plupart des concepts ncessaires la description d'un

    profil. Par exemple "family_name", "nick" et "interest" permettent respectivement de dfinir le

    nom de famille, le surnom et un intrt d'une personne. Ensuite la proprit "knows" est utilise

    pour connecter les profils entre eux et ainsi former le rseau social des profils FOAF. Enfin FOAF

    modlise les usages des utilisateurs avec des classes pour reprsenter les ressources manipules

    (OnlineAccount, Document, Group) et des proprits pour les interactions des utilisateurs avec ces

    ressources (holdsOnlineAccount, weblog, member).

    Nous avons vu que si FOAF permet de dcrire prcisment les profils utilisateurs, la modlisation

    des relations entre utilisateurs et les usages est elle trs large. Les bases proposes sont ainsi

    tendues par plusieurs ontologies. L'ontologie RELATIONSHIP5 spcialise les relations dans le rseau

    social en proposant un ensemble de proprits tendant la proprit "knows" de FOAF.

    RELATIONSHIP modlise un grand nombre de liens entre les personnes comme les relations

    familiales, amicales ou encore professionnelles. Les activits en lignes principalement modlises

    dans l'ontologie FOAF par la classe "OnlineAccount" et la proprit "holdsOnlineAccount" sont

    spcialises dans l'ontologie SIOC. SIOC dcrit "l'information contenue explicitement et

    implicitement dans les moyens de communication d'internet". Pour cela, cette ontologie modlise

    les concepts issus des applications sociales du web, tels que les "Posts" des forums. SIOC rutilise

    au mieux les ontologies existantes et sest presque impose comme standard smantique pour

    certaines applications ddies, la plus connue tant le moteur de blog WordPress

    (http://wordpress.org). Ainsi, la gestion des proprits des documents utilise l'ontologie du Dublin

    Core6 qui fournit notamment les proprits "title", "creator" et "subject". La gestion de l'articulation

    des concepts manipuls au travers des usages est galement dlgue l'ontologie spcialise:

    SKOS. Cette dernire offre la possibilit de dfinir les labels associs un concept avec les

    proprits "prefLabel" et "altLabel", l'articulation entre ces concepts avec "narrower", "broader" et

    5 http://vocab.org/relationship/

    6 http://dublincore.org/

  • ISICIL : Intgration Smantique de l'Information

    par des Communauts d'Intelligence en Ligne

    ANR-08-CORD-011-05

    Document mis le : 20/07/2009

    Rf : ISICIL-DOC-EA1-SNAetWS-20090720

    Analyse des rseaux sociaux et web smantique: un tat de l'art Page 32 sur 44

    "related", mais aussi les liens avec les documents et la gestion des significations. La figure 10 illustre

    l'articulation des ontologies SIOC, FOAF et SKOS.

    Figure 10 : Exemple d'articulation des ontologies SIOC, FOAF et SKOS

    Le social tagging consiste partager des ressources et les classifier avec des annotations sous

    forme de tags. Le fruit du social tagging est une classification de ressources librement tablie par les

    utilisateurs, appele folksonomie. L'adoption massive de cette pratique par les utilisateurs du

    web2.0 et la classification propose par les folksonomies ont amen la communaut du web

    smantique s'intresser de prs ces usages. Ainsi [Gruber 2005] pose les bases d'une ontologie

    dcrivant les concepts essentiels d'une folksonomie. Il dfinit tout particulirement le noyau d'une

    folksonomie, savoir l'action de "tagging" compose d'une ressource, d'un tag et d'un utilisateur.

    [Knerr 2007] s'appuie sur cette base pour proposer une ontologie qui prend notamment en compte

    la gestion de la vie prive et utilise FOAF pour modliser les acteurs. L'ensemble des tags manipuls

    par une personne ou un groupe de personnes est appel un nuage de tags. Le nuage de tags est

    l'une des alternatives pour naviguer au sein des ressources d'une folksonomie. L'ontologie SCOT

    [Kim et al 2007] s'intresse de prs ces nuages de tags et commence s'imposer comme moyen

    de "reprsenter la structure et la smantique des donnes du social tagging afin de les partager et

    de les rutiliser". SCOT [Kim et al 2007] dans la suite de SIOC s'intgre parfaitement au sein du trio

    ontologique FOAF, SIOC et SKOS (figure 11). L'initiative MOAT [Passant et al 2008], Mining Of A Tag,

    complte cet ensemble ontologique en permettant de modliser la signification des tags. Enfin

    [Limpens et al 2009] propose une ontologie pour modliser les points de vues des utilisateurs sur la

    structuration des folksonomies en leur permettant de valider ou d'invalider des infrences

    algorithmiques de liens smantiques.

  • ISICIL : Intgration Smantique de l'Information

    par des Communauts d'Intelligence en Ligne

    ANR-08-CORD-011-05

    Document mis le : 20/07/2009

    Rf : ISICIL-DOC-EA1-SNAetWS-20090720

    Analyse des rseaux sociaux et web smantique: un tat de l'art Page 33 sur 44

    Figure 8 : Articulation de SCOT avec FOAF, SIOC et SKOS

    Dans la reprsentation smantique des personnes et des usages, il est important de mentionner les

    microformats. Comme l'argumente [Khare and Celik 2006], cette initiative est importante dans la

    marche en avant vers un web smantique qui doit passer par une smantique lgre avant

    d'atteindre le but attendu par la communaut. Le principe des microformats est d'utiliser les

    attributs de HTML de manire consensuelle dans l'optique d'ajouter de la smantique embarque

    dans un document XHTML. Les rgles mises en place permettent de s'abstenir de l'usage