Chapitre 12 Réseaux - apprendre-en-ligne.net · 12.1.1.Modèle OSI Le modèle OSI (de l'anglais Open Systems Interconnection) est un standard de communication, en réseau, de tous

Informatique (presque) débranchée Chapitre 12

Chapitre 12

Réseaux

ISO : International Organization for Standardization

Ne pas confondre OSI et ISO !

Avertissement. La communication entre ordinateurs est un sujet vaste et complexe. Nous nedonnons ici que quelques principes généraux, sans trop entrer dans les détails. Le lecteur intéressétrouvera beaucoup plus d'informations sur... le web bien sûr.

Un réseau informatique est un ensemble d'équipements reliés entre eux pour échanger desinformations. Par analogie avec un filet, on appelle nœud (node) l'extrémité d'une connexion, quipeut être une intersection de plusieurs connexions (un ordinateur, un routeur, un concentrateur, uncommutateur).

Les protocoles de communication définissent de façon formelle la manière dont les informationssont échangées entre les équipements du réseau. Des logiciels dédiés à la gestion de ces protocolessont installés sur les équipements d'interconnexion que sont par exemple les commutateurs réseau,les routeurs, les commutateurs téléphoniques, les antennes GSM, etc. Les fonctions de contrôle ainsimises en place permettent une communication entre les équipements connectés.

Le protocole probablement le plus répandu est IP pour ses fonctions UDP et TCP. La premièrepermet l'envoi de données d'une manière non sécurisée (UDP ne prévient pas l'équipement émetteursi les données ont été reçues ou pas) : il est le plus souvent employé dans des applications temps-réelcomme la transmission de parole (où un correspondant peut demander à l'autre de répéter unmessage incompréhensible). L'autre permet au contraire une transmission fiable des données (TCPgarantit chaque extrémité d'un canal de communication qu'une information envoyée a bien été reçueou alors prévient cette extrémité du problème après plusieurs essais infructueux).

12.1. Modèles en couchesLa communication passe par un ensemble de couches empilées:• chaque couche a un rôle précis (conversion, routage, découpage, vérification...)• chaque couche dialogue avec la couche juste au-dessus et celle juste au-dessous. Elle

fournit des services à la couche au-dessus, et utilise les services de la couche en-dessous.• chaque couche encapsule les données venant de la couche du dessus en y ajoutant ses

propres informations avant de le passer à la couche du dessous (et opération inverse dansl'autre sens).

12.1.1.Modèle OSILe modèle OSI (de l'anglais Open Systems Interconnection) est un standard de communication,

en réseau, de tous les systèmes informatiques. C'est un modèle de communications entre ordinateursproposé par l'ISO qui décrit les fonctionnalités nécessaires à la communication et l'organisation deces fonctions.

Le modèle comporte sept couches.

Didier Müller 12-1 mai 2017

Réseaux

La caractérisation donnée ici est tirée du chapitre 7 de ISO 7498-1. La description originelledonne en plus pour chaque couche les fonctions de manipulation de commandes ou de donnéessignificatives parmi celles décrites plus bas.

1. La couche « physique » est chargée de la transmission effective des signaux entre lesinterlocuteurs. Son service est limité à l'émission et la réception d'un bit ou d'un train de bitcontinu (notamment pour les supports synchrones).

2. La couche « liaison de données » gère les communications entre deux machines adjacentes,directement reliées entre elles par un support physique.

3. La couche « réseau » gère les communications de proche en proche, généralement entremachines : routage et adressage des paquets.

4. La couche « transport » gère les communications de bout en bout entre processus(programmes en cours d'exécution).

5. La couche « session » gère la synchronisation des échanges et les « transactions », permetl'ouverture et la fermeture de session.

6. La couche « présentation » est chargée du codage des données applicatives, précisément dela conversion entre données manipulées au niveau applicatif et chaînes d'octetseffectivement transmises.

7. La couche « application » est le point d'accès aux services réseaux, elle n'a pas de servicepropre spécifique et entrant dans la portée de la norme.

12.1.2.TCP/IPLe modèle TCP/IP (appelé aussi modèle Internet), qui

date de 1976, a été stabilisé bien avant la publication dumodèle OSI en 1984. Il présente aussi une approchemodulaire (utilisation de couches) mais en contientuniquement quatre (voir schéma ci-contre).

Aujourd'hui, c'est le modèle TCP/IP, plus souple, quil'emporte sur le marché. Le modèle OSI, plus rigoureux, estprincipalement utilisé pour certaines applications critiques,ou pour ses fonctionnalités permettant de garantir une qualitéde service.

Encapsulation des données/IP

Lors d'une transmission, les données traversent chacunedes couches au niveau de la machine émettrice. A chaque


http://fr.wikipedia.org/wiki/Couche_de_transport




couche, une information est ajoutée au paquet de données, il s'agit d'un en-tête, ensembled'informations qui garantit la transmission. Au niveau de la machine réceptrice, lors du passage danschaque couche, l'en-tête est lu, puis supprimé. Ainsi, à la réception, le message est dans son étatoriginel.

12.2. InternetLe 2 septembre 1969, le professeur Len Kleinrock de l'UCLA (University of California, Los

Angeles) et son équipe, comprenant deux étudiants, Stephen Crocker et Vinton Cerf, parvenaient àéchanger quelques données entre deux gros ordinateurs reliés par un câble de 4,5 mètres. Ce premieressai est généralement considéré comme l'événement fondateur d'Arpanet, réseau à l'origined'Internet quelques années plus tard.

Internet est le réseau informatique mondial qui rend accessibles au public des services comme lecourrier électronique et le World Wide Web. Techniquement, Internet se définit comme le réseaupublic mondial utilisant le protocole de communication IP (Internet Protocol).

Internet ayant été popularisé par l'apparition du World Wide Web au début des années 1990, lesdeux sont parfois confondus par le public non averti. Le Web est une des applications d'Internet,comme le sont le courrier électronique, la messagerie instantanée et les systèmes de partage defichiers poste à poste. L'accès à Internet peut être réalisé auprès d'un Fournisseur d'accès (FAI) viadivers moyens de télécommunication.

Technique

Internet est composé d'une multitude de réseaux répartis dans le monde entier. Chaque réseau estrattaché à une entité propre (université, fournisseur d'accès à Internet, armée) et se voit attribuer unidentifiant unique appelé Autonomous System (AS). Afin de pouvoir communiquer entre eux, lesréseaux s'échangent des données, soit en établissant une liaison directe, soit en se rattachant à unnœud d'échange (point de peering).

Chaque réseau est donc connecté à plusieurs autres réseaux. Lorsqu'une communication doits'établir entre deux ordinateurs appartenant à des AS différents, il faut alors déterminer le chemin àeffectuer parmi les réseaux. Aucun élément d'Internet ne connaît le réseau dans son ensemble, lesdonnées sont simplement redirigées vers un autre nœud selon des règles de routage.

Protocoles

Internet fonctionne suivant un modèle en couches. Les éléments appartenant aux mêmes couchesutilisent un protocole de communication pour s'échanger des informations.

Un protocole est un ensemble de règles qui définissent un langage afin de faire communiquerplusieurs ordinateurs. Chaque protocole a des indications particulières et, ensemble, ils fournissentun éventail de moyens permettant de répondre à la multiplicité et à la diversité des besoins surInternet. Les principaux sont les suivants :

• IP (Internet Protocol) : protocole réseau qui définit le mode d'échange élémentaire entre lesordinateurs participants au réseau en leur donnant une adresse unique sur le réseau.


Réseaux

• TCP : responsable de l'établissement de la connexion et du contrôle de la transmission.C'est un protocole de remise fiable. Il s'assure que le destinataire a bien reçu les données.

• HTTP (HyperText Transfer Protocol) : protocole mis en œuvre pour le chargement despages web.

• HTTPS : pendant du HTTP pour la navigation en mode sécurisé. • FTP (File Transfer Protocol) : protocole utilisé pour le transfert de fichiers sur Internet. • SMTP (Simple Mail Transfer Protocol) : mode d'échange du courrier électronique en envoi.• POP3 (Post Office Protocol version 3) : mode d'échange du courrier électronique en

réception. • IMAP (Internet Message Access Protocol) : un autre mode d'échange de courrier

électronique. • IRC (Internet Relay Chat) : protocole de discussion instantanée. • NNTP (Network News Transfer Protocol) : protocole de transfert de message utilisé par les

forums de discussion Usenet • SSL : protocoles de transaction sécurisée, utilisés notamment pour le paiement sécurisé. • DNS (Domain Name System) : système de résolution de noms Internet.

Circulation de l'information

Dans un réseau, l'information qui circule est découpée en unités élémentaires appelées paquets. Ils'agit d'une suite d'octets suffisamment courte pour pouvoir être communiquée sous formenumérique et sans erreur.

Dans le cas d'Internet, le format des paquets est spécifié par l'Internet Protocol. On parle donc depaquets IP. Quand on récupère un fichier par exemple, son contenu est découpé en petits morceauxinclus dans une multitude de paquets IP qui transitent sur le réseau. Chaque paquet circuleindépendamment des autres. Pour cela, il contient un en-tête indiquant entre autres quelle est ladestination du paquet. Le protocole IP spécifie que cette destination est identifiée par une suite de 4octets : son adresse IP (chaque octet est généralement lu comme un nombre entre 0 et 255).

Voici ci-dessous le format de l'en-tête d'un paquet IP, tel que spécifié au bit près dans lestandard RFC 791. La première ligne indique la signification des quatre premiers octets du paquet(soit 32 bits), la deuxième, celle des quatre suivants et ainsi de suite. Le reste du paquet est constituépar les données qui transitent dans le paquet (typiquement de l'ordre de 1000 octets).

0 1 2 3 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+|Version| IHL |Type of Service| Total Length |+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+| Identification |Flags| Fragment Offset |+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+| Time to Live | Protocol | Header Checksum |+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+| Source Address |+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+| Destination Address |+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+| Options | Padding |+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+

On voit qu'outre l'adresse IP de la destination (cinquième ligne), un paquet IP contient aussi cellede la source (quatrième ligne) et bien d'autres champs comme la version du protocole (quatrepremiers bits de la première ligne). La version présentée ici (la plus courante à l'heure actuelle) est laversion 4 (IPv4). Tout paquet IPv4 commence par les bits 0100, soit 4 en binaire.

À l'intérieur d'un réseau

Comment les paquets ainsi formés circulent-ils dans un réseau ? Un réseau est constitué derouteurs et de liens de communication. Les liens relient les routeurs entre eux à la manière de routesentre les villes d'un pays. Plus précisément, un routeur est une sorte d'aiguilleur qui possède des liensavec d'autres routeurs. Chaque lien est branché au routeur via une interface. La principale activitéd'un routeur consiste à... router des paquets.

Toute machine reliée à un des routeurs du réseau peut ainsi communiquer avec toute autre



Source de l'image : [3]

machine reliée à un routeur du réseau. Les machines qui sont ainsi mises en relation par un réseausont appelées des hôtes.

Entre les réseaux

Comment les paquets circulent-ils d'un réseau à un autre ? Les hôtes sont généralement reliés àun réseau local. Pour chaque réseau local, un routeur appelé passerelle relie ce réseau avec l'internet.La seule décision de routage prise par un hôte est d'envoyer un paquet, soit directement à ladestination si elle se trouve dans le réseau local, soit à la passerelle sinon.

Tous les routeurs d'un réseau sont gérés par la même organisation. Ils sont reliés entre eux, etsavent acheminer des paquets entre eux. Certains des routeurs du réseau peuvent avoir des liens versdes routeurs d'autres réseaux, appelons-les des routeurs frontière (border gateway). Le monde desdestinations, vu d'un routeur d'Internet, se sépare donc en deux populations, les destinations qui sontaccessibles sans sortir de son propre réseau d'une part, et celles qui sont en dehors de ce réseaud'autre part.

Internet est constitué par un empilement hiérarchique de réseaux, comme le montre la figure ci-après.

Représentation schématique de la structure d'Internet.

Le réseau F est par exemple connecté par sa passerelle au réseau E, qui est lui-mêmeun sous-réseau du système autonome A. Le réseau F pourrait par exemple être le réseau

Wifi d'un particulier dont le modem ADSL f (qui fait aussi routeur Wifi) est relié à unrouteur e de son fournisseur d'accès à Internet. Ce routeur e fait partie du réseaunational E de son fournisseur qui possède une connexion directe avec un système

autonome A internationalement connecté.

Les routeurs des systèmes autonomes possèdent des sortes de méta-tables de routage quiindiquent pour une adresse IP comment atteindre le système autonome où se trouve la destinationpossédant cette adresse. Plus précisément, chacun de ces routeurs connaît la suite de systèmesautonomes qu'il va falloir traverser pour atteindre la destination. Pour cela, tout routeur frontière


Réseaux

connecté au routeur frontière d'un autre système autonome échange avec lui des informations sur lesadresses IP gérées par tel ou tel système autonome et sur les interconnexions entre systèmeautonomes selon le protocole de routage BGP (pour « Border Gateway Protocol »).

L'acheminement d'un paquet IP se fait donc généralement ainsi :1. le paquet remonte la hiérarchie de réseau jusqu'à un routeur du système autonome de la

source, 2. il transite ensuite de système autonome en système autonome jusqu'à celui de la destination,3. il descend la hiérarchie jusqu'à la passerelle en charge du réseau local de la destination, 4. cette passerelle l'envoie à la destination.

12.3. World Wide WebLe World Wide Web, littéralement la « toile (d'araignée) mondiale », communément appelé le

Web, le web, parfois la Toile ou le WWW, est un système hypertexte public fonctionnant sur Internetqui permet de consulter, avec un navigateur, des pages accessibles sur des sites. L'image de la toiled'araignée vient des hyperliens qui lient les pages web entre elles.

Techniquement, rien ne distingue le World Wide Web d'un quelconque autre web utilisant lesmêmes technologies ; d'ailleurs d'innombrables webs privés existent.

12.3.1. Termes rattachés au webL'expression en ligne signifie « connecté à un réseau », en l'occurrence le réseau informatique

Internet. Cette expression n'est pas propre au Web, on la retrouve à propos du téléphone.Un hôte est un ordinateur en ligne. Chaque hôte d'Internet est identifié par une adresse IP à

laquelle correspondent zéro, un ou plusieurs noms d'hôte. Cette terminologie n'est pas propre auWeb, mais à Internet.

Une ressource du World Wide Web est une entité informatique (texte, image, forum Usenet, boîteaux lettres électronique, etc.) accessible indépendamment d'autres ressources. Une ressource enaccès public est librement accessible depuis Internet. Une ressource locale est présente surl'ordinateur utilisé, par opposition à une ressource distante (ou en ligne), accessible à travers unréseau.

On ne peut accéder à une ressource distante qu'en respectant un protocole de communication. Lesfonctionnalités de chaque protocole varient : réception, envoi, voire échange continu d'informations.

Une URL (Uniform Resource Locator) pointe sur une ressource. C'est une chaîne de caractèrespermettant d'indiquer un protocole de communication et un emplacement pour toute ressource duWeb.

Un hyperlien (ou lien) est un élément dans une ressource associé à une URL. Les hyperliens duWeb sont orientés : ils permettent d'aller d'une source à une destination.

HTML (HyperText Markup Language) et XHTML (Extensible HyperText Markup Language)sont les langages informatiques permettant de décrire le contenu d'un document (titres, paragraphes,disposition des images, etc.) et d'y inclure des hyperliens. Un document HTML est un documentdécrit avec le langage HTML.

Dans un mode de communication client-serveur, un serveur est un hôte sur lequel fonctionne unlogiciel serveur auquel peuvent se connecter des logiciels clients fonctionnant sur des hôtes clients.

Un serveur Web est un hôte sur lequel fonctionne un serveur HTTP. Un serveur Web héberge lesressources qu'il dessert.

Un navigateur Web est un logiciel client HTTP conçu pour accéder aux ressources du Web. Safonction de base est de permettre la consultation des documents HTML disponibles sur les serveursHTTP. Le support d'autres types de ressource et d'autres protocoles de communication dépend dunavigateur considéré.

Une page Web (ou page) est un document destiné à être consulté avec un navigateur Web. Unepage Web est toujours constituée d'une ressource centrale (généralement un document HTML) etd'éventuelles ressources liées automatiquement accédées (typiquement des images).

Un éditeur HTML (ou éditeur Web) est un logiciel conçu pour faciliter l'écriture de documentsHTML et de pages Web en général.

Un site Web (ou site) est un ensemble de pages Web et d'éventuelles autres ressources, liées dansune structure cohérente, publiées par un propriétaire (une entreprise, une administration, une



association, un particulier, etc.) et hébergées sur un ou plusieurs serveurs Web.Visiter un site Web signifie « consulter ses pages ». Le terme visite vient du fait que l'on consulte

généralement plusieurs pages d'un site, comme on visite les pièces d'un bâtiment. Une adresse Web est une URL de page Web, généralement écrite sous une forme simplifiée

limitée à un nom d'hôte. Une adresse de site Web est en fait l'adresse d'une page du site prévue pouraccueillir les visiteurs.

Un hébergeur Web est une entreprise de services informatiques hébergeant (mettant en ligne) surses serveurs Web les ressources constituant les sites Web de ses clients.

12.3.2. Web profond (deep web)L'exploration récursive du Web à partir de ressources bien choisies est la méthode de base

programmée dans les robots d'indexation des moteurs de recherche.Le Web profond, ou Web invisible, est la partie du Web qui n'est pas indexée et donc introuvable

avec les moteurs de recherche généralistes. Des études indiquent que la partie invisible du Webreprésente plus de 99 % du Web. Le Web profond comprend notamment les ressources suivantes :

• les ressources inaccessibles au public, donc aux robots d'indexation1, notamment lespages administratives ou payantes, protégées par un mot de passe ;

• les ressources qui ne sont pas communiquées par des protocoles de communication prisen charge par les robots (souvent ils ne prennent en charge que HTTP et HTTPS) ;

• les ressources dont le format de données n'est pas pris en charge par le robot ; • les ressources listées dans un fichier d'exclusion des robots ; • les ressources exclues pour référencement abusif (spamdexing2) ; • les ressources exclues par le robot car considérées comme trop peu pertinentes ; • les ressources vers lesquelles les hyperliens sont créés dynamiquement en réponse aux

interrogations des visiteurs. Ces dernières ressources proviennent généralement de basesde données et constituent la partie la plus importante du Web profond.

12.3.3.Exploration du WebLe World Wide Web, en tant qu'ensemble de ressources hypertextes, peut être modélisé par un

graphe orienté où les ressources sont les sommets etles hyperliens les arcs. Du fait que le graphe estorienté, certaines ressources peuvent constituer despuits : il n'existe aucun chemin vers le reste du Web. Àl'inverse, certaines ressources peuvent constituer dessources en indiquant des liens vers d'autres ressources.Le graphe obtenu n'est pas forcément connexe : il n'estpeut-être pas possible de rejoindre un sommet à partird'un autre...

Un moteur de recherche comme Google est unensemble de robots qui parcourent le Web de page enpage, en suivant les liens entre ces pages, puis quiindexent automatiquement les pages visitées. Troisétapes sont indispensables à son fonctionnement :

• La collecte d'information grâce à des robots (aussi appelés spiders ou crawlers). • L'indexation des données collectées et la constitution d'une immense base de données

nommée « index ». • Le traitement des requêtes, avec en particulier un système d'interrogation de l'index et de

classement des résultats en fonction de critères de pertinence suite à la saisie de mots-clés.

1 Un robot d'indexation (ou littéralement araignée du Web ; en anglais web crawler ou web spider) est un logiciel qui explore automatiquementle Web. Il est généralement conçu pour collecter les ressources (pages web, images, vidéos, documents Word, PDF ou PostScript, etc.), afin depermettre à un moteur de recherche de les indexer.

2 Le spamdexing est un ensemble de techniques consistant à tromper les moteurs de recherche sur la qualité d'une page ou d'un site afin d'obtenir,pour un mot-clef donné, un bon classement dans les résultats des moteurs.


Réseaux

Des documents apparaissent et disparaissent tous les jours : il faut donc constamment réactualisercette base de données. Aucun moteur de recherche ne peut parcourir la totalité des pages en un jour(ce processus peut prendre plusieurs semaines).

Larry Page

Sergey Brin

12.4. GoogleL'histoire de l'entreprise Google commence par la rencontre de deux étudiants de l'université de

Stanford en 1995. En cette année, Sergey Brin (23 ans) et Larry Page (24 ans) commencent àtravailler sur un nouveau moteur de recherche. Ils nomment leur projet BackRub. Ils imaginent unlogiciel qui analyserait les relations entre les sites web afin d'offrir des meilleurs résultats que ceuxdonnés par leurs concurrents de l'époque, Altavista notamment.

Une fois leurs travaux finalisés, les deux étudiants commencent à concrétiser leur projet demoteur de recherche, et à cet effet, achètent un téraoctet de disque dur d'occasion, afin de créer unebase de donnée. Cette installation sommaire a pris place dans la chambre de Larry Page.

Les deux entrepreneurs sollicitent des entreprises (Sun Microsystems entre autres), famille etamis, et parviennent finalement à réunir un million de dollars pour fonder la compagnie. Dans la pluspure tradition des pionniers de l'informatique, Google Inc. s'installe dans un garage de Menlo, louépar un ami, en septembre 1998, La société comporte trois personnes : Sergey, Larry et CraigSilverstein qui est aujourd'hui directeur de Google Technology.

Alors que le moteur est toujours en phase version bêta3, il répond à près de 10'000 requêtes parjour. En août 1999, la barre des 3 millions de recherches quotidiennes est franchie.

En décembre 1998, PC Magazine classe Google dans sa liste des 100 meilleurs sites au monde.En février 1999, c'est 500'000 requêtes journalières que Google doit gérer. Devenant trop grand pourle garage qui l'héberge, Google se déplace, en mars, dans un bureau sur l'avenue de l'université dePalo Alto et 8 personnes y travaillent désormais.

Dès janvier 1999, la presse mondiale commence à se faire l'écho des performances de ce nouveaumoteur de recherche. Le journal français Le Monde écrit ainsi que le choix technologique de Google« s'avère très efficace à l'usage ». Ainsi, une recherche avec les mots « Bill Clinton » renvoie d'abordau site de la Maison Blanche, alors qu'AltaVista ne fait apparaître le site qu'après des dizainesd'autres références. Autre avantage : Google affiche les mots-clés en gras dans le contexte d'unephrase pour chaque lien, alors qu'Altavista ne fournit, à l'époque, que les liens eux-mêmes.

La société déménage une seconde fois vers son emplacement définitif, le Googleplex, situé àMountain View, en Californie. Le moteur de recherche, jusque-là en version bêta, achève sa phase detest le 9 septembre. Google assure alors la gestion de 3 millions de recherche par jour.

Le 9 mai 2000, le moteur de recherche est disponible en 10 nouvelles langues : allemand, danois,espagnol, finnois, français, italien, néerlandais, norvégien, portugais et suédois, permettant à lasociété de pénétrer de nouveaux marchés et de gagner en importance. Tout juste un mois plus tard,en juin 2000, Google est le premier moteur de recherche à avoir référencé un milliard de pages web.L'entreprise cherche à étendre la portée de son moteur en concentrant ses efforts sur l'Asie, avec lesversions chinoise, japonaise et coréenne (12 septembre), puis au monde entier, totalisant 26 languesdès le 27 mars 2001. Fin octobre 2000, Google signe un partenariat avec Yahoo! et commence àproposer de la publicité ciblée en fonction des mots-clés. L'année 2000 voit le trafic journalier du sitedépasser les 100 millions de requêtes, ce qui représente plus de 1000 requêtes/seconde en moyenne.Par son succès et sa croissance exponentielle, l'entreprise devient un phénomène mondial de presse.

L'année 2001 s'achève par une conquête physique du monde et par l'annonce de la 3 milliardièmepage indexée. Le 4 septembre 2001, Google obtient la validation de son brevet concernantPageRank.

Le moteur de recherche continue ainsi sa croissance, est décliné en plus de 100 langues en 2004et 150 de nos jours. Aujourd'hui Google est le premier moteur de recherche sur Internet, que 80 %d'internautes américains utilisent contre seulement 35 % de Chinois, qui préfèrent l'outil chinoisBaidu.

C'est à partir de 2002 que l'entreprise diversifie son activité, basée jusqu'alors sur son moteur derecherche. Apparaîtront alors, parmi les plus connus, Gmail, Google Earth, Google Maps, Google

3 Un produit en période de test bêta est généralement soumis à un nombre important ou représentatif de personnes : les bêta-testeurs. Ils peuventêtre soit des employés de la société qui développe le logiciel, soit des bénévoles notamment dans le cas des logiciels libres. Ces personnes ontpour but d'utiliser le logiciel et de rapporter les problèmes rencontrés ainsi que leurs suggestions.



Documents, Google Books, etc.

12.4.1.Fonctionnement du moteur de recherche Voici comment se passe une recherche avec Google :

1. L'internaute surfe sur Google.ch.2. Il tape des mots-clés.3. Sur certains navigateurs, Google complète certaines requêtes avec des termes de recherche

fréquents.4. L'internaute appuie sur la touche Entrée.5. Google ôte les mots non-significatif tels que les articles.6. La requête est dirigée vers le serveur Google le plus proche.7. Google recherche les informations correspondant à la requête parmi les milliards de pages

stockées sur des milliers d'ordinateurs de par le monde.8. Le gestionnaire de requête filtre les résultats pour proposer les plus pertinents. Il utilise plus

de 200 questions et une démarche proche de la logique humaine pour affiner les résultats.9. Dans certaines langues, le logiciel effectue des recherches de synonymes qui permettraient

de présenter des résultats encore plus pertinents.10. Un correcteur orthographique entre en action pour rechercher des liens en tenant compte

d'une éventuelle faute de frappe.11. Le logiciel recherche spam, virus et autres logiciels malveillants sur les pages.12. Google vérifie le type de fichier des contenus qu'il va lister.13. Les pages sont classées en fonction de leur PageRank (voir paragraphe suivant).14. Avant d'afficher les liens actifs, Google prépare les versions qu'il a déjà stockées sur ses

serveurs (et appelés « cache »), afin que l'internaute puisse au besoin les visionner.15. Le moteur prépare aussi une liste des Pages similaires, obtenue en utilisant diverses

logiques pour trouver des mots-clés en rapport avec ceux de la recherche initiale.16. La recherche que l'on a effectuée est devenue l'une des centaines de millions de pages

générées par Google quotidiennement.

Entre l'étape 5 et l'étape 16, il s'est écoulé moins d'une seconde !

12.4.2.PageRankLe PageRank ou PR est l'algorithme d'analyse des liens concourant au système de classement des

pages Web utilisé par le moteur de recherche Google pour déterminer l'ordre dans les résultats derecherche qu'il fournit. Ce système a étéinventé par Larry Page, cofondateur deGoogle.

On attribue à chaque page un scorecompris entre 0 et 10, proportionnel aunombre de fois que passerait par cette page uninternaute parcourant aléatoirement le graphedu Web en suivant les liens.

L'idée principale est que si une page A faitun lien vers une page B, alors c'est que la pageA juge que la page B est suffisammentimportante pour mériter d'être citée et d'êtreproposée aux visiteurs. Ce lien de A vers B augmente le PageRank de B.

Deux idées supplémentaires mais essentielles viennent la compléter :• l'augmentation de PageRank de la page B est d'autant plus importante que le PageRank de

la page A est élevé. En d'autres termes, il est bien plus efficace d'avoir un lien depuis la paged'accueil de Google que depuis une page du site de votre petit neveu.

• l'augmentation de PageRank de la page B est d'autant plus importante que la page A fait peu


Réseaux

de liens. Autrement dit, si la page A juge qu'il n'y a qu'une page qui mérite un lien, alors ilest normal que le PageRank de la page B augmente plus que dans le cas où de nombreusespages obtiennent un lien.

Formulation mathématique

Appelons A1, A2, ... An les n pages pointant vers une page B. Notons PR(Ak) le PageRank de lapage Ak, N(Ak) le nombre de liens sortants présents sur la page Ak et d un facteur compris entre 0 et 1,généralement fixé à 0.85.

Le PageRank de la page B se calcule à partir du PageRank de toutes les pages Ak de la manièresuivante :

PRB=1 – d d⋅ PRA1N A1

PRA2N A2

PR AnN An

Cette formule est à la fois simple et compliquée. Simple parce qu'elle ne contient que desfractions, compliquée parce qu'elle est récursive : pour calculer le PageRank d'une page, il faut avoircalculé celui de toutes les pages pointant vers elle. Mais alors comment commencer ?

En fait c'est très simple, il suffit de commencer avec des valeurs arbitraires de PageRank (parexemple 1). Le choix de cette valeur n'a pas d'influence sur le résultat final à condition que toutes lespages commencent avec la même valeur. Une application de la formule permet de calculer unnouveau PageRank pour chaque page, plus proche de la réalité que la valeur par défaut que nousavons choisie au début.

Ensuite, nous recommençons à calculer les PageRank de toutes les pages en appliquant denouveau la formule, mais en partant cette fois des valeurs que nous avons calculées précédemment.Après un certain nombre d'itérations, le système converge : les valeurs de PageRank de chaque pagene bougent plus entre deux itérations. En pratique la convergence est obtenue au bout de plusieursdizaines d'itérations (tout dépend du nombre de pages considérées).

Le PageRank d'une page B ne dépend donc que de trois facteurs :• le nombre de pages Ak faisant un lien vers B, • le PageRank de chaque page Ak, • le nombre de liens sortants de chaque page Ak.

Il ne dépend ni du trafic, ni du nombre de fois qu'apparaît un mot-clé.

Exercice 12.1Exercice 12.1

Vous avez créé un site web. Comment pouvez-vous améliorer le PageRank de la page d'accueil(les moyens malhonnêtes sont permis) ?

Exercice 12.2Exercice 12.2

Calculez le PageRank des pages web reliées selon le schéma ci-contre.

Prenez 1 comme PR initial.

Faites une itération à la main, puis écrivez un programme pour montrer la convergence.


A

B C D


12.5. Les réseaux pair-à-pair (peer to peer, P2P)Les systèmes pair-à-pair permettent à plusieurs ordinateurs de communiquer via un réseau, de

partager simplement des objets – des fichiers le plus souvent, mais également des flux multimédiacontinus (streaming), le calcul réparti, un service (comme la téléphonie avec Skype), etc. surInternet.

Le pair-à-pair a permis une décentralisation des systèmes, auparavant basés sur quelquesserveurs, en permettant à tous les ordinateurs de jouer le rôle de client et serveur (voir client-serveur). En particulier, les systèmes de partage de fichiers permettent de rendre les objets d'autantplus disponibles qu'ils sont populaires, et donc répliqués sur un grand nombre de nœuds. Cela permetalors de diminuer la charge (en nombre de requêtes) imposée aux nœuds partageant les fichierspopulaires, ce qui facilite l'augmentation du nombre de nœuds et donc de fichiers dans le réseau.

Un réseau de type client-serveur. Un réseau pair-à-pair.

L'utilisation d'un système pair-à-pair nécessite pour chaque nœud l'utilisation d'un logicielparticulier. Ce logiciel, qui remplit alors à la fois les fonctions de client et de serveur, est parfoisappelé « servent » (de la contraction de « serveur » et de « client », due à Gnutella), ou pluscommunément mais de façon réductrice, « client ». C'est là l'origine du terme pair (de l'anglais :peer) que l'on trouve dans pair-à-pair : les communications et les échanges se font entre des nœudsqui ont la même responsabilité dans le système.

Le modèle pair-à-pair va bien plus loin que les applications de partage de fichiers. Il permet eneffet de décentraliser des services et de mettre à disposition des ressources dans un réseau. Toutnœud d'un réseau pair-à-pair peut alors proposer des objets et en obtenir sur le réseau. Les systèmespair-à-pair permettent donc de faciliter le partage d'informations. Ils rendent aussi la censure ou lesattaques légales ou pirates plus difficiles. Ces atouts font des systèmes pair-à-pair des outils de choixpour décentraliser des services qui doivent assurer une haute disponibilité tout en permettant defaibles coûts d'entretien. Toutefois, ces systèmes sont plus complexes à concevoir que les systèmesclient-serveur.

Applications

Chaque internaute est un pair du réseau et les ressources sont des fichiers. Chacun peut doncpartager ses fichiers et télécharger les fichiers des autres. Ces systèmes s'avèrent très efficaces ycompris quand il s'agit d'échanger des données de gros volumes.

Une seconde application destinée au grand public ou à la recherche est la possibilité pour lesinternautes de mettre à disposition une partie de leur puissance de calcul. Les ordinateursd'aujourd'hui sont tellement puissants que la majeure partie du temps, une grande partie de leurprocesseur est disponible pour effectuer des calculs. Le projet BOINC a saisi cette opportunité pourcréer un gigantesque parc informatique réparti dans le monde afin d'utiliser cette immense puissancede calcul totale pour effectuer des calculs trop complexes pour être réalisé dans un laboratoire. Leprojet BOINC demande donc au particulier de permettre l'usage de la puissance de calcul dont il n'apas immédiatement besoin pour contribuer à la recherche sur le repliement de protéine(Folding@Home) et même à la recherche d'intelligence extra-terrestre (SETI@home).


Réseaux

12.6. L'informatique dans les nuagesL'« informatique dans les nuages » (cloud computing) est un concept apparu assez récemment,

mais dont les prémices remontent à quelques années, notamment à la technologie des grilles decalcul, utilisée pour le calcul scientifique. Le cloud computing fait référence à l'utilisation de lamémoire et des capacités de calcul des ordinateurs et des serveurs répartis dans le monde entier, etliés par un réseau, tel Internet. Cela signifie pour les utilisateurs, qu'ils accèdent à leurs applicationset données sur des serveurs distants et non plus sur leurs propres machines. Dans ce concept, lesutilisateurs n'ont plus à se soucier des aspects techniques (infrastructures, déploiement, mises àjour…). Les utilisateurs du nuage peuvent ainsi disposer d'une puissance informatique considérable.

L'intérêt du cloud computing est évident. Au lieu d'acheter cher des serveurs et des logiciels, quine sont pas utilisés à 100 %, les entreprises les louent et ne paient que pour l'usage qu'elles en font.Elles peuvent aussi, en quelques minutes, accéder à des capacités de stockage et de calculsupplémentaires, auxquelles elles n'auraient pas pu prétendre si elles avaient dû se les payer seules.

Il est fort probable que vous utilisez déjà le cloud computing sans vous en rendre compte :Gmail, Flickr ou Spotify sont des services auxquels vous avez accès via Internet et où vous stockezdes données. C'est exactement le principe du cloud computing.

Avantages

• L'accessibilité : vos données sont sur un serveur, consultables à n'importe moment et oùque vous soyez via une connexion Internet.

• Partage et travail collaboratif : vous pouvez également partager vos ressources etpermettre ainsi un travail à plusieurs (pae exemple Google Docs).

• Économique : votre prestataire gère complètement les aspects techniques du service etdes coûts engendrés. Pour une entreprise, cela se traduit par exemple par la disparitionde mises à jour pour chaque poste, car réalisées côté serveur. Homogénéisation desversions et gain de temps.

Inconvénients

• Connexion Internet obligatoire : sans celle-ci, inutile d'espérer pouvoir accéder à vosressources. C'est un réel frein lorsqu'on sait qu'en pleine campagne par exemple, le Wi-Fi devient rare et la 3G difficile à capter.

• Transportabilité des données : vos données sont-elles « prisonnières » du serviceauxquelles elles sont liées ? Comment récupérer nos données en cas de fermeture d'unservice ?

• Sécurité et intégrité des données : le sujet est loin d'être simple et mérite des étudesapprofondies. En regroupant vos ressources sur Internet vous perdez, une partie ducontrôle sur celles-ci. Dès lors que vos données, même chiffrées, transitent sur Internet,le risque de piratage est bien plus présent que sur une utilisation locale. Deux exemples récents de pertes de données utilisateurs en cloud computing prouventque le sujet est encore préoccupant. Toutes les données (contacts, agenda, photos, etc)d'utilisateurs du téléphone Sidekick (de l'opérateur T-mobile) se sont envolées suite àune opération de maintenance ratée par Microsoft. Autre exemple, un service en ligne desauvegardes, Carbonite, a perdu les données d'une cinquantaine de clients, à cause d'unedéfaillance matériel. Il est donc primordial de prendre conscience des limites que lecloud computing impose.

Les avis divergent sur l'intérêt du cloud computing. D'un côté, les révolutionnaires vénèrent leprincipe et voient le futur sur un petit nuage. Un avenir mutualisé et sans cesse connecté à la Toile.De l'autre, les méfiants qui le redoutent et font des inconvénients cités ci-dessus leur argumentaired'anti-cloud. Trop risqué et trop fragile, ce n'est pas un concept viable.

Pour Richard Stallman, à l'origine du système d'exploitation libre GNU, l'informatique dans lenuage « est un piège », ses utilisateurs perdant le contrôle de leurs applications. Ce militant dulogiciel libre y voit un concept publicitaire sans intérêt, rejoignant les critiques exprimées par LarryEllison, fondateur d'Oracle, selon lequel il s'agit d'un phénomène de mode.



Sources[1] Wikipédia, « Modèle OSI », <http://http://fr.wikipedia.org/wiki/Modèle_OSI >

[2] Wikipédia, « Internet dans le monde », <https://fr.wikipedia.org/wiki/Internet_dans_le_monde>

[3] Interstices, « Internet, le conglomérat des réseaux », <http://interstices.info/internet>

[4] Wikipédia, « World wide web », <http://fr.wikipedia.org/wiki/World_Wide_Web>

[5] Wikipédia, « Google », <http://fr.wikipedia.org/wiki/Google>

[6] Webrankinfo, « Description de l'algorithme du PageRank », <http://www.webrankinfo.com/dossiers/pagerank/introduction>

[7] Eisermann Michael, « L'algorithme PageRank de Google : une promenade sur la toile », <http://www.igt.uni-stuttgart.de/eiserm/enseignement/google-promenade.pdf>

[8] Wikipédia, « Pair à pair », <http://fr.wikipedia.org/wiki/Pair_à_pair>

[9] Interstices, « Les réseaux de pair à pair », <https://interstices.info/jcms/c_8622/les-reseaux-de-pair-a-pair>


https://interstices.info/jcms/c_8622/les-reseaux-de-pair-a-pair

https://interstices.info/jcms/c_8622/les-reseaux-de-pair-a-pair

http://fr.wikipedia.org/wiki/Pair_%C3%A0_pair

http://www.igt.uni-stuttgart.de/eiserm/enseignement/google-promenade.pdf

http://www.webrankinfo.com/dossiers/pagerank/introduction

http://fr.wikipedia.org/wiki/Google

http://fr.wikipedia.org/wiki/World_Wide_Web

http://interstices.info/jcms/c_15921/internet-le-conglomerat-des-reseaux

https://fr.wikipedia.org/wiki/Internet_dans_le_monde

http://fr.wikipedia.org/wiki/Mod%C3%A8le_OSI