Transcript
  • 8/19/2019 Te7585 Haute Disponibilite Dans Les Reseaux IP

    1/15

    Toute reproduction sans autorisation du Centre français d’exploitation du droit de copieest strictement interdite. – Â© Editions T.I. TE 7 585 â€“ 1

       T

       E 

       7

       5   8   5

       1   1  -   2   0   0   7

    Haute disponibilitédans les réseaux IP

    par  Sarah NATAF

    et  Bruno DECRAENEIngĂ©nieurs d’études, routage IP/MPLS, France TĂ©lĂ©com R&D 

    i Ă  l’origine le protocole IP a Ă©tĂ© conçu pour fournir des services de type Â« best effort », les rĂ©seaux IP reprĂ©sentent dĂ©sormais une part importante 

    des infrastructures de tĂ©lĂ©communications et ont vocation Ă  transporter de nombreux services avec leurs contraintes de disponibilitĂ© (applications dis- tantes, voix, vidĂ©o, tĂ©lĂ©vision, etc.).

    Les rĂ©seaux IP peuvent ĂȘtre impactĂ©s par des incidents, susceptibles de rĂ©duire leur disponibilitĂ©, tels que des pannes matĂ©rielles , la perte de liens de transmission , des bugs logiciels   ou des opĂ©rations de maintenance . Des solutions permettent cependant de rĂ©duire les impacts de ces incidents sur le trafic. Ce dossier se propose de dĂ©crire les technologies permettant d’assurer les fonctions de haute disponibilitĂ© « High Availability » dans les rĂ©seaux IP/ MPLS ainsi que leur implĂ©mentation sur les Ă©quipements.

    1. Contexte et définitions ........................................................................... TE 7 585 - 2

    1.1 DĂ©finition de la disponibilitĂ© ....................................................................... — 2

    1.2 Comment amĂ©liorer la disponibilitĂ© ? ........................................................ — 2

    1.3 Taxonomie des pannes ............................................................................... — 3

    2. Diminution du MTTR : reroutage ......................................................... — 3

    2.1 Architecture fonctionnelle d’un routeur..................................................... — 3

    2.2 Temps de convergence du routage............................................................ — 4

    2.3 DĂ©tection rapide ........................................................................................... — 5

    2.4 Convergence « rapide »............................................................................... — 5

    2.5 Protection locale........................................................................................... — 6

    3. Augmentation du MTTF – Haute disponibilitĂ© . .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. — 6

    3.1 Contraintes de haute disponibilitĂ© au niveau du plan de transfertet Non Stop Forwarding .............................................................................. — 7

    3.2 Contraintes de haute disponibilitĂ© au niveaudu plan de commande................................................................................. — 7

    3.3 CapacitĂ© NSR ou Non Stop Routing .......................................................... — 7

    3.4 Extensions GR ou Graceful Restart ........................................................... — 7

    3.5 Protocoles multicast .................................................................................... — 12

    4. OpĂ©rations de maintenance dans les rĂ©seaux IP .. ... .. .. .. ... .. .. ... .. .. .. .. — 124.1 Maintenances logicielles avec continuitĂ© de service ................................ — 12

    4.2 Maintenances matĂ©rielles avec interruption de service........................... — 13

    5. Conclusion.................................................................................................. — 13

    Pour en savoir plus ......................................................................................... Doc. TE 7 585

  • 8/19/2019 Te7585 Haute Disponibilite Dans Les Reseaux IP

    2/15

    HAUTE DISPONIBILITÉ DANS LES RÉSEAUX IP 

    ____________________________________________________________________________________________

    Toute reproduction sans autorisation du Centre français d’exploitation du droit de copieest strictement interdite. – Â© Editions T.I.TE 7 585 â€“ 2

    Abréviations

    AS Autonomous System

    ASIC Application Specific Integrated Circuit

    BFD Bidirectional Forwarding Detection

    BGP Border Gateway Protocol

    COS Class Of Service

    EGP External Gateway Protocol

    FEC Forwarding Equivalence Class

    FIB Forwarding Information Base

    FT Fault Tolerance

    GR Graceful RestartHA High Availability

    IETF Internet Engineering Task Force

    IGP Interior Gateway Protocol

    IS-IS Intermediate System to Intermediate System

    ISSU In-Service Software Upgrades

    LDP Label Distribution Protocol

    LER Label Edge Router

    LFIB Label Forwarding Information Base

    LIB Label Information Base

    LRDI Line Remote Indication Defect

    LSA Link State Advertisement

    LSP Labeled Switched Path (MPLS)

    LSP Link State Packet (IS-IS)

    LSR Label Switch Router

    MP-BGP Multi Protocol Extensions for BGP 4

    MPLS Multi Protocol Label SwitchingArchitecture

    MTBF Mean Time Between Failure

    MTTF Mean Time To Failure

    MTTR Mean Time To Repair

    NSF Non Stop Forwarding

    NSR Non Stop Routing

    OSPF Open Shortest Path First

    PE Provider Edge

    QOS Quality Of Service

    RIB Routing Information Base

    RIP Routing Information Protocol

    RP Route Processor

    RSVP-TE Resource Reservation Protocole-TrafficEngineering

    SPF Shortest Path First

    TLV Type Length Value

    VPN Virtual Private Network

    VRF VPN Routing and Forwarding

    1. Contexte et définitions

    1.1 Définition de la disponibilité

    Les objectifs de disponibilité sont typiquement spécifiés sousforme de fraction décimale telle que 0,999 99 ou parfois en échellelogarithmique appelée « neuf » et qui correspond globalement aunombre de neuf suivant la virgule, tel que cinq neuf pour une dis-ponibilité de 0,999 99 (tableau 1).

    1.2 Comment améliorer la disponibilité ?

    La disponibilitĂ© Ă©tant Ă©gale Ă  MTTF/(MTTF + MTTR), nous avonsdeux moyens pour l’amĂ©liorer.

    Le premier moyen consiste Ă  diminuer le temps moyen de rĂ©pa-ration (MTTR), autrement dit de rĂ©parer rapidement le rĂ©seau.Dans les rĂ©seaux IP/MPLS, cela est possible avec l’utilisation deprotocoles de routage dynamique qui permettent de recalculer unchemin dynamiquement afin de contourner la panne d’un lien oud’un nƓud. Dans le paragraphe 2  « Diminution du MTTR :reroutage », on dĂ©crit succinctement comment minimiser ce tempsde rĂ©paration.

    La disponibilitĂ©  d’un systĂšme ou d’un rĂ©seau, telle quedĂ©crite dans les documents [1] [2] ou [3], correspond Ă  « la pro-babilitĂ© que le systĂšme fonctionne Ă  l’instant t  Â». De maniĂšresimple, la disponibilitĂ© est la proportion de temps pendantlequel le systĂšme fonctionne (correctement). C’est le ratio dutemps pendant lequel le systĂšme fonctionne sur le temps del’intervalle considĂ©rĂ©.

    Un exemple de disponibilitĂ© est 100/168 si le systĂšme peut ĂȘtreutilisĂ© 100 h par semaine.

    La disponibilitĂ© peut ĂȘtre calculĂ©e Ă  partir de laconnaissance du temps moyen jusqu’à la dĂ©faillance (MTTFMean Time To Failure ) et du temps moyen de restauration(MTTR Mean Time To Repair ) = MTTF/(MTTF + MTTR).

    Tableau 1 – IndisponibilitĂ© annuelle en fonctionde la disponibilitĂ©

    DisponibilitéDurée cumulée

    de pannes par an

    0,9 Un 9 36 j

    0,99 Deux 9 3,7 j

    0,999 Trois 9 9 h

    0,999 9 Quatre 9 53 min

    0,999 99 Cinq 9 5 min

    http://-/?-http://-/?-http://-/?-

  • 8/19/2019 Te7585 Haute Disponibilite Dans Les Reseaux IP

    3/15

    Toute reproduction sans autorisation du Centre français d’exploitation du droit de copieest strictement interdite. – Â© Editions T.I. TE 7 585 â€“ 3

    ____________________________________________________________________________________________ HAUTE DISPONIBILITÉ DANS LES RÉSEAUX IP

    Le second consiste Ă  augmenter le temps de fonctionnementcorrect du rĂ©seau avant une panne (MTTF), autrement dit de nepas tomber en panne. Les techniques ayant pour but d’éviter que

    les pannes aient un impact sur l’acheminement des paquets dansle rĂ©seau sont dĂ©crites dans le paragraphe 3.  Il s’agit donc demasquer le maximum de pannes.

    1.3 Taxonomie des pannes

    Les causes des pannes affectant la disponibilitĂ© des rĂ©seaux IP/ MPLS sont multiples. Une Ă©tude, rĂ©alisĂ©e par le groupe deconsultant Network Strategy Partners [6], donne la rĂ©partitionsuivante en fonction de la cause des pannes (figure 1).

    Comme nous allons le dĂ©crire et afin d’amĂ©liorer au mieux ladisponibilitĂ© des rĂ©seaux, il est nĂ©cessaire de traiter d’une maniĂšre

    spécifique chaque type de panne.

    2. Diminution du MTTR :reroutage

    2.1 Architecture fonctionnelled’un routeur

    L’architecture fonctionnelle des routeurs repose sur une sĂ©para-

    tion logique des fonctionnalitĂ©s supportĂ©es par l’équipement, et ceen deux plans (figure 2).

    Le plan de contrĂŽle ou plan de commande  (Control Plane )constitue la partie « intelligente » du routeur. Il Ă©tablit et maintientdes tables de routage (RIB, Routing Information Base ) grĂące auxprotocoles de routage qui permettent de dĂ©terminer la route Ă  uti-liser vers toutes les destinations du rĂ©seau, et ce grĂące Ă  desĂ©changes d’informations sur l’état du rĂ©seau entre les plans decontrĂŽle de chaque routeur. On distingue les protocoles de routageinterne IGP (Interior Gateway Protocol ), tels que OSPF, IS-IS et RIP,et les protocoles de routage externes EGP (External Gateway Protocol ), tels que BGP ou MP-BGP. Dans les rĂ©seaux MPLS, ce

    plan gĂšre Ă©galement les tables de labels mises Ă  jour Ă  partir desprotocoles de distribution de labels tels que LDP ou RSVP-TE. Pource faire, il utilise des protocoles et des algorithmes complexesnĂ©cessitant une quantitĂ© de mĂ©moire et une puissance de calcul« importante », de l’ordre de grandeur d’un PC de bureau. Il n’apas Ă  effectuer de traitements « temps rĂ©els » par rapport Ă  l’ache-minement des paquets. Son Ă©chelle de temps de rĂ©action est celuides temps de convergence des protocoles de routage utilisĂ©s dansles rĂ©seaux, c’est-Ă -dire de l’ordre de quelques centaines de milli-secondes pour les protocoles de routage interne (OSPF, IS-IS) Ă quelques secondes Ă  dizaines de secondes pour les protocoles deroutage externes (BGP).

    Figure 1 – Causes d’indisponibilitĂ©

    Mise à jourmatérielle

    9 %

    Logicielle25 %

    Matérielle14 %

    Électrique1 %

    Inconnue9 %

    Lien20 %

    Mise Ă  jourlogicielle

    22 %

    Figure 2 – Vue logique des routeurs

    FIB LFIB

    Aiguillage Plan detransfert

    Calcul deschemins, contrîled‘admission

    Protocole deroutage (OSPF,IS-IS, BGP, 
)

    Gestion desressources debande passante(files d‘attente)et du niveau 2

    Protocole designalisation(RSVP-TE, LDP)

    Plan decommande

    LIB

    Routage

    RIB

    http://-/?-http://-/?-http://-/?-http://-/?-

  • 8/19/2019 Te7585 Haute Disponibilite Dans Les Reseaux IP

    4/15

    HAUTE DISPONIBILITÉ DANS LES RÉSEAUX IP 

    ____________________________________________________________________________________________

    Toute reproduction sans autorisation du Centre français d’exploitation du droit de copieest strictement interdite. – Â© Editions T.I.TE 7 585 â€“ 4

    Le plan de transfert (Data Plane ) regroupe les fonctions de commuta-tion de paquets IP/MPLS en utilisant les tables de commutation (FIB,Forwarding Information Base ) calculĂ©es par le plan de commande. Il a

    pour fonction d’aiguiller les paquets IP/MPLS reçus d’une interfaced’entrĂ©e vers une interface de sortie. Cette fonction ne nĂ©cessite pas outrĂšs peu d’intelligence mais son but est la vitesse de commutation. Parexemple, une interface OC 192 Ă  10 Gbit/s nĂ©cessite la commutation de4 millions de paquets par secondes. Pour cela, le plan de transfert utiliseun algorithme de commutation trĂšs simple (consultation d’une table enMPLS ou d’un arbre Ă  typiquement 3 niveaux en IP) qui est exĂ©cutĂ© en« hardware » par un processeur trĂšs spĂ©cifique (ASIC). Les fonctions duplan de transfert sont entre autres d’établir les adjacences de niveau 1(couche physique) et 2 (couche liaison de donnĂ©es) du modĂšle OSI avecles routeurs voisins. Le traitement comprend des fonctions deconsultation des tables de commutation (lookup ) et de qualitĂ© de ser-vice (QoS) tels que la classification, le marquage et le shaping. La bande

    passante est ainsi gĂ©rĂ©e dans ce plan qui contient les files d’attentes(queuing ) plus ou moins Ă©laborĂ©es.À ces deux fonctions principales peut s’ajouter un troisiĂšme

    plan, le plan de management  (Management Plane ), qui contrĂŽleles opĂ©rations de gestion du routeur : configuration (interface enligne de commande comprise), remontĂ©es d’informations lors dedĂ©pannages (debug), connexion (telnet, console) et supervision(SNMP, journalisation).

    Cette sĂ©paration logique a Ă©tĂ© standardisĂ©e Ă  l’IETF dans legroupe de travail Forces (Forwarding and Control Element Separation ), qui modĂ©lise les nƓuds IP en dĂ©finissant des mĂ©ca-nismes d’isolation entre les plans de contrĂŽle et de transfert.

    2.2 Temps de convergence du routageLes Ă©quipements des rĂ©seaux IP/MPLS disposent d’un plan de

    commande « intelligent » leur permettant de prendre des dĂ©cisionsde routage dynamiques en cas de panne. Le MTTR est donc limitĂ©au temps nĂ©cessaire Ă  ces Ă©quipements pour dĂ©tecter la panne,puis dĂ©terminer et utiliser un autre chemin afin de contourner cettepanne (figure 3). La diminution du MTTR nĂ©cessite de rĂ©tablir rapi-dement l’acheminement correct des paquets Ă  travers le rĂ©seau.

    On peut dĂ©composer le temps de convergence des protocolesde routage interne (IGP) de type Link State  (tels que les protocolesOSPF ou IS-IS [7]) en quatre phases (figure 4) :

    – dĂ©tection locale de la panne physique ;

    – propagation de l’information topologique (LSP pour IS-IS, LSApour OSPF) dans le rĂ©seau ;– calcul d’une route alternative et alimentation de la RIB ;– alimentation de la FIB ou des FIB.

    Pour diminuer le temps de convergence et donc le MTTR, il fautminimiser chacune de ces quatre Ă©tapes.

    DiffĂ©rentes bases d’informations d’un routeur IP

    La RIB  (Routing Information Base ) est la table de routage.Elle rĂ©side dans le plan de contrĂŽle et peut ĂȘtre mise Ă  jourpar plusieurs protocoles de routage.

    La FIB  (Forwarding Information Base ) est la tabled’aiguillage. Elle est calculĂ©e par le plan de contrĂŽle, mais uti-lisĂ©e par le plan de transfert. La FIB est une vue simplifiĂ©e dela RIB et ne contient que les informations nĂ©cessaires Ă l’aiguillage des paquets.

    La LIB (Label Information Base ) est la table des labels. EllerĂ©side dans le plan de contrĂŽle.

    La LFIB  (Label Forwarding Information Base ) est la tabled’aiguillage des paquets MPLS. C’est l’équivalent de la FIB

    mais pour les paquets MPLS.Il y a une FIB par protocole de niveau 3 commuté par le

    routeur : IPv4, IPv6, MPLS... Dans les réseaux VPN BGP/MPLS,les routeurs de type PE gÚrent en plus une FIB pour chaqueVPN.

    Figure 3 – Diminution du MTTR par reroutage dynamique

    R1R2 R3

    R5R4

    LĂ©gende :

    Chemin nominal

    Chemin de secours

    Figure 4 – DĂ©composition du temps de convergence (IGP)

    Temps de convergencePanne

    DĂ©tection RĂ©ception RIB mise Ă  jour

    PropagationCalcul des routes

    Alimentation FIB

    Temps

    FIB mise Ă  jour

    T0 T1 T2 T3 T4

    http://-/?-http://-/?-http://-/?-http://-/?-

  • 8/19/2019 Te7585 Haute Disponibilite Dans Les Reseaux IP

    5/15

    Toute reproduction sans autorisation du Centre français d’exploitation du droit de copieest strictement interdite. – Â© Editions T.I. TE 7 585 â€“ 5

    ____________________________________________________________________________________________ HAUTE DISPONIBILITÉ DANS LES RÉSEAUX IP

    2.3 DĂ©tection rapide

    La panne peut ĂȘtre dĂ©tectĂ©e par deux moyens :

    – dĂ©tection directe par remontĂ©e de l’information du plan detransfert ;

    – dĂ©tection indirecte par les mĂ©canismes « Hello ».

    2.3.1 DĂ©tection de la pannepar le plan de transfert

    Si les routeurs utilisent des interfaces point-Ă -point directementraccordĂ©es par une fibre optique, la coupure de la fibre est dĂ©tec-tĂ©e par la perte du signal – Ă©lectrique ou optique – de la couchephysique (couche 1 du modĂšle OSI). C’est par exemple le cas desinterfaces POS (Packet over   SONET/SDH) qui sont configurĂ©esavec un framing SDH   et une encapsulation hdlc-like . En cas depanne d’un de ces liens, la couche 2 (SDH) gĂ©nĂšre des alarmes

    POS et alerte le routeur.La figure 5 prĂ©sente les diffĂ©rents timers  utilisĂ©s par un routeur

    Cisco, qui ne reçoit plus de lumiĂšre (laser) sur le rĂ©cepteur de sacarte POS, pour gĂ©nĂ©rer une alarme et indiquer Ă  l’IOS que cetteinterface (ou port) doit ĂȘtre considĂ©rĂ©e comme inactive (Ă©tatDown). Nous pouvons constater que pour amĂ©liorer la rĂ©activitĂ©de cette dĂ©tection il faut minimiser :

    – le POS delay triggers , dont la valeur par dĂ©faut est de 0 ms ;– le carrier delay , dont la valeur par dĂ©faut est de 2 s.La figure 6 prĂ©sente la rĂ©action d’un routeur Cisco Ă  la rĂ©ception

    d’un message LRDI (Line Remote Defect Indicator ) Ă©mis par lerouteur adjacent qui a dĂ©tectĂ© la panne par l’absence de lumiĂšre.

    2.3.2 DĂ©tection de la panne par les mĂ©canismesHello 

    La dĂ©tection d’une panne directement par le plan de transfert estla mĂ©thode la plus rapide. Si elle n’est pas possible, par exempleparce que le rĂ©seau de transport sous-jacent ne le permet pas(comme un rĂ©seau Ethernet), on doit dĂ©tecter la panne par desmĂ©canismes de type Hello .

    Les protocoles de routage, et en particulier les protocoles IGP,utilisent l’échange de messages pĂ©riodiques de type Hello   entrevoisins. La dĂ©tection de la perte d’une adjacence a lieu lorsqueplusieurs messages Hello   consĂ©cutifs sont perdus (figure 7). Letemps de dĂ©tection dĂ©pend de deux paramĂštres configurables :l’intervalle de temps entre deux messages Hello  et le nombre demessages perdus avant de considĂ©rer l’interface en panne.

    Chaque protocole de routage a spécifié son propre mécanisme

    de Hello , combinant parfois des fonctions d’échange d’informationentre les routeurs (lorsque l’interface fonctionne) et de dĂ©tectionde panne lorsqu’elle ne fonctionne plus.

    Plus rĂ©cemment, l’IETF normalise un protocole spĂ©cifique Ă  ladĂ©tection de panne : le protocole BFD  Bidirectional Forwarding Detection  [8]. C’est un protocole n’utilisant qu’un seul type de mes-sage, relativement court (24 octets), de taille fixe, conçu pour nenĂ©cessiter que des traitements lĂ©gers pouvant ĂȘtre rĂ©alisĂ©s rapide-ment par tout processeur standard (General Purpose   CPU) ou auniveau matĂ©riel par des processeurs trĂšs spĂ©cialisĂ©s (ASIC). Ce pro-tocole, en Ă©tant plus lĂ©ger que les mĂ©canismes de Hello  des proto-coles de routage, pourrait permettre une dĂ©tection plus rapide despannes avec Ă©galement une implĂ©mentation au plus prĂšs de l’inter-

    face c’est-à-dire sur les cartes d’interfaces des routeurs.

    2.4 Convergence « rapide »

    Les protocoles de routage utilisent des algorithmes de calcul dis-tribuĂ©. Suite Ă  la dĂ©tection de la panne, les Ă©tapes restant Ă  effec-tuer pour un IGP de type link state  tel qu’IS-IS sont :

    1. propagation de l’information topologique (LSP pour IS-IS,LSA pour OSPF) dans le rĂ©seau ;

    2. calcul d’une route alternative et alimentation de la RIB ;

    3. alimentation de la FIB ou des FIB.

    D’une maniĂšre gĂ©nĂ©rale, la durĂ©e de ces trois Ă©tapes dĂ©pendtrĂšs fortement de la qualitĂ© de l’implĂ©mentation logicielle, del’effort portĂ© sur l’optimisation des temps de convergence et dumatĂ©riel utilisĂ©.

    ■ Pour la premiĂšre Ă©tape, le temps de propagation de l’informa-tion topologique dĂ©pend Ă©galement de la topologie du rĂ©seau eten particulier du nombre de routeurs devant propager l’informa-tion topologique entre le routeur ayant dĂ©tectĂ© la panne, d’unepart, et le routeur devant dĂ©vier le trafic.

    Figure 5 – Timers  et dĂ©tection d’une panne physique sur une fibred’un routeur Cisco

    Figure 6 – Timers  et dĂ©tection de la panne SDH d’un routeur Ciscosuite Ă  une alarme POS

    Plan de transfert

    Panne du lien

    (perte du signal

    en réception)

    Temps

    POS delay triggers 

    Detection

    Carrier delay 

    Temporisation

    Alarme POS(perte du signal)

    L‘interfaceest dĂ©clarĂ©een panne

    Plan de commande

    IOS

    Annonce de l‘alarme

    Ă  lâ€˜Ă©quipement voisin

    (LRDI)

    Interface

    Plan de transfert

    RĂ©ception de l‘alarme POS

    (LRDI)

    Interface

    IOS

    Plan de commande

    Temps

    Carrier delay 

    Temporisation

    Prise en comptede l‘alarme POS

    L‘interface est dĂ©clarĂ©een panne

    Dans l’exemple de la figure 3, suite Ă  la panne du lien entre R2 etR3, le routeur R2 dĂ©tecte la panne du lien et l’annonce au routeur R1,qui est le routeur devant dĂ©vier le trafic. Ces deux routeurs sontsituĂ©s Ă  un seul saut l’un de l’autre.

    Figure 7 – DĂ©tection de panne par des mĂ©canismes de type Hello 

    Hello Hello Hello   Hello-1 Hello-2 Hello-3

    PanneDĂ©tection de la panne

    aprĂšs la perte

    de 3 messages hello  

    consécutifs

    Temps

     

    Temps de détection

    http://-/?-http://-/?-http://-/?-http://-/?-http://-/?-http://-/?-http://-/?-http://-/?-

  • 8/19/2019 Te7585 Haute Disponibilite Dans Les Reseaux IP

    6/15

    HAUTE DISPONIBILITÉ DANS LES RÉSEAUX IP 

    ____________________________________________________________________________________________

    Toute reproduction sans autorisation du Centre français d’exploitation du droit de copieest strictement interdite. – Â© Editions T.I.TE 7 585 â€“ 6

    On pourrait intuitivement penser que dans des grands rĂ©seaux,cette distance topologique pourrait ĂȘtre grande, mais certainesĂ©tudes ont montrĂ© le contraire. Par exemple, une Ă©tude [11] a

    calculé tous les cas de pannes de liens dans un réseau de taillemondiale et a montré que prÚs de 90 % du trafic était rerouté parun routeur situé à moins de deux sauts de la panne (figure 8).

    ■ Pour la seconde Ă©tape, le temps de calcul de la route alternativeet la modification de la RIB dĂ©pend de la taille du rĂ©seau en nombrede nƓuds et de liens et du nombre de prĂ©fixes IP Ă  modifier dansla RIB. Le temps de calcul des plus courts chemins SPF (Shortest Path First ) est de l’ordre de quelques dizaines de millisecondes (parexemple 35 ms pour 600 nƓuds).

    ■ Enfin pour la troisiĂšme Ă©tape, le temps de mise Ă  jour des tablesde commutations (FIB) dĂ©pend du nombre de prĂ©fixes Ă  modifierou rĂ©Ă©crire. Ce temps est de l’ordre de 200 ”s par prĂ©fixe, mais

    compte tenu du nombre important de prĂ©fixes dans les rĂ©seauxInternet, c’est cette Ă©tape qui est la plus longue. Elle peut durer de200 ms Ă  10 s.

    Au dĂ©but des annĂ©es 2000, les temps de convergence aprĂšs unepanne de lien ou du routeur interne Ă  un rĂ©seau (AS) Ă©taient del’ordre de 10 s. En 2006, les meilleures pratiques permettentd’atteindre un temps de convergence de l’ordre de 500 ms [12].

    2.5 Protection locale

    En concurrence avec les mĂ©canismes de restauration qui sontĂ©tablis aprĂšs la panne, telle que la convergence des protocoles deroutage, il existe aussi des mĂ©canismes de protection utilisant deschemins calculĂ©s et disponibles dans les tables de commutationavant que la panne n’arrive. Ces mĂ©canismes de protection sontplus rapides, car ils minimisent les temps nĂ©cessaires Ă  chaqueĂ©tape :

    1. DĂ©tection locale de la panne physique ;2. Propagation de l’information topologique dans le rĂ©seau ;3. Calcul d’une route alternative et alimentation de la RIB ;4. Alimentation de la FIB ou des FIB.L’étape 1 de dĂ©tection de la panne est inchangĂ©e.

    L’étape 2 de propagation dans le rĂ©seau de l’information« panne » n’est plus nĂ©cessaire car la protection est un mĂ©canismeactivĂ© localement par le routeur ayant dĂ©tectĂ© la panne.

    L’étape 3 de calcul des nouvelles meilleures routes est rĂ©alisĂ©eavant la panne. Cette Ă©tape consiste pour le routeur Ă  calculer lesmeilleures routes pour toutes les destinations et pour tous les cas

    de panne qu’il peut dĂ©tecter. Elle peut ĂȘtre relativement longue,c’est-Ă -dire de l’ordre de la seconde, mais cette durĂ©e n’est pasgĂȘnante car pendant ce temps, le trafic est correctement acheminĂ©(Ă  la diffĂ©rence d’un calcul rĂ©alisĂ© consĂ©cutivement Ă  la panne).

    L’étape 4 est en grande partie effectuĂ©e avant la panne. Lestables de commutations (FIB) Ă  utiliser aprĂšs une panne sont dĂ©jĂ configurĂ©es dans les cartes d’interface. Suite Ă  une panne, il nereste qu’à indiquer quelle table les cartes de commutation doiventutiliser.

    Globalement, ces mécanismes de protection locale permettentde rétablir le trafic en 50 à 100 ms aprÚs la panne.

    Dans les rĂ©seaux MPLS, le MPLS Fast Reroute  [10] est une techni-que de protection locale du trafic. Elle nĂ©cessite d’utiliser un mode« connectĂ© » en Ă©tablissant des tunnels MPLS TE entre tous les rou-teurs du rĂ©seau. Le « MPLS Fast ReRoute  Â» est normalisĂ© Ă  l’IETF etimplĂ©mentĂ© depuis le milieu des annĂ©es 2000. Il est dĂ©ployĂ© dansplusieurs rĂ©seaux, mais une majoritĂ© des rĂ©seaux ne l’implĂ©mentepas du fait de la complexitĂ© induite, de la nĂ©cessitĂ© d’utiliser MPLSet de l’obligation d’ĂȘtre en mode connectĂ©. En effet, le modeconnectĂ© nĂ©cessite, pour la protection des pannes de routeurs, unmaillage complet des routeurs entre eux par des LSP MPLS. SoitN  (N -1) tunnels Ă  configurer pour N  routeurs dans le rĂ©seau.

    Pour les rĂ©seaux IP, plusieurs propositions de Fast ReRoute IP sont en cours d’étude Ă  l’IETF [13] [14] et dans la communautĂ© dela recherche [15], mais aucune approche ne fait pour l’instantl’unanimitĂ© en raison des problĂ©matiques du taux de couverturedes pannes et des typologies de rĂ©seau et de la complexitĂ© des dif-fĂ©rentes solutions. Ces solutions d’IP Fast ReRoute  doivent permet-tre de protĂ©ger le trafic en 100 ms en cas de panne. Suite Ă  cetteprotection locale, il est nĂ©cessaire d’utiliser les protocoles de rou-tage pour rerouter le trafic. D’une part, pour dĂ©terminer et utiliserle nouveau meilleur chemin pour traverser le rĂ©seau, et d’autrepart pour se prĂ©parer Ă  la prochaine panne (IP Fast ReRoute   nepeut protĂ©ger qu’une panne Ă  la fois).

    Lors de cette Ă©tape de reroutage, il est utile d’utiliser une tech-nique ne gĂ©nĂ©rant pas de boucles de routage transitoires [16] [17][18] lors de la convergence. En effet, pendant la convergence versle nouvel Ă©tat stable, chaque routeur du rĂ©seau modifie ses tablesde routage indĂ©pendamment des autres routeurs et peut pro-voquer ainsi des incohĂ©rences temporaires.

    3. Augmentation du MTTF– Haute disponibilitĂ©

    Dans la partie prĂ©cĂ©dente (§ 2), on a dĂ©taillĂ© les diffĂ©rents mĂ©ca-nismes de convergence relatifs aux protocoles de routage au seind’un rĂ©seau. Pour diminuer les pertes de paquets dues aureroutage, les techniques de haute disponibilitĂ© implĂ©mentĂ©es surles routeurs IP essaient quant-Ă -elles de masquer certaines pannesaux autres routeurs du rĂ©seau. Le principe sous-jacent est d’utiliserdes architectures redondĂ©es pour pallier diffĂ©rents cas de pannes.

    Figure 8 – Distance entre le lien en panne et le routeur reroutantle trafic

    0 2 4 6 8 10 12

    0,1

    0,2

    0,3

    0,4

    0,5

    0,6

       T  r  a   f   i  c

      r  e  r  o  u   t   Ă©   (   %   )

    N  : nombre de sauts (nombre de routeurs) entre le routeur dĂ©tectantla panne et le routeur devant changer sa RIB pour rĂ©tablir le trafic.

    Les tunnels MPLS sont unidirectionnels. Il faut donc Ă©tablirdeux fois plus de tunnels que pour un simple maillagecomplet (N  (N -1)/2).

    Dans l’exemple de la figure 3, si au temps t 1 le routeur R2 redirigevers R1 le trafic Ă  destination de R3, alors qu’au temps t 2 > t 1 , lerouteur R1 redirige vers R4 le trafic Ă  destination de R3, alors pendantl’intervalle de temps [t 1 , t 2 ], une boucle de routage est formĂ©e entreR2 qui redirige le trafic vers R1 et R1 qui continue encore a redirigerle trafic vers R2.

    http://-/?-http://-/?-http://-/?-http://-/?-

  • 8/19/2019 Te7585 Haute Disponibilite Dans Les Reseaux IP

    7/15

    Toute reproduction sans autorisation du Centre français d’exploitation du droit de copieest strictement interdite. – Â© Editions T.I. TE 7 585 â€“ 7

    ____________________________________________________________________________________________ HAUTE DISPONIBILITÉ DANS LES RÉSEAUX IP

    3.1 Contraintes de haute disponibilitéau niveau du plan de transfert

    et Non Stop Forwarding Puisque c’est au niveau du plan de transfert que le paquet est

    aiguillĂ©, il faut, pour augmenter la disponibilitĂ© d’un routeur, avoirune table de commutation (forwarding ) Ă  jour de maniĂšre Ă  ce queles paquets soient toujours transfĂ©rĂ©s vers la bonne destination.Pour ce faire, il faut Ă  la fois maintenir la stabilitĂ© et la cohĂ©rencedes protocoles de routage, mais aussi accĂ©lĂ©rer la distribution desinformations de commutation (forwarding ) vers le plan de trans-fert. Cette distribution de la RIB vers la FIB est purement interne aurouteur et trĂšs dĂ©pendante des choix des constructeurs. Les para-mĂštres sur lesquels il est possible de jouer sont :

    – la quantitĂ© d’information Ă  tĂ©lĂ©charger dans la FIB ;– la vitesse de calcul des processeurs du plan de transfert ;

    – la bande passante disponible entre les cartes de transfert et decontrîle ;

    – les processus de synchronisation entre les diffĂ©rentes cartes.

    Pour rĂ©pondre aux demandes de performances et assurer unemeilleure Ă©volutivitĂ© au cours du temps, les architectures matĂ©-rielles sont de plus en plus distribuĂ©es. La sĂ©paration fonctionnelledĂ©crite prĂ©cĂ©demment (§ 2.1) se retrouve dans l’architecture matĂ©-rielle des routeurs de cƓur oĂč les plans sont rĂ©partis sur des cartesmatĂ©rielles distinctes. Certaines supportent le plan de transfert,d’autres sont dĂ©diĂ©es au plan de commande et supportent parfoisĂ©galement le plan de management. Ces derniĂšres peuvent ĂȘtreaussi redondĂ©es pour une meilleure disponibilitĂ©. En effet, les fonc-tions de haute disponibilitĂ© reposent sur deux constats :

    – d’une part, dans les routeurs Ă  trĂšs haut dĂ©bit des opĂ©rateursde rĂ©seaux IP/MPLS, les fonctions de plan de commande et de plande transfert sont bien sĂ©parĂ©es. Elles sont effectuĂ©es par des proces-sus logiciels diffĂ©rents s’exĂ©cutant sur des cartes matĂ©rielles distinc-tes. Ainsi et dans une trĂšs large proportion, les pannes affectant leplan de commande sont indĂ©pendantes des pannes affectant le plande transfert ;

    – d’autre part, les opĂ©rations effectuĂ©es par le plan de transfertsont essentiellement effectuĂ©es par des composants matĂ©riels (desprocesseurs spĂ©cialisĂ©s de type ASIC) alors que les opĂ©rationseffectuĂ©es par le plan de commande sont essentiellement rĂ©alisĂ©espar des composants logiciels. Les composants logiciels complexesayant un taux de pannes plus Ă©levĂ©, le plan de transfert est plus

    robuste que le plan de commande.Compte tenu des deux caractĂ©ristiques, le principe des fonctionsde haute disponibilitĂ© est de permettre au plan de commande des’arrĂȘter (suite Ă  un bug par exemple), puis de redĂ©marrer sansimpacter le plan de transfert qui continue de son cĂŽtĂ© Ă  commuterles paquets.

    Pour y parvenir, le plan de transfert du routeur doit donc d’unepart maintenir ses adjacences de niveau 2, de façon Ă  masquer lapanne Ă  ses routeurs voisins. D’autre part, le routeur doit ĂȘtrecapable de poursuivre le transfert de paquets sans interruption enmaintenant les tables de commutation (comme les FIB et LFIB).C’est ce que l’on appelle la capacitĂ© NSF ou Non Stop Forwarding .En revanche, lors d’une panne liĂ©e au plan de transfert, comme la

    perte d’une carte d’interface, la perte de paquets est inĂ©vitablejusqu’à ce que le trafic soit reroutĂ©.

    3.2 Contraintes de haute disponibilitéau niveau du plan de commande

    Les pannes relatives au plan de contrĂŽle rĂ©sultent soit d’unepanne logicielle, soit d’une panne matĂ©rielle sur carte decommande. D’autres indisponibilitĂ©s du plan de contrĂŽle sont duesaux mises Ă  jour logicielles des Ă©quipements. RedĂ©marrer une cartede commande sur un routeur de cƓur nĂ©cessite en gĂ©nĂ©ralplusieurs minutes, de l’ordre d’une dizaine. Or une indisponibilitĂ©totale de la machine pendant dix minutes n’est pas rĂ©aliste si l’on

    veut atteindre les « cinq neuf ». C’est pourquoi des efforts sur lamodularitĂ© des systĂšmes ont Ă©tĂ© rĂ©alisĂ©s, de maniĂšre Ă  redĂ©marrerle plus vite possible un processus ou une carte de commande toute

    entiĂšre, pour repartir sur un processus dans un Ă©tat sain ou unecarte saine.

    Lors d’une panne du plan de contrĂŽle, les protocoles de routageset en particulier les sessions Ă©tablies avec les routeurs voisins sontinterrompus. Lorsqu’une vĂ©ritable sĂ©paration des plans decommande et de transfert est rĂ©alisĂ©e, deux solutions concurrentessont possibles pour amĂ©liorer la disponibilitĂ© lors de la perte duplan de commande. Elles sont respectivement dĂ©crites dans lesparagraphes 3.4 et 3.3. La premiĂšre solution (GR) consiste Ă  utiliserdes adaptations des protocoles de routage pour que les deux rou-teurs voisins se coordonnent pour gĂ©rer localement cette pannelors du redĂ©marrage du plan de commande, sans en informer lereste du rĂ©seau. La seconde (NSR) ne nĂ©cessite pas un changement

    des protocoles de routage et repose sur la redondance et la syn-chronisation interne au routeur des deux cartes du plan decommande. Elle ne nécessite pas non plus la collaboration deséquipements voisins.

    UtilisĂ©es en complĂ©ment du Non-Stop Forwarding , ces deuxsolutions assurent une continuitĂ© de service lors d’une panne et duredĂ©marrage de la carte de plan de contrĂŽle.

    3.3 CapacitĂ© NSR ou Non Stop Routing 

    Le Non Stop Routing  est une capacitĂ© spĂ©cifique d’un routeur qui

    lui permet, lors d’une panne relative au plan de contrĂŽle, de bascu-ler sur une seconde carte de commande de secours sans perte depaquets et sans incidence sur les voisins. Les adjacences de routagene sont pas perturbĂ©es et restent maintenues durant la panne. LeNon Stop Routing   repose sur la redondance des cartes decommande, qu’elle soit totale ou partielle. Cette redondance peutĂȘtre matĂ©rielle ou logicielle. Dans les deux cas, outre la synchroni-sation des tables de routage ou des configurations, la fiabilisationdes processus de routage nĂ©cessitent la synchronisation de nom-breux points de reprises et d’états entre le systĂšme primaire et lesecondaire.

    Cette solution est dĂ©licate Ă  implĂ©menter pour les constructeurs,qui peuvent parfois proposer le Non Stop Routing  uniquement surun sous-ensemble des protocoles de routage. Ils peuvent proposersoit un parallĂ©lisme complet entre les deux cartes de commande,soit une synchronisation partielle de certains Ă©tats pour certainsprotocoles (par exemple la table de routage, l’état de la machine Ă Ă©tats, quelques timers ) ou encore dĂ©clencher une synchronisationcomplĂšte sur certains Ă©vĂ©nements.

    En revanche, pour un opĂ©rateur, le Non stop routing  prĂ©sente denombreux avantages car il est totalement transparent vis-Ă -vis desrouteurs voisins et est donc plus facile Ă  dĂ©ployer.

    3.4 Extensions GR ou Graceful Restart 

    Si l’équipement n’est pas capable de maintenir seul ses tables etadjacences de routage, il existe des extensions protocolaires quilui permettent en cas de perte du plan de contrĂŽle primaire derĂ©acquĂ©rir, avec l’aide des routeurs voisins, les informations

    Dans le dossier [H 5 850] réf. [34], la tolérance aux fautes

    des applications de routage est détaillée.

    Pour plus d’informations sur les points de reprise et lasĂ»retĂ© de fonctionnement, on peut se reporter Ă  [H 2 508] rĂ©f.

    [3], [H 2 509], réf. [4].

  • 8/19/2019 Te7585 Haute Disponibilite Dans Les Reseaux IP

    8/15

    HAUTE DISPONIBILITÉ DANS LES RÉSEAUX IP 

    ____________________________________________________________________________________________

    Toute reproduction sans autorisation du Centre français d’exploitation du droit de copieest strictement interdite. – Â© Editions T.I.TE 7 585 â€“ 8

    nĂ©cessaires pour reconstruire ses bases d’information. Les autresrouteurs du rĂ©seau ne sont pas informĂ©s de cette panne.

    Ces extensions de routage sont appelĂ©es Graceful Restart  (GR) ;elles reposent sur la coopĂ©ration entre un routeur IP qui subit unepanne de plan de contrĂŽle et l’ensemble de ses voisins. C’estl’approche la plus courante pour rĂ©duire les pertes de services.

    Cela est disponible dans la plupart des Ă©quipements rĂ©cents quiont une bonne sĂ©paration entre les plans de contrĂŽle et de transfert,et ceux qui supportent la redondance des plans de contrĂŽle. Lesextensions GR sont Ă©galement disponibles sur les routeurs qui n’ontqu’un seul plan de contrĂŽle. CombinĂ©es aux capacitĂ©s de maintiendes adjacences de niveau 2 et au maintien de la commutation depaquets, ces extensions permettent de minimiser fortement l’inci-dence d’un redĂ©marrage ou d’un basculement de carte de contrĂŽleprimaire sur le trafic : le GR est typiquement combinĂ© au NSF.

    Pour un Ă©quipementier, cette solution protocolaire est plussimple Ă  implĂ©menter que la solution NSR purement interne Ă  unĂ©quipement et qui demande des fonctions de redondance et desynchronisation plus avancĂ©es. En effet, le GR nĂ©cessite moinsde synchronisation d’états entre les contrĂŽleurs primaires etsecondaires puisqu’il est possible de redemander aux routeursvoisins les informations de routage perdues.

    3.4.1 Protocoles IGP

    Le routage IGP (Interior Gateway Protocol ) est primordial sur unrĂ©seau dans la mesure oĂč il assure le routage au sein d’undomaine. Deux protocoles dits Ă  Ă©tats de lien sont principalementutilisĂ©s en tant qu’IGP sur un rĂ©seau de cƓur IP : OSPF [21] et IS-IS(dĂ©fini dans [22] et dĂ©crit dans [7]).

    Les extensions Graceful Restart  ont pour but d’aider un routeurdont le plan de contrĂŽle redĂ©marre Ă  maintenir ses adjacences IGPet poursuivre le transfert de paquets sur les routes apprises parl’IGP malgrĂ© la perte des sessions de routage avec ses voisins. Sansles extensions Graceful Restart , l’IGP doit converger dĂšs qu’uneadjacence est modifiĂ©e, c’est-Ă -dire dĂšs qu’il y a perte de la session,que ce soit Ă  cause d’une panne de lien ou de plan de contrĂŽle. Laconvergence implique le calcul du plus court chemin selon l’algo-rithme SPF (Shortest Path First ), comme vu au paragraphe 2.

    Avec les extensions Graceful Restart , les pertes des sessions deroutage avec les routeurs voisins sont masquĂ©es aux reste durĂ©seau, ce qui rĂ©duit le trafic de commande (annonces protocolai-res de type LSP pour IS-IS ou LSA pour OSPF), Ă©limine des calculsde plus courts chemins et les boucles de routage temporaires lorsde la convergence.

    3.4.1.1 GR pour le protocole IS-IS

    Les extensions Graceful Restart  pour le protocole IS-IS [26] sontannoncĂ©es dans les messages Hello   sous la forme d’un nouveau

    TLV (Type Length Value  Ă‰lĂ©ment Type Longueur Valeur, structured’encodage utilisĂ©e dans de nombreux messages protocolaires).Le TLV 211 (figures 10 et 11) contient deux informations :

    – deux bits significatifs sur le premier octet sont utilisĂ©s pour lesannonces RR (Restart Request ) ou RA (Restart Acknowledgement ) ;

    – le temps restant dans la procĂ©dure Graceful Restart  est codĂ© sur2 octets ; ce timer  est utilisĂ© par les routeurs en cours de redĂ©mar-rage (restarting , et non les receiving ) et indique le temps maximalqui leur est allouĂ© pour redĂ©marrer et terminer la procĂ©dure de GR.

    Deux autres timers  sont dĂ©finis dans [26] :

    – une instance du timer  T1 est maintenue par interface, indiquantle temps aprĂšs lequel une tentative de redĂ©marrage non acquittĂ©e

    est relancĂ©e ; il est de trois secondes par dĂ©faut ;– une instance du timer  T2 est maintenue pour chaque base LSP

    (une par niveau, level   1 et level   2), indiquant le temps maximalpendant lequel un systĂšme va attendre la synchronisation desbases LSP (LSDB ou LS DataBase ) ; il est de soixante secondes pardĂ©faut.

    Exemple : dans le rĂ©seau illustrĂ© par la figure 9, seuls les routeursR1 et R3 sont informĂ©s de la panne du plan de commande du routeurR2 et ont besoin d’y rĂ©agir en rĂ©-Ă©tablissant leur protocoles de rou-tage avec le routeur R2.

    Terminologie

    Chaque constructeur utilise sa propre terminologie pourdĂ©crire les caractĂ©ristiques de Graceful Restart  et de Non Stop Forwarding . Les extensions GR Ă©tant normalisĂ©es au sein del’IETF, nous utilisons le vocabulaire suivant :

    – un routeur effectuant un basculement de plan de contrĂŽleet capable de comprendre les extensions GR est appelĂ© res- tarting  routeur, ou encore « capable » ;

    – les voisins d’un routeur dont le plan de contrĂŽle redĂ©-marre et qui comprennent les extensions GR sont qualifiĂ©esde helper   ou aware . Dans les normes, on les appelle Ă©gale-ment les routeurs receiving .

    Figure 9 – Augmentation du MTTF par utilisation de fonctionsde haute disponibilitĂ© dans le plan de commande

    Figure 10 – Extensions GR pour IS-IS : description du TLV 211

    Figure 11 – TLV 211 : description des flags 

    Chemin de commutation

    Protocole de routage

    Plan de commande

    Plan de transfert

    LĂ©gende :

    R1R2

    R3

    R5R4

    0 1 2 3 4 5 6 7  

    Flags

    Temps restant

    Identification du voisin “restarting â€

    0 1 2 3 4 5 6 7  

    RRRASA

    RR : requĂȘte de redĂ©marrage (Restart Request)

    RA : acquittement du redémarrage (Restart Acknowledge)

    SA : supprime l'annonce de l'adjacence

    (Suppress Adj Advertisement)

    http://-/?-http://-/?-

  • 8/19/2019 Te7585 Haute Disponibilite Dans Les Reseaux IP

    9/15

    Toute reproduction sans autorisation du Centre français d’exploitation du droit de copieest strictement interdite. – Â© Editions T.I. TE 7 585 â€“ 9

    ____________________________________________________________________________________________ HAUTE DISPONIBILITÉ DANS LES RÉSEAUX IP

    3.4.1.2 GR pour le protocole OSPF

    Les extensions Graceful Restart   pour le protocole OSPF sontdĂ©finies dans [22]. La procĂ©dure classique est proche de celledĂ©crite prĂ©cĂ©demment pour IS-IS. Dans le cas d’OSPF, les routeursne savent pas a priori   si leurs voisins supportent ou non le GR.AprĂšs une panne (switchover ), le routeur restarting   marque sesentrĂ©es de commutation (forwarding ) comme gelĂ©es (stale ) etenvoie des messages appelĂ©s Grace-LSAs   sur chacune de sesinterfaces, avec l’option « cause du redĂ©marrage » positionnĂ©e à« inconnue » ou « a basculĂ© sur la carte secondaire ». Si le voisin

    supporte le mode GR, alors il devient helper   et aide le routeurredĂ©marrant Ă  reconstruire sa base LSDB.

    3.4.2 Protocole (MP-)BGP

    BGP Graceful Restart  est une extension du protocole (MP-)BGPdĂ©fini par l’IETF dans la RFC 4724 [19]. Il permet Ă  une sessionBGP d’ĂȘtre interrompue puis de redĂ©marrer sans que cela ne modi-fie le routage BGP sur les deux routeurs utilisant cette session nidans le reste du rĂ©seau.

    Sans cette extension, lorsqu’un routeur A dĂ©tecte une panne de lasession BGP vers le routeur B, le routeur A considĂšre que le routeur B

    n’est plus fonctionnel et qu’il ne doit plus lui envoyer du trafic. Ainsi,il considĂšre que toutes les routes BGP reçues du routeur A par cettesession sont invalides et dĂ©clenche un calcul de meilleure route BGPpour dĂ©terminer les routes de secours Ă  utiliser.

    Le principe des fonctions de haute disponibilitĂ© et de Graceful Restart  est de considĂ©rer qu’une panne de la session BGP ne signi-fie pas obligatoirement que le routeur n’est plus capable d’ache-miner correctement les paquets, mais que le problĂšme peut ĂȘtrelimitĂ© au fonctionnement de BGP, par exemple dans le cas d’unbug du processus BGP.

    Comme pour les extensions GR des autres protocoles de rou-tage, le routeur redĂ©marrant son processus BGP est appelĂ© lerouteur restarting   et le routeur n’ayant pas subi d’incidents mais

    coopĂ©rant avec le restarting   est appelĂ© receiving . Sachant qu’unrouteur dispose de plusieurs sessions BGP, il y a alors plusieursrouteurs receiving  impliquĂ©s.

    La premiĂšre Ă©tape du BGP Graceful Restart  commence avant lapanne lors du premier Ă©tablissement de la session BGP. Les deuxrouteurs nĂ©gocient ce nouveau comportement en s’échangeantune capacitĂ© Graceful Restart   selon la procĂ©dure dĂ©crite dans laRFC 3392 [20].

    Cette capacitĂ© spĂ©cifie (figure 14) :– le support de BGP GR en mode helper  ;– l’éventuelle capacitĂ© du routeur Ă  continuer d’acheminer cor-

    rectement les paquets pendant l’interruption du plan de commandeet le redĂ©marrage de la session BGP pour les familles d’adresses

    Le schĂ©ma de la figure 12 dĂ©crit la procĂ©dure GR pour un routeurrestarting  IS-IS GR (appelĂ© R1) et son voisin receiving  (R2).

    1. Le routeur R1 redĂ©marre.2. R1 envoie un message de type Hello  (IIH) contenant le TLV 211

    avec le bit RR positionné et le bit RA à 0, indiquant que R1 a redé-marré.

    3. R2 reçoit le message Hello  de R1.4. R2 Ă©tant un voisin helper  ou receiving , il rĂ©pond par un message

    de type Hello   contenant le TLV 211 avec le bit RR Ă  0 et le bit RApositionnĂ© ; R2 acquitte ainsi le Hello   reçu de R1 et sa demande deGR.

    5. R1 reçoit le Hello  de R2.6. Si l’interface est de type point-Ă -point, ou si R2 a une prioritĂ©

    plus forte parmi tous les routeurs dont les paquets Hello   (IIH)contiennent le TLV restart   Ă  l’exception de R1, R2 envoie un jeu

    complet de paquets CSNP (Complete Sequence Number PDU , listantle contenu locale de la LSDB). Lorsque le CSNP et le message Hello prĂ©cĂ©dent sont reçus, le timer  d’adjacence est annulĂ©. Si le dĂ©lai demaintien d’adjacence expire, R1 renvoie le message Hello  avec le bitRR positionnĂ©.

    Lorsque l’un des voisins ne supporte par les extensions Grace- ful Restart  (figure 13) :

    1. Le routeur R1 redĂ©marre.2. R1 envoie un message de type Hello  (IIH) contenant le TLV 211

    avec le bit RR positionné et le bit RA à 0, indiquant que R1 a redé-marré.

    3. R2 reçoit le message Hello  de R1.

    4. R2 Ă©tant un voisin non-helper , il rĂ©pond par un message de typeHello  ne contenant pas de TLV 211 ; l’adjacence est supprimĂ©e.5. R1 reçoit le Hello  de R2 sans TLV 211, il rĂ©initialise l’adjacence

    avec R2. R1 envoie un message de type Hello  avec le TLV 211 maisavec les bits RR et RA Ă  0, pour lancer une procĂ©dure d’établisse-ment d’adjacence classique (6).

    Figure 12 – ProcĂ©dure IS-IS Graceful Restart  entre un routeur

    restarting  et un voisin receiving 

    Routeur R1Restarting 

    Routeur R2Receiving 

    DĂ©marrage du

    timer Hello 

    IS-IS Hello  (IIH)

    IS-IS Hello  (IIH)RR=1, RA=0

    RR=0, RA=1

    LSP

    CSNP

    1 2

    34

    6

    5

    Figure 13 – ProcĂ©dure IS-IS Graceful Restart  entre un routeurredĂ©marrant GR-restarting  et un voisin non-receiving 

    Notons qu’un autre mĂ©canisme existe pour permettre Ă  unrouteur d’informer ses voisins que son processus OSPFredĂ©marre : Restart Signaling   [23]. Il s’agit d’un mĂ©canismepropriĂ©taire d’un Ă©quipementier qui a Ă©tĂ© implĂ©mentĂ© avantles extensions GR.

    Routeur R1Restarting 

    Routeur R2Non-GR

    DĂ©marrage dutimer Hello

    IS-IS Hello  (IIH)

    IS-IS Hello  (IIH)

    IS-IS Hello  (IIH)

    RR=1, RA=0

    Pas de TLV 211

    1 2

    34

    6

    5

    TLV211, RR=0, RA=0

    http://-/?-http://-/?-http://-/?-http://-/?-http://-/?-http://-/?-http://-/?-http://-/?-

  • 8/19/2019 Te7585 Haute Disponibilite Dans Les Reseaux IP

    10/15

    HAUTE DISPONIBILITÉ DANS LES RÉSEAUX IP 

    ____________________________________________________________________________________________

    Toute reproduction sans autorisation du Centre français d’exploitation du droit de copieest strictement interdite. – Â© Editions T.I.TE 7 585 â€“ 10

    spĂ©cifiĂ©es dans les champs Address Family Identifier  et Subsequent Address Family Identifier  (par exemple, IPv4, IPv6, VPN...) ;

    – la durĂ©e maximale, appelĂ©e Restart Time , que le routeur hel- ping  accorde au routeur restarting  pour rĂ©tablir la session BGP.

    La procĂ©dure de Graceful Restart  Ă©choue et est interrompue si lerouteur restarting  ne rĂ©Ă©tablit pas ses sessions BGP Ă  temps (c’est-Ă -dire avant l’expiration du dĂ©lai Restart Timer ) ou s’il indiquequ’il n’a pu continuer Ă  acheminer les paquets. Dans ce cas, le rou-teur receiving  supprime les routes marquĂ©es stale  et considĂšre lasession BGP comme close.

    3.4.3 Protocoles de distribution de labels

    Deux protocoles permettent de distribuer les labels dans lesréseaux MPLS [29] :

    – le protocole LDP (Label Distribution Protocol , dĂ©fini dans [27]et dĂ©crit dans [29] ;

    – le protocole RSVP-TE (ReSerVation Protocol-Traffic Enginee-ring, dĂ©fini dans [31] et dĂ©crit dans [10]).

    Ces protocoles sont utilisés lorsque les paquets sont labellisés,que ce soit dans un contexte de trafic Internet avec une commuta-

    tion MPLS ou dans des environnements de type VPN MPLS oĂč lesrĂ©seaux privĂ©s virtuels sont construits grĂące au MPLS.

    3.4.3.1 GR pour le protocole LDP

    Plusieurs modes de distribution de labels par LDP sont normali-sĂ©s. Les extensions GR pour le protocole LDP, appelĂ©es aussi Fault Tolerant (FT) sont dĂ©finies dans [30] [35] pour la mĂ©thode down- stream unsolicited  (la plus rĂ©pandue).

    Comme pour l’IGP et le (MP-)BGP, les extensions GR pour LDPnĂ©cessitent des modifications Ă  la fois sur le routeur qui redĂ©marreet sur ses voisins qui supportent le mode helper . L’extensioncomprend un nouveau TLV optionnel spĂ©cifique, appelĂ© TLV desession tolĂ©rante aux fautes (FT). Ce TLV est Ă©changĂ© au moment

    de l’établissement de la session LDP, dans les messages Hello , et aĂ©tĂ© conçu de maniĂšre Ă  ĂȘtre compatible avec les messages Hello de LSR ne supportant pas les extensions GR.

    Comme indiquĂ© sur la figure 16, le TLV spĂ©cifie deux timers  :– Reconnect Timeout   est la durĂ©e en millisecondes pendant

    laquelle le routeur expĂ©diteur du TLV souhaite que le routeurreceiving   attende aprĂšs la dĂ©tection de la panne LDP. Pendantcette pĂ©riode de temps, le destinataire maintient les Ă©tats MPLSdans sa table de commutation (forwarding ) pour les LSP prĂ©Ă©tablisqui traversent un lien entre l’expĂ©diteur et lui-mĂȘme. Ce timer  doitĂȘtre suffisamment grand pour permettre le redĂ©marrage du plande contrĂŽle de l’expĂ©diteur et surtout le redĂ©marrage des Ă©changesLDP avec ses voisins, soit 120 s par dĂ©faut. Si ce timer   a pour

    Figure 14 – CapacitĂ© Graceful Restart  de BGP

    0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

    Capability Code (64) Capability Length

    Restart Flags

     Address Family Identifier (16 bits)

    Subsequent Address Family Identifier

    Subsequent Address Family Identifier

    Flags for Address Family

    Flags for Address Family

    


    
 


     Address Family Identifier (16 bits)

    Restart Time (in seconds)

    AprĂšs cette premiĂšre Ă©tape (Ă©tape 1) d’échange de la capacitĂ©Graceful restart , la session BGP se dĂ©roule normalement (Ă©tape 2) etchaque routeur peut s’échanger des messages de routage Updates(figure 15).

    En cas de panne du routeur restarting  (Ă©tape 3), le routeur receiving conserve et continue Ă  utiliser les routes apprises par cette sessionBGP (Ă©tape 4). Il marque nĂ©anmoins ces routes comme stale  afin depouvoir les supprimer Ă  la fin de la procĂ©dure de Graceful Restart .Lors du rĂ©tablissement de la session BGP (Ă©tape 5), le routeur restar- ting  doit annoncer son Ă©tat dans le message BGP Open et plus prĂ©ci-sĂ©ment dans la capacitĂ© Graceful Restart . Il indique dans le champRestart Flag   qu’il a redĂ©marrĂ© et dans le champ Flags for Address Family   s’il a Ă©tĂ© capable de continuer Ă  commuter les paquets IP/ MPLS comme prĂ©vu.

    Suite Ă  cette ouverture de session BGP, le routeur receiving  annoncetoutes ses routes BGP (Ă©tape 6) puis envoie un message indiquant

    qu’il a fini de transmettre la table de routage. Ce message appelĂ© End of RIB  est constituĂ© d’un message BGP de taille minimale s’il s’agitd’une session BGP standard, ou constituĂ© d’un message MP-BGP necontenant que l’attribut MP_UNREACH_NLRI sans aucune route s’ils’agit d’une session BGP multiprotocole.

    À la rĂ©ception de ce marqueur de fin de RIB (Ă©tape 7) sur toutesses sessions BGP, le routeur restarting   sait qu’il a reçu l’intĂ©gralitĂ©des routes BGP. Il peut donc reprendre le comportement normal deBGP et en particulier calculer les nouvelles meilleures routes, mettreĂ  jour sa table de commutation (FIB) avec des informations Ă  jour, etannoncer ses meilleures routes aux routeurs BGP avec lesquels il aune session. Cela permet aux routeurs receiving   de mettre Ă  jourleurs routes. Suite Ă  l’envoi de l’ensemble de sa table de routage, il

    envoie Ă©galement le marqueur de fin de RIB. À sa rĂ©ception, lesrouteurs receiving  suppriment l’ensemble des routes stalled  restantes(c’est-Ă -dire, celles qui n’ont pas Ă©tĂ© rĂ©annoncĂ©es aprĂšs le redĂ©mar-rage) puis recalculent leurs meilleurs routes. Cela clĂŽt la procĂ©dure deGraceful Restart  et dorĂ©navant la session BGP continue de maniĂšreconventionnelle.

    En rĂ©sumĂ©, les routeurs receiving  accordent un peu de tempsau routeur restarting  pour redĂ©marrer ses sessions BGP et confir-mer qu’il a continuĂ© Ă  acheminer les paquets IP/MPLS commeprĂ©vu. Puis les routeurs receiving   rĂ©annoncent l’ensemble deleurs routes BGP afin que le routeur restarting  puisse les rĂ©ap-prendre. Pendant ce temps, le routeur restarting  achemine toujoursles paquets en utilisant l’ancienne table de commutation (FIB)que son plan de transfert a conservĂ©. AprĂšs rĂ©ception de toutesles routes de toutes les sessions, le routeur restarting  recalcule

    ses meilleures routes BGP, met Ă  jour sa table de commutationet annonce ses meilleures routes aux routeurs receiving .

  • 8/19/2019 Te7585 Haute Disponibilite Dans Les Reseaux IP

    11/15

    Toute reproduction sans autorisation du Centre français d’exploitation du droit de copieest strictement interdite. – Â© Editions T.I. TE 7 585 â€“ 11

    ____________________________________________________________________________________________ HAUTE DISPONIBILITÉ DANS LES RÉSEAUX IP

    valeur 0, l’émetteur des TLV ne prĂ©servera pas ses Ă©tats decommutation (forwarding ), mĂȘme s’il supporte les procĂ©dures ;

    – Recovery Time  est la durĂ©e en millisecondes pendant laquellele LSR qui redĂ©marre souhaite prĂ©server sa LFIB. Ce timer  dĂ©marreau moment oĂč l’émetteur envoie son message d’initialisationcontenant le TLV LDP FT. Si ce timer  est Ă  0, cela indique que laLFIB n’est pas maintenue pendant le redĂ©marrage.

    Figure 15 – BGP Graceful Restart 

    Figure 16 – Description du TLV pour les sessions LDP FT

    Restarting 

    RouteurRouteur

    Receiving 

    Open  - GR (IPv4)

    Open  - GR (IPv4)

    Updates ; keepalives 

    Open  - GR (restart , commutation IPv4 OK)

    Open  - GR (IPv4)

    Updates 

    Updates 

    End Of RIB 

    End of RIB 

    Plan de contrÎle non OK:- Il est ré-initialisé

    Plan de transfert OK:- FIB OK- commutation OK

    Calcul de routes BGP

    Envoi de la table de routage

    Redémarrage de la sessionmais conservation des routes

    Envoi de la table de routage

    Calcul de routes BGP

    11

    22

    3

    5

    7

    4

    6

    7

    0

    01

    0

    1 2 3 4 5 6 7 0

    1

    1 2 3 4 5 6 7 0

    2

    1 2 3 4 5 6 7 0

    3

    1 2 3 4 5 6 7  

    TLV session FT (0x0503) Longueur (=12)

    Flags FT Réservé

    FT Reconnect Timeout (en millisecondes)

    Recovery Time (en millisecondes)

    Les étapes de la procédure GR (figure 17) sont les suivantes :

    1. Le routeur LSR R1 indique qu’il supporte les extensions GR pourLDP en mode capable en envoyant un message d’initialisation detype Hello  contenant le TLV Fault Tolerant . Dans ce paquet, le champL (Learn from Network ), comme indiquĂ© sur la figure 18  est posi-tionnĂ© Ă  1 pour indiquer que les procĂ©dures GR LDP sont en cours.

    2. RĂ©ciproquement, le routeur LSR R2 envoie ce mĂȘme messaged’initialisation.

    3. Les LSR Ă©changent des informations de labels.

    4. Lorsqu’un basculement de plan de contrĂŽle se produit, le pro-cessus LDP du routeur qui redĂ©marre Ă©tablit une nouvelle sessionTCP avec ses voisins. Le routeur GR-capable dĂ©marre un timer 

    interne, dĂ©lai pendant lequel il marque ses entrĂ©es MPLS dans laLFIB comme gelĂ©es ou stale . Le routeur est alors en mode de redĂ©-marrage (restart mode ), le temps que la procĂ©dure GR finisse.

    5. AprĂšs dĂ©tection de la panne, le voisin supportant LDP-GR initia-lise un timer   qui indique la durĂ©e pendant laquelle ce voisin LSRconserve ses associations FEC-labels pour les labels stale . Si leLSR qui redĂ©marre n’a pas rĂ©-Ă©tablit de session LDP avant la fin de cetimer , alors les associations stale  sont supprimĂ©es.

    6. Le LSR qui redĂ©marre envoie un message d’initialisation, danslequel le timer Recovery Time   indique le temps pendant lequel laLFIB sera maintenue.

    7. La session LDP est dĂ©sormais Ă©tablie. Si la session LDP est rĂ©-Ă©tablie avant que le timer Reconnect  expire, ce timer  est arrĂȘtĂ© et letimer Recovery  dĂ©marre.

    Une fois la session Ă©tablie, les routeurs Ă©changent Ă  nouveau leursmessages contenant les prĂ©fixes et les labels associĂ©s. Les routeursLDP utilisent un autre timer , lancĂ© lorsque le message d’initialisationest envoyĂ©. Lorsqu’il expire, LDP supprime toutes les associationsmarquĂ©es comme stale  dans la base de labels (LIB), ce qui dĂ©clenchela suppression de tous les Ă©tats de commutation (forwarding ) asso-ciĂ©s dans la LFIB.

    http://-/?-http://-/?-http://-/?-http://-/?-http://-/?-

  • 8/19/2019 Te7585 Haute Disponibilite Dans Les Reseaux IP

    12/15

    HAUTE DISPONIBILITÉ DANS LES RÉSEAUX IP 

    ____________________________________________________________________________________________

    Toute reproduction sans autorisation du Centre français d’exploitation du droit de copieest strictement interdite. – Â© Editions T.I.TE 7 585 â€“ 12

    3.4.3.2 GR pour le protocole RSVP-TE

    Les extensions Graceful Restart   pour le RSVP-TE sont docu-mentĂ©es dans [32][36][37].

    Deux timers  sont utilisĂ©s durant la procĂ©dure RSVP GR :

    – Restart timer   est le temps total nĂ©cessaire au routeur pourredĂ©marrer RSVP-TE et rĂ©-envoyer les messages de type Hello avec ses voisins ;

    – Recovery Time   est la pĂ©riode durant laquelle les routeurshelper  et le routeur qui subit la panne resynchronisent leurs Ă©tats

    (informations RSVP-TE et LFIB) aprĂšs la reprise des Ă©changesHello . Lorsque le LSR qui redĂ©marre est incapable de maintenir saLFIB, il envoie un recoveryTime  de 0.

    3.5 Protocoles multicast

    3.5.1 NSF pour le multicast

    À l’image des protocoles unicast, et pour Ă©viter la perte de traficlors d’une panne de plan de contrĂŽle, le routeur IP doit savoirmaintenir sa FIB multicast lors du basculement vers la carte secon-daire. De cette façon, les adjacences multicast de niveau 3 sontmaintenues et le routeur continue Ă  commuter les paquets, en uti-lisant l’ancienne FIB. AprĂšs la convergence des protocoles multi-cast, les informations apprises par la nouvelle carte de commandesont recoupĂ©es avec les informations existantes. Les entrĂ©esgelĂ©es sont purgĂ©es, ce qui permet une transition en mode NSF.

    3.5.2 Exemple avec le protocole PIM

    Le protocole PIM-SM (Protocol Independent Multicast – Sparse Mode   [33]) ne possĂšde pas d’extensions spĂ©cifiques de type GRcar il intĂšgre de façon native des fonctions de rĂ©cupĂ©ration d’états.Ainsi, le routeur PIM-SM utilise un mĂ©canisme appelĂ© Generation identifier   pour indiquer les redĂ©marrages. Ces identifiants sontinclus par dĂ©faut dans les messages Hello  et un identifiant initialest crĂ©Ă© par chaque voisin PIM afin d’échanger les capacitĂ©s du

    routeur. Lorsqu’un des voisins PIM redĂ©marre, il envoie un nouvelidentifiant Ă  ses voisins. Ceux qui supportent le GR l’aident Ă rafraĂźchir ses Ă©tats en envoyant des mises Ă  jour multicast aunƓud qui redĂ©marre.

    4. Opérationsde maintenancedans les réseaux IP

    Des opĂ©rations de maintenance sont rĂ©guliĂšrement rĂ©alisĂ©es parles opĂ©rateurs de rĂ©seaux sur les Ă©quipements de transmission etde commutation. Ces opĂ©rations ont principalement pour but demettre Ă  jour la version logicielle d’un routeur afin de corriger desfailles de sĂ©curitĂ© ou de disposer de nouvelles fonctionnalitĂ©s, et/ ou d’augmenter la capacitĂ© d’un lien/routeur afin de faire face Ă l’augmentation du trafic.

    Par rapport aux pannes, ces événements sont planifiés. Il estdonc possible de les traiter différemment en utilisant cetteconnaissance du futur.

    4.1 Maintenances logiciellesavec continuité de service

    De gros efforts sont faits de la part des Ă©quipementiers pourassurer la continuitĂ© de service durant les maintenanceslogicielles. Les approches de mises Ă  jour logicielles sans interrup-tion de service s’appuient Ă  la fois sur la redondance des cartes decommande dans l’équipement et sur ses capacitĂ©s de routage/ transfert de paquets sans interruption.

    Figure 17 – ProcĂ©dures Graceful Restart  pour LDP

    Figure 18 – LDP et le TLV Fault Tolerant 

    La capacitĂ© Restart_Cap  est envoyĂ©e dans les messages RSVP detype Hello   (requĂȘte et acquittement) pour annoncer l’aptitude d’unrouteur Ă  supporter les extensions GR RSVP en mode restarter . Lerouteur voisin envoie quant Ă  lui un objet de type RecoverLabel   aunƓud qui redĂ©marre pour reconstruire ses Ă©tats de commutation(forwarding ), Ă  savoir essentiellement l’ancien label annoncĂ© par lerouteur en cours de redĂ©marrage avant qu’il ne tombe.

    Routeur R2Receiving 

    Routeur R1Restarting 

    Hello  LDP, Ă©tablissement

    Hello  LDP, Ă©tablissement

    de la connexion TCP

    de la connexion TCP

    Initialisation LDP

    Initialisation LDP

    TLV FT, L = 1

    TLV FT, L = 1

    TLV FT, L = 1

    TLV FT, L = 1

    Initialisation LDP

    Initialisation LDP

    Échange des labels

    Échange des labels

    Panne du plande commande

    « Gel »des entréesde la LFIB

    AssociationsFEC-labels gelĂ©e(stale )

    DĂ©marrage du

    timer Recovery 

    1

    2

    2

    5

    7

    3

    4

    6

    0

    R

    1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

    Reservé S A C L

    R: Champ FT Reconnect

    S: Champ Save State A: indique que tous les labels sont protĂ©gĂ©s

    C: Champ Check-Pointing 

    L: Champ Learn From Network 

    par le FT( All-Label Protection Required )

    Exemple : si il est nĂ©cessaire de dĂ©sactiver un lien ou un routeur, ilfaudrait idĂ©alement que le routage s’adapte avant l’évĂ©nement de

    maniÚre à ce que le trafic évite les éléments du réseau qui ne serontplus fonctionnels.

  • 8/19/2019 Te7585 Haute Disponibilite Dans Les Reseaux IP

    13/15

    Toute reproduction sans autorisation du Centre français d’exploitation du droit de copieest strictement interdite. – Â© Editions T.I. TE 7 585 â€“ 13

    ____________________________________________________________________________________________ HAUTE DISPONIBILITÉ DANS LES RÉSEAUX IP

    Le principe gĂ©nĂ©rique (figure 19) est de mettre Ă  jour la carte decommande secondaire avec la version dĂ©sirĂ©e Y, d’attendre sasynchronisation avec la carte primaire (Ă  savoir processus protoco-laires, de management, tous les Ă©tats systĂšmes nĂ©cessaires etpoints de reprise) puis de basculer sans perte de paquets (grĂące Ă NSR ou NSF-GR) vers la carte secondaire qui devient donc active.Il ne reste alors plus qu’à mettre Ă  jour la carte de commande

    restĂ©e en version X, le tout devant se faire sans incidence sur lescartes d’interface du plan de transfert. En gĂ©nĂ©ral, lorsque lesystĂšme tournant sous X charge la version Y, il effectue toute unebatterie de vĂ©rifications pour valider ou non la compatibilitĂ© desversions.

    Cela peut paraĂźtre simple. Or dans la rĂ©alitĂ©, il est trĂšs difficile desynchroniser des processus qui ne tournent pas avec des versionssimilaires, en fonction des modifications incorporĂ©es dans le codeet de leur compatibilitĂ©. On distingue de plus les mises Ă  jour quin’ont pas d’incidence sur les processus principaux (appelĂ©es misesĂ  jour mineures) et les mises Ă  jour qui impliquent une version dif-fĂ©rente des processus principaux voire du noyau (appelĂ©es mises Ă jour majeures, qui peuvent nĂ©cessiter une mise Ă  jour du firmware 

    par exemple), dont l’installation perturbe souvent le service surune durĂ©e plus longue.

    4.2 Maintenances matériellesavec interruption de service

    Certaines opĂ©rations de maintenance ne permettent pas auxrouteurs de continuer Ă  acheminer des paquets. Il peut s’agir parexemple du remplacement d’une carte d’interface, d’une fibre oud’un Ă©quipement de transmission, d’un Ă©lĂ©ment interne au routeurtel que la matrice de commutation ou simplement l’arrĂȘt durouteur. Dans ce cas, les solutions dĂ©crites dans le paragraphe 4.1

    ne peuvent s’appliquer et il est nĂ©cessaire de rerouter les flux afind’éviter le routeur en maintenance.

    On peut se contenter de rĂ©aliser la maintenance sans prĂ©cau-tions particuliĂšres et laisser les protocoles de routage contournerle routeur comme lors d’une panne imprĂ©vue. Dans ce cas, l’inter-ruption de service subie par le client sera Ă©gale au MTTR (cf. § 2).

    Afin de rĂ©duire l’incidence pour le client, il faut provoquer unreroutage des paquets dans le rĂ©seau avant l’interruption duservice. La solution Ă  appliquer varie en fonction du protocole deroutage, mais le principe est d’augmenter la mĂ©trique (c’est-Ă -direle coĂ»t) du chemin nominal afin que le chemin de secours soit prĂ©-fĂ©rĂ©. Celui-ci sera donc utilisĂ© Ă  la place du chemin nominal quitraversait l’équipement Ă  arrĂȘter.

    Pour les protocoles de routage Ă  Ă©tat de lien, il suffit d’aug-menter la mĂ©trique du ou des liens ne devant plus ĂȘtre utilisĂ©s.Cette information de topologie est ensuite naturellement propagĂ©e

    dans tous les rĂ©seaux par le protocole de routage, puis utilisĂ©epour calculer la nouvelle route. Afin d’avoir une incidence totale-ment nulle, il convient Ă©galement d’utiliser une technique Ă©vitantles boucles de routages transitoires [18] lors de la convergencetelle que dĂ©crites dans [16] ou [17].

    Pour le protocole BGP, utilisant un algorithme Ă  vecteur dechemin, il n’est pas possible de diffuser une information topolo-gique, ni Ă  l’intĂ©rieur du rĂ©seau (AS) en iBGP et encore moins Ă l’extĂ©rieur du rĂ©seau en eBGP. De plus, l’utilisation trĂšs communed’équipements de type rĂ©flecteur de route peut cacher la route desecours que les routeurs doivent utiliser. En iBGP, on peut dĂ©prio-riser le chemin en utilisant l’attribut local_pref  mais en eBGP, il n’ya pas actuellement de solution standardisĂ©e. De mĂȘme que pour

    les IGP, il convient d’utiliser en complĂ©ment une technique pourĂ©viter les boucles de routages temporaires. Le plus simple estd’utiliser des tunnels entre les routeurs BGP de bordure, par exem-ple des tunnels MPLS.

    5. Conclusion

    Les nouveaux services déployés sur les réseaux IP tels que lavoix, les jeux en ligne et la télévision imposent des exigences dedisponibilité de plus en plus fortes aux réseaux IP.

    Une premiĂšre mĂ©thode pour amĂ©liorer cette disponibilitĂ© est lereroutage. Elle consiste, suite Ă  une panne, a rĂ©tablir rapidementles communications en contournant l’élĂ©ment en panne. Cela estrĂ©alisĂ© dynamiquement par les protocoles de routage et rĂ©cem-ment des efforts importants ont Ă©tĂ© rĂ©alisĂ©s sur les diffĂ©rentesĂ©tapes de la convergence afin d’accĂ©lĂ©rer le processus et de dimi-nuer les pertes de paquets.

    Une seconde mĂ©thode consiste Ă  utiliser des fonctions de typehaute disponibilitĂ© « HA » qui permettent de masquer les pannesn’affectant que le plan de commande et non le plan de transfert.Cela permet de sĂ©curiser le plan de commande, de redĂ©marrer lesprocessus de routage tout en maintenant la commutation despaquets. Cela Ă©vite Ă©galement un reroutage dans le rĂ©seau et doncles Ă©changes protocolaires associĂ©s et les impacts sur les autresrouteurs du rĂ©seaux. Deux procĂ©dĂ©s HA sont actuellement enconcurrence le Non Stop Routing  et Non Stop Forwarding/Grace- ful Restart . Le premier est un mĂ©canisme interne au routeur alorsque le second nĂ©cessite des extensions de tous les protocoles deroutage et donc des dĂ©pendances sur les capacitĂ©s des routeursvoisins. Cependant, les mĂ©canismes HA comportent certainsdĂ©sagrĂ©ments tels que des cas de boucles de routage ou de puitsde trafic en cas de deux pannes simultanĂ©es puisque des informa-tions de routage sont maintenues mais plus mises Ă  jour pendantquelque temps. Des boucles sont Ă©galement susceptibles de surve-nir avec BGP-GR, dans des topologies oĂč seule une partie des voi-sins d’un routeur supporte les extensions Graceful Restart . En

    effet, certaines sessions BGP peuvent rester Ă©tablies ou mainte-nues alors que d’autres non.

    D’autres inconvĂ©nients sont soulevĂ©s, concernant notamment lasupervision de la cohĂ©rence globale du routage qui devient plusdifficile Ă  rĂ©aliser. Ce n’est pas non plus forcĂ©ment compatibleavec les solutions de fast-reroute . Enfin, le Non Stop Routing  aussibien que le Graceful Restart  sont des solutions encore jeunes, peudĂ©ployĂ©es et sur lesquelles le recul est faible. Les interactions avecla convergence et d’autres mĂ©canismes de dĂ©tection de pannesdoivent donc ĂȘtre correctement Ă©tudiĂ©es avant un dĂ©ploiementdans les rĂ©seaux opĂ©rationnels afin d’évaluer, pour chaque cas depanne, les mĂ©canismes les plus pertinents qui garantiront une dis-ponibilitĂ© maximale.

    Figure 19 – ProcĂ©dure typique pour la mise Ă  jour logiciellesans interruption de service

    Carte decommande

    activeversion X

    Carte decommandesecondaireversion YPlan de

    commande

    Plan detransfert Cartes d‘interfaces

    Basculement

    http://-/?-http://-/?-

  • 8/19/2019 Te7585 Haute Disponibilite Dans Les Reseaux IP

    14/15

    HAUTE DISPONIBILITÉ DANS LES RÉSEAUX IP 

    ____________________________________________________________________________________________

    Toute reproduction sans autorisation du Centre français d’exploitation du droit de copieest strictement interdite. – Â© Editions T.I.TE 7 585 â€“ 14

    BGP Graceful Restart

    BFD

    Disponibilité

    FT

    GR

    Graceful Restart

    Hello

    IGP

    IS-IS Graceful Restart

    LDP Graceful Restart

    Maintenance

    MTTF

    MTTR

    Non Stop Forwarding

    Non Stop Routing

    OSPF Graceful Restart

    PannePanne

    Reroutage

    RSVP Graceful Restart

    AS

    en

    BFD

    en

    BGP

    en

    COS

    en

    EGP

    en

    FEC

    en

    FIB

    en

    GR

    en

    HA

    en

    IETF

    en

    IGP

    en

    IS-IS

    enISSU

    en

    LDP

    en

    LER

    en

    LFIB

    en

    LSA

  • 8/19/2019 Te7585 Haute Disponibilite Dans Les Reseaux IP

    15/15

    Toute reproduction sans autorisation du Centre français d’exploitation du droit de copieest strictement interdite. – Â© Editions T.I. TE 7 585 â€“ 15

    ____________________________________________________________________________________________ HAUTE DISPONIBILITÉ DANS LES RÉSEAUX IP

    en

    LSP

    en

    LSR

    en

    MP-BGP

    en

    MPLS

    en

    MTBF

    en

    MTTF

    en

    MTTR

    en

    NSF

    en

    NSR

    en

    OSPF

    en

    PE

    en

    QOS

    en

    RIB

    en

    RIP

    en

    RP

    en

    TLV

    en

    VPN

    en

    VRF

    en