8/19/2019 Te7585 Haute Disponibilite Dans Les Reseaux IP
1/15
Toute reproduction sans autorisation du Centre français dâexploitation du droit de copieest strictement interdite. â © Editions T.I. TE 7 585 â 1
T
E
7
5 8 5
1 1 - 2 0 0 7
Haute disponibilitédans les réseaux IP
par Sarah NATAF
et Bruno DECRAENEIngĂ©nieurs dâĂ©tudes, routage IP/MPLS, France TĂ©lĂ©com R&D
i Ă lâorigine le protocole IP a Ă©tĂ© conçu pour fournir des services de type « best effort », les rĂ©seaux IP reprĂ©sentent dĂ©sormais une part importante
des infrastructures de télécommunications et ont vocation à transporter de nombreux services avec leurs contraintes de disponibilité (applications dis- tantes, voix, vidéo, télévision, etc.).
Les rĂ©seaux IP peuvent ĂȘtre impactĂ©s par des incidents, susceptibles de rĂ©duire leur disponibilitĂ©, tels que des pannes matĂ©rielles , la perte de liens de transmission , des bugs logiciels ou des opĂ©rations de maintenance . Des solutions permettent cependant de rĂ©duire les impacts de ces incidents sur le trafic. Ce dossier se propose de dĂ©crire les technologies permettant dâassurer les fonctions de haute disponibilitĂ© « High Availability » dans les rĂ©seaux IP/ MPLS ainsi que leur implĂ©mentation sur les Ă©quipements.
1. Contexte et définitions ........................................................................... TE 7 585 - 2
1.1 DĂ©finition de la disponibilitĂ© ....................................................................... â 2
1.2 Comment amĂ©liorer la disponibilitĂ© ? ........................................................ â 2
1.3 Taxonomie des pannes ............................................................................... â 3
2. Diminution du MTTR : reroutage ......................................................... â 3
2.1 Architecture fonctionnelle dâun routeur..................................................... â 3
2.2 Temps de convergence du routage............................................................ â 4
2.3 DĂ©tection rapide ........................................................................................... â 5
2.4 Convergence « rapide »............................................................................... â 5
2.5 Protection locale........................................................................................... â 6
3. Augmentation du MTTF â Haute disponibilitĂ© . .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. â 6
3.1 Contraintes de haute disponibilitĂ© au niveau du plan de transfertet Non Stop Forwarding .............................................................................. â 7
3.2 Contraintes de haute disponibilitĂ© au niveaudu plan de commande................................................................................. â 7
3.3 CapacitĂ© NSR ou Non Stop Routing .......................................................... â 7
3.4 Extensions GR ou Graceful Restart ........................................................... â 7
3.5 Protocoles multicast .................................................................................... â 12
4. OpĂ©rations de maintenance dans les rĂ©seaux IP .. ... .. .. .. ... .. .. ... .. .. .. .. â 124.1 Maintenances logicielles avec continuitĂ© de service ................................ â 12
4.2 Maintenances matĂ©rielles avec interruption de service........................... â 13
5. Conclusion.................................................................................................. â 13
Pour en savoir plus ......................................................................................... Doc. TE 7 585
S
8/19/2019 Te7585 Haute Disponibilite Dans Les Reseaux IP
2/15
HAUTE DISPONIBILITĂ DANS LES RĂSEAUX IP
____________________________________________________________________________________________
Toute reproduction sans autorisation du Centre français dâexploitation du droit de copieest strictement interdite. â © Editions T.I.TE 7 585 â 2
Abréviations
AS Autonomous System
ASIC Application Specific Integrated Circuit
BFD Bidirectional Forwarding Detection
BGP Border Gateway Protocol
COS Class Of Service
EGP External Gateway Protocol
FEC Forwarding Equivalence Class
FIB Forwarding Information Base
FT Fault Tolerance
GR Graceful RestartHA High Availability
IETF Internet Engineering Task Force
IGP Interior Gateway Protocol
IS-IS Intermediate System to Intermediate System
ISSU In-Service Software Upgrades
LDP Label Distribution Protocol
LER Label Edge Router
LFIB Label Forwarding Information Base
LIB Label Information Base
LRDI Line Remote Indication Defect
LSA Link State Advertisement
LSP Labeled Switched Path (MPLS)
LSP Link State Packet (IS-IS)
LSR Label Switch Router
MP-BGP Multi Protocol Extensions for BGP 4
MPLS Multi Protocol Label SwitchingArchitecture
MTBF Mean Time Between Failure
MTTF Mean Time To Failure
MTTR Mean Time To Repair
NSF Non Stop Forwarding
NSR Non Stop Routing
OSPF Open Shortest Path First
PE Provider Edge
QOS Quality Of Service
RIB Routing Information Base
RIP Routing Information Protocol
RP Route Processor
RSVP-TE Resource Reservation Protocole-TrafficEngineering
SPF Shortest Path First
TLV Type Length Value
VPN Virtual Private Network
VRF VPN Routing and Forwarding
1. Contexte et définitions
1.1 Définition de la disponibilité
Les objectifs de disponibilité sont typiquement spécifiés sousforme de fraction décimale telle que 0,999 99 ou parfois en échellelogarithmique appelée « neuf » et qui correspond globalement aunombre de neuf suivant la virgule, tel que cinq neuf pour une dis-ponibilité de 0,999 99 (tableau 1).
1.2 Comment améliorer la disponibilité ?
La disponibilitĂ© Ă©tant Ă©gale Ă MTTF/(MTTF + MTTR), nous avonsdeux moyens pour lâamĂ©liorer.
Le premier moyen consiste Ă diminuer le temps moyen de rĂ©pa-ration (MTTR), autrement dit de rĂ©parer rapidement le rĂ©seau.Dans les rĂ©seaux IP/MPLS, cela est possible avec lâutilisation deprotocoles de routage dynamique qui permettent de recalculer unchemin dynamiquement afin de contourner la panne dâun lien oudâun nĆud. Dans le paragraphe 2 « Diminution du MTTR :reroutage », on dĂ©crit succinctement comment minimiser ce tempsde rĂ©paration.
La disponibilitĂ© dâun systĂšme ou dâun rĂ©seau, telle quedĂ©crite dans les documents [1] [2] ou [3], correspond à « la pro-babilitĂ© que le systĂšme fonctionne Ă lâinstant t ». De maniĂšresimple, la disponibilitĂ© est la proportion de temps pendantlequel le systĂšme fonctionne (correctement). Câest le ratio dutemps pendant lequel le systĂšme fonctionne sur le temps delâintervalle considĂ©rĂ©.
Un exemple de disponibilitĂ© est 100/168 si le systĂšme peut ĂȘtreutilisĂ© 100 h par semaine.
La disponibilitĂ© peut ĂȘtre calculĂ©e Ă partir de laconnaissance du temps moyen jusquâĂ la dĂ©faillance (MTTFMean Time To Failure ) et du temps moyen de restauration(MTTR Mean Time To Repair ) = MTTF/(MTTF + MTTR).
Tableau 1 â IndisponibilitĂ© annuelle en fonctionde la disponibilitĂ©
DisponibilitéDurée cumulée
de pannes par an
0,9 Un 9 36 j
0,99 Deux 9 3,7 j
0,999 Trois 9 9 h
0,999 9 Quatre 9 53 min
0,999 99 Cinq 9 5 min
http://-/?-http://-/?-http://-/?-
8/19/2019 Te7585 Haute Disponibilite Dans Les Reseaux IP
3/15
Toute reproduction sans autorisation du Centre français dâexploitation du droit de copieest strictement interdite. â © Editions T.I. TE 7 585 â 3
____________________________________________________________________________________________ HAUTE DISPONIBILITĂ DANS LES RĂSEAUX IP
Le second consiste Ă augmenter le temps de fonctionnementcorrect du rĂ©seau avant une panne (MTTF), autrement dit de nepas tomber en panne. Les techniques ayant pour but dâĂ©viter que
les pannes aient un impact sur lâacheminement des paquets dansle rĂ©seau sont dĂ©crites dans le paragraphe 3. Il sâagit donc demasquer le maximum de pannes.
1.3 Taxonomie des pannes
Les causes des pannes affectant la disponibilité des réseaux IP/ MPLS sont multiples. Une étude, réalisée par le groupe deconsultant Network Strategy Partners [6], donne la répartitionsuivante en fonction de la cause des pannes (figure 1).
Comme nous allons le dĂ©crire et afin dâamĂ©liorer au mieux ladisponibilitĂ© des rĂ©seaux, il est nĂ©cessaire de traiter dâune maniĂšre
spécifique chaque type de panne.
2. Diminution du MTTR :reroutage
2.1 Architecture fonctionnelledâun routeur
Lâarchitecture fonctionnelle des routeurs repose sur une sĂ©para-
tion logique des fonctionnalitĂ©s supportĂ©es par lâĂ©quipement, et ceen deux plans (figure 2).
Le plan de contrĂŽle ou plan de commande (Control Plane )constitue la partie « intelligente » du routeur. Il Ă©tablit et maintientdes tables de routage (RIB, Routing Information Base ) grĂące auxprotocoles de routage qui permettent de dĂ©terminer la route Ă uti-liser vers toutes les destinations du rĂ©seau, et ce grĂące Ă desĂ©changes dâinformations sur lâĂ©tat du rĂ©seau entre les plans decontrĂŽle de chaque routeur. On distingue les protocoles de routageinterne IGP (Interior Gateway Protocol ), tels que OSPF, IS-IS et RIP,et les protocoles de routage externes EGP (External Gateway Protocol ), tels que BGP ou MP-BGP. Dans les rĂ©seaux MPLS, ce
plan gĂšre Ă©galement les tables de labels mises Ă jour Ă partir desprotocoles de distribution de labels tels que LDP ou RSVP-TE. Pource faire, il utilise des protocoles et des algorithmes complexesnĂ©cessitant une quantitĂ© de mĂ©moire et une puissance de calcul« importante », de lâordre de grandeur dâun PC de bureau. Il nâapas Ă effectuer de traitements « temps rĂ©els » par rapport Ă lâache-minement des paquets. Son Ă©chelle de temps de rĂ©action est celuides temps de convergence des protocoles de routage utilisĂ©s dansles rĂ©seaux, câest-Ă -dire de lâordre de quelques centaines de milli-secondes pour les protocoles de routage interne (OSPF, IS-IS) Ă quelques secondes Ă dizaines de secondes pour les protocoles deroutage externes (BGP).
Figure 1 â Causes dâindisponibilitĂ©
Mise à jourmatérielle
9 %
Logicielle25 %
Matérielle14 %
Ălectrique1 %
Inconnue9 %
Lien20 %
Mise Ă jourlogicielle
22 %
Figure 2 â Vue logique des routeurs
FIB LFIB
Aiguillage Plan detransfert
Calcul deschemins, contrĂŽledâadmission
Protocole deroutage (OSPF,IS-IS, BGP, âŠ)
Gestion desressources debande passante(files dâattente)et du niveau 2
Protocole designalisation(RSVP-TE, LDP)
Plan decommande
LIB
Routage
RIB
http://-/?-http://-/?-http://-/?-http://-/?-
8/19/2019 Te7585 Haute Disponibilite Dans Les Reseaux IP
4/15
HAUTE DISPONIBILITĂ DANS LES RĂSEAUX IP
____________________________________________________________________________________________
Toute reproduction sans autorisation du Centre français dâexploitation du droit de copieest strictement interdite. â © Editions T.I.TE 7 585 â 4
Le plan de transfert (Data Plane ) regroupe les fonctions de commuta-tion de paquets IP/MPLS en utilisant les tables de commutation (FIB,Forwarding Information Base ) calculées par le plan de commande. Il a
pour fonction dâaiguiller les paquets IP/MPLS reçus dâune interfacedâentrĂ©e vers une interface de sortie. Cette fonction ne nĂ©cessite pas outrĂšs peu dâintelligence mais son but est la vitesse de commutation. Parexemple, une interface OC 192 Ă 10 Gbit/s nĂ©cessite la commutation de4 millions de paquets par secondes. Pour cela, le plan de transfert utiliseun algorithme de commutation trĂšs simple (consultation dâune table enMPLS ou dâun arbre Ă typiquement 3 niveaux en IP) qui est exĂ©cutĂ© en« hardware » par un processeur trĂšs spĂ©cifique (ASIC). Les fonctions duplan de transfert sont entre autres dâĂ©tablir les adjacences de niveau 1(couche physique) et 2 (couche liaison de donnĂ©es) du modĂšle OSI avecles routeurs voisins. Le traitement comprend des fonctions deconsultation des tables de commutation (lookup ) et de qualitĂ© de ser-vice (QoS) tels que la classification, le marquage et le shaping. La bande
passante est ainsi gĂ©rĂ©e dans ce plan qui contient les files dâattentes(queuing ) plus ou moins Ă©laborĂ©es.Ă ces deux fonctions principales peut sâajouter un troisiĂšme
plan, le plan de management (Management Plane ), qui contrĂŽleles opĂ©rations de gestion du routeur : configuration (interface enligne de commande comprise), remontĂ©es dâinformations lors dedĂ©pannages (debug), connexion (telnet, console) et supervision(SNMP, journalisation).
Cette sĂ©paration logique a Ă©tĂ© standardisĂ©e Ă lâIETF dans legroupe de travail Forces (Forwarding and Control Element Separation ), qui modĂ©lise les nĆuds IP en dĂ©finissant des mĂ©ca-nismes dâisolation entre les plans de contrĂŽle et de transfert.
2.2 Temps de convergence du routageLes Ă©quipements des rĂ©seaux IP/MPLS disposent dâun plan de
commande « intelligent » leur permettant de prendre des dĂ©cisionsde routage dynamiques en cas de panne. Le MTTR est donc limitĂ©au temps nĂ©cessaire Ă ces Ă©quipements pour dĂ©tecter la panne,puis dĂ©terminer et utiliser un autre chemin afin de contourner cettepanne (figure 3). La diminution du MTTR nĂ©cessite de rĂ©tablir rapi-dement lâacheminement correct des paquets Ă travers le rĂ©seau.
On peut décomposer le temps de convergence des protocolesde routage interne (IGP) de type Link State (tels que les protocolesOSPF ou IS-IS [7]) en quatre phases (figure 4) :
â dĂ©tection locale de la panne physique ;
â propagation de lâinformation topologique (LSP pour IS-IS, LSApour OSPF) dans le rĂ©seau ;â calcul dâune route alternative et alimentation de la RIB ;â alimentation de la FIB ou des FIB.
Pour diminuer le temps de convergence et donc le MTTR, il fautminimiser chacune de ces quatre Ă©tapes.
DiffĂ©rentes bases dâinformations dâun routeur IP
La RIB (Routing Information Base ) est la table de routage.Elle rĂ©side dans le plan de contrĂŽle et peut ĂȘtre mise Ă jourpar plusieurs protocoles de routage.
La FIB (Forwarding Information Base ) est la tabledâaiguillage. Elle est calculĂ©e par le plan de contrĂŽle, mais uti-lisĂ©e par le plan de transfert. La FIB est une vue simplifiĂ©e dela RIB et ne contient que les informations nĂ©cessaires Ă lâaiguillage des paquets.
La LIB (Label Information Base ) est la table des labels. Elleréside dans le plan de contrÎle.
La LFIB (Label Forwarding Information Base ) est la tabledâaiguillage des paquets MPLS. Câest lâĂ©quivalent de la FIB
mais pour les paquets MPLS.Il y a une FIB par protocole de niveau 3 commuté par le
routeur : IPv4, IPv6, MPLS... Dans les réseaux VPN BGP/MPLS,les routeurs de type PE gÚrent en plus une FIB pour chaqueVPN.
Figure 3 â Diminution du MTTR par reroutage dynamique
R1R2 R3
R5R4
LĂ©gende :
Chemin nominal
Chemin de secours
Figure 4 â DĂ©composition du temps de convergence (IGP)
Temps de convergencePanne
DĂ©tection RĂ©ception RIB mise Ă jour
PropagationCalcul des routes
Alimentation FIB
Temps
FIB mise Ă jour
T0 T1 T2 T3 T4
http://-/?-http://-/?-http://-/?-http://-/?-
8/19/2019 Te7585 Haute Disponibilite Dans Les Reseaux IP
5/15
Toute reproduction sans autorisation du Centre français dâexploitation du droit de copieest strictement interdite. â © Editions T.I. TE 7 585 â 5
____________________________________________________________________________________________ HAUTE DISPONIBILITĂ DANS LES RĂSEAUX IP
2.3 DĂ©tection rapide
La panne peut ĂȘtre dĂ©tectĂ©e par deux moyens :
â dĂ©tection directe par remontĂ©e de lâinformation du plan detransfert ;
â dĂ©tection indirecte par les mĂ©canismes « Hello ».
2.3.1 DĂ©tection de la pannepar le plan de transfert
Si les routeurs utilisent des interfaces point-Ă -point directementraccordĂ©es par une fibre optique, la coupure de la fibre est dĂ©tec-tĂ©e par la perte du signal â Ă©lectrique ou optique â de la couchephysique (couche 1 du modĂšle OSI). Câest par exemple le cas desinterfaces POS (Packet over SONET/SDH) qui sont configurĂ©esavec un framing SDH et une encapsulation hdlc-like . En cas depanne dâun de ces liens, la couche 2 (SDH) gĂ©nĂšre des alarmes
POS et alerte le routeur.La figure 5 présente les différents timers utilisés par un routeur
Cisco, qui ne reçoit plus de lumiĂšre (laser) sur le rĂ©cepteur de sacarte POS, pour gĂ©nĂ©rer une alarme et indiquer Ă lâIOS que cetteinterface (ou port) doit ĂȘtre considĂ©rĂ©e comme inactive (Ă©tatDown). Nous pouvons constater que pour amĂ©liorer la rĂ©activitĂ©de cette dĂ©tection il faut minimiser :
â le POS delay triggers , dont la valeur par dĂ©faut est de 0 ms ;â le carrier delay , dont la valeur par dĂ©faut est de 2 s.La figure 6 prĂ©sente la rĂ©action dâun routeur Cisco Ă la rĂ©ception
dâun message LRDI (Line Remote Defect Indicator ) Ă©mis par lerouteur adjacent qui a dĂ©tectĂ© la panne par lâabsence de lumiĂšre.
2.3.2 Détection de la panne par les mécanismesHello
La dĂ©tection dâune panne directement par le plan de transfert estla mĂ©thode la plus rapide. Si elle nâest pas possible, par exempleparce que le rĂ©seau de transport sous-jacent ne le permet pas(comme un rĂ©seau Ethernet), on doit dĂ©tecter la panne par desmĂ©canismes de type Hello .
Les protocoles de routage, et en particulier les protocoles IGP,utilisent lâĂ©change de messages pĂ©riodiques de type Hello entrevoisins. La dĂ©tection de la perte dâune adjacence a lieu lorsqueplusieurs messages Hello consĂ©cutifs sont perdus (figure 7). Letemps de dĂ©tection dĂ©pend de deux paramĂštres configurables :lâintervalle de temps entre deux messages Hello et le nombre demessages perdus avant de considĂ©rer lâinterface en panne.
Chaque protocole de routage a spécifié son propre mécanisme
de Hello , combinant parfois des fonctions dâĂ©change dâinformationentre les routeurs (lorsque lâinterface fonctionne) et de dĂ©tectionde panne lorsquâelle ne fonctionne plus.
Plus rĂ©cemment, lâIETF normalise un protocole spĂ©cifique Ă ladĂ©tection de panne : le protocole BFD Bidirectional Forwarding Detection [8]. Câest un protocole nâutilisant quâun seul type de mes-sage, relativement court (24 octets), de taille fixe, conçu pour nenĂ©cessiter que des traitements lĂ©gers pouvant ĂȘtre rĂ©alisĂ©s rapide-ment par tout processeur standard (General Purpose CPU) ou auniveau matĂ©riel par des processeurs trĂšs spĂ©cialisĂ©s (ASIC). Ce pro-tocole, en Ă©tant plus lĂ©ger que les mĂ©canismes de Hello des proto-coles de routage, pourrait permettre une dĂ©tection plus rapide despannes avec Ă©galement une implĂ©mentation au plus prĂšs de lâinter-
face câest-Ă -dire sur les cartes dâinterfaces des routeurs.
2.4 Convergence « rapide »
Les protocoles de routage utilisent des algorithmes de calcul dis-tribuĂ©. Suite Ă la dĂ©tection de la panne, les Ă©tapes restant Ă effec-tuer pour un IGP de type link state tel quâIS-IS sont :
1. propagation de lâinformation topologique (LSP pour IS-IS,LSA pour OSPF) dans le rĂ©seau ;
2. calcul dâune route alternative et alimentation de la RIB ;
3. alimentation de la FIB ou des FIB.
Dâune maniĂšre gĂ©nĂ©rale, la durĂ©e de ces trois Ă©tapes dĂ©pendtrĂšs fortement de la qualitĂ© de lâimplĂ©mentation logicielle, delâeffort portĂ© sur lâoptimisation des temps de convergence et dumatĂ©riel utilisĂ©.
â Pour la premiĂšre Ă©tape, le temps de propagation de lâinforma-tion topologique dĂ©pend Ă©galement de la topologie du rĂ©seau eten particulier du nombre de routeurs devant propager lâinforma-tion topologique entre le routeur ayant dĂ©tectĂ© la panne, dâunepart, et le routeur devant dĂ©vier le trafic.
Figure 5 â Timers et dĂ©tection dâune panne physique sur une fibredâun routeur Cisco
Figure 6 â Timers et dĂ©tection de la panne SDH dâun routeur Ciscosuite Ă une alarme POS
Plan de transfert
Panne du lien
(perte du signal
en réception)
Temps
POS delay triggers
Detection
Carrier delay
Temporisation
Alarme POS(perte du signal)
Lâinterfaceest dĂ©clarĂ©een panne
Plan de commande
IOS
Annonce de lâalarme
Ă lâĂ©quipement voisin
(LRDI)
Interface
Plan de transfert
RĂ©ception de lâalarme POS
(LRDI)
Interface
IOS
Plan de commande
Temps
Carrier delay
Temporisation
Prise en comptede lâalarme POS
Lâinterface est dĂ©clarĂ©een panne
Dans lâexemple de la figure 3, suite Ă la panne du lien entre R2 etR3, le routeur R2 dĂ©tecte la panne du lien et lâannonce au routeur R1,qui est le routeur devant dĂ©vier le trafic. Ces deux routeurs sontsituĂ©s Ă un seul saut lâun de lâautre.
Figure 7 â DĂ©tection de panne par des mĂ©canismes de type Hello
Hello Hello Hello Hello-1 Hello-2 Hello-3
PanneDĂ©tection de la panne
aprĂšs la perte
de 3 messages hello
consécutifs
Temps
Temps de détection
http://-/?-http://-/?-http://-/?-http://-/?-http://-/?-http://-/?-http://-/?-http://-/?-
8/19/2019 Te7585 Haute Disponibilite Dans Les Reseaux IP
6/15
HAUTE DISPONIBILITĂ DANS LES RĂSEAUX IP
____________________________________________________________________________________________
Toute reproduction sans autorisation du Centre français dâexploitation du droit de copieest strictement interdite. â © Editions T.I.TE 7 585 â 6
On pourrait intuitivement penser que dans des grands rĂ©seaux,cette distance topologique pourrait ĂȘtre grande, mais certainesĂ©tudes ont montrĂ© le contraire. Par exemple, une Ă©tude [11] a
calculé tous les cas de pannes de liens dans un réseau de taillemondiale et a montré que prÚs de 90 % du trafic était rerouté parun routeur situé à moins de deux sauts de la panne (figure 8).
â Pour la seconde Ă©tape, le temps de calcul de la route alternativeet la modification de la RIB dĂ©pend de la taille du rĂ©seau en nombrede nĆuds et de liens et du nombre de prĂ©fixes IP Ă modifier dansla RIB. Le temps de calcul des plus courts chemins SPF (Shortest Path First ) est de lâordre de quelques dizaines de millisecondes (parexemple 35 ms pour 600 nĆuds).
â Enfin pour la troisiĂšme Ă©tape, le temps de mise Ă jour des tablesde commutations (FIB) dĂ©pend du nombre de prĂ©fixes Ă modifierou rĂ©Ă©crire. Ce temps est de lâordre de 200 ”s par prĂ©fixe, mais
compte tenu du nombre important de prĂ©fixes dans les rĂ©seauxInternet, câest cette Ă©tape qui est la plus longue. Elle peut durer de200 ms Ă 10 s.
Au dĂ©but des annĂ©es 2000, les temps de convergence aprĂšs unepanne de lien ou du routeur interne Ă un rĂ©seau (AS) Ă©taient delâordre de 10 s. En 2006, les meilleures pratiques permettentdâatteindre un temps de convergence de lâordre de 500 ms [12].
2.5 Protection locale
En concurrence avec les mĂ©canismes de restauration qui sontĂ©tablis aprĂšs la panne, telle que la convergence des protocoles deroutage, il existe aussi des mĂ©canismes de protection utilisant deschemins calculĂ©s et disponibles dans les tables de commutationavant que la panne nâarrive. Ces mĂ©canismes de protection sontplus rapides, car ils minimisent les temps nĂ©cessaires Ă chaqueĂ©tape :
1. DĂ©tection locale de la panne physique ;2. Propagation de lâinformation topologique dans le rĂ©seau ;3. Calcul dâune route alternative et alimentation de la RIB ;4. Alimentation de la FIB ou des FIB.LâĂ©tape 1 de dĂ©tection de la panne est inchangĂ©e.
LâĂ©tape 2 de propagation dans le rĂ©seau de lâinformation« panne » nâest plus nĂ©cessaire car la protection est un mĂ©canismeactivĂ© localement par le routeur ayant dĂ©tectĂ© la panne.
LâĂ©tape 3 de calcul des nouvelles meilleures routes est rĂ©alisĂ©eavant la panne. Cette Ă©tape consiste pour le routeur Ă calculer lesmeilleures routes pour toutes les destinations et pour tous les cas
de panne quâil peut dĂ©tecter. Elle peut ĂȘtre relativement longue,câest-Ă -dire de lâordre de la seconde, mais cette durĂ©e nâest pasgĂȘnante car pendant ce temps, le trafic est correctement acheminĂ©(Ă la diffĂ©rence dâun calcul rĂ©alisĂ© consĂ©cutivement Ă la panne).
LâĂ©tape 4 est en grande partie effectuĂ©e avant la panne. Lestables de commutations (FIB) Ă utiliser aprĂšs une panne sont dĂ©jĂ configurĂ©es dans les cartes dâinterface. Suite Ă une panne, il nereste quâĂ indiquer quelle table les cartes de commutation doiventutiliser.
Globalement, ces mécanismes de protection locale permettentde rétablir le trafic en 50 à 100 ms aprÚs la panne.
Dans les rĂ©seaux MPLS, le MPLS Fast Reroute [10] est une techni-que de protection locale du trafic. Elle nĂ©cessite dâutiliser un mode« connectĂ© » en Ă©tablissant des tunnels MPLS TE entre tous les rou-teurs du rĂ©seau. Le « MPLS Fast ReRoute » est normalisĂ© Ă lâIETF etimplĂ©mentĂ© depuis le milieu des annĂ©es 2000. Il est dĂ©ployĂ© dansplusieurs rĂ©seaux, mais une majoritĂ© des rĂ©seaux ne lâimplĂ©mentepas du fait de la complexitĂ© induite, de la nĂ©cessitĂ© dâutiliser MPLSet de lâobligation dâĂȘtre en mode connectĂ©. En effet, le modeconnectĂ© nĂ©cessite, pour la protection des pannes de routeurs, unmaillage complet des routeurs entre eux par des LSP MPLS. SoitN (N -1) tunnels Ă configurer pour N routeurs dans le rĂ©seau.
Pour les rĂ©seaux IP, plusieurs propositions de Fast ReRoute IP sont en cours dâĂ©tude Ă lâIETF [13] [14] et dans la communautĂ© dela recherche [15], mais aucune approche ne fait pour lâinstantlâunanimitĂ© en raison des problĂ©matiques du taux de couverturedes pannes et des typologies de rĂ©seau et de la complexitĂ© des dif-fĂ©rentes solutions. Ces solutions dâIP Fast ReRoute doivent permet-tre de protĂ©ger le trafic en 100 ms en cas de panne. Suite Ă cetteprotection locale, il est nĂ©cessaire dâutiliser les protocoles de rou-tage pour rerouter le trafic. Dâune part, pour dĂ©terminer et utiliserle nouveau meilleur chemin pour traverser le rĂ©seau, et dâautrepart pour se prĂ©parer Ă la prochaine panne (IP Fast ReRoute nepeut protĂ©ger quâune panne Ă la fois).
Lors de cette Ă©tape de reroutage, il est utile dâutiliser une tech-nique ne gĂ©nĂ©rant pas de boucles de routage transitoires [16] [17][18] lors de la convergence. En effet, pendant la convergence versle nouvel Ă©tat stable, chaque routeur du rĂ©seau modifie ses tablesde routage indĂ©pendamment des autres routeurs et peut pro-voquer ainsi des incohĂ©rences temporaires.
3. Augmentation du MTTFâ Haute disponibilitĂ©
Dans la partie prĂ©cĂ©dente (§ 2), on a dĂ©taillĂ© les diffĂ©rents mĂ©ca-nismes de convergence relatifs aux protocoles de routage au seindâun rĂ©seau. Pour diminuer les pertes de paquets dues aureroutage, les techniques de haute disponibilitĂ© implĂ©mentĂ©es surles routeurs IP essaient quant-Ă -elles de masquer certaines pannesaux autres routeurs du rĂ©seau. Le principe sous-jacent est dâutiliserdes architectures redondĂ©es pour pallier diffĂ©rents cas de pannes.
Figure 8 â Distance entre le lien en panne et le routeur reroutantle trafic
0 2 4 6 8 10 12
0,1
0,2
0,3
0,4
0,5
0,6
T r a f i c
r e r o u t Ă© ( % )
N : nombre de sauts (nombre de routeurs) entre le routeur détectantla panne et le routeur devant changer sa RIB pour rétablir le trafic.
N
Les tunnels MPLS sont unidirectionnels. Il faut donc Ă©tablirdeux fois plus de tunnels que pour un simple maillagecomplet (N (N -1)/2).
Dans lâexemple de la figure 3, si au temps t 1 le routeur R2 redirigevers R1 le trafic Ă destination de R3, alors quâau temps t 2 > t 1 , lerouteur R1 redirige vers R4 le trafic Ă destination de R3, alors pendantlâintervalle de temps [t 1 , t 2 ], une boucle de routage est formĂ©e entreR2 qui redirige le trafic vers R1 et R1 qui continue encore a redirigerle trafic vers R2.
http://-/?-http://-/?-http://-/?-http://-/?-
8/19/2019 Te7585 Haute Disponibilite Dans Les Reseaux IP
7/15
Toute reproduction sans autorisation du Centre français dâexploitation du droit de copieest strictement interdite. â © Editions T.I. TE 7 585 â 7
____________________________________________________________________________________________ HAUTE DISPONIBILITĂ DANS LES RĂSEAUX IP
3.1 Contraintes de haute disponibilitéau niveau du plan de transfert
et Non Stop Forwarding Puisque câest au niveau du plan de transfert que le paquet est
aiguillĂ©, il faut, pour augmenter la disponibilitĂ© dâun routeur, avoirune table de commutation (forwarding ) Ă jour de maniĂšre Ă ce queles paquets soient toujours transfĂ©rĂ©s vers la bonne destination.Pour ce faire, il faut Ă la fois maintenir la stabilitĂ© et la cohĂ©rencedes protocoles de routage, mais aussi accĂ©lĂ©rer la distribution desinformations de commutation (forwarding ) vers le plan de trans-fert. Cette distribution de la RIB vers la FIB est purement interne aurouteur et trĂšs dĂ©pendante des choix des constructeurs. Les para-mĂštres sur lesquels il est possible de jouer sont :
â la quantitĂ© dâinformation Ă tĂ©lĂ©charger dans la FIB ;â la vitesse de calcul des processeurs du plan de transfert ;
â la bande passante disponible entre les cartes de transfert et decontrĂŽle ;
â les processus de synchronisation entre les diffĂ©rentes cartes.
Pour rĂ©pondre aux demandes de performances et assurer unemeilleure Ă©volutivitĂ© au cours du temps, les architectures matĂ©-rielles sont de plus en plus distribuĂ©es. La sĂ©paration fonctionnelledĂ©crite prĂ©cĂ©demment (§ 2.1) se retrouve dans lâarchitecture matĂ©-rielle des routeurs de cĆur oĂč les plans sont rĂ©partis sur des cartesmatĂ©rielles distinctes. Certaines supportent le plan de transfert,dâautres sont dĂ©diĂ©es au plan de commande et supportent parfoisĂ©galement le plan de management. Ces derniĂšres peuvent ĂȘtreaussi redondĂ©es pour une meilleure disponibilitĂ©. En effet, les fonc-tions de haute disponibilitĂ© reposent sur deux constats :
â dâune part, dans les routeurs Ă trĂšs haut dĂ©bit des opĂ©rateursde rĂ©seaux IP/MPLS, les fonctions de plan de commande et de plande transfert sont bien sĂ©parĂ©es. Elles sont effectuĂ©es par des proces-sus logiciels diffĂ©rents sâexĂ©cutant sur des cartes matĂ©rielles distinc-tes. Ainsi et dans une trĂšs large proportion, les pannes affectant leplan de commande sont indĂ©pendantes des pannes affectant le plande transfert ;
â dâautre part, les opĂ©rations effectuĂ©es par le plan de transfertsont essentiellement effectuĂ©es par des composants matĂ©riels (desprocesseurs spĂ©cialisĂ©s de type ASIC) alors que les opĂ©rationseffectuĂ©es par le plan de commande sont essentiellement rĂ©alisĂ©espar des composants logiciels. Les composants logiciels complexesayant un taux de pannes plus Ă©levĂ©, le plan de transfert est plus
robuste que le plan de commande.Compte tenu des deux caractĂ©ristiques, le principe des fonctionsde haute disponibilitĂ© est de permettre au plan de commande desâarrĂȘter (suite Ă un bug par exemple), puis de redĂ©marrer sansimpacter le plan de transfert qui continue de son cĂŽtĂ© Ă commuterles paquets.
Pour y parvenir, le plan de transfert du routeur doit donc dâunepart maintenir ses adjacences de niveau 2, de façon Ă masquer lapanne Ă ses routeurs voisins. Dâautre part, le routeur doit ĂȘtrecapable de poursuivre le transfert de paquets sans interruption enmaintenant les tables de commutation (comme les FIB et LFIB).Câest ce que lâon appelle la capacitĂ© NSF ou Non Stop Forwarding .En revanche, lors dâune panne liĂ©e au plan de transfert, comme la
perte dâune carte dâinterface, la perte de paquets est inĂ©vitablejusquâĂ ce que le trafic soit reroutĂ©.
3.2 Contraintes de haute disponibilitéau niveau du plan de commande
Les pannes relatives au plan de contrĂŽle rĂ©sultent soit dâunepanne logicielle, soit dâune panne matĂ©rielle sur carte decommande. Dâautres indisponibilitĂ©s du plan de contrĂŽle sont duesaux mises Ă jour logicielles des Ă©quipements. RedĂ©marrer une cartede commande sur un routeur de cĆur nĂ©cessite en gĂ©nĂ©ralplusieurs minutes, de lâordre dâune dizaine. Or une indisponibilitĂ©totale de la machine pendant dix minutes nâest pas rĂ©aliste si lâon
veut atteindre les « cinq neuf ». Câest pourquoi des efforts sur lamodularitĂ© des systĂšmes ont Ă©tĂ© rĂ©alisĂ©s, de maniĂšre Ă redĂ©marrerle plus vite possible un processus ou une carte de commande toute
entiĂšre, pour repartir sur un processus dans un Ă©tat sain ou unecarte saine.
Lors dâune panne du plan de contrĂŽle, les protocoles de routageset en particulier les sessions Ă©tablies avec les routeurs voisins sontinterrompus. Lorsquâune vĂ©ritable sĂ©paration des plans decommande et de transfert est rĂ©alisĂ©e, deux solutions concurrentessont possibles pour amĂ©liorer la disponibilitĂ© lors de la perte duplan de commande. Elles sont respectivement dĂ©crites dans lesparagraphes 3.4 et 3.3. La premiĂšre solution (GR) consiste Ă utiliserdes adaptations des protocoles de routage pour que les deux rou-teurs voisins se coordonnent pour gĂ©rer localement cette pannelors du redĂ©marrage du plan de commande, sans en informer lereste du rĂ©seau. La seconde (NSR) ne nĂ©cessite pas un changement
des protocoles de routage et repose sur la redondance et la syn-chronisation interne au routeur des deux cartes du plan decommande. Elle ne nécessite pas non plus la collaboration deséquipements voisins.
UtilisĂ©es en complĂ©ment du Non-Stop Forwarding , ces deuxsolutions assurent une continuitĂ© de service lors dâune panne et duredĂ©marrage de la carte de plan de contrĂŽle.
3.3 Capacité NSR ou Non Stop Routing
Le Non Stop Routing est une capacitĂ© spĂ©cifique dâun routeur qui
lui permet, lors dâune panne relative au plan de contrĂŽle, de bascu-ler sur une seconde carte de commande de secours sans perte depaquets et sans incidence sur les voisins. Les adjacences de routagene sont pas perturbĂ©es et restent maintenues durant la panne. LeNon Stop Routing repose sur la redondance des cartes decommande, quâelle soit totale ou partielle. Cette redondance peutĂȘtre matĂ©rielle ou logicielle. Dans les deux cas, outre la synchroni-sation des tables de routage ou des configurations, la fiabilisationdes processus de routage nĂ©cessitent la synchronisation de nom-breux points de reprises et dâĂ©tats entre le systĂšme primaire et lesecondaire.
Cette solution est dĂ©licate Ă implĂ©menter pour les constructeurs,qui peuvent parfois proposer le Non Stop Routing uniquement surun sous-ensemble des protocoles de routage. Ils peuvent proposersoit un parallĂ©lisme complet entre les deux cartes de commande,soit une synchronisation partielle de certains Ă©tats pour certainsprotocoles (par exemple la table de routage, lâĂ©tat de la machine Ă Ă©tats, quelques timers ) ou encore dĂ©clencher une synchronisationcomplĂšte sur certains Ă©vĂ©nements.
En revanche, pour un opérateur, le Non stop routing présente denombreux avantages car il est totalement transparent vis-à -vis desrouteurs voisins et est donc plus facile à déployer.
3.4 Extensions GR ou Graceful Restart
Si lâĂ©quipement nâest pas capable de maintenir seul ses tables etadjacences de routage, il existe des extensions protocolaires quilui permettent en cas de perte du plan de contrĂŽle primaire derĂ©acquĂ©rir, avec lâaide des routeurs voisins, les informations
Dans le dossier [H 5 850] réf. [34], la tolérance aux fautes
des applications de routage est détaillée.
Pour plus dâinformations sur les points de reprise et lasĂ»retĂ© de fonctionnement, on peut se reporter Ă [H 2 508] rĂ©f.
[3], [H 2 509], réf. [4].
8/19/2019 Te7585 Haute Disponibilite Dans Les Reseaux IP
8/15
HAUTE DISPONIBILITĂ DANS LES RĂSEAUX IP
____________________________________________________________________________________________
Toute reproduction sans autorisation du Centre français dâexploitation du droit de copieest strictement interdite. â © Editions T.I.TE 7 585 â 8
nĂ©cessaires pour reconstruire ses bases dâinformation. Les autresrouteurs du rĂ©seau ne sont pas informĂ©s de cette panne.
Ces extensions de routage sont appelĂ©es Graceful Restart (GR) ;elles reposent sur la coopĂ©ration entre un routeur IP qui subit unepanne de plan de contrĂŽle et lâensemble de ses voisins. Câestlâapproche la plus courante pour rĂ©duire les pertes de services.
Cela est disponible dans la plupart des Ă©quipements rĂ©cents quiont une bonne sĂ©paration entre les plans de contrĂŽle et de transfert,et ceux qui supportent la redondance des plans de contrĂŽle. Lesextensions GR sont Ă©galement disponibles sur les routeurs qui nâontquâun seul plan de contrĂŽle. CombinĂ©es aux capacitĂ©s de maintiendes adjacences de niveau 2 et au maintien de la commutation depaquets, ces extensions permettent de minimiser fortement lâinci-dence dâun redĂ©marrage ou dâun basculement de carte de contrĂŽleprimaire sur le trafic : le GR est typiquement combinĂ© au NSF.
Pour un Ă©quipementier, cette solution protocolaire est plussimple Ă implĂ©menter que la solution NSR purement interne Ă unĂ©quipement et qui demande des fonctions de redondance et desynchronisation plus avancĂ©es. En effet, le GR nĂ©cessite moinsde synchronisation dâĂ©tats entre les contrĂŽleurs primaires etsecondaires puisquâil est possible de redemander aux routeursvoisins les informations de routage perdues.
3.4.1 Protocoles IGP
Le routage IGP (Interior Gateway Protocol ) est primordial sur unrĂ©seau dans la mesure oĂč il assure le routage au sein dâundomaine. Deux protocoles dits Ă Ă©tats de lien sont principalementutilisĂ©s en tant quâIGP sur un rĂ©seau de cĆur IP : OSPF [21] et IS-IS(dĂ©fini dans [22] et dĂ©crit dans [7]).
Les extensions Graceful Restart ont pour but dâaider un routeurdont le plan de contrĂŽle redĂ©marre Ă maintenir ses adjacences IGPet poursuivre le transfert de paquets sur les routes apprises parlâIGP malgrĂ© la perte des sessions de routage avec ses voisins. Sansles extensions Graceful Restart , lâIGP doit converger dĂšs quâuneadjacence est modifiĂ©e, câest-Ă -dire dĂšs quâil y a perte de la session,que ce soit Ă cause dâune panne de lien ou de plan de contrĂŽle. Laconvergence implique le calcul du plus court chemin selon lâalgo-rithme SPF (Shortest Path First ), comme vu au paragraphe 2.
Avec les extensions Graceful Restart , les pertes des sessions deroutage avec les routeurs voisins sont masquées aux reste duréseau, ce qui réduit le trafic de commande (annonces protocolai-res de type LSP pour IS-IS ou LSA pour OSPF), élimine des calculsde plus courts chemins et les boucles de routage temporaires lorsde la convergence.
3.4.1.1 GR pour le protocole IS-IS
Les extensions Graceful Restart pour le protocole IS-IS [26] sontannoncĂ©es dans les messages Hello sous la forme dâun nouveau
TLV (Type Length Value ĂlĂ©ment Type Longueur Valeur, structuredâencodage utilisĂ©e dans de nombreux messages protocolaires).Le TLV 211 (figures 10 et 11) contient deux informations :
â deux bits significatifs sur le premier octet sont utilisĂ©s pour lesannonces RR (Restart Request ) ou RA (Restart Acknowledgement ) ;
â le temps restant dans la procĂ©dure Graceful Restart est codĂ© sur2 octets ; ce timer est utilisĂ© par les routeurs en cours de redĂ©mar-rage (restarting , et non les receiving ) et indique le temps maximalqui leur est allouĂ© pour redĂ©marrer et terminer la procĂ©dure de GR.
Deux autres timers sont définis dans [26] :
â une instance du timer T1 est maintenue par interface, indiquantle temps aprĂšs lequel une tentative de redĂ©marrage non acquittĂ©e
est relancĂ©e ; il est de trois secondes par dĂ©faut ;â une instance du timer T2 est maintenue pour chaque base LSP
(une par niveau, level 1 et level 2), indiquant le temps maximalpendant lequel un systÚme va attendre la synchronisation desbases LSP (LSDB ou LS DataBase ) ; il est de soixante secondes pardéfaut.
Exemple : dans le rĂ©seau illustrĂ© par la figure 9, seuls les routeursR1 et R3 sont informĂ©s de la panne du plan de commande du routeurR2 et ont besoin dây rĂ©agir en rĂ©-Ă©tablissant leur protocoles de rou-tage avec le routeur R2.
Terminologie
Chaque constructeur utilise sa propre terminologie pourdĂ©crire les caractĂ©ristiques de Graceful Restart et de Non Stop Forwarding . Les extensions GR Ă©tant normalisĂ©es au sein delâIETF, nous utilisons le vocabulaire suivant :
â un routeur effectuant un basculement de plan de contrĂŽleet capable de comprendre les extensions GR est appelĂ© res- tarting routeur, ou encore « capable » ;
â les voisins dâun routeur dont le plan de contrĂŽle redĂ©-marre et qui comprennent les extensions GR sont qualifiĂ©esde helper ou aware . Dans les normes, on les appelle Ă©gale-ment les routeurs receiving .
Figure 9 â Augmentation du MTTF par utilisation de fonctionsde haute disponibilitĂ© dans le plan de commande
Figure 10 â Extensions GR pour IS-IS : description du TLV 211
Figure 11 â TLV 211 : description des flags
Chemin de commutation
Protocole de routage
Plan de commande
Plan de transfert
LĂ©gende :
R1R2
R3
R5R4
0 1 2 3 4 5 6 7
Flags
Temps restant
Identification du voisin ârestarting â
0 1 2 3 4 5 6 7
RRRASA
RR : requĂȘte de redĂ©marrage (Restart Request)
RA : acquittement du redémarrage (Restart Acknowledge)
SA : supprime l'annonce de l'adjacence
(Suppress Adj Advertisement)
http://-/?-http://-/?-
8/19/2019 Te7585 Haute Disponibilite Dans Les Reseaux IP
9/15
Toute reproduction sans autorisation du Centre français dâexploitation du droit de copieest strictement interdite. â © Editions T.I. TE 7 585 â 9
____________________________________________________________________________________________ HAUTE DISPONIBILITĂ DANS LES RĂSEAUX IP
3.4.1.2 GR pour le protocole OSPF
Les extensions Graceful Restart pour le protocole OSPF sontdĂ©finies dans [22]. La procĂ©dure classique est proche de celledĂ©crite prĂ©cĂ©demment pour IS-IS. Dans le cas dâOSPF, les routeursne savent pas a priori si leurs voisins supportent ou non le GR.AprĂšs une panne (switchover ), le routeur restarting marque sesentrĂ©es de commutation (forwarding ) comme gelĂ©es (stale ) etenvoie des messages appelĂ©s Grace-LSAs sur chacune de sesinterfaces, avec lâoption « cause du redĂ©marrage » positionnĂ©e à « inconnue » ou « a basculĂ© sur la carte secondaire ». Si le voisin
supporte le mode GR, alors il devient helper et aide le routeurredémarrant à reconstruire sa base LSDB.
3.4.2 Protocole (MP-)BGP
BGP Graceful Restart est une extension du protocole (MP-)BGPdĂ©fini par lâIETF dans la RFC 4724 [19]. Il permet Ă une sessionBGP dâĂȘtre interrompue puis de redĂ©marrer sans que cela ne modi-fie le routage BGP sur les deux routeurs utilisant cette session nidans le reste du rĂ©seau.
Sans cette extension, lorsquâun routeur A dĂ©tecte une panne de lasession BGP vers le routeur B, le routeur A considĂšre que le routeur B
nâest plus fonctionnel et quâil ne doit plus lui envoyer du trafic. Ainsi,il considĂšre que toutes les routes BGP reçues du routeur A par cettesession sont invalides et dĂ©clenche un calcul de meilleure route BGPpour dĂ©terminer les routes de secours Ă utiliser.
Le principe des fonctions de haute disponibilitĂ© et de Graceful Restart est de considĂ©rer quâune panne de la session BGP ne signi-fie pas obligatoirement que le routeur nâest plus capable dâache-miner correctement les paquets, mais que le problĂšme peut ĂȘtrelimitĂ© au fonctionnement de BGP, par exemple dans le cas dâunbug du processus BGP.
Comme pour les extensions GR des autres protocoles de rou-tage, le routeur redĂ©marrant son processus BGP est appelĂ© lerouteur restarting et le routeur nâayant pas subi dâincidents mais
coopĂ©rant avec le restarting est appelĂ© receiving . Sachant quâunrouteur dispose de plusieurs sessions BGP, il y a alors plusieursrouteurs receiving impliquĂ©s.
La premiĂšre Ă©tape du BGP Graceful Restart commence avant lapanne lors du premier Ă©tablissement de la session BGP. Les deuxrouteurs nĂ©gocient ce nouveau comportement en sâĂ©changeantune capacitĂ© Graceful Restart selon la procĂ©dure dĂ©crite dans laRFC 3392 [20].
Cette capacitĂ© spĂ©cifie (figure 14) :â le support de BGP GR en mode helper ;â lâĂ©ventuelle capacitĂ© du routeur Ă continuer dâacheminer cor-
rectement les paquets pendant lâinterruption du plan de commandeet le redĂ©marrage de la session BGP pour les familles dâadresses
Le schéma de la figure 12 décrit la procédure GR pour un routeurrestarting IS-IS GR (appelé R1) et son voisin receiving (R2).
1. Le routeur R1 redémarre.2. R1 envoie un message de type Hello (IIH) contenant le TLV 211
avec le bit RR positionné et le bit RA à 0, indiquant que R1 a redé-marré.
3. R2 reçoit le message Hello de R1.4. R2 étant un voisin helper ou receiving , il répond par un message
de type Hello contenant le TLV 211 avec le bit RR à 0 et le bit RApositionné ; R2 acquitte ainsi le Hello reçu de R1 et sa demande deGR.
5. R1 reçoit le Hello de R2.6. Si lâinterface est de type point-Ă -point, ou si R2 a une prioritĂ©
plus forte parmi tous les routeurs dont les paquets Hello (IIH)contiennent le TLV restart Ă lâexception de R1, R2 envoie un jeu
complet de paquets CSNP (Complete Sequence Number PDU , listantle contenu locale de la LSDB). Lorsque le CSNP et le message Hello prĂ©cĂ©dent sont reçus, le timer dâadjacence est annulĂ©. Si le dĂ©lai demaintien dâadjacence expire, R1 renvoie le message Hello avec le bitRR positionnĂ©.
Lorsque lâun des voisins ne supporte par les extensions Grace- ful Restart (figure 13) :
1. Le routeur R1 redémarre.2. R1 envoie un message de type Hello (IIH) contenant le TLV 211
avec le bit RR positionné et le bit RA à 0, indiquant que R1 a redé-marré.
3. R2 reçoit le message Hello de R1.
4. R2 Ă©tant un voisin non-helper , il rĂ©pond par un message de typeHello ne contenant pas de TLV 211 ; lâadjacence est supprimĂ©e.5. R1 reçoit le Hello de R2 sans TLV 211, il rĂ©initialise lâadjacence
avec R2. R1 envoie un message de type Hello avec le TLV 211 maisavec les bits RR et RA Ă 0, pour lancer une procĂ©dure dâĂ©tablisse-ment dâadjacence classique (6).
Figure 12 â ProcĂ©dure IS-IS Graceful Restart entre un routeur
restarting et un voisin receiving
Routeur R1Restarting
Routeur R2Receiving
DĂ©marrage du
timer Hello
IS-IS Hello (IIH)
IS-IS Hello (IIH)RR=1, RA=0
RR=0, RA=1
LSP
CSNP
1 2
34
6
5
Figure 13 â ProcĂ©dure IS-IS Graceful Restart entre un routeurredĂ©marrant GR-restarting et un voisin non-receiving
Notons quâun autre mĂ©canisme existe pour permettre Ă unrouteur dâinformer ses voisins que son processus OSPFredĂ©marre : Restart Signaling [23]. Il sâagit dâun mĂ©canismepropriĂ©taire dâun Ă©quipementier qui a Ă©tĂ© implĂ©mentĂ© avantles extensions GR.
Routeur R1Restarting
Routeur R2Non-GR
DĂ©marrage dutimer Hello
IS-IS Hello (IIH)
IS-IS Hello (IIH)
IS-IS Hello (IIH)
RR=1, RA=0
Pas de TLV 211
1 2
34
6
5
TLV211, RR=0, RA=0
http://-/?-http://-/?-http://-/?-http://-/?-http://-/?-http://-/?-http://-/?-http://-/?-
8/19/2019 Te7585 Haute Disponibilite Dans Les Reseaux IP
10/15
HAUTE DISPONIBILITĂ DANS LES RĂSEAUX IP
____________________________________________________________________________________________
Toute reproduction sans autorisation du Centre français dâexploitation du droit de copieest strictement interdite. â © Editions T.I.TE 7 585 â 10
spécifiées dans les champs Address Family Identifier et Subsequent Address Family Identifier (par exemple, IPv4, IPv6, VPN...) ;
â la durĂ©e maximale, appelĂ©e Restart Time , que le routeur hel- ping accorde au routeur restarting pour rĂ©tablir la session BGP.
La procĂ©dure de Graceful Restart Ă©choue et est interrompue si lerouteur restarting ne rĂ©Ă©tablit pas ses sessions BGP Ă temps (câest-Ă -dire avant lâexpiration du dĂ©lai Restart Timer ) ou sâil indiquequâil nâa pu continuer Ă acheminer les paquets. Dans ce cas, le rou-teur receiving supprime les routes marquĂ©es stale et considĂšre lasession BGP comme close.
3.4.3 Protocoles de distribution de labels
Deux protocoles permettent de distribuer les labels dans lesréseaux MPLS [29] :
â le protocole LDP (Label Distribution Protocol , dĂ©fini dans [27]et dĂ©crit dans [29] ;
â le protocole RSVP-TE (ReSerVation Protocol-Traffic Enginee-ring, dĂ©fini dans [31] et dĂ©crit dans [10]).
Ces protocoles sont utilisés lorsque les paquets sont labellisés,que ce soit dans un contexte de trafic Internet avec une commuta-
tion MPLS ou dans des environnements de type VPN MPLS oĂč lesrĂ©seaux privĂ©s virtuels sont construits grĂące au MPLS.
3.4.3.1 GR pour le protocole LDP
Plusieurs modes de distribution de labels par LDP sont normali-sés. Les extensions GR pour le protocole LDP, appelées aussi Fault Tolerant (FT) sont définies dans [30] [35] pour la méthode down- stream unsolicited (la plus répandue).
Comme pour lâIGP et le (MP-)BGP, les extensions GR pour LDPnĂ©cessitent des modifications Ă la fois sur le routeur qui redĂ©marreet sur ses voisins qui supportent le mode helper . Lâextensioncomprend un nouveau TLV optionnel spĂ©cifique, appelĂ© TLV desession tolĂ©rante aux fautes (FT). Ce TLV est Ă©changĂ© au moment
de lâĂ©tablissement de la session LDP, dans les messages Hello , et aĂ©tĂ© conçu de maniĂšre Ă ĂȘtre compatible avec les messages Hello de LSR ne supportant pas les extensions GR.
Comme indiquĂ© sur la figure 16, le TLV spĂ©cifie deux timers :â Reconnect Timeout est la durĂ©e en millisecondes pendant
laquelle le routeur expĂ©diteur du TLV souhaite que le routeurreceiving attende aprĂšs la dĂ©tection de la panne LDP. Pendantcette pĂ©riode de temps, le destinataire maintient les Ă©tats MPLSdans sa table de commutation (forwarding ) pour les LSP prĂ©Ă©tablisqui traversent un lien entre lâexpĂ©diteur et lui-mĂȘme. Ce timer doitĂȘtre suffisamment grand pour permettre le redĂ©marrage du plande contrĂŽle de lâexpĂ©diteur et surtout le redĂ©marrage des Ă©changesLDP avec ses voisins, soit 120 s par dĂ©faut. Si ce timer a pour
Figure 14 â CapacitĂ© Graceful Restart de BGP
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Capability Code (64) Capability Length
Restart Flags
Address Family Identifier (16 bits)
Subsequent Address Family Identifier
Subsequent Address Family Identifier
Flags for Address Family
Flags for Address Family
âŠ
⊠âŠ
Address Family Identifier (16 bits)
Restart Time (in seconds)
AprĂšs cette premiĂšre Ă©tape (Ă©tape 1) dâĂ©change de la capacitĂ©Graceful restart , la session BGP se dĂ©roule normalement (Ă©tape 2) etchaque routeur peut sâĂ©changer des messages de routage Updates(figure 15).
En cas de panne du routeur restarting (Ă©tape 3), le routeur receiving conserve et continue Ă utiliser les routes apprises par cette sessionBGP (Ă©tape 4). Il marque nĂ©anmoins ces routes comme stale afin depouvoir les supprimer Ă la fin de la procĂ©dure de Graceful Restart .Lors du rĂ©tablissement de la session BGP (Ă©tape 5), le routeur restar- ting doit annoncer son Ă©tat dans le message BGP Open et plus prĂ©ci-sĂ©ment dans la capacitĂ© Graceful Restart . Il indique dans le champRestart Flag quâil a redĂ©marrĂ© et dans le champ Flags for Address Family sâil a Ă©tĂ© capable de continuer Ă commuter les paquets IP/ MPLS comme prĂ©vu.
Suite Ă cette ouverture de session BGP, le routeur receiving annoncetoutes ses routes BGP (Ă©tape 6) puis envoie un message indiquant
quâil a fini de transmettre la table de routage. Ce message appelĂ© End of RIB est constituĂ© dâun message BGP de taille minimale sâil sâagitdâune session BGP standard, ou constituĂ© dâun message MP-BGP necontenant que lâattribut MP_UNREACH_NLRI sans aucune route sâilsâagit dâune session BGP multiprotocole.
Ă la rĂ©ception de ce marqueur de fin de RIB (Ă©tape 7) sur toutesses sessions BGP, le routeur restarting sait quâil a reçu lâintĂ©gralitĂ©des routes BGP. Il peut donc reprendre le comportement normal deBGP et en particulier calculer les nouvelles meilleures routes, mettreĂ jour sa table de commutation (FIB) avec des informations Ă jour, etannoncer ses meilleures routes aux routeurs BGP avec lesquels il aune session. Cela permet aux routeurs receiving de mettre Ă jourleurs routes. Suite Ă lâenvoi de lâensemble de sa table de routage, il
envoie Ă©galement le marqueur de fin de RIB. Ă sa rĂ©ception, lesrouteurs receiving suppriment lâensemble des routes stalled restantes(câest-Ă -dire, celles qui nâont pas Ă©tĂ© rĂ©annoncĂ©es aprĂšs le redĂ©mar-rage) puis recalculent leurs meilleurs routes. Cela clĂŽt la procĂ©dure deGraceful Restart et dorĂ©navant la session BGP continue de maniĂšreconventionnelle.
En rĂ©sumĂ©, les routeurs receiving accordent un peu de tempsau routeur restarting pour redĂ©marrer ses sessions BGP et confir-mer quâil a continuĂ© Ă acheminer les paquets IP/MPLS commeprĂ©vu. Puis les routeurs receiving rĂ©annoncent lâensemble deleurs routes BGP afin que le routeur restarting puisse les rĂ©ap-prendre. Pendant ce temps, le routeur restarting achemine toujoursles paquets en utilisant lâancienne table de commutation (FIB)que son plan de transfert a conservĂ©. AprĂšs rĂ©ception de toutesles routes de toutes les sessions, le routeur restarting recalcule
ses meilleures routes BGP, met Ă jour sa table de commutationet annonce ses meilleures routes aux routeurs receiving .
8/19/2019 Te7585 Haute Disponibilite Dans Les Reseaux IP
11/15
Toute reproduction sans autorisation du Centre français dâexploitation du droit de copieest strictement interdite. â © Editions T.I. TE 7 585 â 11
____________________________________________________________________________________________ HAUTE DISPONIBILITĂ DANS LES RĂSEAUX IP
valeur 0, lâĂ©metteur des TLV ne prĂ©servera pas ses Ă©tats decommutation (forwarding ), mĂȘme sâil supporte les procĂ©dures ;
â Recovery Time est la durĂ©e en millisecondes pendant laquellele LSR qui redĂ©marre souhaite prĂ©server sa LFIB. Ce timer dĂ©marreau moment oĂč lâĂ©metteur envoie son message dâinitialisationcontenant le TLV LDP FT. Si ce timer est Ă 0, cela indique que laLFIB nâest pas maintenue pendant le redĂ©marrage.
Figure 15 â BGP Graceful Restart
Figure 16 â Description du TLV pour les sessions LDP FT
Restarting
RouteurRouteur
Receiving
Open - GR (IPv4)
Open - GR (IPv4)
Updates ; keepalives
Open - GR (restart , commutation IPv4 OK)
Open - GR (IPv4)
Updates
Updates
End Of RIB
End of RIB
Plan de contrÎle non OK:- Il est ré-initialisé
Plan de transfert OK:- FIB OK- commutation OK
Calcul de routes BGP
Envoi de la table de routage
Redémarrage de la sessionmais conservation des routes
Envoi de la table de routage
Calcul de routes BGP
11
22
3
5
7
4
6
7
0
01
0
1 2 3 4 5 6 7 0
1
1 2 3 4 5 6 7 0
2
1 2 3 4 5 6 7 0
3
1 2 3 4 5 6 7
TLV session FT (0x0503) Longueur (=12)
Flags FT Réservé
FT Reconnect Timeout (en millisecondes)
Recovery Time (en millisecondes)
Les étapes de la procédure GR (figure 17) sont les suivantes :
1. Le routeur LSR R1 indique quâil supporte les extensions GR pourLDP en mode capable en envoyant un message dâinitialisation detype Hello contenant le TLV Fault Tolerant . Dans ce paquet, le champL (Learn from Network ), comme indiquĂ© sur la figure 18 est posi-tionnĂ© Ă 1 pour indiquer que les procĂ©dures GR LDP sont en cours.
2. RĂ©ciproquement, le routeur LSR R2 envoie ce mĂȘme messagedâinitialisation.
3. Les LSR Ă©changent des informations de labels.
4. Lorsquâun basculement de plan de contrĂŽle se produit, le pro-cessus LDP du routeur qui redĂ©marre Ă©tablit une nouvelle sessionTCP avec ses voisins. Le routeur GR-capable dĂ©marre un timer
interne, délai pendant lequel il marque ses entrées MPLS dans laLFIB comme gelées ou stale . Le routeur est alors en mode de redé-marrage (restart mode ), le temps que la procédure GR finisse.
5. AprĂšs dĂ©tection de la panne, le voisin supportant LDP-GR initia-lise un timer qui indique la durĂ©e pendant laquelle ce voisin LSRconserve ses associations FEC-labels pour les labels stale . Si leLSR qui redĂ©marre nâa pas rĂ©-Ă©tablit de session LDP avant la fin de cetimer , alors les associations stale sont supprimĂ©es.
6. Le LSR qui redĂ©marre envoie un message dâinitialisation, danslequel le timer Recovery Time indique le temps pendant lequel laLFIB sera maintenue.
7. La session LDP est dĂ©sormais Ă©tablie. Si la session LDP est rĂ©-Ă©tablie avant que le timer Reconnect expire, ce timer est arrĂȘtĂ© et letimer Recovery dĂ©marre.
Une fois la session Ă©tablie, les routeurs Ă©changent Ă nouveau leursmessages contenant les prĂ©fixes et les labels associĂ©s. Les routeursLDP utilisent un autre timer , lancĂ© lorsque le message dâinitialisationest envoyĂ©. Lorsquâil expire, LDP supprime toutes les associationsmarquĂ©es comme stale dans la base de labels (LIB), ce qui dĂ©clenchela suppression de tous les Ă©tats de commutation (forwarding ) asso-ciĂ©s dans la LFIB.
http://-/?-http://-/?-http://-/?-http://-/?-http://-/?-
8/19/2019 Te7585 Haute Disponibilite Dans Les Reseaux IP
12/15
HAUTE DISPONIBILITĂ DANS LES RĂSEAUX IP
____________________________________________________________________________________________
Toute reproduction sans autorisation du Centre français dâexploitation du droit de copieest strictement interdite. â © Editions T.I.TE 7 585 â 12
3.4.3.2 GR pour le protocole RSVP-TE
Les extensions Graceful Restart pour le RSVP-TE sont docu-mentées dans [32][36][37].
Deux timers sont utilisés durant la procédure RSVP GR :
â Restart timer est le temps total nĂ©cessaire au routeur pourredĂ©marrer RSVP-TE et rĂ©-envoyer les messages de type Hello avec ses voisins ;
â Recovery Time est la pĂ©riode durant laquelle les routeurshelper et le routeur qui subit la panne resynchronisent leurs Ă©tats
(informations RSVP-TE et LFIB) aprÚs la reprise des échangesHello . Lorsque le LSR qui redémarre est incapable de maintenir saLFIB, il envoie un recoveryTime de 0.
3.5 Protocoles multicast
3.5.1 NSF pour le multicast
Ă lâimage des protocoles unicast, et pour Ă©viter la perte de traficlors dâune panne de plan de contrĂŽle, le routeur IP doit savoirmaintenir sa FIB multicast lors du basculement vers la carte secon-daire. De cette façon, les adjacences multicast de niveau 3 sontmaintenues et le routeur continue Ă commuter les paquets, en uti-lisant lâancienne FIB. AprĂšs la convergence des protocoles multi-cast, les informations apprises par la nouvelle carte de commandesont recoupĂ©es avec les informations existantes. Les entrĂ©esgelĂ©es sont purgĂ©es, ce qui permet une transition en mode NSF.
3.5.2 Exemple avec le protocole PIM
Le protocole PIM-SM (Protocol Independent Multicast â Sparse Mode [33]) ne possĂšde pas dâextensions spĂ©cifiques de type GRcar il intĂšgre de façon native des fonctions de rĂ©cupĂ©ration dâĂ©tats.Ainsi, le routeur PIM-SM utilise un mĂ©canisme appelĂ© Generation identifier pour indiquer les redĂ©marrages. Ces identifiants sontinclus par dĂ©faut dans les messages Hello et un identifiant initialest crĂ©Ă© par chaque voisin PIM afin dâĂ©changer les capacitĂ©s du
routeur. Lorsquâun des voisins PIM redĂ©marre, il envoie un nouvelidentifiant Ă ses voisins. Ceux qui supportent le GR lâaident Ă rafraĂźchir ses Ă©tats en envoyant des mises Ă jour multicast aunĆud qui redĂ©marre.
4. Opérationsde maintenancedans les réseaux IP
Des opĂ©rations de maintenance sont rĂ©guliĂšrement rĂ©alisĂ©es parles opĂ©rateurs de rĂ©seaux sur les Ă©quipements de transmission etde commutation. Ces opĂ©rations ont principalement pour but demettre Ă jour la version logicielle dâun routeur afin de corriger desfailles de sĂ©curitĂ© ou de disposer de nouvelles fonctionnalitĂ©s, et/ ou dâaugmenter la capacitĂ© dâun lien/routeur afin de faire face Ă lâaugmentation du trafic.
Par rapport aux pannes, ces événements sont planifiés. Il estdonc possible de les traiter différemment en utilisant cetteconnaissance du futur.
4.1 Maintenances logiciellesavec continuité de service
De gros efforts sont faits de la part des Ă©quipementiers pourassurer la continuitĂ© de service durant les maintenanceslogicielles. Les approches de mises Ă jour logicielles sans interrup-tion de service sâappuient Ă la fois sur la redondance des cartes decommande dans lâĂ©quipement et sur ses capacitĂ©s de routage/ transfert de paquets sans interruption.
Figure 17 â ProcĂ©dures Graceful Restart pour LDP
Figure 18 â LDP et le TLV Fault Tolerant
La capacitĂ© Restart_Cap est envoyĂ©e dans les messages RSVP detype Hello (requĂȘte et acquittement) pour annoncer lâaptitude dâunrouteur Ă supporter les extensions GR RSVP en mode restarter . Lerouteur voisin envoie quant Ă lui un objet de type RecoverLabel aunĆud qui redĂ©marre pour reconstruire ses Ă©tats de commutation(forwarding ), Ă savoir essentiellement lâancien label annoncĂ© par lerouteur en cours de redĂ©marrage avant quâil ne tombe.
Routeur R2Receiving
Routeur R1Restarting
Hello LDP, Ă©tablissement
Hello LDP, Ă©tablissement
de la connexion TCP
de la connexion TCP
Initialisation LDP
Initialisation LDP
TLV FT, L = 1
TLV FT, L = 1
TLV FT, L = 1
TLV FT, L = 1
Initialisation LDP
Initialisation LDP
Ăchange des labels
Ăchange des labels
Panne du plande commande
« Gel »des entréesde la LFIB
AssociationsFEC-labels gelée(stale )
DĂ©marrage du
timer Recovery
1
2
2
5
7
3
4
6
0
R
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Reservé S A C L
R: Champ FT Reconnect
S: Champ Save State A: indique que tous les labels sont protégés
C: Champ Check-Pointing
L: Champ Learn From Network
par le FT( All-Label Protection Required )
Exemple : si il est nĂ©cessaire de dĂ©sactiver un lien ou un routeur, ilfaudrait idĂ©alement que le routage sâadapte avant lâĂ©vĂ©nement de
maniÚre à ce que le trafic évite les éléments du réseau qui ne serontplus fonctionnels.
8/19/2019 Te7585 Haute Disponibilite Dans Les Reseaux IP
13/15
Toute reproduction sans autorisation du Centre français dâexploitation du droit de copieest strictement interdite. â © Editions T.I. TE 7 585 â 13
____________________________________________________________________________________________ HAUTE DISPONIBILITĂ DANS LES RĂSEAUX IP
Le principe gĂ©nĂ©rique (figure 19) est de mettre Ă jour la carte decommande secondaire avec la version dĂ©sirĂ©e Y, dâattendre sasynchronisation avec la carte primaire (Ă savoir processus protoco-laires, de management, tous les Ă©tats systĂšmes nĂ©cessaires etpoints de reprise) puis de basculer sans perte de paquets (grĂące Ă NSR ou NSF-GR) vers la carte secondaire qui devient donc active.Il ne reste alors plus quâĂ mettre Ă jour la carte de commande
restĂ©e en version X, le tout devant se faire sans incidence sur lescartes dâinterface du plan de transfert. En gĂ©nĂ©ral, lorsque lesystĂšme tournant sous X charge la version Y, il effectue toute unebatterie de vĂ©rifications pour valider ou non la compatibilitĂ© desversions.
Cela peut paraĂźtre simple. Or dans la rĂ©alitĂ©, il est trĂšs difficile desynchroniser des processus qui ne tournent pas avec des versionssimilaires, en fonction des modifications incorporĂ©es dans le codeet de leur compatibilitĂ©. On distingue de plus les mises Ă jour quinâont pas dâincidence sur les processus principaux (appelĂ©es misesĂ jour mineures) et les mises Ă jour qui impliquent une version dif-fĂ©rente des processus principaux voire du noyau (appelĂ©es mises Ă jour majeures, qui peuvent nĂ©cessiter une mise Ă jour du firmware
par exemple), dont lâinstallation perturbe souvent le service surune durĂ©e plus longue.
4.2 Maintenances matériellesavec interruption de service
Certaines opĂ©rations de maintenance ne permettent pas auxrouteurs de continuer Ă acheminer des paquets. Il peut sâagir parexemple du remplacement dâune carte dâinterface, dâune fibre oudâun Ă©quipement de transmission, dâun Ă©lĂ©ment interne au routeurtel que la matrice de commutation ou simplement lâarrĂȘt durouteur. Dans ce cas, les solutions dĂ©crites dans le paragraphe 4.1
ne peuvent sâappliquer et il est nĂ©cessaire de rerouter les flux afindâĂ©viter le routeur en maintenance.
On peut se contenter de rĂ©aliser la maintenance sans prĂ©cau-tions particuliĂšres et laisser les protocoles de routage contournerle routeur comme lors dâune panne imprĂ©vue. Dans ce cas, lâinter-ruption de service subie par le client sera Ă©gale au MTTR (cf. § 2).
Afin de rĂ©duire lâincidence pour le client, il faut provoquer unreroutage des paquets dans le rĂ©seau avant lâinterruption duservice. La solution Ă appliquer varie en fonction du protocole deroutage, mais le principe est dâaugmenter la mĂ©trique (câest-Ă -direle coĂ»t) du chemin nominal afin que le chemin de secours soit prĂ©-fĂ©rĂ©. Celui-ci sera donc utilisĂ© Ă la place du chemin nominal quitraversait lâĂ©quipement Ă arrĂȘter.
Pour les protocoles de routage Ă Ă©tat de lien, il suffit dâaug-menter la mĂ©trique du ou des liens ne devant plus ĂȘtre utilisĂ©s.Cette information de topologie est ensuite naturellement propagĂ©e
dans tous les rĂ©seaux par le protocole de routage, puis utilisĂ©epour calculer la nouvelle route. Afin dâavoir une incidence totale-ment nulle, il convient Ă©galement dâutiliser une technique Ă©vitantles boucles de routages transitoires [18] lors de la convergencetelle que dĂ©crites dans [16] ou [17].
Pour le protocole BGP, utilisant un algorithme Ă vecteur dechemin, il nâest pas possible de diffuser une information topolo-gique, ni Ă lâintĂ©rieur du rĂ©seau (AS) en iBGP et encore moins Ă lâextĂ©rieur du rĂ©seau en eBGP. De plus, lâutilisation trĂšs communedâĂ©quipements de type rĂ©flecteur de route peut cacher la route desecours que les routeurs doivent utiliser. En iBGP, on peut dĂ©prio-riser le chemin en utilisant lâattribut local_pref mais en eBGP, il nâya pas actuellement de solution standardisĂ©e. De mĂȘme que pour
les IGP, il convient dâutiliser en complĂ©ment une technique pourĂ©viter les boucles de routages temporaires. Le plus simple estdâutiliser des tunnels entre les routeurs BGP de bordure, par exem-ple des tunnels MPLS.
5. Conclusion
Les nouveaux services déployés sur les réseaux IP tels que lavoix, les jeux en ligne et la télévision imposent des exigences dedisponibilité de plus en plus fortes aux réseaux IP.
Une premiĂšre mĂ©thode pour amĂ©liorer cette disponibilitĂ© est lereroutage. Elle consiste, suite Ă une panne, a rĂ©tablir rapidementles communications en contournant lâĂ©lĂ©ment en panne. Cela estrĂ©alisĂ© dynamiquement par les protocoles de routage et rĂ©cem-ment des efforts importants ont Ă©tĂ© rĂ©alisĂ©s sur les diffĂ©rentesĂ©tapes de la convergence afin dâaccĂ©lĂ©rer le processus et de dimi-nuer les pertes de paquets.
Une seconde mĂ©thode consiste Ă utiliser des fonctions de typehaute disponibilitĂ© « HA » qui permettent de masquer les pannesnâaffectant que le plan de commande et non le plan de transfert.Cela permet de sĂ©curiser le plan de commande, de redĂ©marrer lesprocessus de routage tout en maintenant la commutation despaquets. Cela Ă©vite Ă©galement un reroutage dans le rĂ©seau et doncles Ă©changes protocolaires associĂ©s et les impacts sur les autresrouteurs du rĂ©seaux. Deux procĂ©dĂ©s HA sont actuellement enconcurrence le Non Stop Routing et Non Stop Forwarding/Grace- ful Restart . Le premier est un mĂ©canisme interne au routeur alorsque le second nĂ©cessite des extensions de tous les protocoles deroutage et donc des dĂ©pendances sur les capacitĂ©s des routeursvoisins. Cependant, les mĂ©canismes HA comportent certainsdĂ©sagrĂ©ments tels que des cas de boucles de routage ou de puitsde trafic en cas de deux pannes simultanĂ©es puisque des informa-tions de routage sont maintenues mais plus mises Ă jour pendantquelque temps. Des boucles sont Ă©galement susceptibles de surve-nir avec BGP-GR, dans des topologies oĂč seule une partie des voi-sins dâun routeur supporte les extensions Graceful Restart . En
effet, certaines sessions BGP peuvent rester Ă©tablies ou mainte-nues alors que dâautres non.
Dâautres inconvĂ©nients sont soulevĂ©s, concernant notamment lasupervision de la cohĂ©rence globale du routage qui devient plusdifficile Ă rĂ©aliser. Ce nâest pas non plus forcĂ©ment compatibleavec les solutions de fast-reroute . Enfin, le Non Stop Routing aussibien que le Graceful Restart sont des solutions encore jeunes, peudĂ©ployĂ©es et sur lesquelles le recul est faible. Les interactions avecla convergence et dâautres mĂ©canismes de dĂ©tection de pannesdoivent donc ĂȘtre correctement Ă©tudiĂ©es avant un dĂ©ploiementdans les rĂ©seaux opĂ©rationnels afin dâĂ©valuer, pour chaque cas depanne, les mĂ©canismes les plus pertinents qui garantiront une dis-ponibilitĂ© maximale.
Figure 19 â ProcĂ©dure typique pour la mise Ă jour logiciellesans interruption de service
Carte decommande
activeversion X
Carte decommandesecondaireversion YPlan de
commande
Plan detransfert Cartes dâinterfaces
Basculement
http://-/?-http://-/?-
8/19/2019 Te7585 Haute Disponibilite Dans Les Reseaux IP
14/15
HAUTE DISPONIBILITĂ DANS LES RĂSEAUX IP
____________________________________________________________________________________________
Toute reproduction sans autorisation du Centre français dâexploitation du droit de copieest strictement interdite. â © Editions T.I.TE 7 585 â 14
BGP Graceful Restart
BFD
Disponibilité
FT
GR
Graceful Restart
Hello
IGP
IS-IS Graceful Restart
LDP Graceful Restart
Maintenance
MTTF
MTTR
Non Stop Forwarding
Non Stop Routing
OSPF Graceful Restart
PannePanne
Reroutage
RSVP Graceful Restart
AS
en
BFD
en
BGP
en
COS
en
EGP
en
FEC
en
FIB
en
GR
en
HA
en
IETF
en
IGP
en
IS-IS
enISSU
en
LDP
en
LER
en
LFIB
en
LSA
8/19/2019 Te7585 Haute Disponibilite Dans Les Reseaux IP
15/15
Toute reproduction sans autorisation du Centre français dâexploitation du droit de copieest strictement interdite. â © Editions T.I. TE 7 585 â 15
____________________________________________________________________________________________ HAUTE DISPONIBILITĂ DANS LES RĂSEAUX IP
en
LSP
en
LSR
en
MP-BGP
en
MPLS
en
MTBF
en
MTTF
en
MTTR
en
NSF
en
NSR
en
OSPF
en
PE
en
QOS
en
RIB
en
RIP
en
RP
en
TLV
en
VPN
en
VRF
en