Download ppt - Niezawodność systemów i sieci informatycznych

Niezawodność systemów i sieci informatycznych

Plan wykładu

• Wprowadzenie• Niezawodność sieci komputerowych• Bezpieczeństwo danych• Sieci SAN• Bezpieczne zasilanie• Inne aspekty niezawodności• Podsumowanie

Plan wykładu


Niezawodność

• Zagadnienie niezawodności systemów i sieci komputerowych wiążą się z potrzebą zapewnienia usług dyspozycyjności oraz integralności

• Dyspozycyjność (ang. availability) - usługa zapewnia uprawnionym osobom możliwość ciągłego korzystania z zasobów systemu w dowolnym czasie

• Integralność (ang. integrity)- usługa zapewnia, że dane zawarte w systemie lub przesyłane przez sieć nie będą zmienione lub przekłamane

Zagrożenia dyspozycyjności w systemach i sieciach

• Zagrożenia pasywne związane z kataklizmami oraz awariami niezależnymi od działań człowieka (np. powódź, trzęsienie ziemi, huragan, awaria zasilania, awaria sprzętu)

• Zagrożenia aktywne powodowane przez świadome działanie człowieka mające na celu zniszczenie lub spowodowanie awarii (np. wirusy, terroryzm, wandalizm, inżynieria społeczna)

• Ataki typu DoS (ang. Denial of Service) i DDoS (ang. Distributed DOS)

Plan wykładu


Powody awarii kabli optycznych

[Dan Crawford. "Fiber optic cable dig-ups - causes and cures". Network Reliability and Interoperability Council website. 1992. http://www.nric.org /pubs/nric1/sections/abody.pdf.]

0 20 40 60 80 100

Wykopy

Samochody

Błędy instalatorów

Linie zasilające

Gryzonie

Sabotaż

Pożar

Broń palna

Powódź

Roboty ziemne

Upadające drzewa

Inne

Liczba awarii

http://www.nric.org/pubs/nric1/sections/abody.pdf



Mechanizmy obrony sieci przed awariami

• Budowanie sieci z elementów odpornych na awarie, mających jak najmniejsze prawdopodobieństwo uszkodzenia, czyli parametry związane z niezawodnością, np. MTBF

• Jednak, ponieważ nie ma możliwości całkowitego wyeliminowania prawdopodobieństwa awarii, należy w procesie projektowania sieci uwzględnić także kryteria związane z przeżywalnością (ang. survivability) sieci

• Podstawowym mechanizmem w celu zapewnienia niezawodności jest redundancja (nadmiarowość) elementów sieci LAN

Podstawowe pojęcia

• Mianem przeżywalnych (ang. survivable) sieci komputerowych określamy sieci, które są odpowiednio przygotowane (topologia sieci, przepływy, reguły sterowania przepływem) na wystąpienie uszkodzenia i umożliwiają pracę sieci pomimo awarii

• Mianem samonaprawialnych (ang. self-healing) sieci komputerowych określamy sieci, które posiadają zdolność do samodzielnego wykrycia uszkodzenia i przekonfigurowania własnych zasobów w ten sposób, aby uszkodzenie w jak najmniejszym stopniu wpłynęło na jakość działania sieci

Koncepcje reakcji na awarię w sieciach przeżywalnych

• Protekcja (ang. protection). Stosowana zazwyczaj w sposób rozproszony, bez centralnego sterowania. Zakłada, że zapasowe zasoby sieci przygotowane na wypadek awarii są przydzielane przed wystąpieniem awarii. W momencie awarii następuje tylko przełączenie ruchu sieciowego na wcześniej przygotowane zapasowe zasoby, metoda działa bardzo szybko

• Odtworzenie (ang. restoration). Stosowany w sposób rozproszony lub scentralizowany. Cechuje się brakiem wstępnie rezerwowanych zasobów zapasowych. Po wystąpieniu awarii dynamicznie próbuje odzyskać łączność w sieci wykorzystując wolne zasoby sieci. Czas działania jest dość duży, ale brak wstępnej rezerwacji zapewnia elastyczność

Rodzaje redundacji

• Sprzętowa – duplikowane są urządzenia sieciowe, serwery, zasilanie itd.

• Połączeń – dodawane są nadmiarowe łącza w sieci w celu zapewnienia alternatywnych tras przesyłania danych

• Programowa – dodawane są mechanizmy wspomagania procesu powrotu sieci do normalnej pracy po awarii

Redundancja sprzętowa

Należy w sieci instalować nadmiarowe elementy zabezpieczające najważniejsze funkcje sieci:

• Zewnętrzne nośniki informacji (archiwizacja, streamery, sieci SAN)

• Dyski w serwerze (mirroring, duplexing, macierze RAID)• Serwery (klastry serwerów)• Przełączniki • Routery• Zasilacze

Redundancja połączeń

• Połączenia redundancyjne to dodatkowe połączenia fizyczne względem połączeń podstawowych

• Oznacza to, że w sieci istnieją co najmniej dwie trasy między parą węzłów

• Gorący backup (ang. Hot Backup) - mechanizm działa w warstwie 2 i do uaktywnienia zapasowych połączeń używa protokołu STP (ang. Spanning Tree Protocol)

• Równoległość (paralelizm)- mechanizm używa protokołów routingu działających w warstwie 3 (np. RIP, OSPF)

Redundancja połączeń cd.d o p rz y łą c z y

u ż y tk o w n ik ó wd o p rz y łą c z y

u ż y tk o w n ik ó wd o p rz y łą c z y

u ż y tk o w n ik ó wo k a b lo w a n ie

p o z io m e

d o p rz y łą c z yu ż y tk o w n ik ó w

P rz e łą c z n ik iw a r s tw y 2

in s ta lo w a n ew K P D

K ond ygna cy jn yP unk t

D ystrybu cy jn yK PD

P rz e łą c z n ik id y s try b u c y jn e

w a rs tw y 2in s ta lo w a n e

w B P D

Budynkow yP unk t

D ystrybu cy jn yB PD

P o łą c z e n ia p o d s ta w o w ei re d u n d a n c y jn e b lo k u

b u d y n k o w e g o zrd z e n ie m s ie c iP k 1 P k 2R k 1 R k 2

B lokbudynk ow y

P I P I I P I I I P IV

R I R I I R I I I R IV

P A P B

R BR A

Samonaprawialne pierścienie

• Metoda polega na utworzeniu sieci o topologii pierścienia składającej się ze specjalnie skonstruowanych urządzeń (przełączników)

• Zazwyczaj istnieją dwa pierścienie łączące wszystkie węzły, każdy z tych pierścieni transportuje dane w przeciwnym kierunku

• W razie awarii węzła lub odcinka pierścienia, przełączniki przekierowują przepływ z uszkodzonego pierścienia na drugi pierścień

• Odtworzenie dla tej metody jest bardzo szybkie, główna wada to narzucona topologia sieci i ograniczona skalowalność

• Przykład: technologia FDDI

FDDI – przykład sieci

s ta c ja ty p u D A CS 1

s ta c ja ty p u D A SS 2



s ta c ja ty p u S A CS 5

s ta c ja ty p u S A CS 6

s ta c ja S A SS 11 s ta c ja S A S

S 1 2

s ta c ja S A SS 7

s ta c ja S A SS 8

s ta c ja S A SS 9

s ta c ja S A SS 1 0

Niezawodność FDDI

• Optyczny układ obejścia (ang. optical bypass)• Układ dodatkowego łącza (ang. Dual Homing)

p ę tlaF D D I

o p ty c z n y o k ła d o b e jś c io w yu a k ty w n ia s ię w m o m e n c ie a w a ri i s ta c ji lu b o d łą c z e n ia

p o łąc z e n iep o d sta w o w e

(p rim a ry lin k a )

p o łąc z e n ied o d a tk o w e

(b a ck u p lin k a )

w ę z e ł o s z c z e g ó ln y mz n a c z e n iu d la s ie c i

Niezawodność FDDI cd.

A B

M A C

AB

M A C

AB

MA

C

AB

MA

C

A B

M A C

AB

M A C

AB

MA

C

AB

MA

C

s ta c ja 1(u sz k o d z o n a )

s ta c ja 2s ta c ja 2 s ta c ja 4s ta c ja 4

s ta c ja 3 s ta c ja 3

s ta c ja 1

o b e jś c io w y p rz e łą c z n iko p ty c z n y

Niezawodność FDDI cd.

A B

M A C

AB

M A C

AB

MA

C

AB

MA

C

s ta c ja 2s ta c ja 4

s ta c ja 3(u sz k o d z o n a )

s ta c ja 1

p o je d y n c z y p ie rśc ie ń

(p o u s z k o d z e n iu s ta c ji 3 )

A B

M A C

AB

M A C

AB

MA

C

AB

MA

C

s ta c ja 2s ta c ja 4

s ta c ja 3

s ta c ja 1

u sz k o d z o n yk a b e l

p o je d y n c z y p ie rśc ie ń

(p o u s z k o d z e n iu k a b la )

Redundancja połączenia z Internetem

• Ponieważ w wielu przypadkach działalność przedsiębiorstwa/instytucji zależy od łączności z Internetem należy zapewnić wysoką niezawodność tego połączenia

• W tym celu można wykorzystać łącza od dwóch operatorów (ang. dual homing)

• Aby zapewnić jak największa niezawodność należy sprawdzić czy obydwa podłączenia do Internet są rozłączne (nie mają wspólnych elementów)

• Można zastosować równoważenie obciążenia (ang. load balancing) w celu równomiernego wykorzystania obu łączy

Redundancja programowa

• Protokół drzewa opinającego STP (ang. Spanning Tree Protocol) umożliwia tworzenie w warstwie 2 nadmiarowych łączy, które są nieaktywne w celu uniknięcia pętli w sieci

• Protokoły routingu w warstwie 3 zapewniają wyznaczenie nowych tras w przypadku awarii sieci

• Ochrona mechanizmu domyślnej bramy (ang. default gateway) w protokole IP

Spanning Tree Protocol

• Mechanizm Spanning Tree Protocol (STP) jest sprecyzowany w standardzie IEEE 802.1d i ma na celu przeciwdziałania powstawaniu pętli w sieci oraz rekonfiguracji sieci po awarii połączenia

• W tym celu budowany jest graf (topologię sieci) i wyznaczane jest minimalne drzewo opinające ten graf

• Wszystkie nieaktywne połączenia, które nie weszły w skład drzewa opinającego są używane tylko jako połączenia rezerwowe, aktywowane po awarii połączenia podstawowego

• Obecnie aktualny jest standard Rapid STP IEEE 802.1w, który zapewnia szybszą konwergencję

Działanie STP

• Mosty (przełączniki) wybierają spośród siebie korzeń drzewa (ang. root bridge)

• Następnie każdy most wyznacza najkrótszą trasę do korzenia oraz port związany z tą trasą, do którego będą wysyłane ramki

• Ruch danych jest zablokowany na portach, które nie zostały włączone do drzewa opinającego.

• Algorytm pozwala na równoległe (redundantne) połączenia, które normalnie są nieaktywne, ale po uszkodzeniu sieci są aktywowane po czasie krótszym od minuty

STP - przykład

Ochrona domyślnej bramy

• Hot Standby Router Protocol (HSRP) jest protokołem opracowanym przez firmę Cisco (RFC 2281) w celu ochrony mechanizmu domyślnej bramy (ang. default gateway) w protokole IP

• Podobną funkcjonalność zapewnia protokół Virtual Router Redundancy Protocol (VRRP) (RFC3768)

• Spośród grupy routerów wybierany jest jeden podstawowy, który działa jako brama, w przypadku jego awarii kolejny router przejmuje jego funkcję

Redundancja minimalnego poziomu

• Wymagana praca sieci na jedną zmianę• Przerwy pracy sieci na konserwację można planować

po godzinach pracy• Uszkodzenia sieci powodują minimalne straty i

nieznacznie zmniejszają wydajność pracy użytkowników.• Redundancja realizowana jest za pomocą

nadmiarowości w sprzęcie (duplikacja urządzeń)• Przykłady: szkoły, biblioteka

Redundancja średniego poziomu

• Wymagana praca sieci przez co najmniej dwie zmiany na dobę

• Serwery muszą pracować przez przerwy• Przerwy pracy sieci na konserwację można planować w

weekendy• Uszkodzenia najważniejszych elementów sieci powodują

straty i zmniejszają wydajność pracy użytkowników• Redundancja realizowana jest za pomocą

nadmiarowości w najważniejszym sprzęcie (duplikacja routerów, przełączników), redundancji programowej, redundancji połączeń

• Przykłady: firmy produkcyjne, sklepy

Redundancja wysokiego poziomu

• Wymagana praca sieci bez przerwy• Przerwy pracy sieci muszą być planowane z

wyprzedzeniem• Uszkodzenia elementów sieci powodują duże straty i

uniemożliwiają pracę użytkowników• Redundancja realizowana jest za pomocą kombinacji

redundancji sprzętowej, redundancji programowej, redundancji połączeń, redundancji UPS, itd.

• Przykłady: banki, szpitale, elektrownie

Plan wykładu


Wartość informacji

• Określenie wartości informacji to bardzo trudne zadanie, ale niezbędne w celu dokonania oceny inwestycyjnej porównującej koszt inwestycji związanych z zabezpieczeniem danych oraz koszt ewentualnych strat

Czynniki określające wartość informacji

• Koszty związane z czasową jej niedostępnością• Koszty wynikające z utraty informacji• Koszty wynikające z zafałszowania informacji lub

wystąpienia ukrytych błędów• Koszty ponownego pozyskania i wprowadzenia danych• Koszty korekty błędnych danych

Czynniki określające wartość informacji

• Najczęściej stosowane metryki takich kosztów odnoszą się do godzinowych kosztów ograniczenia dostępności lub utraty danych (dane w systemach transakcyjnych i bazodanowych, konfiguracja systemów informatycznych)

• W przypadku systemów wspomagających decyzje, takich jak hurtownie danych, niedostępność danych lub ich zafałszowanie może owocować stratami na skutek błędnie podjętych lub nie podjętych decyzji

• Niedostępność informacji przesyłanych przez systemy komunikacyjne (email, WWW) przekłada się na spadek produktywności i synchronizacji działań

Archiwizacja

• Archiwizacja polega na przenoszeniu plików (migracji) na zewnętrzne nośniki informacji o dużej pojemności

• Archiwizowany plik jest usuwany z systemu, robiąc miejsce dla nowych danych

• Taśmy archiwalne są zapisywane jednorazowo• Nie jest zalecana pełna archiwizacja (kopia wszystkich

plików systemu), gdyż wymaga to dużo czasu, miejsca na nośniku

• Zazwyczaj archiwizowane są pliki, które zostały zmodyfikowane od ostatniej archiwizacji

Kopie bezpieczeństwa

• Kopie bezpieczeństwa tworzone są w celu zabezpieczenia bieżących i aktualnych danych przed przypadkowym zniszczeniem

• Backup jest to wierna kopia informacji z roboczej pamięci masowej systemu tworzona w sposób prawie ciągły na wypadek awarii przez z góry określony czas

• To umożliwia odtworzenie stanu informacji z okresu przed awarii

Rozwiązania dla tworzenia kopii zapasowych

• Backup pełny - kopiowane są wszystkie dane na jeden nośnik, daje to najkrótszy czas odtworzenia, ale wydłuża czas archiwizacji

• Różnicowy backup tygodniowy - kopiowane są wszystkie dane, które uległy zmianie od ostatniej pełnej archiwizacji, przyspiesza proces archiwizacji, wymaga większej liczby nośników danych

• Backup przyrostowy - kopiowane są wszystkie dane, które uległy zmianie od ostatniej archiwizacji lub nowe pliki, jest to najszybsza metoda archiwizacji, wymaga większej liczby nośników danych, czas odtwarzania najdłuższy

Macierze dyskowe

• Wady kopii zapasowych powodują, że do składowanie danych stosowane są macierze dyskowe typu RAID (ang. Redundant Array of Independent Disks)

• Zasada działania w systemie RAID polega na zapisywaniu danych na wielu dyskach, co zmniejsza ryzyko utraty danych ze względu na awarię dysku

• Macierze RAID mogą być realizowane programowo (przez system operacyjny) lub sprzętowo (odpowiedni kotroler dysku)

Poziomy metody RAID

• RAID 0 polega na porcjowaniu (ang. stripping) danych podczas zapisu, ale nie zapewnia odporności na błędy

• RAID 1 polega na lustrzanym odbijaniu (ang. mirroring) dysków (przechowywaniu tych samych danych na wielu dyskach), zapewnia odporność na błędy

• RAID 3/4 dzieli dane między poszczególne dyski i wykorzystuje oddzielny dysk do przechowywania sum parytetów, która umożliwia odtworzenie danych po awarii

• RAID 5 dzieli dane między poszczególne dyski na poziomie bloków, ale zapisuje dane parytetu na wszystkich dyskach

• RAID 6 działa jak RAID 5, ale zapewnia ochronę przed awarią dwóch dysków

Plan wykładu


Sieci SAN

• W związku z przyrostem danych przechowywanych w systemach informatycznych i rosnącym znaczeniem informacji niezbędna jest realizacja elastycznych i skalowalnych metod składowania danych

• Sieci SAN (ang. Storage Area Network) są budowane z wykorzystaniem specjalnie zaprojektowanej infrastruktury sieciowej wykorzystując technologię Fibre Channel

• Sieci SAN mogą być budowane z wykorzystaniem łączy światłowodowych oraz łączy miedzianych

Czynniki wpływające na rozwój SAN

• Konsolidacja pamięci masowych i centralne zarządzanie• Współdzielenie danych• Bezpieczeństwo inwestycji• Zdalna dystrybucja danych• Wymagania wydajnościowe

Realizacje sieci SAN

Źródło: www.networld.pl

Komponenty sieci SAN

• Serwery (wymagana karta sieciowa HBA do Fibre Channel oraz odpowiednie oprogramowanie)

• Infrastruktura SAN (przełączniki Fibre Channel, okablowanie)

• Macierz dyskowa RAID• Biblioteki taśmowe, optyczne i magnetooptyczne (służą

do archiwizacji danych i backupu)• Oprogramowanie zarządzające

Bezpieczeństwo pamięci masowych

• Wprowadzenie technologii SAN rozwiązało szereg problemów związanych z urządzeniami podłączanymi bezpośrednio do serwerów, jednak istotnym problemem jest bezpieczeństwo pamięci masowych (ang. storage security)

• Najważniejsza zagrożenia dla sieci SAN to: podsłuch, ataki DoS, ataki IP, fizyczny dostęp do urządzeń

• Możliwe zabezpieczenia to: szyfrowanie, uwierzytelnianie i kontrola dostępu

Zalety sieci SAN

• Przyspieszenie dostępu do danych i ich transmisji

• Współdzielenie zasobów między różnymi platformami • Wykorzystanie wcześniej posiadanych zasobów• Zwiększenie odległości do 10 km (Fibre Channel ) • Ułatwienie zabezpieczania danych• Uproszczone skalowanie pojemności i wydajności• Szybki i wydajny backup

Plan wykładu


Bezpieczne zasilanie

• Jedną z przyczyną strat w sieciach i systemach informatycznych są problemy z zasilaniem z sieci energetycznej

• Podstawowe zagrożenia to: fluktuacje częstotliwości, spadki napięcia, wyższe harmoniczne, szumy, krótkotrwałe zaniki, dłuższe przerwy czy okresowe przepięcia

• Bezpieczne zasilanie to bezawaryjny system dostarczania wysokiej jakości mocy elektrycznej do urządzeń sieci informacyjnej czy telekomunikacyjnej, spełniający przy tym ściśle określoną liczbę wymagań, w tym ochronę przed wspomnianymi zagrożeniami

Elementy bezpiecznego zasilania

• Zasilacz bezprzerwowy, zasilacz awaryjny, zasilacz UPS (ang. Uninterruptible Power Supply) - urządzenie lub system, którego funkcją jest nieprzerwane zasilanie urządzeń elektronicznych, zasilacz jest wyposażony w akumulator oraz inne elementy służące do stabilizacji napięcia

• Agregat prądotwórczy, nazywany spalinowym zespołem prądotwórczym, jest stacjonarnym lub przewoźnym źródłem napięcia przemiennego o mocy wyjściowej od kilku kVA do paru MVA

Zasilacz true on-line

[Źródło: www.networld.com.pl]

Agregaty

[Źródło: www.networld.com.pl]

Warianty zabezpieczenia zasilania

• Zasilania rozproszone wykorzystujące wiele zasilaczy UPS zasilających poszczególne urządzenia systemu

• Zasilania strefowe, w którym zasilacz UPS zabezpiecza grupę urządzeń

• Zasilania centralne - UPS zasila wszystkie urządzenia pracujące w ramach systemu teleinformatycznego

Kryteria wyboru zabezpieczenia zasilania

• Prawidłowy dobór mocy zasilacza UPS do zabezpieczanego urządzenia

• Wybór odpowiedniej topologii zasilacza• Stopień wymaganej niezawodności - redundancja• Czas autonomii• Prawidłowe warunki instalacji, eksploatacji i konserwacji• Możliwość rozbudowy• Sposób zarządzania i monitorowania• Czas i sposób usunięcia ewentualnych awarii• Warunki współpracy z agregatem prądotwórczym

Plan wykładu


Rozwiązania klastrowe

Klaster to zgrupowane zasoby informatyczne (komputery/urządzenia dyskowe) połączone siecią komputerową realizowane w różnych celach:

• Zwiększenie dostępnej pamięci dyskowej• Zwiększenie mocy obliczeniowej• Skrócenie dostępu do danych• Zapewnienie spójności i niezawodności systemu

Przykłady systemów klastrowych to Gridy, sieci P2P

Disaster Recovery

• Wzrost zagrożenia terroryzmem uświadomił konieczność przygotowania instytucji i przedsiębiorstw do sprawnego reagowania na nieprzewidziane zagrożenia

• Dla zabezpieczenia systemu przed tego typu zagrożeniami niezbędne jest opracowanie planu ratunkowego DRP (ang. Disaster Recovery Plan)

• Ważnym mechanizmem stosowanym w DRP są centra zapasowe lub internetowe centra danych umożliwiające składowanie danych w lokalizacji odległej od siedziby firmy

Elementy planu ratunkowego DRP

• Ocena możliwych zagrożeń• Określenie które elementy struktury firmy mają kluczowy

dla funkcjonowania charakter• Jakie są ich wymagania niezawodnościowe, np.

dopuszczalny czas niedostępności• Jakie są zależności pomiędzy poszczególnymi

jednostkami funkcjonalnymi w momencie kryzysu (efekt domina)

Plan wykładu


Podsumowanie

• Dane przesyłane w sieci lub przechowywane na nośnikach danych mają często bardzo dużą wartość

• Utrata tych danych lub brak ich dostarczenia może mieć poważne konsekwencje (finansowe, prawne, polityczne, militarne, zdrowotne, społeczne, itd.)

• Zapewniania odpowiedniego poziomu niezawodności jest procesem złożonym, który powinien uwzględniać różnego rodzaju zagrożenia

• Podstawową zasadą jest zarządzanie ryzykiem