Plan wykładu
• Wprowadzenie• Niezawodność sieci komputerowych• Bezpieczeństwo danych• Sieci SAN• Bezpieczne zasilanie• Inne aspekty niezawodności• Podsumowanie
Plan wykładu
• Wprowadzenie• Niezawodność sieci komputerowych• Bezpieczeństwo danych• Sieci SAN• Bezpieczne zasilanie• Inne aspekty niezawodności• Podsumowanie
Niezawodność
• Zagadnienie niezawodności systemów i sieci komputerowych wiążą się z potrzebą zapewnienia usług dyspozycyjności oraz integralności
• Dyspozycyjność (ang. availability) - usługa zapewnia uprawnionym osobom możliwość ciągłego korzystania z zasobów systemu w dowolnym czasie
• Integralność (ang. integrity)- usługa zapewnia, że dane zawarte w systemie lub przesyłane przez sieć nie będą zmienione lub przekłamane
Zagrożenia dyspozycyjności w systemach i sieciach
• Zagrożenia pasywne związane z kataklizmami oraz awariami niezależnymi od działań człowieka (np. powódź, trzęsienie ziemi, huragan, awaria zasilania, awaria sprzętu)
• Zagrożenia aktywne powodowane przez świadome działanie człowieka mające na celu zniszczenie lub spowodowanie awarii (np. wirusy, terroryzm, wandalizm, inżynieria społeczna)
• Ataki typu DoS (ang. Denial of Service) i DDoS (ang. Distributed DOS)
Plan wykładu
• Wprowadzenie• Niezawodność sieci komputerowych• Bezpieczeństwo danych• Sieci SAN• Bezpieczne zasilanie• Inne aspekty niezawodności• Podsumowanie
Powody awarii kabli optycznych
[Dan Crawford. "Fiber optic cable dig-ups - causes and cures". Network Reliability and Interoperability Council website. 1992. http://www.nric.org /pubs/nric1/sections/abody.pdf.]
0 20 40 60 80 100
Wykopy
Samochody
Błędy instalatorów
Linie zasilające
Gryzonie
Sabotaż
Pożar
Broń palna
Powódź
Roboty ziemne
Upadające drzewa
Inne
Liczba awarii
Mechanizmy obrony sieci przed awariami
• Budowanie sieci z elementów odpornych na awarie, mających jak najmniejsze prawdopodobieństwo uszkodzenia, czyli parametry związane z niezawodnością, np. MTBF
• Jednak, ponieważ nie ma możliwości całkowitego wyeliminowania prawdopodobieństwa awarii, należy w procesie projektowania sieci uwzględnić także kryteria związane z przeżywalnością (ang. survivability) sieci
• Podstawowym mechanizmem w celu zapewnienia niezawodności jest redundancja (nadmiarowość) elementów sieci LAN
Podstawowe pojęcia
• Mianem przeżywalnych (ang. survivable) sieci komputerowych określamy sieci, które są odpowiednio przygotowane (topologia sieci, przepływy, reguły sterowania przepływem) na wystąpienie uszkodzenia i umożliwiają pracę sieci pomimo awarii
• Mianem samonaprawialnych (ang. self-healing) sieci komputerowych określamy sieci, które posiadają zdolność do samodzielnego wykrycia uszkodzenia i przekonfigurowania własnych zasobów w ten sposób, aby uszkodzenie w jak najmniejszym stopniu wpłynęło na jakość działania sieci
Koncepcje reakcji na awarię w sieciach przeżywalnych
• Protekcja (ang. protection). Stosowana zazwyczaj w sposób rozproszony, bez centralnego sterowania. Zakłada, że zapasowe zasoby sieci przygotowane na wypadek awarii są przydzielane przed wystąpieniem awarii. W momencie awarii następuje tylko przełączenie ruchu sieciowego na wcześniej przygotowane zapasowe zasoby, metoda działa bardzo szybko
• Odtworzenie (ang. restoration). Stosowany w sposób rozproszony lub scentralizowany. Cechuje się brakiem wstępnie rezerwowanych zasobów zapasowych. Po wystąpieniu awarii dynamicznie próbuje odzyskać łączność w sieci wykorzystując wolne zasoby sieci. Czas działania jest dość duży, ale brak wstępnej rezerwacji zapewnia elastyczność
Rodzaje redundacji
• Sprzętowa – duplikowane są urządzenia sieciowe, serwery, zasilanie itd.
• Połączeń – dodawane są nadmiarowe łącza w sieci w celu zapewnienia alternatywnych tras przesyłania danych
• Programowa – dodawane są mechanizmy wspomagania procesu powrotu sieci do normalnej pracy po awarii
Redundancja sprzętowa
Należy w sieci instalować nadmiarowe elementy zabezpieczające najważniejsze funkcje sieci:
• Zewnętrzne nośniki informacji (archiwizacja, streamery, sieci SAN)
• Dyski w serwerze (mirroring, duplexing, macierze RAID)• Serwery (klastry serwerów)• Przełączniki • Routery• Zasilacze
Redundancja połączeń
• Połączenia redundancyjne to dodatkowe połączenia fizyczne względem połączeń podstawowych
• Oznacza to, że w sieci istnieją co najmniej dwie trasy między parą węzłów
• Gorący backup (ang. Hot Backup) - mechanizm działa w warstwie 2 i do uaktywnienia zapasowych połączeń używa protokołu STP (ang. Spanning Tree Protocol)
• Równoległość (paralelizm)- mechanizm używa protokołów routingu działających w warstwie 3 (np. RIP, OSPF)
Redundancja połączeń cd.d o p rz y łą c z y
u ż y tk o w n ik ó wd o p rz y łą c z y
u ż y tk o w n ik ó wd o p rz y łą c z y
u ż y tk o w n ik ó wo k a b lo w a n ie
p o z io m e
d o p rz y łą c z yu ż y tk o w n ik ó w
P rz e łą c z n ik iw a r s tw y 2
in s ta lo w a n ew K P D
K ond ygna cy jn yP unk t
D ystrybu cy jn yK PD
P rz e łą c z n ik id y s try b u c y jn e
w a rs tw y 2in s ta lo w a n e
w B P D
Budynkow yP unk t
D ystrybu cy jn yB PD
P o łą c z e n ia p o d s ta w o w ei re d u n d a n c y jn e b lo k u
b u d y n k o w e g o zrd z e n ie m s ie c iP k 1 P k 2R k 1 R k 2
B lokbudynk ow y
P I P I I P I I I P IV
R I R I I R I I I R IV
P A P B
R BR A
Samonaprawialne pierścienie
• Metoda polega na utworzeniu sieci o topologii pierścienia składającej się ze specjalnie skonstruowanych urządzeń (przełączników)
• Zazwyczaj istnieją dwa pierścienie łączące wszystkie węzły, każdy z tych pierścieni transportuje dane w przeciwnym kierunku
• W razie awarii węzła lub odcinka pierścienia, przełączniki przekierowują przepływ z uszkodzonego pierścienia na drugi pierścień
• Odtworzenie dla tej metody jest bardzo szybkie, główna wada to narzucona topologia sieci i ograniczona skalowalność
• Przykład: technologia FDDI
FDDI – przykład sieci
s ta c ja ty p u D A CS 1
s ta c ja ty p u D A SS 2
s ta c ja ty p u D A SS 3
s ta c ja ty p u D A SS 4
s ta c ja ty p u S A CS 5
s ta c ja ty p u S A CS 6
s ta c ja S A SS 11 s ta c ja S A S
S 1 2
s ta c ja S A SS 7
s ta c ja S A SS 8
s ta c ja S A SS 9
s ta c ja S A SS 1 0
Niezawodność FDDI
• Optyczny układ obejścia (ang. optical bypass)• Układ dodatkowego łącza (ang. Dual Homing)
p ę tlaF D D I
o p ty c z n y o k ła d o b e jś c io w yu a k ty w n ia s ię w m o m e n c ie a w a ri i s ta c ji lu b o d łą c z e n ia
p o łąc z e n iep o d sta w o w e
(p rim a ry lin k a )
p o łąc z e n ied o d a tk o w e
(b a ck u p lin k a )
w ę z e ł o s z c z e g ó ln y mz n a c z e n iu d la s ie c i
Niezawodność FDDI cd.
A B
M A C
AB
M A C
AB
MA
C
AB
MA
C
A B
M A C
AB
M A C
AB
MA
C
AB
MA
C
s ta c ja 1(u sz k o d z o n a )
s ta c ja 2s ta c ja 2 s ta c ja 4s ta c ja 4
s ta c ja 3 s ta c ja 3
s ta c ja 1
o b e jś c io w y p rz e łą c z n iko p ty c z n y
Niezawodność FDDI cd.
A B
M A C
AB
M A C
AB
MA
C
AB
MA
C
s ta c ja 2s ta c ja 4
s ta c ja 3(u sz k o d z o n a )
s ta c ja 1
p o je d y n c z y p ie rśc ie ń
(p o u s z k o d z e n iu s ta c ji 3 )
A B
M A C
AB
M A C
AB
MA
C
AB
MA
C
s ta c ja 2s ta c ja 4
s ta c ja 3
s ta c ja 1
u sz k o d z o n yk a b e l
p o je d y n c z y p ie rśc ie ń
(p o u s z k o d z e n iu k a b la )
Redundancja połączenia z Internetem
• Ponieważ w wielu przypadkach działalność przedsiębiorstwa/instytucji zależy od łączności z Internetem należy zapewnić wysoką niezawodność tego połączenia
• W tym celu można wykorzystać łącza od dwóch operatorów (ang. dual homing)
• Aby zapewnić jak największa niezawodność należy sprawdzić czy obydwa podłączenia do Internet są rozłączne (nie mają wspólnych elementów)
• Można zastosować równoważenie obciążenia (ang. load balancing) w celu równomiernego wykorzystania obu łączy
Redundancja programowa
• Protokół drzewa opinającego STP (ang. Spanning Tree Protocol) umożliwia tworzenie w warstwie 2 nadmiarowych łączy, które są nieaktywne w celu uniknięcia pętli w sieci
• Protokoły routingu w warstwie 3 zapewniają wyznaczenie nowych tras w przypadku awarii sieci
• Ochrona mechanizmu domyślnej bramy (ang. default gateway) w protokole IP
Spanning Tree Protocol
• Mechanizm Spanning Tree Protocol (STP) jest sprecyzowany w standardzie IEEE 802.1d i ma na celu przeciwdziałania powstawaniu pętli w sieci oraz rekonfiguracji sieci po awarii połączenia
• W tym celu budowany jest graf (topologię sieci) i wyznaczane jest minimalne drzewo opinające ten graf
• Wszystkie nieaktywne połączenia, które nie weszły w skład drzewa opinającego są używane tylko jako połączenia rezerwowe, aktywowane po awarii połączenia podstawowego
• Obecnie aktualny jest standard Rapid STP IEEE 802.1w, który zapewnia szybszą konwergencję
Działanie STP
• Mosty (przełączniki) wybierają spośród siebie korzeń drzewa (ang. root bridge)
• Następnie każdy most wyznacza najkrótszą trasę do korzenia oraz port związany z tą trasą, do którego będą wysyłane ramki
• Ruch danych jest zablokowany na portach, które nie zostały włączone do drzewa opinającego.
• Algorytm pozwala na równoległe (redundantne) połączenia, które normalnie są nieaktywne, ale po uszkodzeniu sieci są aktywowane po czasie krótszym od minuty
Ochrona domyślnej bramy
• Hot Standby Router Protocol (HSRP) jest protokołem opracowanym przez firmę Cisco (RFC 2281) w celu ochrony mechanizmu domyślnej bramy (ang. default gateway) w protokole IP
• Podobną funkcjonalność zapewnia protokół Virtual Router Redundancy Protocol (VRRP) (RFC3768)
• Spośród grupy routerów wybierany jest jeden podstawowy, który działa jako brama, w przypadku jego awarii kolejny router przejmuje jego funkcję
Redundancja minimalnego poziomu
• Wymagana praca sieci na jedną zmianę• Przerwy pracy sieci na konserwację można planować
po godzinach pracy• Uszkodzenia sieci powodują minimalne straty i
nieznacznie zmniejszają wydajność pracy użytkowników.• Redundancja realizowana jest za pomocą
nadmiarowości w sprzęcie (duplikacja urządzeń)• Przykłady: szkoły, biblioteka
Redundancja średniego poziomu
• Wymagana praca sieci przez co najmniej dwie zmiany na dobę
• Serwery muszą pracować przez przerwy• Przerwy pracy sieci na konserwację można planować w
weekendy• Uszkodzenia najważniejszych elementów sieci powodują
straty i zmniejszają wydajność pracy użytkowników• Redundancja realizowana jest za pomocą
nadmiarowości w najważniejszym sprzęcie (duplikacja routerów, przełączników), redundancji programowej, redundancji połączeń
• Przykłady: firmy produkcyjne, sklepy
Redundancja wysokiego poziomu
• Wymagana praca sieci bez przerwy• Przerwy pracy sieci muszą być planowane z
wyprzedzeniem• Uszkodzenia elementów sieci powodują duże straty i
uniemożliwiają pracę użytkowników• Redundancja realizowana jest za pomocą kombinacji
redundancji sprzętowej, redundancji programowej, redundancji połączeń, redundancji UPS, itd.
• Przykłady: banki, szpitale, elektrownie
Plan wykładu
• Wprowadzenie• Niezawodność sieci komputerowych• Bezpieczeństwo danych• Sieci SAN• Bezpieczne zasilanie• Inne aspekty niezawodności• Podsumowanie
Wartość informacji
• Określenie wartości informacji to bardzo trudne zadanie, ale niezbędne w celu dokonania oceny inwestycyjnej porównującej koszt inwestycji związanych z zabezpieczeniem danych oraz koszt ewentualnych strat
Czynniki określające wartość informacji
• Koszty związane z czasową jej niedostępnością• Koszty wynikające z utraty informacji• Koszty wynikające z zafałszowania informacji lub
wystąpienia ukrytych błędów• Koszty ponownego pozyskania i wprowadzenia danych• Koszty korekty błędnych danych
Czynniki określające wartość informacji
• Najczęściej stosowane metryki takich kosztów odnoszą się do godzinowych kosztów ograniczenia dostępności lub utraty danych (dane w systemach transakcyjnych i bazodanowych, konfiguracja systemów informatycznych)
• W przypadku systemów wspomagających decyzje, takich jak hurtownie danych, niedostępność danych lub ich zafałszowanie może owocować stratami na skutek błędnie podjętych lub nie podjętych decyzji
• Niedostępność informacji przesyłanych przez systemy komunikacyjne (email, WWW) przekłada się na spadek produktywności i synchronizacji działań
Archiwizacja
• Archiwizacja polega na przenoszeniu plików (migracji) na zewnętrzne nośniki informacji o dużej pojemności
• Archiwizowany plik jest usuwany z systemu, robiąc miejsce dla nowych danych
• Taśmy archiwalne są zapisywane jednorazowo• Nie jest zalecana pełna archiwizacja (kopia wszystkich
plików systemu), gdyż wymaga to dużo czasu, miejsca na nośniku
• Zazwyczaj archiwizowane są pliki, które zostały zmodyfikowane od ostatniej archiwizacji
Kopie bezpieczeństwa
• Kopie bezpieczeństwa tworzone są w celu zabezpieczenia bieżących i aktualnych danych przed przypadkowym zniszczeniem
• Backup jest to wierna kopia informacji z roboczej pamięci masowej systemu tworzona w sposób prawie ciągły na wypadek awarii przez z góry określony czas
• To umożliwia odtworzenie stanu informacji z okresu przed awarii
Rozwiązania dla tworzenia kopii zapasowych
• Backup pełny - kopiowane są wszystkie dane na jeden nośnik, daje to najkrótszy czas odtworzenia, ale wydłuża czas archiwizacji
• Różnicowy backup tygodniowy - kopiowane są wszystkie dane, które uległy zmianie od ostatniej pełnej archiwizacji, przyspiesza proces archiwizacji, wymaga większej liczby nośników danych
• Backup przyrostowy - kopiowane są wszystkie dane, które uległy zmianie od ostatniej archiwizacji lub nowe pliki, jest to najszybsza metoda archiwizacji, wymaga większej liczby nośników danych, czas odtwarzania najdłuższy
Macierze dyskowe
• Wady kopii zapasowych powodują, że do składowanie danych stosowane są macierze dyskowe typu RAID (ang. Redundant Array of Independent Disks)
• Zasada działania w systemie RAID polega na zapisywaniu danych na wielu dyskach, co zmniejsza ryzyko utraty danych ze względu na awarię dysku
• Macierze RAID mogą być realizowane programowo (przez system operacyjny) lub sprzętowo (odpowiedni kotroler dysku)
Poziomy metody RAID
• RAID 0 polega na porcjowaniu (ang. stripping) danych podczas zapisu, ale nie zapewnia odporności na błędy
• RAID 1 polega na lustrzanym odbijaniu (ang. mirroring) dysków (przechowywaniu tych samych danych na wielu dyskach), zapewnia odporność na błędy
• RAID 3/4 dzieli dane między poszczególne dyski i wykorzystuje oddzielny dysk do przechowywania sum parytetów, która umożliwia odtworzenie danych po awarii
• RAID 5 dzieli dane między poszczególne dyski na poziomie bloków, ale zapisuje dane parytetu na wszystkich dyskach
• RAID 6 działa jak RAID 5, ale zapewnia ochronę przed awarią dwóch dysków
Plan wykładu
• Wprowadzenie• Niezawodność sieci komputerowych• Bezpieczeństwo danych• Sieci SAN• Bezpieczne zasilanie• Inne aspekty niezawodności• Podsumowanie
Sieci SAN
• W związku z przyrostem danych przechowywanych w systemach informatycznych i rosnącym znaczeniem informacji niezbędna jest realizacja elastycznych i skalowalnych metod składowania danych
• Sieci SAN (ang. Storage Area Network) są budowane z wykorzystaniem specjalnie zaprojektowanej infrastruktury sieciowej wykorzystując technologię Fibre Channel
• Sieci SAN mogą być budowane z wykorzystaniem łączy światłowodowych oraz łączy miedzianych
Czynniki wpływające na rozwój SAN
• Konsolidacja pamięci masowych i centralne zarządzanie• Współdzielenie danych• Bezpieczeństwo inwestycji• Zdalna dystrybucja danych• Wymagania wydajnościowe
Komponenty sieci SAN
• Serwery (wymagana karta sieciowa HBA do Fibre Channel oraz odpowiednie oprogramowanie)
• Infrastruktura SAN (przełączniki Fibre Channel, okablowanie)
• Macierz dyskowa RAID• Biblioteki taśmowe, optyczne i magnetooptyczne (służą
do archiwizacji danych i backupu)• Oprogramowanie zarządzające
Bezpieczeństwo pamięci masowych
• Wprowadzenie technologii SAN rozwiązało szereg problemów związanych z urządzeniami podłączanymi bezpośrednio do serwerów, jednak istotnym problemem jest bezpieczeństwo pamięci masowych (ang. storage security)
• Najważniejsza zagrożenia dla sieci SAN to: podsłuch, ataki DoS, ataki IP, fizyczny dostęp do urządzeń
• Możliwe zabezpieczenia to: szyfrowanie, uwierzytelnianie i kontrola dostępu
Zalety sieci SAN
• Przyspieszenie dostępu do danych i ich transmisji
• Współdzielenie zasobów między różnymi platformami • Wykorzystanie wcześniej posiadanych zasobów• Zwiększenie odległości do 10 km (Fibre Channel ) • Ułatwienie zabezpieczania danych• Uproszczone skalowanie pojemności i wydajności• Szybki i wydajny backup
Plan wykładu
• Wprowadzenie• Niezawodność sieci komputerowych• Bezpieczeństwo danych• Sieci SAN• Bezpieczne zasilanie• Inne aspekty niezawodności• Podsumowanie
Bezpieczne zasilanie
• Jedną z przyczyną strat w sieciach i systemach informatycznych są problemy z zasilaniem z sieci energetycznej
• Podstawowe zagrożenia to: fluktuacje częstotliwości, spadki napięcia, wyższe harmoniczne, szumy, krótkotrwałe zaniki, dłuższe przerwy czy okresowe przepięcia
• Bezpieczne zasilanie to bezawaryjny system dostarczania wysokiej jakości mocy elektrycznej do urządzeń sieci informacyjnej czy telekomunikacyjnej, spełniający przy tym ściśle określoną liczbę wymagań, w tym ochronę przed wspomnianymi zagrożeniami
Elementy bezpiecznego zasilania
• Zasilacz bezprzerwowy, zasilacz awaryjny, zasilacz UPS (ang. Uninterruptible Power Supply) - urządzenie lub system, którego funkcją jest nieprzerwane zasilanie urządzeń elektronicznych, zasilacz jest wyposażony w akumulator oraz inne elementy służące do stabilizacji napięcia
• Agregat prądotwórczy, nazywany spalinowym zespołem prądotwórczym, jest stacjonarnym lub przewoźnym źródłem napięcia przemiennego o mocy wyjściowej od kilku kVA do paru MVA
Warianty zabezpieczenia zasilania
• Zasilania rozproszone wykorzystujące wiele zasilaczy UPS zasilających poszczególne urządzenia systemu
• Zasilania strefowe, w którym zasilacz UPS zabezpiecza grupę urządzeń
• Zasilania centralne - UPS zasila wszystkie urządzenia pracujące w ramach systemu teleinformatycznego
Kryteria wyboru zabezpieczenia zasilania
• Prawidłowy dobór mocy zasilacza UPS do zabezpieczanego urządzenia
• Wybór odpowiedniej topologii zasilacza• Stopień wymaganej niezawodności - redundancja• Czas autonomii• Prawidłowe warunki instalacji, eksploatacji i konserwacji• Możliwość rozbudowy• Sposób zarządzania i monitorowania• Czas i sposób usunięcia ewentualnych awarii• Warunki współpracy z agregatem prądotwórczym
Plan wykładu
• Wprowadzenie• Niezawodność sieci komputerowych• Bezpieczeństwo danych• Sieci SAN• Bezpieczne zasilanie• Inne aspekty niezawodności• Podsumowanie
Rozwiązania klastrowe
Klaster to zgrupowane zasoby informatyczne (komputery/urządzenia dyskowe) połączone siecią komputerową realizowane w różnych celach:
• Zwiększenie dostępnej pamięci dyskowej• Zwiększenie mocy obliczeniowej• Skrócenie dostępu do danych• Zapewnienie spójności i niezawodności systemu
Przykłady systemów klastrowych to Gridy, sieci P2P
Disaster Recovery
• Wzrost zagrożenia terroryzmem uświadomił konieczność przygotowania instytucji i przedsiębiorstw do sprawnego reagowania na nieprzewidziane zagrożenia
• Dla zabezpieczenia systemu przed tego typu zagrożeniami niezbędne jest opracowanie planu ratunkowego DRP (ang. Disaster Recovery Plan)
• Ważnym mechanizmem stosowanym w DRP są centra zapasowe lub internetowe centra danych umożliwiające składowanie danych w lokalizacji odległej od siedziby firmy
Elementy planu ratunkowego DRP
• Ocena możliwych zagrożeń• Określenie które elementy struktury firmy mają kluczowy
dla funkcjonowania charakter• Jakie są ich wymagania niezawodnościowe, np.
dopuszczalny czas niedostępności• Jakie są zależności pomiędzy poszczególnymi
jednostkami funkcjonalnymi w momencie kryzysu (efekt domina)
Plan wykładu
• Wprowadzenie• Niezawodność sieci komputerowych• Bezpieczeństwo danych• Sieci SAN• Bezpieczne zasilanie• Inne aspekty niezawodności• Podsumowanie
Podsumowanie
• Dane przesyłane w sieci lub przechowywane na nośnikach danych mają często bardzo dużą wartość
• Utrata tych danych lub brak ich dostarczenia może mieć poważne konsekwencje (finansowe, prawne, polityczne, militarne, zdrowotne, społeczne, itd.)
• Zapewniania odpowiedniego poziomu niezawodności jest procesem złożonym, który powinien uwzględniać różnego rodzaju zagrożenia
• Podstawową zasadą jest zarządzanie ryzykiem