Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
Agenda
1 개요
2 현재 DR의 현실
3 MDRM 소개
4 Summary
2
개요
3
IT should be up and running
4
< 서비스 다운 > < 자연 재해 > < 인재 >
IT재해와 기업의 연속성
5
재난복구 대책이 없는 기업이 재난발생시 회생할 수 있는 가능성은 거의 없음
43%의 기업은 즉시 도산
28%의 기업은 복구불능상태 (2년 내 조업중단)
무계획 문서화된 복구절차
검증된 복구절차
테스트된 복구절차
유지보수된 복구절차
0
20
40
60
80
100
기업의
존속
가능성
국내 재해복구 관련 주요 정책
6
2001년 금감원 ‘금융기관 재해복구 센터 구축 권고안’ 마련 (RTO 3시간 이내)
2012년 국제금융감독기구(IOSCO) RTO 2시간 이내 목표 제시
2013년 금융위원회 ‘금융전산 보안 강화 종합 대책’발표 RTO 2시간 이내 권고
2015년 전자금융감독 일부 개정
IT 연속성을 위한 솔루션
7
백업
HA
복제/스냅샷
통합관제
재해복구센터
실시간 복제 및 소산
현재 DR의 현실
8
장벽들…
9
< 복잡 > < 비용 > < 의구심 >
DR센터의 도전과제들
10
백업 / 복제된 데이터는 가용한가?
주센터와 복구센터 간, 변경관리는 되고 있는가?
모의 훈련은 제대로 이루어 지고 있는가?
목표 RPO/RTO 를 만족하는가? HA는 정상 페일오버 가능한가?
사전 예방 감시는 적절한가?
운영자는 복구 절차를 제대로 준수할 수 있는가?
대부분 데이터의 백업과 소산에 초점
11
일반적 재해복구 절차 리뷰
12
부분 자동 스크립트
Time out!!
수작업 복구
외부 엔지니어 섭외
데이터 리스토어 및 마운트
서버 및 APP 기동
장애 및 재난 인지
복구센터 가동 결정
서비스 복구 가능성 판단
재해선언
복구 절차서 리뷰
네트워크 라우팅
Hours
Hours
Hours
Hours
인력 소모적 모의훈련
스토리지 쓰기
가능합니다.
DB복구 하세요.
서버 준비되었고
DB볼륨 마운트
했어요.
DB 실행했습니다.
쿼리 제대로 되는지
확인하세요.
애플리케이션
실행이 진행 중
입니다.
애플리케이션
접근이 안되요.
뭐가 문제죠?
RTO
초과했습니다.
오류 빨리 찾아
주세요. 내 차례는??
13
해결할 솔루션은?
14
RPO
RTO
SLA
모의훈련
예방감시
복구절차 준수
운영관리의 자동화
복구과정 가시화
리스크 예방 및 관리
MDRM 소개
15
Make it simple – Just one click
16
주 센터 재해복구 센터
. . .
재해 선언
Just one click
MDRM의 주요기능
17
복구 자동화 SLA 준수 리스크 예방 운영현황 가시화
• 데이터 센터별, 업무별, 개발 태스크별 원클릭 복구
• 다양한 서버, 스토리지, 응용프로그램, 네트워크 등에 대한 기동 자동화
• 자원간 의졲성 매핑
• 복구, 원복, 모의훈련 자동화
• 웹 기반 GUI
• 가시화된 복구 흐름도
• 업무간, 자원간 ,애플리케이션간 토폴리지
• 사용자 정의 멀티 대시보드
• RPO, RTO 측정
• 복구 자원들의 가용상태 모니터링
• 이메일, SMS, SNS를 통한 알림
• RTO, RPO 미준수 사항 레포팅
• 모의훈련, 재해복구 결과서 레포팅
구성 아키텍처
18
업무 2
Network MDRM 서버
DB2 DB1
ERP2 ERP1
Web2 Web1
업무 1
DB2 DB1
App2 App1
Web2 Web1
MDRM 서버 - Linux OS
- 웹 기반 관리
- Agent 자동 배포
복구 대상에 Agent 탑재 - 상태 모니터링
- APP 기동과 모니터링
- 자원갂 의존성 관리
DR 센터
업무 1
Web2 Web1
ERP
ERP DB
Web2 Web1
App
App DB
업무 2
A
A
A
A A A A
A A
주 센터
MDRM Use cases
19
재해복구 모의훈련 유지관리
자동화된 서비스 복구와 원복
원클릭 실행
목표 RTO 만족
원클릭 훈련
SLA 미 준수 사항 발견
훈련결과 레포팅
자동화된 센터갂 서비스 전홖
IPL (Initial Program loading)
자동 배치 실행
복구 자동화를 위한 워크플로우 생성
20
복구 대상 업무 설정
복구 컴포넌트 정의
복구 단계 흐름도 정의
단계별 인증 설정
워크플로우의 콤포넌트 들
21
서버 • 업무 기동에 포함될 물리, 가상 서버들
애플리케이션 • 서버내 구동될 애플리케이션, 네트워크, 데이터 볼륨등의 자원들
스크립트 • 업무 및 애플리케이션 기동에 필요한 사용자 정의 스크립트
데이터 • 스토리지 및 데이터 복제 등에 대한 제어 • 스토리지 기반과 호스트 기반 복제 지원
전원제어 • 서버 전원 On / Off
네트워크 • Switch, Router, SAN 등의 네트워크에 대한 제어
승인 • 다음 컴포넌트 실행시 관리자 승인, 수동 클릭, 자동 실행 설정
GUI를 통한 복구 워크플로우 생성
22
재해복구 시 필요한 절차와 순서들을 워크플로우로 정의하고 자동으로 실행
사이트 내 업무갂의 진행 순서를 정의
단일 업무에 대해서 재해복구 실행, 중지, 원복, 모의훈련 등 다양한 워크플로우 생성
복구 단계의 직관적 가시화
23
복구 진행의 현재 단계와 성공/실패 여부
서버 내 자원들과 애플리케이션의 복구 과정
단계별 인증 및 알람
24
진행 단계별 인증
(자동/수동/관리자 인증실행)
진행 상황 알림 제공
(Email/SMS/Popup)
진행 단계별로 자동 및 수동 실행 또는 관리자 인증 후 진행
각 단계별로 작업 전/후 그리고 실패 시 Email이나 SMS 그리고 Popup을 통한 알림
컴포넌트 그룹
25
여러 컴포넌트의 복합으로 구성된 집합체
컴포넌트 그룹은 다른 업무의 복구 워크플로우에서도 불러올 수 있음
[컴포넌트 그룹]
SLA 준수 관리
26
30M 10Secs 1M 1H 1Secs 1H 12H 2H 30M 1D
재해/장애 시점
Recovery Point Objective (RPO : 복구 목표 시점)
• 장애 전 어느 시점까지 데이터를 복구하나?
• 목표 RPO는 만족 하는지?
Recovery Time Objective (RTO: 복구 재개 시간)
• 장애 발생 후 정상화 하는 데 걸리는 시갂은?
• 목표 RTO는 만족 하는지?
업무 재개 시점 데이터 역행 시점
RTO 관리
27
워크플로우의 각 단계별 RTO를 정해 최종 목표 RTO를 산정
재해복구 및 모의훈련 시 실행된 RTO의 결과를 바탕으로 목표 RTO를 초과한 단계에 대한 원인을 발견해서 보완하거나
목표 RTO를 수정
RPO 관리
28
운영센터와 DR센터갂 복제 상태 모니터링
복제 중지된 경우 변경 부분에 대한 시갂 트랙킹
보고서
29
재해복구 및 모의훈련 복구 절차서와 워크플로우 실행 결과서
엑셀 파일 형태로 출력
대시보드
30
일일 점검 / IPL 시 모의훈련 시
재해복구 시
멀티 대시보드
위젯 형태로 여러 운영 현황에 대한 UI 화면 사용자 설정 가능
지원 플랫폼
31
운영체제 스토리지 가상화 / 클라우드 데이터베이스 웹 애플리케이션 Etc.
• Windows 7/8
• Windows 2008
• Windows 2012
• Redhat
• Cent OS
• Asianux
• Oracle Linux
• IBM PowerLinux
• IBM AIX
• HP-UX
• Oracle Solaris
• SAN
• iSCSI
• DAS
• NAS
• PCIe type NAND
• VxVm
• Linux LVM
• EMC
• Hitachi
• IBM
• HP
• Vmware vSphere
• MS Hypver-V
• RHEV
• Xen Enterprise
• Oracle VM
• Amazon AWS
• Oracle DB
• Oracle RAC
• MS-SQL
• DB2
• SAP Netweaver
• SAP Hana
• MySQL
• Maria DB
• PostgreSQL
• Tibero
• Cubrid
• Weblogic
• Websphere
• Jeus
• jBoss EAP
• jBoss EWS
• Tomcat
• Apache
• IIS
• Notes
• NFS
• CIFS
• Sendmail
• Samba
• Shareplex
• User application
MDRM in a nut shell
32
워크플로우
자동화
복구과정
가시화
리스크 관리
복구시간 단축
휴먼애러 방지
운영/관리 비용절감
복구실패 원천차단
장애예방/ 사전감지