21
Active Active 데이터센터

Active active data-center_krdag_sjh_20140902

Embed Size (px)

DESCRIPTION

Active Active 데이터 센터 기술

Citation preview

Page 1: Active active data-center_krdag_sjh_20140902

Active Active 데이터센터

Page 2: Active active data-center_krdag_sjh_20140902

http://sola.tistory.com

목차

1. 재해복구센터란?

2. Active-Active 재해복구센터

3. 실 사례

일부 그림은 구글링 문서, 이미지에서 발췌하였으며 문제 소지 발생 시 바로 알려주시면 반영하겠습니다

Page 3: Active active data-center_krdag_sjh_20140902

http://sola.tistory.com

1. 재해복구센터란?

1.1 사건들

2001년 9.11 테러 2011년 도교 대지진 1918년 스페인 독감

http://ko.wikipedia.org/wiki/스페인_독감 https://mirror.enha.kr/wiki/9.11%20테러 http://mirror.enha.kr/wiki/도호쿠%20대지진

Page 4: Active active data-center_krdag_sjh_20140902

http://sola.tistory.com

1. 재해복구센터란?

1.2 재난/재해 개념

재난 : 국민의 생명/신체 및 재산과 국가에 피해

를 주거나 줄 수 있는 것 (태풍 홍수 등 자연현상,

화재 붕괴 등 사고, 통신 교통 등 국가기관 체계의

마비, 전염병 확산 등)

재해 : 재난으로 인하여 발생하는 피해(용어 통일)

Disaster

1.3 IT 환경에서 재해/장애 정의

재해 : 외부로부터 기인하여 예방 및 통제가 불가

능한 사건으로 인해 IT서비스가 중단되거나, 장애

로 인해 예상 복구소요시간이 허용 가능한 범위를

초과하여, 정상적인 업무 수행에 지장을 초래하는

피해

장애 : 통제 불가능한 재해를 제외한 인적 장애,

시스템 장애, 기반구조 장애 등과 같은 통제 가능

한 요인들에 의한 IT서비스의 기능저하, 오류, 고

Page 5: Active active data-center_krdag_sjh_20140902

http://sola.tistory.com

1. 재해복구센터란?

1.4 재해복구센터의 개괄도 1.5 재해복구센터의 거리 정책

Local 1–2 km

Metro < 50km

Regional < 400km

Primary Data Center

Secondary Data Center

DR Site

Global

• 50Km이내 : 백업센터, Active-Active 구성 시 2센터 • 400Km이내 : Regional, A-A-B 구성 시 DR센터 • 건물, 지역, 전염병, 전쟁의 등급별 대처 • 2012년 국내 주요 은행 (센터-DR간)거리 : 평균 33Km

National

WAN

DWDM/ CWDM

Internet Internet

• Active-Active 혹은 Active/Standby 센터 구성도 • 네트워크 영역 • 서버/DB/애플리케이션 영역 • 스토리지 영역

네트워크

서버/DB/App

스토리지

네트워크

서버/DB/App

스토리지

Page 6: Active active data-center_krdag_sjh_20140902

http://sola.tistory.com

1. 재해복구센터란?

1.6 RTO, RPO, RCO 용어 이해

• 복구목표시간(RTO : Recovery Time Objective) :재해로 인하여 서비스가 중단되었을 때, 서비스를 복구하는데까지 걸리는 최대 허용시간

• 복구목표시점(RPO : Recovery Point Objective) : 재해로 인하여 중단된 서비스를 복귀하였을 때, 유실을 감내할 수 있는 데이터의 손실 허용시점

• 네트워크복구수준(RCO : Recovery Communication Objective) : 네트워크 복구 목표 시간

마지막백업시점

데이터유실

http://theplmingspace.tistory.com/712

Page 7: Active active data-center_krdag_sjh_20140902

http://sola.tistory.com

1. 재해복구센터란?

1.7 재해복구 수준별 유형 비교

구분 내용 장점 단점 복구목표

시간(RTO)

Mirror

주요 데이터 및 시스템과 어플리케이션 환경을 실시간으로 복제하는 형태

Active-Active 상태로 실시간 동시 서비스 제공

재해시 즉시적으로 업무를 대행할 수 있음

재해발생 시점까지 데이터 유실없이 복구 가능

구축비용이 많이 소요

데이터 업데이트가 많은 경우 과부하 초래

즉시

Hot

주 전산센터 규모의 전산환경을 원격지에 유지(Active-Standby)

재해발생시 원장 및 관련 데이터를 복구하는 형태

Mirror Site 방식보다는 비용이 저렴

데이터의 최신성 유지

재해발생시 복구 작업시간이 필요

4시간이내

Warm

주요 업무처리를 위한 일부장비를 구비하고, 재해발생시 주요 업무만 복구하여 운영하는 형태

데이터는 주기적(약 수시간~1일)으로 백업

구축비용이 비교적 저렴

데이터 다소 손실 발생

복구소요시간이 비교적 긺

수일~수주

Cold

평상시 주기적으로 주요 데이터를 테이프/디스크에 백업, 원격지 내화금고(대비 제작 금고)에 보관하거나 Network을 이용 원격지 VTL(Virtual Tape Library)에 저장

재해발생시 시스템을 도입/설치/운영 시스템을 운영하는 형태

주센터의 데이터는 주기적(수일~수주)으로 원격지에 백업

비용이 최소

데이터 손실 방생

복구에 많은 시간 필요

복구 신뢰성이 낮음

수주~수개월

Page 8: Active active data-center_krdag_sjh_20140902

http://sola.tistory.com

1. 재해복구센터란?

1.8 재해복구 이중화/복제 고려 (모든 구간)

Site Load Balancer

Web Server

Clusters

Application Server

Clusters

Database Server

Clusters

Geographic Load Balancer

Geographic Load Balancer

Disk

PIT Image, Tape B/U

Transaction Replication

DB Replication

Remote Copy

Secondary Site

Production Site

Site Load Balancer

Web Server

Clusters

Application Server

Clusters

Database Server

Clusters

Page 9: Active active data-center_krdag_sjh_20140902

http://sola.tistory.com

2. Active-Active 재해복구센터

2.1 실질적 DR 필요, Active-Active 데이터센터 필요

http://www.ddaily.co.kr/news/article.html?no=121064

4월 발생한 삼성SDS 과천 데이터센터 장애 이후 단순히 백업 시스템을 갖추는 것이 아닌 복구 이후에도 바로 서비스가 가능한 "지속적 가용성(Continuous Availability)"에 초점을 두고 있다. 때문에 최근 DR시스템 구축은 실시간 동기화를 통한 "Active-Active" 구성으로 전화되고 있는 것이 업계의 설명이다.

금융전산보안 강화 종합 대책(2013.07) - 금융위원회 재해복구센터 운영 등 복구체계 강화 1) 재해복구센터 전환시점 매뉴얼화 2) 장애유형별 긴급복구절차 수립 3) 장애시 복구목표시간 단축 노력 등 신속한 대응체계 구축 (현재 3시간 → 2시간)으로 단축을 일정기간(3년) 권고 후 의무화 검토 인터넷뱅킹 30분 장애시 무조건 재해복구센터로 전환

금융감독원(2006) 영업연속성 계획 모범규준 마련 이후 전자금융감독규정에서 활용 제 23조 내용 “장애, 재해, 파업, 테러 등 긴급한 상황이 발생하더라도 업무가 중단되지 않도록 업무지속성 확보방안을 수립하여야 함“

금융회사 민원발생평가 등급 발생 - 금융감독원 금융감독원은 금융회사의 자율적인 민원예방노력을 유도하고 금융소비자의 권익 증진과 소비자주권의 실현을 위해 2006년 부터 매년 금융회사 민원발생평가를 실시해 왔음. 민원건수/민원해결 노력과 영업규모를 감안하여 1등급부터 5등급으로 평가

<2013년 등급 평가 결과>

Page 10: Active active data-center_krdag_sjh_20140902

http://sola.tistory.com

2. Active-Active 재해복구센터

2.2 Active-Active 단기 모델 부터 최종 모델 제안 (안정성, 정합성 고려) [ 1차 ] 일부 업무 A-A 시스템 구축 [ 2차 ] 전체 업무 A-A 시스템 구축 [ 최종 ] A-A-B 시스템 구축

업무영향평가(BIA)에 의해 핵심 업무에 대하여 Active-Active 시스템 구축

주센터 DR센터

핵심업무1 Active

핵심업무1 Active

핵심업무N Active

핵심업무N Active

일반업무1 Active

일반업무1 Backup

일반업무N Active

일반업무N Backup

···

···

···

···

2개의 주센터에서 모든 업무에 대하여 Active-Active 시스템 구축

주센터1 주센터2

핵심업무1 Active

핵심업무1 Active

핵심업무N Active

핵심업무N Active

일반업무1 Active

일반업무1 Active

일반업무N Active

일반업무N Active

···

···

···

···

주센터1,2 이외에 DR(백업)센터 구축하여 Active-Active-Backup 시스템 운영

주센터1 주센터2

업무1 Active

업무1 Active

업무N Active

업무N Active

··· ···

DR센터

업무1 Backup

업무N Backup

실시간 연동

연동

실시간 연동

실시간 연동

실시간 연동

재해시 전환

Page 11: Active active data-center_krdag_sjh_20140902

http://sola.tistory.com

2. Active-Active 재해복구센터

2.3 [1안 모델] – 주센터 or DR센터 재해 발생 시 “무중단 or 최소중단” 서비스 지속

주센터 DR센터

GSLB, DNS

스토리지1 Active

ISP1 ISP2

라우터

DMZ 백본

SAN 스위치

스토리지2 Active

방화벽(NAT)

핵심업무1 WEB서버A

핵심업무2 WEB서버B

핵심업무1 DB 서버A

핵심업무2 DB 서버B

GSLB, DNS

스토리지1 Active

라우터

DMZ 백본

SAN 스위치

스토리지2 Active

방화벽(NAT)

핵심업무1 WEB서버A

핵심업무2 WEB서버A

핵심업무1 DB 서버B

핵심업무2 DB 서버A

네트워크영역

1. 네트워크 영역

• 트래픽 인입 시 사이트 선택 : GSLB(권장), HTTP ReDirect, RHI(BGP)

• 최적 라우팅, 세션 기반(ex. 웹 인증)의 애플리케이션 을 위한 라우팅 정책 설정 (Split Brain, 지연 줄임) : 만약 주센터로 인입된 트래픽은 주센터의 WAS서버, DB서버, 스토리지를 사용

2. 서버 영역(애플리케이션)

• 서버의 지역 클러스터링(Geo Cluster) : WEB/WAS 및 서버가 Active-Active 동작 지원

• A-A 환경을 지원하지 않는 서버의 경우 Active(주센터)-Backup(BR센터)로 구성

• 사이트별 서버의 IP 대역은 다름

3. DB 영역

• 타 영역에 비해 Active-Active 기술 적용이 어려움, Active-Standby 구성

• DB 실시간 동기화/복제/보호 기술 필요

4. 전송 영역

• 클러스터링 및 동기화, 복제 동작에 필요

• 센터 간 거리 고려(지연 발생)

• 전송기법 고려(DWDM/SONET/FCIP 등)

5. 스토리지 영역

• 스토리지 복제 방법 : 동기, 비동기

• 스토리지 정합성 및 보호 필요

• 스토리지 영역 확장(로컬, 리모트간)

D W D M

D W D M

스토리지영역

서버/DB영역 (애플리케이션)

Page 12: Active active data-center_krdag_sjh_20140902

http://sola.tistory.com

2. Active-Active 재해복구센터

2.4 [2안 모델] – 가상화 기술, 이동성 지원 가능, “무중단 or 최소중단” 서비스 지속

주센터 DR센터

DNS, GSS/GTM

스토리지1 Active

ISP1 ISP2

라우터

L4(ACE/LTM)

SAN 스위치

스토리지2 Active

방화벽(NAT)

DNS, GSS/GTM

스토리지1 Active

라우터

L4(ACE/LTM)

SAN 스위치

스토리지2 Active

방화벽(NAT)

1. 네트워크 영역

• 트래픽 인입 시 사이트 선택 : v센터(VMware) + “GSS/ACE(Cisco) or GTM/LTM(F5)” 를 통한 가상머신 vMotion 이동성에 따른 인입 라우팅 지원

2. 서버 영역(애플리케이션) – 가상화 기반

• 서버의 지역 클러스터링(Geo Cluster) : WEB/WAS 및 서버가 Active-Active 동작 지원

• Layer 2 Networking 확장 : 원격지 간 동일 네트워크 환경 제공, VxLAN, OTV

• 서버 가상화 환경 구축

• 가상 머신의 운영 중 주센터와 DR센터 이동성 지원(Live Migration)

3. DB 영역 – 가상화 기반

• 타 영역에 비해 Active-Active 기술 적용이 어려움, Active-Standby 구성

• DB 실시간 동기화/복제/보호 기술 필요

4. 전송 영역

• 클러스터링 및 동기화, 복제 동작에 필요

• 센터 간 거리 고려(지연 발생)

• 전송기법 고려(DWDM/SONET/FCIP 등)

5. 스토리지 영역

• 스토리지 복제 방법 : 동기, 비동기

• 스토리지 정합성 및 보호 필요

• 스토리지 영역 확장(로컬, 리모트간)

D W D M

D W D M

스토리지영역

서버/DB영역 (애플리케이션)

가상화 기반 이동성 지원

네트워크영역 (L2 확장)

물리서버

하이퍼바이저

업무1

서버

업무2

서버

V

센터

물리서버

하이퍼바이저

업무3

서버

V

센터

가상

머신

Page 13: Active active data-center_krdag_sjh_20140902

http://sola.tistory.com

2. Active-Active 재해복구센터

2.5 고객이 내부의 서비스 사용 시(인입 시) 센터를 선택(Site Selection) [ 1안 - GSLB ] [ 2안 – v센터 + GSS/ACE or GTM/LTM ]

사용자는 자신의 로컬DNS서버에 DNS 질의가 주센터 GSLB로 들어 올 경우, 1.1.1.1과 2.2.2.2 를 알고 있지만, 정책(거리, 서버 부하 등)에 의해 1개 IP를 선택하여 응답을 통해 사용자는 웹서버에 접근하게 됨. 거리 및 다양한 정책에 의해서 Active-Active 형태로 서비스 사용이 가능. 히지만, 센터별 서버 장비가 각각 필요함.

사용자로컬 DNS서버 주센터

DNS서버 주센터 GSLB

핵심업무1 웹서버

공유스토리지

사용자 ⑤

1.1.1.1

사용자가 erp.test.com 접근 시

사용자로컬 DNS서버 DR센터

DNS서버 DR센터 GSLB

핵심업무1 웹서버

사용자

2.2.2.2

주센터

DR센터

Page 14: Active active data-center_krdag_sjh_20140902

http://sola.tistory.com

2. Active-Active 재해복구센터

2.6 서버 영역의 클러스터링 기법과 vMotion 소개

1) Active/Backup 구성 • Active서버만 처리 • Backup서버는 Active서버 Fail 시 동작 • 서버간 Heartbeat체크 / 스토리지 접근

2) Active/Active 구성 • 2개 서버가 부하 분산으로 요청 처리 • 서버간 Heartbeat체크 / 스토리지 접근

구성요소 클러스터 구성 요소 설명

애플리케이션 • 클러스터는 고가용성(HA, High Availability) 제공

• 예 : MS Exchange, SQL, Oracle database

운영체제(OS) • 클러스터 동작 시 동일 하드웨어에서 OS 동작

클러스터

소프트웨어

• HA 제공 소프트웨어

• 예 : MS MSCS, EMC AutoStart, Veritas Cluster

Server, HP TruCluster & OpenVMS, VMware, Oracle

스토리지1

SAN 스위치

스토리지2

서버1 서버2

[ 기본 클러스터 디자인 ]

스토리지1

SAN스위치

서버1

[ 리모트 클러스터 디자인 ]

스토리지2

SAN스위치

서버2

ISP1 ISP2 ISP1

1) 고려사항 • 클러스터 멤버간 같은 서브넷 필요 시 구

축 불가능 : L2 Network 확장 필요 • 클러스터 멤버간 다른 네트워크에서 동작

하는 기법 필요(MS MSCS, Veritas VCS) • 서버간 Heatrbeat체크 / 스토리지 접근

[ 서버 가상화 환경에서 트래픽 인입 ]

ISP1

물리서버

하이퍼바이저

v

센터

ISP2

스토리지1 스토리지2

사용자

물리서버

하이퍼바이저

v

센터 Layer 2 Network 확장 기술

WEB

서버

구성요소 고려사항

L2 Network

확장 기술

• 주센터 물리서버에서 동작하는 가상머신이

DR센터로 이동 시(vMotion, ex, 장애 시, 물리 서버

계획 정지 시, Workload Mobility) 동일 IP 유지 필요

• 동일 네트워크에서 동작하는 클러스터 지원에 필요

• Loop 방지 기술 필요

• 내부 서버가 외부 통신 시 최적화 (FHRP 필터링)

스토리지 • 서버가 주센터에서 DR센터로 이동 시 에도 지속적인

스토리지 연결 유지 필요

vMotion • Roind-trip latency < 10ms = 0.01초

• vMotion 시 대역폭은 622M~1Gbps 정도 필요

Page 15: Active active data-center_krdag_sjh_20140902

http://sola.tistory.com

2. Active-Active 재해복구센터

2.7 H/W복제방식(권장), DB동작은 안정성/정합성 문제로 Active-Backup(권장)

방식 내용 비용 특징

H/W복제 • 물리적인 원본 디스크를 원거리 지역의 복구용 디스크로 복제하는 방식 • High • 안정성과 고성능이 특징

S/W복제 OS • 운영체제 수준에서 데이터 전송 솔루션을 이용한 복제 방식 • Medium • 안정성과 효율성이 H/W에 비해 떨어짐

DBMS • DBMS(데이터베이스 관리 시스템)를 이용한 복제 방식 • Medium • 안정성과 효율성이 H/W에 비해 떨어짐

물리디스크

데이터블럭

서버

물리디스크

데이터블럭

서버

[ H/W복제 방식 ] [ SW복제 – DBMS 수준 ] [ SW복제 – OS 수준 ]

복제 물리디스크

데이터블럭

서버

물리디스크

데이터블럭

서버

복제

물리디스크

데이터블럭

서버

물리디스크

데이터블럭

서버 복제

[ 실제 DB 서버 구현 – Oracle DB] [ DB 복제 고려 사항 / DB 동작 모델 ]

구성요소 고려사항

복제

• [DB1, R/W]-----[DBs, R] : Write는 Master DB만

하며, Read는 전체 DB 에서 동작

• [DB1, R/W]-----[DBs, R/W] : Active-Active DB 사용

방식, 중복 Write를 방지 기법(Partitioning) 사용

• DB를 Active-Backup 으로 사용 • 센터1과 센터2간 A-B를 Cross 사용

• DB를 Active-Active 으로 사용 • 센터1과 센터2간 A-A를 Cross 사용

Page 16: Active active data-center_krdag_sjh_20140902

http://sola.tistory.com

2. Active-Active 재해복구센터

2.8 Active-Active 구현 시 10ms 지연 이내 or 50Km 이내(권장), WDM(권장)

[ 전송 기법 비교 ] [ 동기화 방식 데이터 복제 – 전송 구간 지연 ]

[ 전송 장비 기준 구성도 ]

로컬스토리지 리모트스토리지

빛 속도(30만Km/s), 광Fibre(20만Km/s = 200Km per 1micro 초) 동기 복제 : SCSI(FC)는 한번 동작이 메시지를 2차례 주고 받음 즉 50Km 거리에서 SCSI 한번 동작 시 1ms 지연(전송구간) 발생

50Km = 1ms 지연

동기화(Sync) 복제 방법 사용 시 전송 기법은 Dark Fiber 혹은 CWDM/DWDM 을 권장(단, 고비용)

스토리지1

SAN스위치

라우터

스토리지2

SAN스위치

라우터

ISP1 ISP2

가상머신 가상머신

40~50Km 거리, 4G FC or 10G 등 전

송 장 비

전 송 장 비

Active-Active 데이터 센터를 위해서는 전송장비에 전송기법은 Dark Fiber, xWDM(CWDM, DWDM)으로 구현

Active-Active 형태(실시간 동기화, 복제)는 센터간 거리를 보통 50Km 이내를 권장함. 이유는 거리에 따른 지연 시간이 늘어나기 때문임

대역폭(4G, 1G 등)은 센터간 소요 대역폭을 고려하여 산정

Page 17: Active active data-center_krdag_sjh_20140902

http://sola.tistory.com

2. Active-Active 재해복구센터

2.9 Active-Active 구현 시 동기 방식(권장), 각 센터가 Read/Write 가능

[ 스토리지 데이터 복제 방식 – 비동기 방식 ] [ 스토리지 데이터 복제 방식 – 동기 방식 ]

[ 스토리지 장비 기준 구성도 ] [ 실제 장비 구현 – EMC 스토리지]

실시간 동기 방식(Synchronous Data replication) : 서버가 로컬 스토리지에 저장 시 리모트 스토리지에도 저장 후 응답을 받고 나서 서버에게 최종 응답을 전달 – Zero RPO, 거리 제약(50Km~300Km MAX)

스토리지1

SAN스위치

서버

스토리지2

SAN스위치

서버

비동기 방식(Asynchronous Data replication) : 서버가 로컬 스토리지에 저장 이후 리모트 스토리지에 저장 – 거리 제약 없음

스토리지1

SAN스위치

서버

스토리지2

SAN스위치

서버

② ③

Active-Active Storage 방식 : 동기방식으로 스토리지 1,2가 하나의 저장공간(Volume)으로 동작하며, 웹서버1(Active), 웹서버2(Active)가 각각 로컬 스토리지에 Write/Read 가 가능 – Write 경우 보호 기술 적용(동시 저장 시)

스토리지1

SAN스위치

웹서버1

스토리지2

SAN스위치

웹서버2

동기방식

Page 18: Active active data-center_krdag_sjh_20140902

http://sola.tistory.com

3. 실 사례 - 정부통합전산센터

3.1 핵심 업무는 실시간 동기화(A-A), 그외 업무는 Active-Standby 로 운영

Page 19: Active active data-center_krdag_sjh_20140902

http://sola.tistory.com

3. 실 사례 – 시스코 글로벌 데이터 센터

3.2 A-A-B 모델, A-A(Metro, 50~100km 이내), DR(200km 이상 떨어진 곳)

Page 20: Active active data-center_krdag_sjh_20140902

http://sola.tistory.com

3. 실 사례 – 시스코 글로벌 데이터 센터

Page 21: Active active data-center_krdag_sjh_20140902