Upload
hoangtram
View
228
Download
2
Embed Size (px)
Citation preview
High Availability Solution
MCCS v3.1(Mantech Continuous Cluster Server)( )
주식회사 맨텍솔루션사업부
TEL : 02‐575‐7790i h // h k
© Copyright 2008 Man Technology Inc. All rights reserved. 1
Site : http://www.mantech.co.kr
목 차
• 가용성 확보의 필요성• 가용성 확보의 필요성
• MCCS 개요 및 구성
• MCCS 상세기능• MCCS 상세기능
• MCCS GUI 소개
• 시스템 요구사항시스템 요구사항
• 구축사례
© Copyright 2008 Man Technology Inc. All rights reserved. 2
가용성 확보의 필요성가용성 확보의 필요성
© Copyright 2008 Man Technology Inc. All rights reserved. 3
산업별 IT 장애로 인한 예상 손실액
시간당 다운타임 비용시간당 다운타임 비용
소매 중개업 $6,450,000
PoS(Point of Sale) $3 600 000PoS(Point-of-Sale) $3,600,000
에너지 $2,817,846
신용 카드 매출 승인 $2 600 000신용 카드 매출 승인 $2,600,000
통신 $2,066,245
콜 센터 $1,620,000콜 센터 $ , ,
제조 $1,610,645
금융기관 $1,495,134 다운타임으로 인한출IT(정보 기술) $1,344,461
보험 $1,202,444
매출손실 및기업 이미지 실추
© Copyright 2008 Man Technology Inc. All rights reserved. 4
소매 $1,107,274
IT서비스 중단의 주된 요인
논리적 운영 중단 물리적 운영 중단 사이트 운영 중단논리적 운영 중단
= 80%물리적 운영 중단
= 12%UNIX
사이트 운영 중단
= 8%UNIXLinuxSolaris
R2R1
SQL ServerR2R1
테스트 및 유지 보수
바이러스CPU 장애
디스크 장애
토네이도
허리케인
데이터 손상 스토리지 시스템 장애
HBA
NIC
지진
전쟁
정전
© Copyright 2008 Man Technology Inc. All rights reserved. 5
NIC
Software
정전
테러
IT서비스 고가용 확보를 위한 요구사항
네트워크 서버 데이터
MCCS
애플리케이션
MCCS MCCS MCCSDR
MCCS
네트워크 자원모니터링
네트워크 하트비트(Heartbeat)를
공유스토리지
별도의 외장공유
애플리케이션의가동 상태 및 응모니터링
가상 IP 및 호스트이름 관리
WAN 및 LAN
트(Heartbeat)를통해 시스템플랫폼과 운영체제의 가동 상태
별도의 외장공유스토리지 없이이중화 구성
데이터 정합성
가동 상태 및 응답 능력모니터링
장애 감지 시,WAN 및 LAN 환경에서 사용자액세스
모니터링
LAN 및 WAN환경에서의 하트비트
데이터 정합성보장 기술을 통해데이터 보호 및서비스 재가동
장애 감지 시, 애플리케이션 및해당 자원의신속 한 자동
© Copyright 2008 Man Technology Inc. All rights reserved. 6
를 통한 감시서비스 재가동
페일오버
MCCS 개요 및 구성MCCS 개요 및 구성
© Copyright 2008 Man Technology Inc. All rights reserved. 7
MCCS 개요 및 구성
서버 네트워크 응용프로그램 Service Network• 서버, 네트워크, 응용프로그램, 디스크 I/O등의 주요 IT자원들의 장애를 감지하고 다른 가용한 서버로의 전이를 통해 다운
HeartBeat Network
한 서버로의 전이를 통해 다운타임을 최소화해 줍니다.
• 사용자 관점의 직관적인 GUI를
Network
사용자 관점의 직관적인 를통해 감지자원의 설정, 클러스터링 그룹 생성 등의 일련의 구성과정이 마우스 클릭으로 매우성과정이 마우스 클릭으로 매우쉬운 인터페이스를 제공합니다.
• 특정 하드웨어 및 스토리지 환경에 구애 받지 않고 손쉽게 고 Data
Data
경에 구애 받지 않고 손쉽게 고가용 구성이 가능합니다.
Data
© Copyright 2008 Man Technology Inc. All rights reserved. 8
MCCS 의 기능 및 주요특징
•특정 하드웨어의 스펙과 환경이 요구되지 않음•다양한 응용프로그램의 가용성 관리•다양한 종류의 스토리지 지원
범용성범용성
•서비스 레벨의 장애 관리•장애시나리오에 따른 정책기반의 복구•온라인 상 클러스터 구성 변경 제공
가용성가용성온라인 상 클러스터 구성 변경 제공
•자동 장애 알람(EMS)을 통한 빠른 장애 인지
•클러스터 서비스의 이중화•Split brain발생에 대한 지능적 대처
안정성안정성
•GUI를 통한 직관적인 관리 (한글 지원)•마우스 클릭만으로 손쉽게 클러스터링 구성•자동화된 복구를 통한 관리자 개입 최소화•Web base의 통합 클러스터 관제 및 장애접수
운영성운영성
© Copyright 2008 Man Technology Inc. All rights reserved. 9
Web base의 통합 클러스터 관제 및 장애접수
MCCS 서비스 컴포넌트
Cluster Manager : GUI를 통한 통합관리 Toolg
AppAgent
NICAgent
DISKAgent SDK : 각 자원에 대한 가용성 Agentg g g
Availability Manager : 각 자원에 대한 감시 및 복구
Data Protection : 데이터 실시간 보호
© Copyright 2008 Man Technology Inc. All rights reserved. 10
MCCS 구성 방식서버간 실시간 복제 통한 로컬 클러스터
데이터 손실 없이 IP를 통해 데이터 미러링
외부 스토리지 시스템 불필요
공유 스토리지 불필요
Heartbeat
미러링 라인
공유 스토리지를 통한 로컬 클러스터
운영서버
대기서버
가장 저렴한 고가용 환경 제공미러링 라인
SCSI 또는 SAN을 통해 데이터 공유
데이터 용량과 대용량 처리를 필요한 하는 시스템에 적합
Heartbeat
원격 데이터 복제를 수행하는 지리적으로사이트A 사이트 B
운영서버
대기서버외장
어레이
Heartbeat원격 데이터 복제를 수행하는 지리적으로분산된 클러스터
원거리 데이터 복제
사이 재난 시 보외장 외장
Heartbeat
SteelEye DR 또는 RepliStor
© Copyright 2008 Man Technology Inc. All rights reserved. 11
사이트 재난 시 보호원격복제
외장어레이
외장어레이
MCCS 상세 기능MCCS 상세 기능
© Copyright 2008 Man Technology Inc. All rights reserved. 12
장애 처리 과정 - 평상시클라이언트 … 클라이언트 …
Heartbeateth0 eth0 eth0 eth0
Heartbeat
VIP VIP
미러링 라인
데이터실시간
대기서버운영서버 대기서버
외장어레이
운영서버Lock
로컬디스크
로컬디스크
실시간복제
로컬 환경• 미러링 라인을 통한 데이터 실시간 복제
외장 어레이• 외장 어레이는 대기 서버에 Lock이 걸려있고,
• Heartbeat 라인을 통한 네트워크, 어플리케이션, Disk I/O 및 자원에 대한 감지
• 모든 클라이언트들은 가상 IP를 통해 운영서버로 접속
평소에 운영서버에만 Disk I/O 권한 있음• Heartbeat 라인을 통한 네트워크, 어플리
케이션, Disk I/O 및 자원에 대한 감지모든 클라이언트들은 가상 IP를 통해 운영
© Copyright 2008 Man Technology Inc. All rights reserved. 13
서버로 접속 • 모든 클라이언트들은 가상 IP를 통해 운영서버로 접속
장애처리 과정 – 장애 발생 시클라이언트 … 클라이언트 …
Heartbeateth0
VIP
eth0
VIP
eth0
VIP
eth0Heartbeat
VIP가상IP 넘김 가상IP 넘김
미러링 라인
데이터실시간
3
운영서버대기서버실시간복제 대기서버
외장어레이
운영서버Lock
• 네트워크, 디스크 I/O, 어플리케이션에 대한장애감지
• 가상 IP 대기 서버로 넘김
• 네트워크, 디스크 I/O, 어플리케이션에 대한장애감지
• 가상 IP 대기 서버로 넘김가상 IP 대기 서버로 넘김• 장애 발생한 서버의 어플리케이션 내린 후
데이터 역 복제• 대기 중이던 서버의 어플리케이션 재 구동
• 장애 발생한 서버의 어플리케이션 내린 후디스크 Unmount (Lock)
• 대기 중이던 서버의 디스크 Mount 후 어플리케이션 재 구동
© Copyright 2008 Man Technology Inc. All rights reserved. 14
• 서비스 재개케이션 재 구동
• 서비스 재개
네트워크 가용성 관리
① 일시적 연결장애, 네트워크 어뎁터자체 장애, 케이블 장애에 대한 감지
② 특정 경로까지 네트워크 연결이 가능한지 경로 테스트 수행
Heartbeateth0 eth0
한지 경로 테스트 수행③ 연결 불가능 시 로컬노드의 네트워크
장애로 판단, 대기서버로 Failover④ 네트워크의 응답에 대한 timeout과
미러링 라인
④ 네트워크의 응답에 대한 timeout과응답 test 횟수 지정
⑤ Heartbeat 네트워크 장애 시 서비스네트워크가 Heartbeat 수행
대기서버운영서버로컬
디스크로컬
디스크
2
네트워크가 Heartbeat 수행
© Copyright 2008 Man Technology Inc. All rights reserved. 15
응용프로그램 가용성 관리
① 응용 프로그램의 프로세스 구동유무와 응답에 대한 감시 제공3
② 장애 발생 시 사용자가 정한 횟수만큼 로컬에서 재 시작 수행
③ 지정횟수 초과 시 장애로 판단
Heartbeateth0 eth0
③ 지정횟수 초과 시 장애로 판단대기 서버로 Failover미러링 라인
12
대기서버운영서버로컬
디스크로컬
디스크
SQL Server
© Copyright 2008 Man Technology Inc. All rights reserved. 16
이외 사용자 개발 어플리케이션에 대한 Customizing 제공
디스크 가용성 관리
Heartbeateth0 eth0
Heartbeateth0 eth0
미러링 라인
대기서버운영서버로컬
디스크로컬
디스크 대기서버운영서버외장
어레이
Lock데이터실시간복제
① 디스크 및 파일 시스템에 대한 접근 가능성 감시② Local Disk 사용자의 경우 실시간 복제 기능을 통한 데이터 이중화 제공③ I/O path 장애 시 대기서버로 자동 Failover 제공
© Copyright 2008 Man Technology Inc. All rights reserved. 17
p④ SAN, DAS, NAS, iSCSI, Multi path 환경 지원
그룹 Failover
① 두 가지 이상의 응용프로그램이구동될 경우 서비스 그룹별
Heartbeateth0 eth0
Failover 제공② 예를 들어 아파치와 사이베이스
서비스 운영도중 사이베이스와미러링 라인
서비스 운영도중 사이베이스와관련된 서비스 자원 장애 발생 시사이베이스 만 Failover 수행
③ 서비스 가용한 그룹은 F il 하로컬디스크
로컬디스크
③ 서비스 가용한 그룹은 Failover하지 않음
© Copyright 2008 Man Technology Inc. All rights reserved. 18
Split Brain 방지
① Split Brain이란 Cluster간 네트워크의단절로 인해 서로 상대방의 상태를알 수 없는 상태를 의미함
Default gateway
Heartbeateth0
알 수 없는 상태를 의미함② Split Brain발생 시 서로 Active가 되
려고 경합을 벌이는 과정에서 IP 충돌 및 File system crash가 발생할 수
eth0
? 응답테스트
돌 및 File system crash가 발생할 수있음
③ Split Brain상황에서 MCCS는 외부 네트워크로 응답 테스트를 수행
로컬디스크
로컬디스크
트워크로 응답 테스트를 수행④ 응답을 받지 못한 서버는 자동으로
서비스를 중지하고 응답을 받은 서버쪽에서 서비스 온라인 수행쪽에서 서비스 온라인 수행
⑤ 양쪽 서버 모두 응답이 없을 시 현 상태 유지하고 장애 메시지를 관리자에게 전송
© Copyright 2008 Man Technology Inc. All rights reserved. 19
게 전송
실시간 복제 제공
실시간 데이터 백업 수행• 실시간 데이터 백업 수행- Synchronous, Asynchronous 모드 제공
• Block-Level Volume 복제- 파일 시스템 및 DBMS 종류에 관계없이 복제- 시스템 리소스 사용 최소화시스템 리소스 사용 최소화
• 별도의 추가 솔루션 없이 WAN구간으로의 확장을 통한 DRS(재난복구) 구성 가능
• 자동화된 역 Synch 제공 (이 때 변경분만 역 복제)• 자동화된 역 Synch. 제공 (이 때 변경분만 역 복제)
© Copyright 2008 Man Technology Inc. All rights reserved. 20
실시간 복제 아키텍처
•필터 드라이버는 화일시스템과볼륨 사이에 위치
•변경된 블록 capture후 로컬디스크와 원격지의 디스크로 동시 쓰크와 원격지의 디스크로 동시 쓰기 수행
•복제 네트워크 장애 시 Source쪽만 쓰기 작업 수행
•네트워크 재개 시 변경분만 동기화 수행
•Failover 시 source와 target이
LANWAN
Failover 시 source와 target이자동으로 reserve 됨
© Copyright 2008 Man Technology Inc. All rights reserved. 21
EMS 기능
장애 발생 내역을 고객 및 엔지니어에게 SMS로 통보특정 추가 하드웨어 및 NSM 구축이 필요 없음
Internet
Firewall
고객
2
3Switch
ManagementConsole
L4 Switch
SE이동통신망
UMS Server
3
A
A A
ManagementWeb server
EMS Agent
장애발생
접수 및 분석
이중화 된 서버에서 → 장애 감지 시 고객과 → 담당 엔지니어 장애로그
EMS Agent
EMS Center
Client장애처리
Web server
1
1 2 3
© Copyright 2008 Man Technology Inc. All rights reserved. 22
이중화 된 서버에서EMS센터로 로그수집 → 장애 감지 시 고객과
담당 엔지니어에게SMS 통보
→ 담당 엔지니어웹을 통한 장애분석•내부 시스템 점검•장비이력 Tracking
→장애로분석 및복구지원
EMS-Web기반의 Global Cluster 관리
Event 발생한 싸이트클러스터 구성된 사이트
장애접수장애접수현황 및 이력
© Copyright 2008 Man Technology Inc. All rights reserved. 23
EMS-Web기반의 장애 접수 및 이력조회
핸드폰으로 접수된고객사의 장애 조회고객사의 장애 조회접수 현황
장애접수 현황, 처리중,완료 항목으로 sorting가능
© Copyright 2008 Man Technology Inc. All rights reserved. 24
Web을 통한 상세 장애 로그 viewer
•장애 분석에 필요한로그를 시간대 별로정렬해서 볼 수 있음고객 측에서 메일을•고객 측에서 메일을통해 특정 로그를 전송할 필요가 없음
© Copyright 2008 Man Technology Inc. All rights reserved. 25
MCCS U I t fMCCS User Interface
© Copyright 2008 Man Technology Inc. All rights reserved. 26
MCCS GUI (1) – 메인 화면1. 그룹관리
: 감지할 리소스의 등록, 삭제, 변경2. 상태
: 그룹 및 노드 명 확인 및 운영, 대기등의 상태 확인등의 상태 확인
3. 상세 뷰어: 리소스 등록, 삭제, 변경 또는 상태변경 시 바로 보기 쉽게 표시경 시 바 기 게 시
© Copyright 2008 Man Technology Inc. All rights reserved. 27
MCCS GUI (2)– 그룹 및 의존관계 설정리소스들의 의존관계를 트리 형식으로표현 : 직관적이고 쉽게 파악 가능
Server 1이 운영 중이며 (아이콘 초록색), sampleProc1 sampleVIP sampleProc2sampleProc1, sampleVIP, sampleProc2,sampleNIC의 의존관계 표시
화의존관계 설정 화면먼저 선택하는 리소스가 상위의 부모리소스가 됩니다.
© Copyright 2008 Man Technology Inc. All rights reserved. 28
MCCS GUI (3)– 상태 뷰 (Status View)클러스터, 그룹, 리소스들의 상태를테이블 형태로 보여주는 화면테이블 형태로 보여주는 화면
해당 객체는 트리뷰에서 선택된 항목의상태를 보여줍니다.
“그룹 상태보기” 에서 노드의 현 상태가온라인인지, 오프라인인지 보여주며,
“리소스 상태보기” 에서 각 리소스들의이름, 타입, 상태를 확인할 수 있습니다.
© Copyright 2008 Man Technology Inc. All rights reserved. 29
MCCS GUI (4)– 장애 상황1. 서버 1의 리소스 장애 발생 시, 붉은 색으로 체크되고,
오프라인 체크가 됩니다.
2. 서버 1에서 장애 난 리소스는 Failover를 통해 서버 2에서 온라인 되어 있습니다에서 온라인 되어 있습니다.
장애항목에 체크
서버1의 장애감지후 서버2에로후 서버2에로Failover를하여 정상동작
© Copyright 2008 Man Technology Inc. All rights reserved. 30
시스템 요구사항시스템 요구사항
© Copyright 2008 Man Technology Inc. All rights reserved. 31
시스템 요구사항• Windows 2003 Standard, Enterprise Edition (R2 포함)
• Windows 2008 Standard, Enterprise Edition
• Windows XP Professional Service Pack 3 이상
• Windows Vista Service Pack 1 이상이상
• Pentium 4 2.0Ghz 이상 CPU
• 1GB 이상 메모리
• 최소 200MB 이상의 여유공간최 이상의 여유공간
• 32, 64비트 모두 지원
© Copyright 2008 Man Technology Inc. All rights reserved. 32
• NAS, DAS, SAN, iSCSI 환경 지원
구축사례국민은행 / 국민은행 IBS
현대 자동차
기아자동차/기아자동차 조지아 공장
파스퇴르 연구소파스퇴르 연구소
한국전력
포스코
신세계 이마트 현대백화점신세계 이마트, 현대백화점
청호컴넷
부산은행, 우리은행
호텔 PJ
성남시청
인천국제공항공사인천국제공항공사
인천대학교
아름다운 골프장
Etc
© Copyright 2008 Man Technology Inc. All rights reserved. 33
Etc
High Availability Solution
감 사 합 니 다.감 사 합 니 다.
© Copyright 2008 Man Technology Inc. All rights reserved. 34