22
AutoMan: Gerência Automática no OurGrid Celso Brennand celso@ourgrid .org

AutoMan: Gerência Automática no OurGrid Celso Brennand [email protected]

Embed Size (px)

Citation preview

Page 1: AutoMan: Gerência Automática no OurGrid Celso Brennand celso@ourgrid.org

AutoMan: Gerência Automática no OurGrid

Celso Brennand

[email protected]

Page 2: AutoMan: Gerência Automática no OurGrid Celso Brennand celso@ourgrid.org

2

Agenda

• Contexto: OurGrid e sua Gerência.

• Desafios de Gerência de Grades.

• Nossa proposta: AutoMan.

• Avaliação.

• Lições Aprendidas.

• Conclusões e Trabalhos Futuros.

Page 3: AutoMan: Gerência Automática no OurGrid Celso Brennand celso@ourgrid.org

3

Contexto: OurGrid

• Grade computacional entre-pares.• Fácil Implantação.• Inexistência de negociação para a entrada

de novos pares.• Recursos ociosos Poder computacional.• Mecanismo de incentivo: Rede de Favores• Não apresenta uma solução para gerência

de seus componentes.

Page 4: AutoMan: Gerência Automática no OurGrid Celso Brennand celso@ourgrid.org

4

OurGrid

MyGrid

Peer

UserAgent

CorePeer

Page 5: AutoMan: Gerência Automática no OurGrid Celso Brennand celso@ourgrid.org

5

Gerência do OurGrid

• Um Administrador Um ou vários sites.

• Checar todas as máquinas e serviços do(s) site(s).

• Reativar máquinas e serviços falhos.

Page 6: AutoMan: Gerência Automática no OurGrid Celso Brennand celso@ourgrid.org

6

Cenário de Gerência: Caso LSD

• Administradores só estão disponíveis em horário de expediente.

• Se a falha ocorrer à noite, feriado ou fim de semana?

Page 7: AutoMan: Gerência Automática no OurGrid Celso Brennand celso@ourgrid.org

7

Desafios da Gerência de Grades

• Demanda grande esforço

• Gerência de grades é muito ampla

• Recursos heterogêneos

• Domínios diferentes

• Escalablidade

• Alta disponibilidade

• Exige-se profissionais especializados para mantê-lo e que estejam sempre disponíveis.

Page 8: AutoMan: Gerência Automática no OurGrid Celso Brennand celso@ourgrid.org

8

Solução Proposta

• Mínimo de intervenção humana.

• Ajudar administradores.

• Tentar prover disponibilidade 24/7.

• Desenvolver uma arquitetura de gerência e monitoração automática que:

Page 9: AutoMan: Gerência Automática no OurGrid Celso Brennand celso@ourgrid.org

9

AutoMan

• Sistema de Monitoração e Gerência.

• Facilitar a gerência do OurGrid.

• Baseado nas atividades comuns de gerência dos administratores.

• Agentes AutoMan– Monitores– Agregador de dados ( Aggregator )– Analisador e atuador ( Leukocyte )

Page 10: AutoMan: Gerência Automática no OurGrid Celso Brennand celso@ourgrid.org

10

Monitores

• Sensores– Serviços ( instrumentação

do código )• UserAgent• CorePeer• Peer

– Máquinas ( Ganglia )• Carga: CPU, memória.• Espaço em disco.

• JMX• Monitoração hierárquica

Page 11: AutoMan: Gerência Automática no OurGrid Celso Brennand celso@ourgrid.org

11

Aggregator

• Armazenamento

• Consulta

• Publish-subscribe

Page 12: AutoMan: Gerência Automática no OurGrid Celso Brennand celso@ourgrid.org

12

Leukocyte

• Diagnosticar ( Detector)– Analiza as métricas

• Resolver ( Effector )– Script – ssh– Reativar um serviço– Limpar /tmp

• Inscreve-se em certas métricas.

Page 13: AutoMan: Gerência Automática no OurGrid Celso Brennand celso@ourgrid.org

13

Arquitetura AutoMan

Interessados inscrevem-se nas

métricas

Monitor percebe o Peer saiu do ar

Envia uma métrica PeerDown para o

AggregatorJM

XPeerDown

Aggregator armazena a métrica

e envia para os interessados

JMXP

eerD

own

JMX

PeerD

own

ssh

Ssh(PeerUp)Leukocyte analiza

(Detector) a métrica recebida e

toma uma ação (Effector)

O Peer está ativo novamente!!!

Monitores

Agregador de dados

Aggregator

Analisador e atuador

Leukocyte

RMI

inte

ress

ado

(Pee

rDow

n)RM

I

interessado

(PeerDow

n)

Page 14: AutoMan: Gerência Automática no OurGrid Celso Brennand celso@ourgrid.org

14

Avaliação Experimental

• Medindo o Overhead do AutoMan

• Indisponibilidade dos serviços OurGrid com e sem o AutoMan

Page 15: AutoMan: Gerência Automática no OurGrid Celso Brennand celso@ourgrid.org

15

Medindo o Overhead do AutoMan

• Ferramenta que captura o tempo de execução de um Job.

• Ambiente controlado.

• OurGrid com e sem a monitoração.

• Método T-Test para verificar se a diferença é significativa.

• Overhead 1,86% em um intervalo de confiança de 95%.

Page 16: AutoMan: Gerência Automática no OurGrid Celso Brennand celso@ourgrid.org

16

Indisponibilidade dos serviços OurGrid com e sem o AutoMan

• Entidades avaliadas com e sem AutoMan: – Peer, Worker e CorePeer.

• Indisponibilidade: – Contornável: falhas do serviço.– Inevitável: máquina é desligada ou está em

um SO que o serviço não está instalado.

• Ferramenta que coleta os intervalos de indisponibilidade a partir dos logs do OurGrid e do Nagios.

Page 17: AutoMan: Gerência Automática no OurGrid Celso Brennand celso@ourgrid.org

17

Indisponibilidade dos serviços OurGrid com e sem o AutoMan

Entidade Indisponibilidade Média

Sem AutoMan( unidade de tempo)

Indisponibilidade Média

Com AutoMan( unidade de tempo)

Worker 6.198 s

~2 horas

600 s =

10 min

Peer 29.237 s

~8 horas

0 s

CorePeer 4.719 s

~1h30 min

103 s

~2 min

Page 18: AutoMan: Gerência Automática no OurGrid Celso Brennand celso@ourgrid.org

18

Lições Aprendidas

• Cuidado com arquivos de configuração:– É muito fácil introduzir erros nesses arquivos.

• Não assuma que o software que está sendo monitorado está livre de bugs.

• Gerência Automática não substitui totalmente a gerência manual.

• Mecanismos de recuperação devem ser escolhidos cuidadosamente.

Page 19: AutoMan: Gerência Automática no OurGrid Celso Brennand celso@ourgrid.org

19

Conclusões

• O AutoMan incorpora monitoração e gerência automática ao OurGrid sem introduzir perdas de desempenho consideráveis.

• Aumento da disponibilidade da grade OurGrid.

• Torna o OurGrid ainda mais amigável.• Arquitetura que pode ser reutilizada em

outros sistemas distribuídos.

Page 20: AutoMan: Gerência Automática no OurGrid Celso Brennand celso@ourgrid.org

20

Trabalhos Futuros

• Substituir o uso do SSH como mecanismo de recuperação para mecanismos como CDDLM ou SmartFrog.

• Substituir mecanismo de troca de menssagens JMX (RMI) para um orientado a arquitetura, JIC.

• Separar completamente o código de gerência (POA).

Page 21: AutoMan: Gerência Automática no OurGrid Celso Brennand celso@ourgrid.org

21

Projeto OurGrid UFCG/HP

Celso Brennand

[email protected]

Obrigado!!!

Projeto OurGrid LSD/UFCG/HP

www.ourgrid.org

Page 22: AutoMan: Gerência Automática no OurGrid Celso Brennand celso@ourgrid.org

22

AutoMan: Gerência Automática no OurGrid

Celso Brennand

Marco Spohn

Alvaro Coelho

Ayla Dantas

Francisco Brasileiro

Gustavo Pereira

David Candeia

Guilherme Germoglio

Flavio Santos