View
33
Download
0
Category
Preview:
DESCRIPTION
Emerson Luís dos Santos Fabiano Mitsuo Hasegawa Márcio Roberto Starke. MultiStage Um Protocolo para Resolução de Conflitos em Negociação Multiagente. Introdução. IAD Sistemas Distribuídos IA Resolução Distribuída de Problemas Sistemas Multiagentes Melhor utilização de recursos - PowerPoint PPT Presentation
Citation preview
MultiStage
Um Protocolo para Resolução de Conflitos em Negociação
Multiagente
Emerson Luís dos Santos
Fabiano Mitsuo Hasegawa
Márcio Roberto Starke
Introdução
● IAD● Sistemas Distribuídos IA
● Resolução Distribuída de Problemas
● Sistemas Multiagentes
● Melhor utilização de recursos
● Visão local das partes de um problema
● Diversos problemas reais são distribuídos
● Sistemas Multiagentes● Alto nível de autonomia
● Flexibilidade e Escalabilidade
Sistemas Multiagentes
Ambiente Recursos
Influências
● Unidade básica: Agente Simples
– Monolítico– Modular
Composto
Sistemas Multiagentes
Organizações comunidade vivendo em prol dos mesmos
interesses
Sociedade Conjunto de organizações que compõem um
sistema
Regras
Homogêneas/Heterogêneas
Características de uma Sociedade
Colaboração
Cooperação
Competição
Evolução Adaptação
Aprendizado
Ciclo de vida
Migração
Comportamentos Sócio-naturais
Composição de um Agente
Reativo
Mapeamento estado/ação
Percepção
Baixo nível de autonomia
Composição de um Agente
Cognitivo Self-Model Acquaintance-Model Comunicação Coordenação Planejamento Aprendizado Negociação Competências (Controle de recursos) Raciocínio Emoção Objetivos Percepção Alto nível de autonomia
Tipos de Coordenação
Padronização
Regras
Arquitetura
Supervisão
Hierarquia
Ajuste Mútuo
Consenso
Negociação
Tipos que se poderia identificar no mundo real
Contrato
Acordo
Troca
Oferta
Híbridos
Problemas
Conflitos por escassez de recursos
Causas externas (Falhas)
Protocolo Contract-Net
Recebimento de tarefa
Decomposição da tarefa em sub-tarefas *
Anúncio de sub-tarefa
Ofertas dos candidatos
Premiação da melhor oferta
Confirmação da oferta
Protocolo Contract-Net
Delegação da sub-tarefa ao contratado
Execução ou repasse da sub-tarefa
Devolução do Sub-resultado ao contratante
Recomposição dos sub-resultados
O Protocolo Multistage
Generalização do protocolo contract-net
• Primitivas adicionais• Restabelecimento de contrato
Comunicação e recursos limitados
A satisfação de um objetivo pode impedir a
satisfação de outro ou ser inalcançável por si
Capacidades preemptivas na alocação de
recursos para conexões de diferentes
prioridades
O Protocolo Multistage
Através da troca de informações, os agentes tratam os conflitos de recursos modificando seu comportamento
Decisões sobre o impacto de escolhas locais na satisfação de objetivos globais
Informações incompletas ou inválidas
atualizadas dinamicamente
Geração e manutenção de planos
Atividade rápida e baixo overhead em um
ambiente dinâmico
Domínio das Telecomunicações
Recursos limitados Cada agente detém o controle de uma área
e seus respectivos recursos interconectados por links de dados
Agentes trocam informações através de links de comunicação exclusivos com baixa largura de banda
A conexão entre dois recursos exige a reserva de banda nos links pertencentes ao caminho
Uma falha em qualquer equipamento de comunicação pode causar a instanciação de vários objetivos que devem ser satisfeitos em tempo real
Domínio das Telecomunicações
Conexões
Instanciadas independentemente e ao mesmo tempo em cada um dos agentes das extremidades
Cada agente sabe quais são os agentes da extremidade de cada conexão
Constituição• Recurso Inicial• Recurso Final• Identificador• Prioridade
Exemplo• p-1:s-3:5:1 (AgenteI-RecursoI:AgenteF-RecursoF:ID:Prioridade)
Geração de Planos
A instanciação de um objetivo dispara um processo de geração de planos
A escolha do melhor plano é baseada em informações extremamente locais
Planos sobressalentes são armazenados para eventuais necessidades posterior com identificadores apropriados
Um plano consiste de fragmentos locais de um caminho que são armazenados localmente nos respectivos agentes
Algoritmo exaustivo de busca em profundidade
Satisfação de Objetivos
Nem todos os agentes necessariamente têm conhecimento da satisfação de um objetivo
Agentes conhecem apenas seus fragmentos de plano e objetivos locais
Conflitos são propagados através de mensagens
Conflitos surgem por escassez de recursos locais ou por negação de serviços
Agentes armazenam informações referentes a conflitos
Visão Geral da Negociação
Instanciação do objetivo nas extremidades Geração de planos Requisição de estabelecimento de conexão
aos vizinhos apropriados para satisfação do maior número de objetivos possíveis
Análise de requisições recebidas• Pedidos de estabelecimento de conexão• Confirmações de estabelecimento de conexão• Negação de pedidos e informação dos devidos
conflitos Atualização de informações internas Reavaliação dos objetivos locais e novas
requisições ou confirmações
Particularidades de Nomenclatura
Primary Goal• Objetivo que possui ao menos uma das
extremidades no agente Secondary Goal
• Objetivo que não possui extremidade no agente
Task Announcement¹• Pedido de complementação de plano
Response¹• Resposta a um task announcement
– Bid: resposta positiva– Reject: resposta negativa
¹ Fase de Geração de Planos
Particularidades de Nomenclatura
Tentative Commitment• Pedido de estabelecimento de conexão com
reserva de recursos locais
Conflict• Conflito local ao transmissor
Cancellation• Conflito não-local ao transmissor
Commitment• Confirmação de estabelecimento de conexão
Feasibility Tree• Base de conhecimento mantida no agente
Complexidade
Os membros da organização não possuem recursos suficientes para manterem visões globais consistentes
Devido ao dinamismo do mundo, o conjunto
de soluções ótimo em um determinado
instante pode não ser mais o conjunto ótimo
do instante seguinte
Limitações
Novos objetivos primários só são considerados se não houver nenhum outro objetivo primário sendo resolvido
Não converge para otimização
Planos são subutilizados
Não é claro quando se descartar planos
Não há adaptação
Aprendizado por Reforço
Domínios em que o aprendizado deve ser realizado em tempo real
Adaptação rápida mesmo com poucos exemplos
A cada ação tomada, recebe-se um prêmio positivo/negativo correspondente aos efeitos dessa ação no mundo
Maximização da soma dos prêmios recebidos
Aprendizado de uma política de atuação
Q-Learning
Motivação
Estimativas de custo de planos podem proporcionar melhoria na performance global
Melhores práticas ao longo das iterações
Potencial Memória para Capitalização de
Conhecimento
TPOT-RL (Team-Partitioned, Opaque-Transition Reinforcement Learning)
Aprender uma função que associa pares estado-ação a prêmios esperados
Os resultados são armazenados em tabelas para a sua posterior utilização
Introduz três principais adaptações ao paradigma de aprendizado por reforço
A função de valor é particionada entre a organização, com cada agente aprendendo apenas para estados em quais ele pode atuar. Todos os agentes são treinados simultaneamente
TPOT-RL (Team-Partitioned, Opaque-Transition Reinforcement Learning)
O espaço de estados do ambiente é agressivamente generalizado, de forma que o agente percebe o ambiente em função de características discretas referentes a estados
Ao invés de se atualizar a tabela de aprendizado
segundo estimativas de prêmio geradas por
simulações, as atualizações são feitas segundo
prêmios recolhidos algum tempo no futuro
Módulo de Aprendizado
Escolha de ação
para cada par (recurso_local_inicial,
recurso_destino_objetivo), há uma tabela com
tantas entradas quantos forem os planos que
tenham sidos gerados durante a fase de geração
de planos
Módulo de Aprendizado
Propagação de prêmio e atualização de tabela
quando uma conexão é estabelecida, o agente
destino envia mensagens aos agentes que fazem
parte do circuito informando-lhes o custo total da
conexão. Quando um agente recebe esta
mensagem, ele decrementa do custo total o valor
de custo acumulado até seu recurso inicial
Módulo de Aprendizado
Geração de planos periodicamente são gerados novos planos para cada
conexão estabelecida; em eventuais falhas, o tempo de restauração será menor
buscas para satisfação de requisições de estabelecimento de conexão só são realizadas numa eventual não existência de planos pré-construídos
na geração de planos, contabiliza-se as estimativas de planos gerados no passado
Planos com estimativas históricas ruins podem ser podados
para cada plano gerado, seu custo associado é utilizado para atualização da tabela de planos
Vantagens do Módulo de Aprendizado
Redução das gerações de planos Planos com estimativas úteis para um determinado
objetivo podem existir a priori
a geração de planos é periódica e pode ser congruente com a carga da rede ou o desejo do administrador
Coerência com o estado global a escolha de um plano para a satisfação de um
objetivo não é executada apenas conforme estimativas de custo local, mas segundo estimativas que refletem a atividade global da rede coletadas como prêmios que são propagados em intervalos periódicos
Vantagens do Módulo de Aprendizado
Redução do tempo de resposta o tempo de restauração e estabelecimento de
conexões é sensivelmente reduzido, uma vez que os planos podem já estar prontos e com estimativas de custo atualizados e consistentes
Desvantagens do Módulo de Aprendizado
Memória
• O número de tabelas mantido em memória segundo esta abordagem é superior ao necessário em [Sto98]
• Na aplicação de Stone, só uma tabela de tamanho | U | x | A | x | M | é mantida em cada agente– U: janela de atividade {baixa, alta}– A: conjuntos de links que partem de um nó– M: número total de nós da rede
• na abordagem proposta, existem | U | x | A | x | O |– U: janela de atividade {baixa, alta}– A: número de planos existentes para cada conexão
estabelecida– O: conjunto de conexões estabelecidas através do agente em
questão
Reflexões sobre a Relevância da Proposta na Gestão do
Conhecimento Qual seria o rendimento de uma empresa
que tivesse que treinar seu funcionário toda vez que ele fosse requerido em uma tarefa?
Pessoas nos diversos cenários do dia-a-dia aprendem a atuar adequadamente tentando executar suas tarefas da forma mais eficaz possível
No mundo real, pessoas possuem aptidões natas (dons)
Reflexões sobre a Relevância da Proposta na Gestão do
Conhecimento Habilidade está diretamente relacionado a
atividade e seu aumento é gradativo A habilidade também pode ser obtida
através da observação, da escuta, da leitura, do estudo, do erro, por analogia, entre outros
A memória é utilizada nos processos de raciocínio desenvolvidos ao longo da vida
Reflexões sobre a Relevância da Proposta na Gestão do
Conhecimento Uma vez que seus integrantes possuem
tamanhas capacidades, as organizações existentes nas sociedade tendem a apresentar comportamentos semelhantes, pois são gerenciadas por seres inteligentes e sua mão-de-obra também é constituída de indivíduos com inteligência
Dentro deste ambiente, pode-se concluir que a sobrevivência é bastante difícil
Paradoxalmente, a sobrevivência está sendo alcançada de forma relativamente satisfatória pelos seres do mundo real
Reflexões sobre a Relevância da Proposta na Gestão do
Conhecimento Em uma sociedade de agentes de software,
as mesmas características e comportamentos são desejáveis
Habilidade
• A única maneira de se conseguir boas práticas é pelo aprendizado, o que implica esforço computacional na manutenção de uma memória e na criação de métodos de inferência que permitam a extração de conhecimento dos fatos observáveis
Reflexões sobre a Relevância da Proposta na Gestão do
Conhecimento A utilização do Reinforcement Learning para
a melhoria do protocolo Multistage garante as capacidades de se adaptar dinamicamente às transições de estados do mundo e de se manter uma memória organizacional
Executando segundo as melhores políticas de atuação, a otimização surge conseguida naturalmente
Reflexões sobre a Relevância da Proposta na Gestão do
Conhecimento A memória poderia ser utilizada por
processos mais de auxílio à tomada de decisão que indicassem, por exemplo, a necessidade de se aumentar a banda de um link, de se construírem novos caminhos físicos ou de se reestruturar a rede
Pode-se aplicar o Multistage em outros domínios, utilizando os mesmos métodos e alcançando as mesmas vantagens do domínio das telecomunicações
Reflexões sobre a Relevância da Proposta na Gestão do
Conhecimento Os agentes aprendem a atuar em prol da
organização
• sem a necessidade de perceber em todo o mundo
• observando apenas os efeitos a longo prazo de suas ações
O conhecimento de cada agente é coerente com o conhecimento da organização e com as transições de estado de um domínio estocástico
Relevância da Abordagem na Gestão do Conhecimento
Aplicações em
• WorkFlow
• Telecomunicações
• Trânsito
• Planejamento de Rotas para Robôs
• Reutilização do Conhecimento
Recommended