MultiStage Um Protocolo para Resolução de Conflitos em Negociação Multiagente

MultiStage

Um Protocolo para Resolução de Conflitos em Negociação

Multiagente

Emerson Luís dos Santos

Fabiano Mitsuo Hasegawa

Márcio Roberto Starke

Introdução

● IAD● Sistemas Distribuídos IA

● Resolução Distribuída de Problemas

● Sistemas Multiagentes

● Melhor utilização de recursos

● Visão local das partes de um problema

● Diversos problemas reais são distribuídos

● Sistemas Multiagentes● Alto nível de autonomia

● Flexibilidade e Escalabilidade

Sistemas Multiagentes

Ambiente Recursos

Influências

● Unidade básica: Agente Simples

– Monolítico– Modular

Composto

Sistemas Multiagentes

Organizações comunidade vivendo em prol dos mesmos

interesses

Sociedade Conjunto de organizações que compõem um

sistema

Regras

Homogêneas/Heterogêneas

Características de uma Sociedade

Colaboração

Cooperação

Competição

Evolução Adaptação

Aprendizado

Ciclo de vida

Migração

Comportamentos Sócio-naturais

Composição de um Agente

Reativo

Mapeamento estado/ação

Percepção

Baixo nível de autonomia

Composição de um Agente

Cognitivo Self-Model Acquaintance-Model Comunicação Coordenação Planejamento Aprendizado Negociação Competências (Controle de recursos) Raciocínio Emoção Objetivos Percepção Alto nível de autonomia

Tipos de Coordenação

Padronização

Regras

Arquitetura

Supervisão

Hierarquia

Ajuste Mútuo

Consenso

Negociação

Tipos que se poderia identificar no mundo real

Contrato

Acordo

Oferta

Híbridos

Problemas

Conflitos por escassez de recursos

Causas externas (Falhas)

Protocolo Contract-Net

Recebimento de tarefa

Decomposição da tarefa em sub-tarefas *

Anúncio de sub-tarefa

Ofertas dos candidatos

Premiação da melhor oferta

Confirmação da oferta

Protocolo Contract-Net

Delegação da sub-tarefa ao contratado

Execução ou repasse da sub-tarefa

Devolução do Sub-resultado ao contratante

Recomposição dos sub-resultados

O Protocolo Multistage

Generalização do protocolo contract-net

• Primitivas adicionais• Restabelecimento de contrato

Comunicação e recursos limitados

A satisfação de um objetivo pode impedir a

satisfação de outro ou ser inalcançável por si

Capacidades preemptivas na alocação de

recursos para conexões de diferentes

prioridades

O Protocolo Multistage

Através da troca de informações, os agentes tratam os conflitos de recursos modificando seu comportamento

Decisões sobre o impacto de escolhas locais na satisfação de objetivos globais

Informações incompletas ou inválidas

atualizadas dinamicamente

Geração e manutenção de planos

Atividade rápida e baixo overhead em um

ambiente dinâmico

Domínio das Telecomunicações

Recursos limitados Cada agente detém o controle de uma área

e seus respectivos recursos interconectados por links de dados

Agentes trocam informações através de links de comunicação exclusivos com baixa largura de banda

A conexão entre dois recursos exige a reserva de banda nos links pertencentes ao caminho

Uma falha em qualquer equipamento de comunicação pode causar a instanciação de vários objetivos que devem ser satisfeitos em tempo real

Domínio das Telecomunicações

Conexões

Instanciadas independentemente e ao mesmo tempo em cada um dos agentes das extremidades

Cada agente sabe quais são os agentes da extremidade de cada conexão

Constituição• Recurso Inicial• Recurso Final• Identificador• Prioridade

Exemplo• p-1:s-3:5:1 (AgenteI-RecursoI:AgenteF-RecursoF:ID:Prioridade)

Geração de Planos

A instanciação de um objetivo dispara um processo de geração de planos

A escolha do melhor plano é baseada em informações extremamente locais

Planos sobressalentes são armazenados para eventuais necessidades posterior com identificadores apropriados

Um plano consiste de fragmentos locais de um caminho que são armazenados localmente nos respectivos agentes

Algoritmo exaustivo de busca em profundidade

Satisfação de Objetivos

Nem todos os agentes necessariamente têm conhecimento da satisfação de um objetivo

Agentes conhecem apenas seus fragmentos de plano e objetivos locais

Conflitos são propagados através de mensagens

Conflitos surgem por escassez de recursos locais ou por negação de serviços

Agentes armazenam informações referentes a conflitos

Visão Geral da Negociação

Instanciação do objetivo nas extremidades Geração de planos Requisição de estabelecimento de conexão

aos vizinhos apropriados para satisfação do maior número de objetivos possíveis

Análise de requisições recebidas• Pedidos de estabelecimento de conexão• Confirmações de estabelecimento de conexão• Negação de pedidos e informação dos devidos

conflitos Atualização de informações internas Reavaliação dos objetivos locais e novas

requisições ou confirmações

Particularidades de Nomenclatura

Primary Goal• Objetivo que possui ao menos uma das

extremidades no agente Secondary Goal

• Objetivo que não possui extremidade no agente

Task Announcement¹• Pedido de complementação de plano

Response¹• Resposta a um task announcement

– Bid: resposta positiva– Reject: resposta negativa

¹ Fase de Geração de Planos

Particularidades de Nomenclatura

Tentative Commitment• Pedido de estabelecimento de conexão com

reserva de recursos locais

Conflict• Conflito local ao transmissor

Cancellation• Conflito não-local ao transmissor

Commitment• Confirmação de estabelecimento de conexão

Feasibility Tree• Base de conhecimento mantida no agente

Complexidade

Os membros da organização não possuem recursos suficientes para manterem visões globais consistentes

Devido ao dinamismo do mundo, o conjunto

de soluções ótimo em um determinado

instante pode não ser mais o conjunto ótimo

do instante seguinte

Limitações

Novos objetivos primários só são considerados se não houver nenhum outro objetivo primário sendo resolvido

Não converge para otimização

Planos são subutilizados

Não é claro quando se descartar planos

Não há adaptação

Aprendizado por Reforço

Domínios em que o aprendizado deve ser realizado em tempo real

Adaptação rápida mesmo com poucos exemplos

A cada ação tomada, recebe-se um prêmio positivo/negativo correspondente aos efeitos dessa ação no mundo

Maximização da soma dos prêmios recebidos

Aprendizado de uma política de atuação

Q-Learning

Motivação

Estimativas de custo de planos podem proporcionar melhoria na performance global

Melhores práticas ao longo das iterações

Potencial Memória para Capitalização de

Conhecimento

TPOT-RL (Team-Partitioned, Opaque-Transition Reinforcement Learning)

Aprender uma função que associa pares estado-ação a prêmios esperados

Os resultados são armazenados em tabelas para a sua posterior utilização

Introduz três principais adaptações ao paradigma de aprendizado por reforço

A função de valor é particionada entre a organização, com cada agente aprendendo apenas para estados em quais ele pode atuar. Todos os agentes são treinados simultaneamente

TPOT-RL (Team-Partitioned, Opaque-Transition Reinforcement Learning)

O espaço de estados do ambiente é agressivamente generalizado, de forma que o agente percebe o ambiente em função de características discretas referentes a estados

Ao invés de se atualizar a tabela de aprendizado

segundo estimativas de prêmio geradas por

simulações, as atualizações são feitas segundo

prêmios recolhidos algum tempo no futuro

Módulo de Aprendizado

Escolha de ação

para cada par (recurso_local_inicial,

recurso_destino_objetivo), há uma tabela com

tantas entradas quantos forem os planos que

tenham sidos gerados durante a fase de geração

de planos

Propagação de prêmio e atualização de tabela

quando uma conexão é estabelecida, o agente

destino envia mensagens aos agentes que fazem

parte do circuito informando-lhes o custo total da

conexão. Quando um agente recebe esta

mensagem, ele decrementa do custo total o valor

de custo acumulado até seu recurso inicial

Geração de planos periodicamente são gerados novos planos para cada

conexão estabelecida; em eventuais falhas, o tempo de restauração será menor

buscas para satisfação de requisições de estabelecimento de conexão só são realizadas numa eventual não existência de planos pré-construídos

na geração de planos, contabiliza-se as estimativas de planos gerados no passado

Planos com estimativas históricas ruins podem ser podados

para cada plano gerado, seu custo associado é utilizado para atualização da tabela de planos

Vantagens do Módulo de Aprendizado

Redução das gerações de planos Planos com estimativas úteis para um determinado

objetivo podem existir a priori

a geração de planos é periódica e pode ser congruente com a carga da rede ou o desejo do administrador

Coerência com o estado global a escolha de um plano para a satisfação de um

objetivo não é executada apenas conforme estimativas de custo local, mas segundo estimativas que refletem a atividade global da rede coletadas como prêmios que são propagados em intervalos periódicos

Vantagens do Módulo de Aprendizado

Redução do tempo de resposta o tempo de restauração e estabelecimento de

conexões é sensivelmente reduzido, uma vez que os planos podem já estar prontos e com estimativas de custo atualizados e consistentes

Desvantagens do Módulo de Aprendizado

Memória

• O número de tabelas mantido em memória segundo esta abordagem é superior ao necessário em [Sto98]

• Na aplicação de Stone, só uma tabela de tamanho | U | x | A | x | M | é mantida em cada agente– U: janela de atividade {baixa, alta}– A: conjuntos de links que partem de um nó– M: número total de nós da rede

• na abordagem proposta, existem | U | x | A | x | O |– U: janela de atividade {baixa, alta}– A: número de planos existentes para cada conexão

estabelecida– O: conjunto de conexões estabelecidas através do agente em

questão

Reflexões sobre a Relevância da Proposta na Gestão do

Conhecimento Qual seria o rendimento de uma empresa

que tivesse que treinar seu funcionário toda vez que ele fosse requerido em uma tarefa?

Pessoas nos diversos cenários do dia-a-dia aprendem a atuar adequadamente tentando executar suas tarefas da forma mais eficaz possível

No mundo real, pessoas possuem aptidões natas (dons)

Conhecimento Habilidade está diretamente relacionado a

atividade e seu aumento é gradativo A habilidade também pode ser obtida

através da observação, da escuta, da leitura, do estudo, do erro, por analogia, entre outros

A memória é utilizada nos processos de raciocínio desenvolvidos ao longo da vida

Conhecimento Uma vez que seus integrantes possuem

tamanhas capacidades, as organizações existentes nas sociedade tendem a apresentar comportamentos semelhantes, pois são gerenciadas por seres inteligentes e sua mão-de-obra também é constituída de indivíduos com inteligência

Dentro deste ambiente, pode-se concluir que a sobrevivência é bastante difícil

Paradoxalmente, a sobrevivência está sendo alcançada de forma relativamente satisfatória pelos seres do mundo real

Conhecimento Em uma sociedade de agentes de software,

as mesmas características e comportamentos são desejáveis

Habilidade

• A única maneira de se conseguir boas práticas é pelo aprendizado, o que implica esforço computacional na manutenção de uma memória e na criação de métodos de inferência que permitam a extração de conhecimento dos fatos observáveis

Conhecimento A utilização do Reinforcement Learning para

a melhoria do protocolo Multistage garante as capacidades de se adaptar dinamicamente às transições de estados do mundo e de se manter uma memória organizacional

Executando segundo as melhores políticas de atuação, a otimização surge conseguida naturalmente

Conhecimento A memória poderia ser utilizada por

processos mais de auxílio à tomada de decisão que indicassem, por exemplo, a necessidade de se aumentar a banda de um link, de se construírem novos caminhos físicos ou de se reestruturar a rede

Pode-se aplicar o Multistage em outros domínios, utilizando os mesmos métodos e alcançando as mesmas vantagens do domínio das telecomunicações

Conhecimento Os agentes aprendem a atuar em prol da

organização

• sem a necessidade de perceber em todo o mundo

• observando apenas os efeitos a longo prazo de suas ações

O conhecimento de cada agente é coerente com o conhecimento da organização e com as transições de estado de um domínio estocástico

Relevância da Abordagem na Gestão do Conhecimento

Aplicações em

• WorkFlow

• Telecomunicações

• Trânsito

• Planejamento de Rotas para Robôs

• Reutilização do Conhecimento

MultiStage Um Protocolo para Resolução de Conflitos em Negociação Multiagente

Documents

Sistemas Multiagente e Organizações

Polvo Violonista: Sistema Multiagente para Simulação de

Aprendizado Multiagente

Departamento de Ingeniería MySC Sistemas Multiagente

3 Sistemas Multiagente - us

Sistemas multiagente para simulación

MultiStage Um Protocolo para Resolução de Conflitos em Negociação Multiagente Emerson Luís dos Santos Fabiano Mitsuo Hasegawa Márcio Roberto Starke

Critérios para Avaliação de Coordenação Multiagente

Multistage Sampling

SISTEMA MULTIAGENTE PARA SIMULAÇÃO DA DINÂMICA DE

Ran Bang Komp Cent Multistage

CHL/CHLFhorizontal multistage pumps

Pengujian Kinerja Pompa Sentrifugal Multistage

Planejamento e Solucionamento de Problemas Distribuídos Sistemas Multiagente Ewerton Felipe Miglioranza 1 Sistemas Multiagente - Planejamento e Solucionamento

55528151 Multistage Air Compressor Final

Sistemas multiagente colaborativos

PENARIKAN SAMPEL BERTAHAP Multistage Sampling

Multistage Discrete Optimization Part IV: Softwarecoral.ie.lehigh.edu/~ted/files/multistage/lectures/software.pdf · Multistage Discrete Optimization Part IV: Software ... Stochastic

Construcción de un sistema multiagente mediante Jade

Generalized Bounds for Convex Multistage Stochastic Programs