26
RECHERCHE Une approche pour la simulation de comportements émotionnels fondée sur la théorie de la conservation des ressources Sabrina Campano 1 , Etienne de Sevin 1 , Vincent Corruble 1 , Nicolas Sabouret 2 1. Université Pierre et Marie Curie, Laboratoire d’Informatique de Paris 6 4, place Jussieu, F-75005 Paris {sabrina.campano,etienne.de-sevin,vincent.corruble}@lip6.fr 2. Laboratoire d’Informatique pour la Mécanique et les Sciences de l’Ingénieur CNRS, BP133, F-91403 Orsay cedex [email protected] RÉSUMÉ. La simulation de comportements crédibles chez les agents virtuels demande de prendre en compte des facteurs humains tels que les émotions. La plupart des travaux sur ce sujet uti- lisent des catégories d’émotions dans leur architecture. Cependant, déterminer la valeur et l’influence de ces variables émotionnelles sur le comportement est une tâche difficile. Dans cet article, nous présentons un modèle pour la simulation de comportements émotionnels fondé sur la théorie de la conservation des ressources (Hobfoll, 1989) qui n’utilise pas de catégories d’émotions. Un agent peut acquérir et protéger des ressources, et le choix de son comportement dépend de l’état des ressources, de ses besoins, et de ses préférences. Nous proposons égale- ment un protocole pour évaluer si les comportements des agents sont perçus comme crédibles et émotionnels par des observateurs humains, ce que semblent prouver les résultats obtenus. ABSTRACT. The simulation of believable behaviours for virtual agents requires to take human factors such as emotions into account. Most computational models dealing with this subject in- clude emotion categories in their architecture. However, determining the value and the influence of these emotion variables is a difficult task. In this paper, we present a model without emotion categories, centered around the theory of conservation of resources (Hobfoll, 1989). Each agent can acquire or protect resources, and behaviour choice depends on resources state, as well as agent’s needs and preferences. We also define an evaluation protocol in order to assess if the produced behaviours are recognized as emotional and believable. Our results tend to indicate that the proposed model is able to produce such behaviours. MOTS-CLÉS : affect, émotion, agent virtuel, comportement, simulation. KEYWORDS: affect, emotion, virtual agent, behaviour, simulation. DOI:10.3166/TSI.32.111-136 c 2013 Lavoisier Technique et science informatiques – n o 1/2013, 111-136

Une approche pour la simulation de comportements

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Une approche pour la simulation de comportements

RECHERCHE

Une approche pour la simulation decomportements émotionnels fondée sur lathéorie de la conservation des ressources

Sabrina Campano 1, Etienne de Sevin 1, Vincent Corruble 1,Nicolas Sabouret 2

1. Université Pierre et Marie Curie, Laboratoire d’Informatique de Paris 64, place Jussieu, F-75005 Paris

{sabrina.campano,etienne.de-sevin,vincent.corruble}@lip6.fr

2. Laboratoire d’Informatique pour la Mécanique et les Sciences de l’IngénieurCNRS, BP133, F-91403 Orsay cedex

[email protected]

RÉSUMÉ. La simulation de comportements crédibles chez les agents virtuels demande de prendreen compte des facteurs humains tels que les émotions. La plupart des travaux sur ce sujet uti-lisent des catégories d’émotions dans leur architecture. Cependant, déterminer la valeur etl’influence de ces variables émotionnelles sur le comportement est une tâche difficile. Dans cetarticle, nous présentons un modèle pour la simulation de comportements émotionnels fondésur la théorie de la conservation des ressources (Hobfoll, 1989) qui n’utilise pas de catégoriesd’émotions. Un agent peut acquérir et protéger des ressources, et le choix de son comportementdépend de l’état des ressources, de ses besoins, et de ses préférences. Nous proposons égale-ment un protocole pour évaluer si les comportements des agents sont perçus comme crédibleset émotionnels par des observateurs humains, ce que semblent prouver les résultats obtenus.

ABSTRACT. The simulation of believable behaviours for virtual agents requires to take humanfactors such as emotions into account. Most computational models dealing with this subject in-clude emotion categories in their architecture. However, determining the value and the influenceof these emotion variables is a difficult task. In this paper, we present a model without emotioncategories, centered around the theory of conservation of resources (Hobfoll, 1989). Each agentcan acquire or protect resources, and behaviour choice depends on resources state, as well asagent’s needs and preferences. We also define an evaluation protocol in order to assess if theproduced behaviours are recognized as emotional and believable. Our results tend to indicatethat the proposed model is able to produce such behaviours.

MOTS-CLÉS : affect, émotion, agent virtuel, comportement, simulation.

KEYWORDS: affect, emotion, virtual agent, behaviour, simulation.

DOI:10.3166/TSI.32.111-136 c© 2013 Lavoisier

Technique et science informatiques – no 1/2013, 111-136

Page 2: Une approche pour la simulation de comportements

112 TSI. Volume 32 – no 1/2013

1. Introduction

Les émotions sont étudiées par la psychologie depuis plus d’un siècle (James,1890). Les travaux ont donné naissance à un grand nombre de modèles informa-tiques d’émotions, dont le but est de simuler des agents crédibles, ou de reproduiredes processus psychologiques humains (Marsella et al., 2010). Ces modèles ont misen évidence des difficultés liées à la représentation formelle des émotions. D’une part,d’un point de vue théorique, l’influence des émotions sur le comportement est difficileà déterminer, et il existe peu de travaux sur le lien entre émotion et action (Frijda,2004). D’autre part, d’un point de vue computationnel, la plupart des modèles en in-formatique affective comptent un nombre important de variables numériques qu’il fautparamétrer manuellement afin d’obtenir les comportements souhaités. Il est générale-ment difficile de trouver la valeur correcte que l’on doit attribuer à chaque paramètre,et de contrôler leur influence sur le modèle.

Afin de contourner ces problèmes, il est possible d’adopter une seconde approcheconsistant à ne pas modéliser de catégories d’émotions. Pfeifer (1994) a publié unarticle intitulé « The ‘Fungus Eater Approach’ to Emotion », dans lequel il proposede considérer les émotions comme un phénomène émergent qui n’a pas besoin d’êtrecodé directement dans un modèle informatique. Outre les avantages qu’elle apportesur le plan computationnel, cette approche est aussi légitime d’un point de vue psy-chologique. En effet, les émotions peuvent être considérées comme des interpréta-tions de perceptions (Barrett, 2006), au lieu d’être des entités distinctes qui agissentsur nos comportements. Le modèle que nous proposons est fondé sur cette deuxièmeapproche : nous faisons l’hypothèse qu’il est possible de concevoir une architecturecapable de produire des comportements émotionnels sans utiliser de variables, ca-tégories ou dimensions représentant des émotions. Nous proposons donc un modèled’agent fondé sur ce principe, qui ne nécessite pas de définir et paramétrer des va-riables d’émotion, ces dernières étant absentes du système. Notre objectif est de simu-ler des comportements émotionnels, comme fuir ou protester, qui soient jugés commecrédibles par des observateurs humains, et à travers lesquels ces observateurs recon-naissent des émotions chez les personnages. Le fait que des émotions soient reconnuesest particulièrement important pour montrer que nous simulons bien des comporte-ments émotionnels, malgré l’absence de variables représentant des émotions. Cettepropriété permet d’affirmer que nous présentons bien un modèle d’émotion, qui peutêtre comparé aux modèles d’émotion existants. Notre architecture est basée sur lathéorie psychologique de la conservation des ressources (Hobfoll, 1989), qui n’a pasencore été formalisée ou implémentée à ce jour.

Après avoir abordé les travaux antérieurs effectués dans le cadre des comporte-ments émotionnels, nous expliquons l’architecture générale du modèle proposé, puisnous détaillons la description des comportements, des préférences et des besoins d’unagent. Ensuite nous abordons la façon dont les comportements possibles sont sélec-tionnés en fonction de l’état courant des ressources, et le processus par lequel un agentleur attribue une valeur et fait éventuellement le choix d’adopter l’un d’entre eux. Nous

Page 3: Une approche pour la simulation de comportements

Simulation de comportements affectifs 113

proposons un protocole d’évaluation pour le modèle proposé, puis nous présentons lesrésultats obtenus à partir de ce protocole. Enfin, nous discutons ces résultats.

2. Travaux antérieurs

Il existe de nombreux modèles en informatique affective, et leur architecture ainsique leurs fonctionnalités dépendent de leurs objectifs. L’approche réaliste vise l’im-plémentation de théories psychologiques dans le but de reproduire des processus hu-mains (Ortony et al., 1988 ; Gratch, Marsella, 2004), et l’approche crédible vise àconcevoir des agents donnant une illusion de vie, pas nécessairement réaliste, ap-propriée pour des applications comme les jeux vidéo ou les jeux sérieux (Gebhard,2005). Ces modèles ont un point commun : ils utilisent des émotions dans leur archi-tecture, soit en tant qu’entités discrètes, soit en tant que dimensions. Dans les modèlesOCC (du nom des auteurs Ortony Clore et Collins) et EMA (EMotion and Adap-tation) les émotions sont représentées comme des entités discrètes. Dans le modèlePAD (Mehrabian, Russell, 1974) les émotions sont représentées par trois dimensionscontinues qui sont le plaisir, l’excitation et la dominance. Comme cela a été men-tionné par Marsella et al. (2010), les modèles discrets et les modèles dimensionnelssont utilisés à des fins différentes : les émotions discrètes peuvent être associées àdes comportements spécifiques, tandis que les modèles dimensionnels offrent plus deflexibilité, pour déterminer par exemple l’amplitude d’un mouvement chez un agent.

La théorie de l’évaluation cognitive formulée par Lazarus et Folkman (1984), ajoué un rôle important pour les modèles en informatique affective. Cette théorie pos-tule qu’une émotion est le produit d’une interprétation, et qu’elle oriente les stratégiesd’adaptation que nous choisissons. Le modèle OCC (Ortony et al., 1988) est spéci-fiquement dédié au processus d’évaluation cognitive, et il est capable de déterminerquelle émotion est ressentie par un agent parmi 22 catégories d’émotions. Cela esteffectué grâce à des variables d’évaluation (appraisal variables), comme le carac-tère désirable d’un événement ou sa probabilité. Le modèle EMA (Gratch, Marsella,2004) s’est lui intéressé aux stratégies d’adaptation permettant de gérer un état émo-tionnel, c’est-à-dire au choix de méthodes permettant de modifier un état courant. Desexemples de stratégies d’adaptation sont le déni, l’acceptation, ou la pensée positive.

L’utilisation des émotions, dans les modèles catégoriels et dimensionnels, com-porte des limites lorsqu’il s’agit de simuler des comportements variés. Les auteursdu modèle OCC (Ortony et al., 1988) font remarquer que « le même comportementpeut résulter d’émotions très différentes » et que « des comportements très différentspeuvent résulter de la même émotion ». Il n’est pas possible d’associer une catégoried’émotion ou un point dans un espace dimensionnel à un comportement unique. Dansl’Affective Reasoner (Elliott, 1992), plusieurs actions, comme rougir ou trembler sontliées à une catégorie d’émotion. Quand une émotion est activée, la sélection parmi lesactions qui y sont associées dépend d’un filtre établi d’après la personnalité de l’agent.Au contraire, certaines théories en psychologie postulent que le ressenti d’une émotionest postérieur aux réponses somatiques comme trembler ou rougir. Ce sont les symp-

Page 4: Une approche pour la simulation de comportements

114 TSI. Volume 32 – no 1/2013

tômes physiques qui favoriseraient l’interprétation d’une émotion, et non l’émotionqui causerait ces symptômes (James, 1890 ; Schachter, Singer, 1962). D’après James(1890), « si nous imaginons une émotion forte, et que nous essayons ensuite de faireabstraction de notre conscience de toutes les sensations de ses symptômes physiques,nous nous rendons compte qu’il ne reste plus rien ». Nous pouvons aussi nous deman-der si cette théorie peut s’étendre aux comportements : est-ce que le comportementde fuir est causé par la peur, ou bien est-ce que nous avons pris l’habitude de lier lecomportement de fuite au terme « peur » sans qu’il existe d’entité émotionnelle depeur qui soit la cause de ce comportement ?

De façon plus générale, il semble ne pas y avoir de consensus autour du nombre decatégories d’émotions existantes, ni de leur rôle et de leurs conséquences sur la cogni-tion et le comportement (Ortony, Turner, 1990 ; Scherer, 1999). Des travaux montrentque les catégories d’émotions reconnues sont liées à la culture, et que même les ca-tégories de peur et de colère ne sont pas universelles (Russell, 1991). Ekman (1999)distingue 6 émotions de base, en se fondant sur l’hypothèse d’expressions facialesuniverselles, et sur des patrons de changements physiologiques au cours d’épisodesémotionnels. Selon la psychologue Barrett (2006) « le manque de cohérence parmichaque catégorie d’émotion est empiriquement la règle plutôt que l’exception ». Se-lon elle, si aucun ensemble de catégories d’émotion ne fait consensus, cela pourraitêtre parce que les émotions sont des concepts plutôt que des entités distinctes de notresystème affectif. L’auteur explique que les êtres humains font l’expérience des émo-tions comme ils font l’expérience des couleurs, ils utilisent leurs connaissances pournommer leur perceptions avec des catégories. Barrett (2006) oppose la notion d’émo-tions comme entités à la notion d’émotions comme concepts : la vue entité supposeque les émotions sont des éléments discrets qui agissent chacun sur notre compor-tement, tandis que la vue concept suppose que les émotions sont des interprétationsmais que ce ne sont pas ces éléments qui agissent sur le comportement.

Afin de contourner les difficultés liées à la représentation des émotions sous formed’entités, le modèle computationnel de Pfeifer (1994) propose de considérer l’émotioncomme un phénomène émergent, c’est-à-dire un concept, qui est une interprétationd’un comportement et non un facteur de son déclenchement. La motivation de ce tra-vail a reposé sur les « frustrations » endurées par les informaticiens travaillant sur lesémotions. Dans son article, il évoque les nombreux problèmes associés à l’utilisationde catégories d’émotions, dont l’overdesign, qui est la tendance à concevoir un sys-tème trop complexe pour ses objectifs. Au lieu d’utiliser des variables émotionnelles,Pfeifer propose de concevoir une créature avec une architecture simple, et d’évaluerensuite si elle est suffisante afin qu’un observateur humain reconnaisse des émotionsdans les comportements de cette créature. Ainsi, la créature pouvait collecter de l’orpour gagner de l’énergie, et éviter des obstacles. Il s’est avéré que les observateurshumains ont effectivement attribué des émotions aux comportements de la créature,disant par exemple qu’elle était « frustrée » ou « agacée ».

L’approche de Pfeifer a été appliquée à des agents et un environnement d’une« simplicité extrême », et n’a pas été validée par un protocole d’évaluation. Afin

Page 5: Une approche pour la simulation de comportements

Simulation de comportements affectifs 115

d’appliquer cette approche à des agents virtuels, il est nécessaire de concevoir unearchitecture capable de gérer des comportements variés, depuis les comportementsprimaires comme « manger » et « boire » jusqu’aux comportements sociaux comme« protester ». La difficulté de ce cas est qu’il faut pouvoir traiter des éléments de naturedifférente, des variables homéostasiques comme la faim et la soif, mais aussi des va-riables de haut niveau plus abstraites concernant les relations sociales. Ces variables dehaut niveau ne sont habituellement pas gérées par des architectures motivationnellescomme celle proposée par Pfeifer (1994). De plus, ce type d’architecture utilise desparamètres numériques continus, qui seraient difficiles à utiliser pour des conceptsabstraits. Il n’est également pas conçu de façon à pouvoir représenter des principesgénéraux sous forme de règles comme « si une ressource appartenant à un agent estmenacée, il doit engager des comportements pour la protéger ». Or plus le domainedes variables considérées est étendu et varié, plus il est nécessaire de pouvoir effectuerdes généralisations.

La théorie de la conservation des ressources (COR) proposée par le psychologueHobfoll (1989), qui n’avait jusque-là pas fait l’objet d’une implémentation, offre unepiste de travail intéressante en ce sens. Dans cette théorie, le besoin d’acquérir ou deprotéger des ressources est au cœur de la dynamique qui explique le stress ou le bien-être d’un individu. Le concept de ressource se réfère à plusieurs types d’éléments : deséléments sociaux comme l’estime de soi, l’attention portée aux autres, ou des élémentsmatériels comme une voiture, de l’argent, ou de la nourriture. Le principe général estque les individus luttent pour protéger leurs ressources acquises, et cherchent à en ac-quérir de nouvelles, ce qui peut facilement être lié à la notion de comportement. Uneformalisation de cette théorie peut donner aux agents la possibilité d’exhiber des com-portements reconnus comme émotionnels, et le large cadre d’application du conceptde ressource peut convenir à des scénarios de simulation variés. Enfin il n’est pas né-cessaire d’avoir recours à des variables d’émotion pour simuler des comportementsd’acquisition ou de protection. Par exemple, afin de prendre le rang de quelqu’und’autre dans une file d’attente (but d’acquisition), un agent doit doubler (comporte-ment), et afin de protéger sa propre place dans la file d’attente (but de protection), ildoit protester contre ceux qui essayent de le doubler.

Nous avons montré que l’utilisation de catégories d’émotions, comme entités dis-crètes ou comme dimensions, posait des difficultés pour la simulation de comporte-ments variés. D’après Pfeifer (1994), il semble possible de produire des comporte-ments émotionnels sans utiliser de variables émotionnelles. Afin d’étendre cette ap-proche à un environnement plus complexe, doté de plusieurs agents pouvant exhiberdes comportements variés, la théorie psychologique de la conservation des ressourcessemble être une piste intéressante. Nous avons donc fait le choix de prendre appuisur cette théorie afin de proposer un modèle de comportements émotionnels crédiblespour les agents virtuels. Notre hypothèse est que les émotions peuvent apparaître àtravers l’interprétation que font les observateurs humains sur le comportement desagents, alors que l’architecture ne contient pas d’entités émotionnelles. Cette idée re-joint le principe de l’évaluation cognitive de Lazarus et Folkman (1984), selon lequelun individu choisit des stratégies adaptatives pour répondre à un stress provenant de

Page 6: Une approche pour la simulation de comportements

116 TSI. Volume 32 – no 1/2013

l’environnement (ici, un besoin d’acquérir ou de protéger). La notion d’interprétationd’émotion se retrouve également dans la théorie de Scherer (2001), dans laquelle lesémotions ne sont pas considérées comme un ensemble fixe mais comme des étatsémotionnels subjectifs de large spectre et fluctuants au cours du temps. Une émotionpeut donc être considérée aussi comme une configuration particulière d’états mentaux,même si elle n’est pas explicitement représentée. Nous proposons dans la section sui-vante un système émotionnel basé sur cette capacité d’interprétation, dont le modèles’inspire de la théorie COR.

3. Modèle proposé

3.1. Vue d’ensemble

Notre architecture vise à doter des agents virtuels de comportements crédibles quisoient émotionnels. Comme dans le cadre de notre modèle nous ne pouvons pas défi-nir un comportement émotionnel comme un comportement étant causé par une émo-tion, nous proposons qu’un comportement émotionnel soit un comportement pouvantêtre décrit avec des termes émotionnels (e.g. peur, surprise) par des observateurs hu-mains. Cela correspond à la notion d’émotion comme phénomène émergent proposéepar Pfeifer (1994). Le modèle est organisé autour de la dynamique d’acquisition etde protection de ressources. Il se fonde sur les principes suivants, adaptés d’après lathéorie de Hobfoll (1989) :

(a) un agent essaye de protéger ses ressources acquises ;

(b) lorsque ses ressources sont protégées, il essaye d’acquérir les ressources qu’ildésire.

La description des comportements et des types de ressources n’est pas issue dela théorie de Hobfoll mais conçue pour notre architecture. Les ressources présentesdans l’environnement sont associées à des actions d’acquisition et de protection queles agents peuvent réaliser dans le but de défendre une ressource menacée ou d’enacquérir une nouvelle. La nature des comportements de protection et d’acquisitiondépend du type de la ressource. Par exemple parler à un agent permet d’acquérir uneinstance de ressource de type « Interaction Sociale », et manger permet d’acquérir uneinstance de ressource de type « Energie ». Ce principe est montré en figure 1. Chaqueagent a des besoins pour des types de ressources, e.g. de l’énergie, une interactionsociale, ou pour des instances de ressources, e.g. un bonbon particulier posé sur unetable, une interaction sociale avec l’agent x, et ces besoins définissent les instancesde ressources qui sont désirées par l’agent (cette étape est expliquée dans la section3.3.2). Un agent peut satisfaire un ou plusieurs besoins en acquérant une ressource.

Dans notre modèle un agent ne peut adopter qu’un seul comportement à la fois.Chaque agent a des préférences individuelles sur les ressources qui déterminent lavaleur de la ressource du point de vue de l’agent. Une valeur de comportement, repré-sentant un coût ou une récompense, est calculé automatiquement pour chaque com-portement possible qu’un agent peut réaliser. Cette valeur est calculée d’après les pré-

Page 7: Une approche pour la simulation de comportements

Simulation de comportements affectifs 117

Figure 1. Types et instances. Le type d’une ressource détermine les comportementsréalisables sur les instances de ce type

férences de l’agent et les effets du comportement sur l’état des ressources considéréespar l’agent.

Chaque comportement peut produire des effets positifs (acquisition ou protectionde ressources) et des effets négatifs (menace ou perte de ressources). Par exemple lecomportement « parler fort » permet d’acquérir l’attention des autres, ce qui est uneffet positif, mais comporte le risque de faire perdre de l’image sociale, ce qui est uneffet négatif. De la même façon un agent i qui « dépasse » un agent j dans une filed’attente menace le rang que j occupe actuellement dans cette file. En retour, l’agentj peut engager un comportement de protection comme « protester » contre l’agent ipour conserver son rang.

La sélection du comportement est effectuée d’après la valeur de chaque compor-tement possible, et la priorité du type de comportement (les comportements de pro-tection sont prioritaires par rapport aux comportements d’acquisition, car d’après lathéorie de la conservation des ressources (Hobfoll, 1989) les pertes de ressources se-raient plus importantes que les gains de ressources). De plus un agent peut adopter descomportements de protection préventifs lorsque ses ressources ne sont pas menacées.Il peut par exemple coller l’agent qui est devant lui dans une file d’attente pour nepas se faire doubler par un autre agent. Une vue d’ensemble de l’architecture du mo-dèle est présentée en figure 2, et les ensembles de ressources correspondant aux étatspossibles sont présentés en figure 3.

Page 8: Une approche pour la simulation de comportements

118 TSI. Volume 32 – no 1/2013

Figure 2. Architecture générale d’un agent. Les ensembles de ressources déterminentles comportements possibles ; la sélection est influencée par les préférences de

l’agent et la valeur des comportements ; les ensembles de ressources sont mis à jouren fonction des besoins de l’agent et des effets des comportements et événements

externes (e.g. un incendie)

Figure 3. Ensembles de ressources. Les besoins déterminent les ressources désirées ;une ressource désirée peut déclencher un comportement d’acquisition, et une

ressource menacée peut déclencher un comportement de protection

3.2. Concepts

Cette section présente la définition formelle des concepts utilisés dans cet article.

3.2.1. Ressources

Soit T = {ty1, ty2, ..., tyn} un ensemble fini de types de ressources,R = {r1, r2,..., rn} un ensemble fini de ressources (instances), et A = {a1, a2, ..., ak} un en-semble fini d’agents.

Un type de ressource détermine les types de comportements qui peuvent être dé-clenchés pour une ressource (les comportements sont abordés dans la section 3.2.2).

Page 9: Une approche pour la simulation de comportements

Simulation de comportements affectifs 119

Le type unique d’une ressource r ∈ R est noté type(r) ∈ T . L’ensemble des res-sources d’un type ty ∈ T est noté Rty ⊂ R. Exemple : type(hamburger1) =Hamburger, type(reputation1) = Reputation.

Chaque agent i ∈ A a trois ensembles de ressources :– RDi ⊂ R : ressources désirées par i ;– RAi ⊂ R : ressources acquises de i ;– RMi ⊂ R : ressources menacées de i.

3.2.2. Comportements

Soit C = {c1, c2, ..., cn} un ensemble de comportements. Par soucis de simplifi-cation dans cet article, nous considérerons que ces comportements sont complètementinstanciés. Ainsi, « Paul prend le train pour aller à Paris » sera un comportement dif-férent de « Pierre prend le train pour aller à Paris » ou de « Paul prend le train pouraller à Lyon ». Nous noterons agent(c) ∈ A l’agent qui exécute le comportement c(ici Pierre ou Paul) et poss(c) le prédicat qui vaut lorsque toutes les préconditions dec sont vérifiées (par exemple, pour qu’un agent i puisse doubler un agent j dans unefile d’attente, il doit y avoir assez d’espace entre j et l’agent qui est devant j).

Un comportement c a quatre ensembles d’effets sur les ensembles de ressourcesde certains d’agents. Nous notons ptnts(c) ∈ A l’ensemble des agents concernés parces effets. ∀i ∈ ptnts(c), les effets de c sont :

– R+c (i), instances de ressources acquises pour i ;

– Roc(i), instances de ressources protégées pour i ;

– R•c(i), instances de ressources menacées pour i ;– R−c (i), instances de ressources perdues pour i.

Ainsi, les éléments de C peuvent être regroupés en comportements d’acquisitionou de protection sur des ressources. Soit r ∈ R une ressource, C+

r est l’ensembledes comportements d’acquisition pour la ressource r, Co

r est l’ensemble des compor-tements de protection pour r et Co∗

r est l’ensemble des comportements de protectionpréventifs. Un comportement peut permettre à la fois d’acquérir et de protéger des res-sources, c’est-à-dire se trouver dans deux ensembles à la fois. La partition en plusieursensembles de comportements permet à un agent d’accéder rapidement aux comporte-ments qu’il peut réaliser en fonction de sa situation. Par exemple lorsqu’un agent isouhaite acquérir une ressource r, i va examiner l’ensemble C+

r . Il n’y a ainsi pas be-soin d’examiner l’ensemble des comportements possibles pour savoir s’ils permettentou non d’acquérir r.

Enfin, il est important de noter que certains effets se produisent lorsque agent(c)commence c, tandis que certains autres se produisent quand c se termine. Cette distinc-tion est nécessaire pour la simulation, mais pour calculer la valeur d’un comportementl’agent prend en compte l’ensemble de ces effets et ne fait pas de distinction sur letemps (se référer à la section 3.4.2). Comme nous le verrons plus loin, cela permet à

Page 10: Une approche pour la simulation de comportements

120 TSI. Volume 32 – no 1/2013

l’agent de disposer d’actions non déterministes et révisables (l’agent commence uneaction mais, s’il provoque des réactions négatives des autres agents, il peut s’inter-rompre).

Chaque agent ne peut effectuer qu’un seul comportement à la fois et nous notonsdo(i, c) le prédicat qui vaut vrai lorsque l’agent i est en train d’effectuer le comporte-ment c.

Exemple. Deux agents i et j ont respectivement les rangs r2 et r1 dans une file d’at-tente. Nous notons doublei,j ∈ C le comportement « l’agent i double l’agent j dansla file ». Les effets appliqués quand doublei,j commence sont : R−doublei,j (i) = r2,R•doublei,j (j) = r1. Autrement dit, au début de l’action, l’agent i perd sa place etl’agent j voit sa place menacée. Les effets appliqués quand doublei,j est terminé sont :R+

doublei,j(i) = r1, R−doublei,j (j) = r1, R+

doublei,j(j) = r2. Autrement dit, à la fin de

l’action, l’agent i a gagné la place r1 et l’agent j a perdu r1 et récupéré r2.

3.3. Configuration de l’agent

3.3.1. Préférences

Chaque agent a des préférences sur des types de ressources et sur des instancesde ressources. Cela reflète dans notre modèle la personnalité d’un agent, et dans unecertaine limite son rôle social. Par exemple, pour un agent i qui est un politicien, letype « Réputation » pourrait être préféré a plusieurs autres types de ressources, tandisque pour un agent j qui est fan de musique pop, le type « Concert de Musique Pop »pourrait être plus important que le type « Réputation ». Cela implique que j peutrisquer de perdre sa réputation en doublant quelqu’un dans une file d’attente pour unconcert de musique pop tandis que i ne prendra pas ce risque.

Nous avons choisi des préférences qualitatives parce qu’elles sont plus généralesque les préférences quantitatives, et plus faciles à utiliser (Torlone, Ciaccia, 2002). Lespréférences quantitatives ont un pouvoir d’expression limité car elles peuvent seule-ment être appliquées à des préférences qui peuvent se traduire en nombre. La valeurquantitative correspondant à l’importance de la ressource pour un agent ne serait pasfacile à déterminer.

Un agent a des préférences pour des types de ressources : pour chaque agent i ∈ A,il existe une relation de préférence complète �T

i sur les domaines des types de res-sources T . De plus, chaque agent a des préférences pour des instances de ressourcesdu même type. Pour chaque agent i ∈ A, et pour chaque type ty ∈ T , il existe unerelation de préférence complète �Rty

i sur le domaine d’instances de ressources Rty .Actuellement, nous partons du principe que �T

i et �Rty

i sont définis par le program-meur. La définition de hiérarchies prêtes à l’emploi contenant un grand nombre detypes de ressources, s’inspirant par exemple de l’idée de la pyramide des besoins deMaslow et al. (1970), n’est pas l’objet de cet article (les perspectives concernant cesujet sont abordées dans la section 5).

Page 11: Une approche pour la simulation de comportements

Simulation de comportements affectifs 121

D’après ces deux ensembles, un agent a des préférences pour des instances deressources. Pour chaque agent i ∈ A, nous construisons une relation de préférencecomplète�R

i sur le domaine d’instances de ressourcesR. Ces préférences sont initia-lisées avec les deux relations de préférences �T

i et �Rty

i , en utilisant une fonction dedispersion aléatoire 1 pour mélanger des ressources de types différents, de sorte que sitype1 �T

i type2, il y a tout de même la possibilité que des ressources de type type2soient préférées à des ressources de type type1.

Exemple. Pour un ensemble A de 3 agents dans une file d’attente nous définissons∀i ∈ A, Reputation �T

i Rang, rang1 �Rrang

i rang2 �Rrang

i rang3. Chaque agenta un certain nombre de ressources de type « Réputation » et il y a une relation�Rreput

i

sur ces ressources. Ainsi pour un agent i avec deux ressources « Réputation » quisont reput1 et reput2, �R

i est initialisé par : reput1 �Ri reput2 �R

i rang1 �Ri

rang2 �Ri rang3. L’application de la fonction de dispersion sur �R

i pourrait donner :reput1 �R

i rang1 �Ri reput2 �R

i rang2 �Ri rang3. Cela signifie que i préfère

rang1 à reput2, même s’il préfère en général les ressources de type « Réputation »aux ressources de type « Rang ».

3.3.2. Besoins

Chaque agent peut avoir des besoins pour des types de ressources ou des instancesde ressources. Les besoins d’un agent déterminent les ressources qu’il désire, et unbesoin peut-être satisfait en acquérant une ressource désirée correspondant à ce besoin.L’ensemble des besoins d’un agent i est noté Bi. Il peut contenir à la fois des types deressources ou des instances de ressources : Bi ∈ 2T ∪R. Si Bi contient des ressources,elles sont ajoutées à RDi, l’ensemble des ressources désirées de i, et si Bi contientdes types, les ressources correspondant à ces types sont ajoutées à RDi.

Plus formellement, notre système maintient à jour l’ensemble RDi à tout instantde manière à ce que : RDi = {r ∈ R tq r ∈ Bi ∨ type(r) ∈ Bi}.

Quand, suite à une action, une ressource r ∈ R est ajoutée aux ressources acquisesde i (RAi), cette ressource r ainsi que son type sont retirés des besoins de i (et doncdes ressources désirées) :

Bi ← Bi \ {r} \ {type(r)}

où← représente l’opérateur d’affectation et \ la différence ensembliste.

La dynamique éventuelle des besoins, leur valeur et la valeur de compensation desressources, ne sont pas abordées dans cet article. Des modèles motivationnels peuventprendre en charge cette dynamique (Robert, Guillot, s. d. ; Sevin, Thalmann, 2005).

Exemple. Dans cet exemple nous nous intéressons à un agent dans une file d’attenteavec un ordre FIFO (First In, First Out). Soit n le nombre de rangs occupés dans la

1. Dans les expérimentations présentées en section 4, la fonction utilisée est un tirage aléatoire équipro-bable. A terme, nous comptons définir une fonction de dispersion gaussienne centrée sur la valeur du rangde chaque type de ressource, avec un écart type qui reste à définir.

Page 12: Une approche pour la simulation de comportements

122 TSI. Volume 32 – no 1/2013

file d’attente et rangs = {rang1, ..., rangn} l’ensemble des instances de ressourcesde type « Rang » dans la file d’attente. Nous définissons initialement Bi = {Rang},d’où RDi = rangs.

Lorsqu’un agent i est dans la file, il a une ressource rangx, où x correspond au nu-méro de rang occupé par i dans cette file. Dans le scénario que nous avons implémenté,il ne peut y avoir qu’un agent par rang. Le premier rang de la file porte le numéro 1,de sorte qu’un agent i situé en première place a comme ressource acquise rang1. Lesressources « Rang » sont ordonnées dans les préférences de l’agent d’après leur indicex représentant leur position, de sorte que plus un rang est proche du premier rang,plus il est préféré par un agent. De plus, un agent ne désire pas obtenir de rang dont laposition est plus reculée que son rang actuel. C’est-à-dire que si rangx ∈ RAi, alors@rangx′ ∈ RAi tq x′ ≥ x. Quand un agent i acquiert rang1, le type « Rang » estsupprimé des besoins de i, c’est-à-dire : Bi = ∅, d’où RDi = ∅.

3.4. Sélection du comportement

Dans cette section nous expliquons comment un comportement est sélectionné parun agent parmi un ensemble de comportements possibles. Comme un agent ne peutadopter qu’un seul comportement à la fois, il doit déterminer quel comportement luiapporte la meilleure récompense. Dans notre modèle cela est effectué en calculantune valeur pour chaque comportement possible, qui représente une récompense ou uncoût (basée sur le rang des ressources dans les préférences d’un agent), et en prenant encompte la priorité des protections sur les acquisitions dans le processus de sélection.

3.4.1. Comportements possibles

Comme présenté en section 3.2.2, chaque ressource r est associée à trois sous-ensembles de comportements : C+

r , Cor et Co∗

r . Quand une ressource r est dési-rée par un agent i, i a la possibilité d’adopter tout comportement c ∈ C+

r , tel queposs(c) ∧ agent(c) = i, dans le but d’acquérir la ressource r. De la même façon,∀r ∈ RMi, i peut adopter tout c ∈ Co

r tel que poss(c) ∧ agent(c) = i, dans le butde protéger r. Enfin, quand une ressource r est acquise par i et n’est pas menacée,i.e. r ∈ RAi ∧ r /∈ RMi, l’agent i peut adopter tout comportement c ∈ Co∗

r tel queposs(c) ∧ agent(c) = i, dans le but de protéger r de façon préventive. Cette capacitéà sélectionner des comportements préventifs est un paramètre de comportement del’agent (nous comparons dans nos expérimentations section 4 la crédibilité des com-portements selon que les agents adoptent ou non des comportements préventifs).

Exemple. Pour chaque ressource rangx de type « Rang » dans le contexte d’une filed’attente possédée par un agent j, nous définissons : C+

rangx = {doublei,j}(i,j)∈A2 ,contenant les comportements permettant à un agent i de doubler l’agent j. Pour touteressource rangx de la file d’attente possédée par j et désirée par i, poss(doublei,j)est défini par : poss(doublei,j) = ¬do(j, collerj) ∧ x 6= 1. C’est-à-dire qu’il n’estpas possible pour i de doubler l’agent j si l’agent j est collé à l’agent situé devantlui, ou si j est en première position de la file. De même, nous définissons Co

rangx =

Page 13: Une approche pour la simulation de comportements

Simulation de comportements affectifs 123

{protestei,j}(i,j)∈A2 , contenant le comportement d’un agent i qui proteste contreun agent j, sans pré-conditions particulières, ainsi que Co∗

rangx = {colleri}i∈A, quicontient le comportement où i se colle à la personne juste devant (ou au guichet lors-qu’il est au premier rang) pour prévenir tout dépassement.

Selon la situation, un agent peut choisir de doubler, de protester, ou de coller sonprédécesseur. Comme nous le verrons dans la section 3.4.3, ces comportements sontdéclenchés en fonction de l’état des ressources du point de vue d’un agent.

3.4.2. Calcul de la valeur d’un comportement

Comme cela a été présenté en section 3.2.2, chaque comportement c peut avoir deseffets d’acquisition, de protection, de menace et de perte sur les ressources. La valeuranticipée par un agent d’un comportement est basée sur ces quatre ensembles d’effets.

Pour un agent, chaque ressource menacée ou perdue à cause du comportementest comptée comme une valeur négative dans la valeur du comportement, et chaqueressource acquise ou protégée grâce au comportement est comptée comme une valeurpositive. La valeur d’une ressource r pour un agent i, notée comme val(r, i), dépenddu rang occupé par r dans la relation de préférence de l’agent �R

i . Soit rang(r,�Ri )

le rang ordinal d’une ressource r dans�Ri , et card(R) le nombre de ressources. Alors

val(r, i) = card(R)+1−rang(r), ce qui signifie que plus une ressource est préféréepar un agent i, plus la valeur de la ressource est importante pour i. La valeur anticipéepar i pour un comportement c est calculée comme :

V al(c, i) =∑

r∈R+c (i)∪Ro

c(i)

val(r, i)−∑

r∈R−c (i)∪R•c (i)

val(r, i) (1)

Cette valeur est globale car elle inclut les effets appliqués en début, en cours ou àla fin d’un comportement.

3.4.3. Processus de sélection

La sélection d’un comportement dépend de la valeur du comportement et du typedu comportement. L’algorithme principal respecte les principes suivants :

1. un agent i essaye en priorité de protéger ses ressources menacées (Cor ) ;

2. s’il n’y a pas de ressource menacée, ou qu’aucun comportement de protectionne peut-être engagé vis-à-vis d’une ressource menacée, et si l’agent a été paramétrécomme pouvant mener des actions préventives, alors i essaye d’engager un compor-tement de protection préventif pour ses ressources acquises (Co∗

r ) ;3. enfin, si aucun comportement n’est en cours (rappelons qu’un agent n’adopte

qu’un comportement à la fois), un agent essaye d’acquérir les ressources qu’il désire(C+

r ).

Page 14: Une approche pour la simulation de comportements

124 TSI. Volume 32 – no 1/2013

Ces priorités sont adaptées d’après le modèle original de Hobfoll (1989), quiénonce que la perte de ressource est plus importante que le gain de ressource. Pourchacune des trois étapes ci-avant, le comportement sélectionné par i est celui qui a lavaleur positive maximum pour i.

Comme nous l’avons évoqué dans la section précédente, un agent peut aussi aban-donner son comportement courant quand il a provoqué un autre comportement quimenace une de ses ressources. Pour cela, dans notre modèle, chaque agent i sait quelssont les comportements exécutés par les autres agents destinés à arrêter son compor-tement en cours. Par exemple si un agent i dépasse un agent j dans une file d’attente,et que j commence à protester, menaçant de cette façon une ressource de type « Ré-putation » de i, i peut décider de reprendre sa place dans le but que j cesse son com-portement de protection. Dans cette situation, la décision d’un agent j d’arrêter soncomportement d’acquisition courant dépend de la valeur des comportements de pro-tection impliqués : si la somme de ces comportements résulte au total en une valeurnégative pour i une fois qu’ils sont terminés, alors i abandonne son comportementd’acquisition.

Exemple. Nous considérons deux agents i et j dans une file d’attente avec trois agents.Les préférences de l’agent j sont définies avec reput1 �R

j rang1 �Rj rang2 �R

j

reput2 �Rj rang3. Nous divisons la réputation en plusieurs ressources, de sorte que la

menace d’une ressource de réputation puisse être plus ou moins importante en fonctiondu comportement effectué. Par exemple « protester en proférant des insultes » n’a pasle même effet que « protester en rappelant à l’ordre ». Au début de la simulation,l’agent i occupe la deuxième position dans la file (i.e. RAi = {rang2}), et l’agentj occupe la troisième position avec une réputation intacte, ce qui est représenté parRAj = {reput1, reput2, rang3}. Les deux agents ont un besoin pour un type deressource « Rang » (Bi = Bj = {Rang}) et les ressources désirées calculées d’aprèsles besoins sont RDi = {rang1} et RDj = {rang1, rang2}).

Supposons maintenant que l’agent j a la possibilité d’acquérir rang2 car il ya un espace suffisant entre l’agent qui occupe le premier rang et i. Les effets es-timés par l’agent j pour ce comportement d’acquisition cAcq sont : R+

cAcq(j) =

{rang2}, R−cAcq(j) = {reput2}, de sorte que V al(cAcq, j) = val(rang2, j) −val(reput2, j) = 3 − 2 = 1 (la ressource de réputation menacée est choisie aléa-toirement). Nous rappelons que la valeur d’une ressource r pour un agent i, val(r, i),est calculée par rapport à la relation de préférences de i sur les ressources (voir sec-tion 3.4.2). Comme V al(cAcq, j) est une valeur positive, j commence l’exécution decAcq dans le but d’acquérir rang2, ce qui consiste à doubler l’agent i. La ressourcerang2 est maintenant menacée pour i.

L’agent i peut adopter un comportement de protection cPro qui consiste à protes-ter verbalement contre j. Les effets de ce comportement sont : Ro

cPro(i) = {rang2},R−cPro(j) = {reput1} (les effets concernant la réputation sont choisis aléatoirement).Contrairement à ce que j avait anticipé, l’agent i attaque reput1 au lieu de reput2.Dans cette situation les effets de cAcq sont mis à jour avec R−cAcq(j) = {reput1},

Page 15: Une approche pour la simulation de comportements

Simulation de comportements affectifs 125

et donc V al(cAcq, j) = val(rang2, j) − val(reput1, j) = 3 − 5 = −2, ce qui estune valeur négative pour j. Donc j cesse son comportement cAcq afin que cPro cesseégalement. Comme rang2 n’est plus menacé pour i, i abandonne cPro avant qu’il soitterminé, et j ne perd pas reput1, qui est sa ressource acquise la plus importante. Enconséquence, j peut choisir un autre comportement. Une illustration de cet exempleest montrée en figure 4

Figure 4. Illustration de l’exemple. L’agent j double l’agent i, i proteste en menaçantune ressource de réputation importante pour j, finalement j reprend sa place

4. Evaluation

L’évaluation présentée dans cette section repose sur des questionnaires soumis parinternet à propos de vidéos de simulations d’agents virtuels obtenues grâce à l’implé-mentation de notre modèle. Elle est destinée à savoir si les comportements exhibés parles agents sont considérés comme crédibles et émotionnels, et donc si l’architectured’agent à l’origine de ces simulations permet de produire des comportements crédibleset émotionnels. C’est ce que nous avons souhaité valider dans le cadre du modèle quenous avons présenté dans cet article.

Un lien hypertexte vers la page d’évaluation a été envoyé à des listes de diffusionet des forums de discussion. Chaque participant acceptant de répondre à l’étude a dûremplir un questionnaire à propos d’une vidéo tirée au hasard parmi 7 vidéos. Lesvidéos provenaient de deux scénarios différents dont le contexte a été présenté en cestermes :

Scénario 1 (feu) : « Deux personnages, un adulte et un bébé, sont dans une cuisine.Le bébé se trouve près d’un oiseau en cage, et un hamburger est posé sur la table. Unfeu va se déclencher dans la pièce. L’adulte peut alors adopter les comportementssuivants : sauver le bébé, sauver l’oiseau, ou sauver le hamburger. Il ne peut porterqu’un seul de ces éléments à la fois, et le bébé ne peut pas se déplacer seul. »

Page 16: Une approche pour la simulation de comportements

126 TSI. Volume 32 – no 1/2013

Scénario 2 (file d’attente) : « Des personnages font la queue dans une file d’attentepour obtenir un ticket. Ils ont la possibilité de patienter ou de doubler. »

Trois vidéos provenaient du scénario « feu », et quatre vidéos provenaient du scé-nario « file d’attente ». La durée et la description des vidéos sont données dans letableau 1 et des captures d’écran issues des simulations sont montrées sur la figure5. Dans les trois vidéos du scénario « feu » l’agent adulte i a été configuré avec lesressources acquises suivantes : RAi = {hamburger1, oiseauEnCage1, bebe1, vie1,securite1, securite2, securite3}. La relation de préférence de i sur ce domaine deressources détermine l’ordre dans lequel i les sauve quand elles sont menacées par lefeu. Un agent peut sauver des ressources de type « Vie » ou « Sécurité » en fuyant, etil peut sauver les ressources de type « Bébé », « Hamburger », « Oiseau En Cage » enles amenant en dehors de la pièce. Le feu, qui est aussi un agent, menace et détruitles ressources de sécurité de l’agent i une par une par le comportement « brûler », dela moins importante à la plus importante pour i. Quand il n’y a plus aucune ressourcede type « Sécurité » dans RAi, le feu menace la ressource vie1 de i. Le comporte-ment « brûler » de l’agent feu a une certaine durée qui est paramétrable, et ses effetspeuvent donc avoir lieu plus ou moins rapidement. Dans les 3 vidéos pour ce scénario,la configuration de la relation de préférence de l’agent i a été modifiée, ainsi que la vi-tesse à laquelle l’agent prend les ressources de sécurité (i.e. la durée du comportement« brûler »). Les différentes configurations sont présentées dans le tableau 1.

Figure 5. Gauche : scénario de feu - Droite : scénario de file d’attente

Dans les 4 vidéos du scénario de la file d’attente, la configuration a varié sur troisaspects : la relation de préférence des agents sur les types « Rang » et « Réputation »,la dispersion aléatoire des ressources qui a été appliquée sur 0 ou 3 agents, et la possi-bilité pour certains agents d’adopter des comportements de protection préventive pourprotéger une ressource de type « Rang », qui consiste à se rapprocher au maximum del’agent qui est juste devant lui. Les effets de la dispersion aléatoire dans ce scénario defile d’attente ont déjà été expliqués dans la section 3.3.1. Dans la vidéo 4, un change-ment a été effectué pour les préférences sur les types pour un agent i donné en coursde simulation, le type « Rang » devenant plus important que le type « Réputation ».

Page 17: Une approche pour la simulation de comportements

Simulation de comportements affectifs 127

Tableau 1. Description des vidéos

Scénario 1Vidéo 1 (18 sec.) - Configuration : V ie �T

i Bebe �Ti Oiseau �T

i Securite �Ti

Hamburger ; durée de bruler : 12 (en pas de temps).Observable : l’adulte est en train de manger le hamburger. Quand le feu apparaît,l’adulte emmène le bébé à l’extérieur de la pièce, puis l’oiseau en cage.Vidéo 2 (25 sec.) - Configuration : V ie �T

i Hamburger �Ti Oiseau �T

i Bebe �Ti

Securite ; durée de bruler : 12 .Observable : l’adulte est en train de manger le hamburger. Quand le feu apparaît, ilemmène le hamburger à l’extérieur de la pièce, puis l’oiseau en cage, puis essaye d’em-mener le bébé mais ce dernier brûle avant que l’agent ne l’atteigne (il est remplacé parune flamme), et l’agent fuit (il sort de l’écran de simulation).Vidéo 3 (10 sec.) - Configuration : V ie �T

i Bebe �Ti Oiseau �T

i Securite �Ti

Hamburger ; durée de bruler : 3.Observable : l’adulte est en train de manger le hamburger. Quand le feu apparaît,l’agent se dirige vers le bébé, mais la taille du feu augmente brutalement, menaçantla vie de l’agent, et l’adulte fuit de la maison sans le bébé.Scénario 2Vidéo 4 (18 sec.) - Configuration : ∀j ∈ A, Reputation �T

j Rang ; au pas detemps 60 : pour un agent i, Rang �T

i Reputation ; 3 agents peuvent adopter descomportements préventifs ; pas de dispersion.Observable : un agent est en train d’acheter un ticket à un guichet tandis que d’autresagents attendent dans une file d’attente. Un agent i à la fin de la file double un autreagent j. L’agent j proteste, mais i n’interrompt pas son comportement et prend le rangde j dans la file. Ensuite i attend, et finit par prendre un ticket lorsque c’est son tour.Vidéo 5 (27 sec.) - Configuration : ∀j ∈ A, Reputation �T

j Rang ; pas de disper-sion.Observable : un agent est en train d’acheter un ticket à un guichet tandis que d’autresagents attendent dans une file d’attente. Quand l’agent a terminé d’acheter son ticket,il quitte la file, et les agents avancent en gardant chacun une distance constante les unsdes autres.Vidéo 6 (26 sec.) - Configuration : ∀j ∈ A, Rang �T

j Reputation ; 3 agents peuventadopter des comportements préventifs ; dispersion : 3 agents.Observable : un agent est en train d’acheter un ticket à un guichet, et de nombreuxagents essayent de doubler d’autres agents quand il y a suffisamment d’espace pour lefaire. Les agents protestent contre ceux qui doublent, parfois ces derniers s’interrompentet parfois non.Vidéo 7 (37 sec.) - Configuration ∀j ∈ A, Reputation �T

j Rang ; 3 agents peuventadopter des comportements préventifs ; dispersion : 3 agents.Observable : un agent est en train d’acheter un ticket à un guichet tandis que d’autresagents attendent dans une file d’attente. Un agent i essaye de doubler un agent j, maisj proteste et i double un autre agent k qui est juste derrière j. k proteste mais i prendtout de même le rang de k. Plus tard, k double un agent, achète un ticket et quitte la file.

Page 18: Une approche pour la simulation de comportements

128 TSI. Volume 32 – no 1/2013

Cela peut-être associé à une situation où i est en retard, et n’arrivera pas à prendre sontrain s’il ne double pas un agent dans la ligne.

Les vidéos 2 et 6 ont été conçues de sorte à ne pas être crédibles. En effet, pour lavidéo 2 nous avons estimé qu’un agent pour qui un hamburger serait plus importantqu’un bébé n’exhiberait pas un comportement crédible (il sauverait du feu le ham-burger en premier). De même nous avons estimé qu’un grand nombre d’agents pourqui le « Rang » dans une file d’attente serait plus important que la « Réputation » neserait pas non plus crédible, les agents ne se doublant en général pas tous les uns lesautres dans une file. Ces paramétrages ont été faits dans le but de montrer la perti-nence de l’ordre de préférences chez un agent. La vidéo 5 a été conçue de sorte queles agents n’exhibent ni comportement de protection, ni comportement d’acquisition(les rangs dans la file d’attente sont acquis passivement). Cela sert à mesurer l’impactdes comportements d’acquisition et de protection sur la reconnaissance d’émotionspar les participants dans les comportements des agents.

Le questionnaire demandait aux participants de décrire les comportements obser-vés des agents (cette question a pour référence DESC), et d’expliquer ces comporte-ments (EXPL). Sur une autre page, il a été demandé aux participants d’évaluer sur uneéchelle de Likert à 5 niveaux (d’accord à pas du tout d’accord) les questions suivantesdans cet ordre :

– « Selon vous, est-ce qu’il s’agit de comportement(s) réaliste(s) ? » (REAL)– « Selon vous, est-ce que ce(s) comportement(s) est/sont lié(s) à des traits de

personnalité chez le personnage ? » (PERS)– « Selon vous, est-ce que ce(s) comportement(s) est/sont lié(s) à une/des déci-

sion(s) rationnelle(s) chez le personnage ? » (RATIO)– « Selon vous, est-ce que ce(s) comportement(s) est/sont lié(s) à des émotions

chez le personnage ? » (EMO)

Après les questions PERS et EMO, les participants ont également été invités à citerdes traits de personnalité et des émotions :

– « Si vous êtes d’accord avec la question précédente, pourriez-vous citer ces traitsde personnalité ? » (PER_LIST)

– « Si vous êtes d’accord avec la question précédente, pourriez-vous citer cesémotions ? » (EMO_LIST).

Nous avons comme objectif la simulation de comportements crédibles mais nonréalistes, toutefois le terme réaliste a été utilisé parce qu’il était plus facilement com-préhensible pour les participants. Les questions à propos des décisions rationnelles etde la personnalité ont été introduites pour éviter un biais, afin que les participants nese concentrent pas uniquement sur le réalisme et les émotions. Ces questions ne sontpas considérées dans les résultats.

Page 19: Une approche pour la simulation de comportements

Simulation de comportements affectifs 129

4.1. Résultats

Tableau 2. Pourcentage de participants ayant utilisé des termes émotionnels dans lesquestions DESC/EXPL par vidéo

Vid. Nb. DESC/EXPL Vid. Nb. DESC/EXPLparticipants avec émotion(s) Participants avec émotion(s)

1 29 10 % 2 22 18 %3 29 28 % 4 19 42 %5 17 0 % 6 11 36 %7 15 7 %

70 participants ont répondu à notre étude par internet. Nous avions formulé troishypothèses au sujet des résultats :

– Hp1 : les participants vont décrire et expliquer les comportements avec destermes émotionnels explicites (e.g. peur, colère) pour les questions DESC et EXPL ;

– Hp2 : les participants vont juger que les comportements des agents dans lesvidéos 1, 3, 4 et 7 sont associés aux émotions des agents, mais pas dans les vidéos 2,5 et 6 ;

– Hp3 : les participants vont juger que les comportements des agents dans lesvidéos 1, 3, 4, 5, 7 sont réalistes, mais pas ceux des vidéos 2 et 6.

Concernant Hp1, le tableau 2 indique pour chaque vidéo le pourcentage de parti-cipants qui ont utilisé des termes émotionnels pour les questions DESC et EXPL. Lesvidéos 1, 5 et 7 ont été peu décrites ou expliquées avec des émotions (0 % à 10 %),pour les autres vidéos un plus grand nombre de participants a utilisé des termes émo-tionnels (18 % à 42 %). En conséquence Hp1 est partiellement validée, puisque lesparticipants ont effectivement utilisé des termes émotionnels mais le pourcentage resteen dessous de 50 %.

Concernant Hp2, en réponse à la question EMO les participants ont évalué que lescomportements des agents dans les vidéos 1, 3, 4, 6, 7 étaient liés aux émotions (lamoyenne par vidéo s’étend de 3.03 à 4.18 sur une échelle de Likert à 5 niveaux), etparticulièrement pour les vidéos 6 et 4. Les comportements observés sur les vidéos 2et 5 n’ont pas été jugés comme liés aux émotions (la moyenne par vidéo est respecti-vement de 2.45 et 1.94 sur l’échelle de Likert). Contrairement à ce qui était attendu,les comportements de la vidéo 6 ont été évalués comme liés aux émotions (4.18). Lafigure 6 illustre ces données.

Les participants ont cité plusieurs types d’émotions en réponse à la question EMO_LIST. Ces résultats sont montrés dans des camemberts (voir figure 7). Seuls les ca-memberts les plus représentatifs ont été inclus. Dans les vidéos dont les comporte-ments ont été évalués comme liés aux émotions, il y a des différences dans les termesémotionnels qui ont été utilisés. Il y a eu moins de termes émotionnels pour la vidéo 1,et pour la vidéo 3 le terme « peur » domine. Dans les vidéos 4 et 6 les termes émotion-nels sont distribués plus également. Seuls les termes émotionnels écrits explicitement

Page 20: Une approche pour la simulation de comportements

130 TSI. Volume 32 – no 1/2013

Figure 6. Moyenne et écart type pour les questions EMO et REAL par vidéo (échellede Likert de 1 à 5)

Figure 7. Distribution des termes émotionnels par vidéo

ont été pris en compte, comme en attestent les camemberts de la figure 7 dont les libel-lés correspondent aux mots utilisés par les participants. Les expressions comme « lesagents en ont marre d’attendre », ou les citations comme « courage » ou « instinct desurvie » n’ont pas été pris en compte.

Page 21: Une approche pour la simulation de comportements

Simulation de comportements affectifs 131

Ces données valident Hp2, à l’exception des comportements observés sur la vi-déo 6 qui ont été jugés comme liés aux émotions, et ont été décrits avec des termesémotionnels.

Concernant Hp3, les participants ont évalué que les comportements observés surles vidéos 1, 4, 5 et 7 étaient réalistes (3.74 à 4.34 sur une échelle de Likert), et queceux de la vidéo 2 n’étaient pas réalistes (1.59). Contrairement à ce qui était attendu,les comportements de la vidéo 6 ont été jugés comme réalistes (3.64), et ceux de lavidéo 3 ont été jugés non réalistes (ces données sont montrées sur la figure 6). Cesdonnées valident Hp3, à l’exception de celles concernant les vidéos 3 et 6.

Comme résultat supplémentaire, un test « Signé des Rangs de Wilcoxon » (donnéesnon paramétriques) a été effectué pour chaque vidéo sur les données concernant le lienentre le réalisme (REAL) et les émotions (EMO). Nous avons observé que le niveaude réalisme perçu a un effet sur le niveau d’émotions perçu pour les vidéos 1, 2, 3 et 5(p < .05), mais pas pour les vidéos 4, 6 et 7 (p > .05) (se référer au tableau 3).

Tableau 3. Test signé des rangs de Wilcoxon pour chaque vidéo pour les résultats deREAL par rapport à EMO

Vid. n x̄(REAL/EMO)

std. Dev.(REAL/EMO)

Z p

1 29 4.34/3.03 1.17/1.57 3.33 0.001 *2 22 1.59/2.45 0.95/1.44 -2.88 0.003 *3 29 2.44/3.24 1.30/1.45 -2.55 0.01 *4 19 3.74/3.74 1.41/1.10 -0.07 0.9435 17 4.41/1.94 0.51/1.14 3.54 0.004 *6 11 3.64/4.18 1.57/0.98 -1.38 0.1677 15 3.87/3.06 0.83/1.28 1.44 0.15

4.2. Discussion

D’après ces résultats, nous pouvons affirmer que les hypothèses formulées ont étémajoritairement validées, à l’exception de quelques vidéos. Les participants ont citéde nombreuses émotions en réponse à la question EMO_LIST, cependant ils ont étémoins nombreux que prévu à employer des termes émotionnels pour la description etl’explication des comportements des agents (questions DESC et EXPL). Les partici-pants ont aussi évalué les vidéos conformément à nos hypothèses en ce qui concernela crédibilité et le caractère émotionnel des comportements, à l’exception de la vidéo6. Des différences dans les labels d’émotion utilisés par les participants ont pu êtreobservées, certains n’ayant utilisé qu’un seul label et d’autres des labels variés. Celacorrobore le travail des psychologues Barrett et al. (2001), selon lequel les individusne différencient pas de la même manière les émotions qu’ils perçoivent, certains nereconnaissant que deux grandes catégories, et d’autres en reconnaissant un plus grandnombre.

Concernant Hp1, les résultats pour les vidéos 1 et 7 sont inattendus, puisque seule-ment 10 % et 7 % respectivement des participants ont utilisé des termes émotionnels

Page 22: Une approche pour la simulation de comportements

132 TSI. Volume 32 – no 1/2013

en répondant aux questions DESC et EXPL. Les participants ont qualifié les compor-tements des agents par les termes « logique », « normal », et ont rapporté que l’adulte« n’a pas paniqué », est resté « calme », et a respecté ses « priorités ». Tandis que pourla vidéo 3, l’agent a été qualifié de « lâche », et son comportement de « stupide »,« égoïste » et « pas héroïque ». Le contraste entre les vidéos 1 et 3 semble révéler queles émotions sont plus facilement associées à une situation où l’agent semble perdrele contrôle ou exhibe des comportements qui ne sont pas bien acceptés socialement.Pour la vidéo 7, les participants ont répondu que certains agents étaient « pressés »,mais cela n’a pas été considéré comme un label d’émotion et donc pas pris en comptedans les résultats. Le nombre de participants pour cette vidéo (15) pourrait aussi êtreinsuffisant. Le résultat de 0 % pour la vidéo 5 était attendu, puisqu’aucun comporte-ment de protection ou d’acquisition n’a été engagé par un agent, les rangs dans la filed’attente étaient acquis passivement (les agents se suivaient les uns les autres).

Concernant Hp2 et Hp3, les comportements de la vidéo 6 ont été évalués commeliés à des émotions chez les agents et réalistes, ce qui n’était pas attendu. Cependant,l’influence du réalisme sur l’émotion n’était pas significatif pour cette vidéo (voirtableau 3). La simulation de la vidéo 6 a été conçue de sorte que les comportementsdes agents ne soient pas crédibles, avec de nombreux agents se doublant les uns lesautres dans la file d’attente. Nous pensions que des comportements non crédibles nepouvaient pas être évalués comme liés à des émotions, et nous cherchions à validercette hypothèse. Mais seulement 2 participants ont rapporté qu’un trop grand nombred’agents se doublaient, les comportements ont été jugés comme réalistes, et égalementcomme liés à des émotions. Une explication pourrait être que les participants ont faitdes suppositions sur le contexte, en pensant par exemple que tous les agents avaientpatienté depuis très longtemps dans cette file d’attente, ou que nous avons sous-estiméle caractère crédible de cette situation.

Concernant Hp3, la vidéo 3 a été évaluée comme non réaliste, ce qui n’était pasattendu. Les comportements des agents ont été qualifiés de « fous », et certains ontécrit que le bébé n’était probablement pas le bébé de l’agent, sans quoi l’adulte auraitsauvé le bébé au lieu de fuir. Cela pourrait être parce que la menace sur le vie de l’agentn’a pas été correctement représentée sur l’interface graphique de notre simulation, etque les participants ont eu des difficultés à identifier visuellement cette menace.

De façon générale, il semble que plus les participants ont eu de difficultés à expli-quer le comportement des agents, plus ils ont effectué une interprétation émotionnelle.Dans les vidéos 3 et 6 l’émotion (EMO) est plus représentée que le réalisme (REAL),tout comme dans la vidéo 2, où les préférences de l’agent sont contre-intuitives (ilsauve le hamburger d’abord). Dans les autres vidéos le réalisme prend une dimensionplus importante que l’émotion.

Enfin, le fait que les observateurs humains ont reconnu de nombreuses émotionspeut avoir été facilité par l’utilisation de termes de vocabulaire comme l’indication tex-tuelle « protester ». En effet, ce terme peut être psychologiquement associé à l’émotionde colère chez les participants, facilitant ainsi la reconnaissance de cette émotion. Se-lon la classification d’Austin (1975), « protester » fait partie des actes de langage com-

Page 23: Une approche pour la simulation de comportements

Simulation de comportements affectifs 133

portementaux, qui représentent des réactions vis-à-vis du comportement des autres.L’emploi qui en a été fait dans le modèle COR-E semble donc approprié.

5. Conclusion et perspectives

Nous avons présenté dans cet article une architecture destinée à doter des agentsvirtuels de comportements émotionnels crédibles, qui ne manipulent pas de catégo-ries d’émotions. Notre principale hypothèse était que la simulation de comportementspouvant être décrits avec des termes émotionnels ne nécessite pas forcément une ar-chitecture basée sur des catégories d’émotions, mais peut reposer sur une conceptionplus élémentaire, comme le modèle que nous avons proposé, inspiré de la théorie dela conservation des ressources (Hobfoll, 1989). Nos résultats, basés sur la simulationde deux scénarios différents, ont validé cette hypothèse. Cette étude corrobore le tra-vail de Pfeifer (1994), et confirme que les difficultés liées à l’utilisation de catégoriesd’émotions dans les modèles informatiques peuvent être évitées en ce qui concerne lasimulation de comportements crédibles. Nous avons également proposé un protocoled’évaluation dans le but de déterminer si les comportements produits par une archi-tecture sont perçus comme crédibles et émotionnels par des observateurs humains.

Ce travail montre que nous pouvons nous reposer sur le modèle présenté dans cetarticle pour nos prochains travaux sur la simulation de comportements émotionnels.En particulier, nous souhaitons travailler sur la hiérarchie entre les types de ressourcesdans les préférences de l’agent, et établir une hiérarchie générale contenant un nombresuffisant de types de ressources qui puissent être utilisés dans de nombreux scénarios.Pour cela il est par exemple possible d’adapter la pyramide des besoins de Maslow etal. (1970), et de prendre en compte les 74 types de ressources listés dans la théoriede Hobfoll (2001). Nous souhaitons également mettre au point un procédé simplepermettant de personnaliser la hiérarchie pour chaque agent afin de construire desprofils de personnalité. Une limitation du modèle actuel est que les agents ne peuventpas communiquer sur leur état émotionnel en exprimant « je suis en colère » ou « jesuis triste ». Afin qu’ils disposent de cette capacité, il serait nécessaire d’intégrer unmodèle de catégorisation, permettant d’associer des mots de vocabulaire à un certaincontexte. Le modèle COR-E pourrait aussi être formalisé avec une approche BDI, oùl’état des ressources d’un agent serait considéré comme des croyances, et l’acquisitionet la protection de ressources seraient des intentions. Le formalisme BDI a en effetdéjà été utilisé par plusieurs modèles traitant des émotions (Adam, 2007 ; Pereira etal., 2008). Enfin, nous comptons étendre le modèle au groupe et à la foule, afin depouvoir l’utiliser dans des simulations contenant un grand nombre d’agents.

Page 24: Une approche pour la simulation de comportements

134 TSI. Volume 32 – no 1/2013

RemerciementsLes travaux présentés dans cet article ont été réalisés au LIP6 dans le cadre duprojet TerraDynamica, FUI8 porté par Thalès Training and Simulation, soutenupar les pôles de compétitivité Cap Digital et Advancity, et financé par le ministèrede l’Economie, des Finances et de l’Industrie (DGCIS), le Conseil Régional d’Ilede France, le Conseil Régional d’Aquitaine, le Conseil Général des Yvelines, leConseil Général de Seine-Saint-Denis, le Conseil Général du Val d’Oise et la Villede Paris.

Bibliographie

Adam C. (2007). Emotions: from psychological theories to logical formalization and implemen-tation in a bdi agent. Thèse de doctorat non publiée, Institut de Recherche en Informatiquede Toulouse.

Austin J. (1975). How to do things with words (vol. 88). Harvard University Press.

Barrett L. (2006). Solving the emotion paradox: Categorization and the experience of emotion.Pers. and social psychol. review, vol. 10, no 1, p. 20.

Barrett L., Gross J., Christensen T., Benvenuto M. (2001). Knowing what you’re feeling andknowing what to do about it: Mapping the relation between emotion differentiation andemotion regulation. Cognition and Emotion, vol. 15, no 6, p. 713–724.

Ekman P. (1999). Basic emotions. Handbook of cognition and emotion, p. 45–60.

Elliott C. (1992). The affective reasoner: a process model of emotions in a multi-agent system.Thèse de doctorat non publiée.

Frijda N. (2004). Emotions and action. In Feelings and emotions: The amsterdam symposium,p. 158–173.

Gebhard P. (2005). ALMA: a layered model of affect. In Proceedings of the fourth internationaljoint conference on autonomous agents and multiagent systems, p. 29–36.

Gratch J., Marsella S. (2004). A domain-independent framework for modeling emotion. Cog-nitive Systems Research, vol. 5, no 4, p. 269–306.

Hobfoll S. (1989). Conservation of resources. American Psychologist, vol. 44, no 3, p. 513–524.

Hobfoll S. (2001). The influence of culture, community, and the nested-self in the stress process:advancing conservation of resources theory. Applied Psychology, vol. 50, no 3, p. 337–421.

James W. (1890). The emotions. In The principles of psychology.

Lazarus R., Folkman S. (1984). Stress, appraisal, and coping. Springer Publishing Company.

Marsella S., Gratch J., Petta P. (2010). Computational models of emotion. A Blueprint for anAffectively Competent Agent: Cross-Fertilization Between Emotion Psychology, AffectiveNeuroscience, and Affective Computing. Oxford University Press, Oxford.

Maslow A., Frager R., Fadiman J. (1970). Motivation and personality (vol. 2). Harper & RowNew York.

Mehrabian A., Russell J. (1974). An approach to environmental psychology. the MIT Press.

Page 25: Une approche pour la simulation de comportements

Simulation de comportements affectifs 135

Ortony A., Clore G. L., Collins A. (1988). The cognitive structure of emotions. New York :Cambridge University Press.

Ortony A., Turner T. (1990). What’s basic about basic emotions. Psychological review, vol. 97,no 3, p. 315–331.

Pereira D., Oliveira E., Moreira N. (2008). Formal modelling of emotions in bdi agents. Com-putational Logic in Multi-Agent Systems, p. 62–81.

Pfeifer R. (1994). The “Fungus Eater”Approach to Emotion: A View from Artificial Intelli-gence. Cognitive Studies, vol. 1, p. 42–57.

Robert G., Guillot A. (s. d.). Mhics, a modular and hierarchical classifier systems architecturefor bots. In 4th international conference on intelligent games and simulation (game-on’03),p. 140–144.

Russell J. (1991). Culture and the categorization of emotions. Psychological bulletin, vol. 110,no 3, p. 426–450.

Schachter S., Singer J. (1962). Cognitive, social, and physiological determinants of emotionalstate. Psychological review, vol. 69, no 5, p. 379.

Scherer K. (1999). Appraisal theory. Handbook of cognition and emotion, p. 637–663.

Scherer K. (2001). Appraisal considered as a process of multilevel sequential checking. Ap-praisal processes in emotion: Theory, methods, research, vol. 92, p. 120.

Sevin E. de, Thalmann D. (2005). A motivational model of action selection for virtual humans.In cgi, p. 213–220.

Torlone R., Ciaccia P. (2002). Finding the best when it’s a matter of preference. In Proc. 10thitalian national conference on advanced database systems (sebd 2002), portoferraio, italy.

Reçu le 30 mars 2012Accepté le 27 septembre 2012

Sabrina Campano. est doctorante à l’Université Pierre et Marie Curie. Elle est membre del’équipe Systèmes Multi-Agents au Laboratoire d’Informatique de Paris 6 (LIP6). Ses travauxportent sur la modélisation de comportements crédibles pour des personnages virtuelsévoluant dans un milieu urbain. Elle s’intéresse en particulier aux aspects émotionnels de cescomportements.

Etienne de Sevin. est chercheur en informatique au LIP6, UPMC. Il a obtenu son doctorat eninformatique au VRLab EPFL suisse en 2006. Il s’intéresse plus particulièrement à la prise dedécision en temps réel des agents virtuels en fonction des facteurs internes (motivations,émotions, personnalités, raisonnement) et externes (perception de l’environnement, des autresagents et des utilisateurs).

Vincent Corruble. est Maître de Conférences dans l’équipe Systèmes Multi-Agents du LIP6,Université Pierre et Marie Curie. Ses centres d’intérêt couvrent plusieurs domaines del’Intelligence Artificielle. Il a en particulier contribué à l’évolution des savoirs dans lesdomaines de l’apprentissage et de la découverte de connaissances. Depuis une dizaine

Page 26: Une approche pour la simulation de comportements

136 TSI. Volume 32 – no 1/2013

d’années, il s’intéresse aux agents intelligents dans le cadre des jeux et des simulationscomplexes, en particulier à travers les notions de crédibilité et de passage à l’échelle. Dans cecadre, il a participé au montage, et a coordonné au LIP6, les projets DEEP (RIAM 2006-2008)et TerraDynamica.

Nicolas Sabouret. est Professeur à l’Université Paris-Sud et effectue ses recherches auLIMSI-CNRS. Il travaille sur les modèles d’interaction dans les systèmes multi-agents et dansles domaines de la communication humain-agent, en utilisant des modèles de représentationdes connaissances. Il s’est intéressé récemment à la définition de modèles computationnels del’influence de la personnalité, des émotions, de l’humeur et des relations sociales sur leraisonnement et la prise de décision, afin d’améliorer la crédibilité du comportement desagents virtuels. Il anime le groupe de travail Affects, Compagnons Artificiels et Interactions(ACAI) du GDR Information-Interaction-Intelligence (I3) et il coordonne le projet européenTARDIS sur l’utilisation d’agents conversationnels pour l’aide à l’insertion professionnelledes jeunes.