Inferring the intentional states of autonomous virtual agentsmiwalab.cog.human.nagoya-u.ac.jp/database/resume/2018-05-15.pdf · • 生成的モデルを動的ベイジアンネットワーク

1

Inferring the intentional states of autonomous virtual agents Peter C. Pantelis, Chris L. Baker, Steven A. Cholewiak, Kevin Sanik, Ari Weinstein, Chia Chien Wu, Joshua B. Tenenbaum,

& Jacob Feldman

Cognition, Vol. 130, pp. 360-379, 2014

1 Introduction

• 他者の目標・意図の理解は，認知機能の重要な一側面

- 運動は意図を知る手がかりとして重要

• 意図を把握せずに自然発生的な運動を理解することは不可能

- 走る人は「どこかへ向かっている」

- コーラ缶を持つ手は「缶を持ち上げている」

• 自然環境で最も重要な行動は他者エージェントが起こすもので，それは見えない心的過程を反映してい

る

- しかし目標・意図などの心的状態を推定する計算メカニズムは，まだほとんど解明されていない

• 物体の移動特性によってその心理と目標志向が喚起される (Tremoulet & Feldman, 2000)

- 哲学における読心術や，幼児・子供では研究が盛んだが，知能を持ったエージェントの行動の理解に

関してはまだ研究が少ない

- ただ，モデルアプローチ研究は近年盛んになりつつある (Feldman & Tremoulet, 2008; Baker, Saxe, &

Tenenbaum, 2009; Crick & Scassellati, 2010; Kerr & Cohen, 2010; Pautler, Koenig, Quek, & Ortony, 2011;

Burgos-Artizzu, Dollár, Lin, Anderson, & Perona, 2012)

• 意図推定の研究では，実験者や参加者の行動に焦点を当てた動画を作成し，主観的印象を計測することが

多い (Blythe et al., 1999; McAleer & Pollick, 2008)

- この手法は多くの知見をもたらした一方，限界もある

> 手作りの動画では製作者の直観が反映されてしまい，なぜある印象がもたらされたかが不明瞭

> その結果，参加者によるエージェントの心的状態の判断と，エージェントの真の心的過程の関

係性を検証できない

• 一方，運動知覚研究では，エージェントの速度・進行方向を変化させる，機械的にパラメータを操作する

手法が採られてきた (Stewart, 1982; Dittrich & Lea, 1994; Williams, 2000; Tremoulet & Feldman, 2000, 2006;

Gao, Newman, & Scholl, 2009; Gao & Scholl, 2011; Pantelis & Feldman, 2012)

- ここから本研究では， 2 次元仮想環境内を自らの信念・意図・目標に沿って動き回り，他者エージ

2018/05/15 松林

2

ェントとやり取りをする自律的エージェント (Independent Mobile Personalities: IMPs) を開発

• IMPsの最終目標は，餌を手に入れて巣に持ち帰ること (Figure 1 A)

- ただし，随時更新される目標にしたがって，刺激に対する反応が決まる

- 目標状態は Explore, Gather, Attack, Fleeの 4つで構成 (Figure 2)

• IMPsは，1次元網膜を搭載した視覚モジュールから情報を取得 (Figure 1 B)

- 動き回ることで環境の地図を徐々に学習 (Figure 1 D)

• IMPsの行動は，プログラマーの直観を直接的に反映しない

- 確率的なマルチエージェント環境では，どのような状況が現れるかはほぼ予測できない

- IMPモジュールのパラメータを変更しても，その影響を予測できない

• IMPsの真の目標状態に基づいて，参加者による推定を評価できる

- 参加者に IMPsの動きから目標状態を推定させ，その推定過程を検証

• 本研究では，エージェントの行動からその心的状態を推定する能力に焦点を当てる

- ある時点のエージェントが 4つの目標状態のどれに属しているのか

• 実験では参加者に IMPsの行動を観察させ，ターゲットの状態を推定させた

- エージェントの状態はプログラム上の変数で一意に決定されるため，参加者推定の妥当性・信頼性を

検証できる

- 手作り動画では，エージェントの真の状態が不明瞭なため，このような分析は不可能

2 Computational model

• 合理性モデル

- IMPsの行動 Aは，目標状態 Gと環境 Sによって確率的に決まる

𝑝(𝐴|𝐺, 𝑆). (1)

- 観察された行動と，エージェントのモデルが与えられれば，ベイズを用いて目標を後向き推論が可能

𝑝(𝐺|𝐴, 𝑆) ∝ 𝑝(𝐴|𝐺, 𝑆)𝑝(𝐺|𝑆). (2)

- ただし，この合理性モデルは定義が明確ではない

- たとえできたとしても，マルチエージェントで連続的に状態が変化するため，膨大な計算が必要

3

• 生成的モデル

- IMPsの観察された行動を収集し，ベイズを用いて IMPsの目標状態を推定

- 目標状態と環境に基づき行動を正確・高精度に記述するため有用

• 完全な生成的モデルの代わりに概算モデルを用いて，エージェントの目標依存・文脈依存の行動に関して

推定

- 推定において重要な IMPsの特徴として，状況・目標・行動・それらの構造のみを使用

• 生成的モデルを動的ベイジアンネットワーク (Dynamic Bayesian Network :DBN) で構築 (Figure 3)

- IMPsの連続かつ多次元の状態・行動を圧縮するため，類似した状態・行動をまとめて表現

- 確率的関係性は過去の IMPsの行動をもとに表現

• 概算 DBNを通して，参加者が構築した IMPsの行動の内部状態モデルを推定

- 解像度が低くノイズが大きいが，それはモデルのノイズや偶然性として取り入れる

2.1 Approximate representation of states and actions for the Bayesian model

• モデル実装のため，IMPsの行動と環境を単純化

- 行動左旋回・右旋回・直進の 3つに分類

- 環境 IMP周囲の空間を 9区域に区分 (Figure 4) に，他者エージェント・餌が配置

> 「知覚的に特に顕著である」という元々の直観や，「餌を運ぶエージェントは鼻先に餌を置く」

という知識に基づき，目の前にある小さな区域を設定

2.2 Learning phase

• 生成的モデルを複数回走らせて，IMPの行動指針 (行動の条件付き確率 P(At|Gt, St)) を学習

• 同様に，IMPの 4つの目標状態間の遷移に関する条件付き確率を学習

- 参加者が構築するエージェントのモデルにはばらつきがあるため，一意に決まらない

2.3 Inference phase

• ある時点 t における状態と行動系列が与えられた際の，目標状態 Gtの限界事後確率を算出することで，

参加者の推定をモデル化

- 1ステップごとに，4つの目標状態間の確率分散が算出される

𝑃(𝐺,|𝑆-:, ,𝐴-:,) ∝ 𝑃(𝐴,|𝐺,, 𝑆,)/ 𝑃(𝐺,|𝐺,0-, 𝑆,0-)1234

. (3)

2018/05/15 松林

4

2.4 Free parameters of the Bayesian model

• 参加者の実験データに適合させるために 3つの自由パラメータを設定

- IMPsの知覚能力に関して 2つ，反応遅延に関して 1つ

2.5 Alternative models

• 動的状況を扱うため，情報の統合に長けたベイズモデルの適合度が高いだろう

- 倹約性 (自由パラメータの少なさ) を保つため，かつ回帰モデルより成績が高いだろう

3 Experiment 1

• 実験 1では，IMPsの行動に関する参加者の推定能力，および目標状態間遷移の推定能力を検証

3.1 Methods

3.1.1 Subjects

• 心理学入門を受講する大学生 14名

- 教示違反のあった 2名を除外

3.1.2 Stimuli

• 20シーンのセットを 60秒間提示 (Figure 5)

- 400 × 400ピクセル

- 4つの IMPsがランダムな位置に配置

- 15個の餌 (灰色) は 3つのクラスタにまとめられ，ランダムな位置に配置

- 2つの障害物 (赤色) が全シーン共通の位置に配置

3.1.3 Procedure

• 訓練 5シーンを提示

- 行動を観察し，そのシーン内で起こっていることを理解するよう教示

- IMPsの目標状態が色で表示 (Figure. 5)

• 5シーン終了後，IMPsが何をしていると思ったか，色は何を表していると思ったかを回答

• 色が IMPsの真の心理状態を表しており，Attack, Explore, Flee, Gatherの 4つがあることを教示

• テスト 15シーンを提示

- IMPsの目標状態の色表示なし

- 4つの IMPsのうち，ターゲットは黒色，その他は青色で表示

• IMPsの行動や文脈から，ターゲットの目標状態をできるだけ早く推定するよう教示

- 4つのキーが 4つの目標状態に対応

5

- シーンが始まったらできるだけすぐにキーを押す

- 以降は，別の目標状態に遷移したと思ったらキーを押す

• 全 20シーンの順序は参加者間で同一

- テストシーン 1は分析から除外

3.2 Behavioral results

• テスト 14シーンにおける参加者の目標状態の推定 (Figure 6 中段)

- ターゲット IMPの真の状態 (Figure 6 上段) との一致時間 (妥当性) (Table 1 上段)

> テスト時間全体では，平均 48%の正確性 (チャンスレベルのおよそ 2倍)

- ターゲット IMPの状態推定における，参加者間の一貫性 (信頼性)

> 回答なしの時間を除外し，テスト時間全体を平均すると 12名中 8.7名 (73%) が同一の回答

• 推定された目標状態と真の目標状態の混合行列 (Table 2)

- 参加者のエラーが目立つ

> 各シーンの冒頭 13%の時間は回答なし

> IMPsが Flee状態のとき，参加者は主に Attackか Exploreと推定

> Fleeのヒット率はわずか 10%

• 参加者が推定した各目標状態の時間は，IMPsの真の状態によく合致

- Exploreと推定した時間が最も長く，続いて Gather, Attack, Fleeの順

- 真には Gatherのときに，Exploreが過大に推定される傾向が見られた

3.3 Bayesian model performance

3.3.1 KL divergence

• ベイズモデルが算出する 4つの目標状態間の事後分布が，参加者の推定と一致しているかを検証

- Kullback-Leibler (KL) divergenceを使用

> 2つの確率分布に関する非対称的手法

> モデル出力の分布Mと参加者反応の分布 Sにおける，Mを用いて Sを符号化したときの余剰ビ

ットの数

> 低いほど 2つの確率分布の適合度が高く，0なら完全に一致

• 参考としてベースラインモデルの KLを算出

- 4つの目標状態をランダムに等確率を出力する nullモデル KL = .863

- 4つの目標状態について，参加者分布とエージェント分布を知るモデル KL = .630

2018/05/15 松林

6

3.3.2 Fitting and evaluating the model

• ベイズモデルで 3つの自由パラメータを用いて，シミュレーションを実施

- 半径 50, 70, 100, 130, 160, 190

- 角度 π/6, π/3, π/2; 2π/3, 5π/6

- 遅延？

• 半径 100，角度 5π/6，遅延 12秒を用いたとき，KL = .334で，参加者推定に最も適合した (Figure 6 下段)

- 9区域の境目にある不連続をうまく平滑化した

• 代替モデルとして，多重ロジスティック回帰モデルを作成

- 時間的要素を考慮しない一方，正確な旋回速度が使用可能なモデル

- 潜在因子変数として，最近傍のエージェントとの相対角度・距離，最近傍の餌との相対角度・距離，

エージェントの旋回速度，エージェントの速度を設定

- 6つの潜在因子変数，63の組み合わせの候補モデルを検討

- データセットを訓練セットとテストセットに分割 (25%/75%. 50%/50%, 75%/25%)

• 結果，3つの分割データセットに平均的に適合した回帰モデルを選択

- 4つの入力変数 (最近傍のエージェントとの相対角度・距離，最近傍の餌との距離，エージェントの

旋回速度) を採用

• ベイズモデルと回帰モデルの比較

- 自由パラメータの個数は，ベイズモデルの 3に対し，回帰モデルは 15

> モデル倹約の観点から AICを算出

- 14シーンにおける自由パラメータ数調整後の AIC (Figure 9)

> ベイズモデルがいずれのシーンでも好ましい

- 回帰モデルにおける各知覚変数の予測寄与度 (Table 5)

> 最近傍の餌との距離のみを知る回帰モデルが最も適合度が高い (KL = .436)

* 出現頻度の高い Exploreと Gatherを弁別できたため

> ただし，ベイズモデル (KL = .334) よりは劣っていた

• ベイズモデルは，参加者の状態推定に関して高い適合度を見せた (Table 1 & 4)

- 参加者と似たエラーを引き起こし (Table 2 & 3, Figure 7)，個々のシーンにおいても参加者と似た状態

推定を行なっていた (Figure 8)

- ベイズモデルが状態を予測できないとき，参加者は推定エラーを起こしている可能性が高い

7

3.3.3 Estimating the parameters of the DBN through sampling

• IMPsの方針や遷移確率は，モデルシミュレーションを繰り返すことで見積もられる

- データの蓄積は，モデルの学習メカニズムと解釈できる

• ベイズモデルに関してシミュレーションを 2500回実施 (Figure 10)

- シーンのサンプルサイズが大きくなるにつれて，KLが改善

3.4 Discussion

• 参加者は，目標状態を反映したターゲット IMPの行動を推定した

- 真の状態に対し，参加者推定の正確さは中程度

- 推定には参加者間で類似した方法が用いられていた

• 動的ベイズモデルによって，参加者が行った目標推定を予測することができた

- モデルがより緻密に IMPの生成的モデルを予測するほど，参加者推定との適合度も高くなった

- 参加者は IMPの行動の正確なモデルを後向きに用いることで，目標状態の推定を行っていた

4 Experiment 2

• 実験 2では，IMPsの新たなセットを用意し，本ベイズモデルの一般化可能性を検証

• また，実験の前半と後半のパターンを比較するため，シーンの提示順をランダムに変更

4.1 Methods

4.1.1 Subjects

• 心理学入門を受講する大学生 12名

- 教示違反のあった 1名を除外

4.1.2 Stimuli and procedure

• 刺激と手続きは以下を除き，実験 1と同様

- IMPsの目標状態の遷移行列が変更 (Table 8)

> Attackと Fleeへの遷移が多くなるよう変更

- 5つの訓練シーン・15のテストシーンは，参加者間でランダムな順序で提示

> テストシーン 1のみ共通

4.2 Behavioral results

• 実験 1と同程度

- 真の目標に対する参加者推定の正確さは 48%

2018/05/15 松林

8

- 回答なしの時間を除外し，テスト時間全体を平均すると 11名中 7.9名 (72%) が同一の回答

4.3 Model performance

• 実験 1 で得られた自由パラメータ (半径 100，角度 5π/6，遅延 12秒) を用いて，1000 シーンのシミュレ

ーションを実施 (Figure 11)

- ベイズモデルの出力分布と参加者推定分布に関して，KL = .382

• 遅延パラメータと KLの関係性 (Figure 13)

- 14秒付近が凸な漸近線だが，12秒でも十分最適に近い

• 実験 1の回帰モデルで得られた自由パラメータを用いて，多重ロジスティック回帰を実施

- 新たな参加者データには一般化できなかった (KL = .424)

- 実験 1同様，ベイズモデルのほうが好ましかった (Figure 12)

• 参考としてベースラインの KLを算出

- 4つの目標状態をランダムに等確率を出力する nullモデル KL = .783

- 4つの目標状態について，参加者分布とエージェント分布を知るモデル KL = .569

4.3.1 Model fit, early versus late in the experiment

• 後半になるにつれてエージェントの性質に注意が向き始めたため，参加者の推定パフォーマンスがベイ

ズモデルに近づいてきた？

- しかし，前半・後半で差はなかった

> 試行数 (1-14) を独立変数，推定の正確性を従属変数とした分散分析で，試行数の主効果なし

(F[12. 130] = 1.16. p = .32)

- テストフェーズでは正誤フィードバックがなく，学習しようがないため

4.4 Discussion

• 実験 1で得られた参加者の行動パターンは，プログラム変更された IMPsを観察した実験 2においても概

ね再現

- 真の目標状態に対する推定の正確性，推定の参加者間の信頼性がともに高かった

- 本ベイズモデルが新たなデータセットに対しても頑健であることを，一般的に示すことができた

• また参加者の学習は，ベイズモデルの熟達には影響しないことも明らかになった

5 General discussion and conclusion

• 参加者は IMPsの真の目標状態について，妥当性・信頼性両方の点でよく推定できていた

9

- ただ，状態遷移を過少に見積もる傾向があった (cf. Zacks & Tversky, 2001)

• 参加者の反応には惰性があり，IMPsの過去の行動も考慮している

- ベイズモデル上では，目標状態の事前分布として，P(Gt|Gt-1. St-1) で累積的に表現

• どのようにして参加者はエージェント行動の適切な生成的モデルを使えるようになるのか？

- ベイズモデル上では，観察を通した IMPs近似モデルの学習と整理を通して獲得

• しかしエージェントのモデル構築に，学習は必要ない場合もある (Baker et al., 2009; Ullman et al., 2009)

- 単純な仮定に基づく構築 (e.g., 合理的エージェント)

- 仮定から導かれる行動に基づく構築 (e.g., 目標に関して合理的に行動するエージェント)

• 自ら意思決定を行う装置を用いたアプローチは，「私たちの行動は暗黙的なシミュレーションで決定され

る」というシミュレーション理論支持者に好まれる

- ただ，自己シミュレーションが許容されるほど，シミュレーション理論とセオリー理論の区別は曖昧

になる

• シミュレーション理論とセオリー理論の議論は，意図推定に関する計算的モデルがないため滞っていた

- IMPsパラダイムはその議論を促す助けとなる

• もしエージェントの行動がプログラムで即時に生成されれば，仮想空間上でやり取りする没入型実験パ

ラダイムが可能になる (Gao et al., 2010; Pantelis & Feldman, 2012)

- 心的状態の推定は人間が直面する一般的な問題であり，生成プロセスの基盤となるパラメータを推

定することが目標となる

• 将来的には，IMPs の行動の幅と知能の深さを人間エージェントの水準にまで拡張し，認知における複雑

な現象を解明したい

2018/05/15 松林

10

11

2018/05/15 松林

12

13

2018/05/15 松林

14

15

2018/05/15 松林

16

17

2018/05/15 松林

18

Documents

Inferring the intentional states of autonomous virtual agentsmiwalab.cog.human.nagoya-u.ac.jp/database/resume/2018-05-15.pdf · • 生成的モデルを動的ベイジアンネットワーク