18
1 Inferring the intentional states of autonomous virtual agents Peter C. Pantelis, Chris L. Baker, Steven A. Cholewiak, Kevin Sanik, Ari Weinstein, Chia Chien Wu, Joshua B. Tenenbaum, & Jacob Feldman Cognition, Vol. 130, pp. 360-379, 2014 1 Introduction 他者の目標・意図の理解は,認知機能の重要な一側面 - 運動は意図を知る手がかりとして重要 意図を把握せずに自然発生的な運動を理解することは不可能 - 走る人は「どこかへ向かっている」 - コーラ缶を持つ手は「缶を持ち上げている」 自然環境で最も重要な行動は他者エージェントが起こすもので,それは見えない心的過程を反映してい - しかし目標・意図などの心的状態を推定する計算メカニズムは,まだほとんど解明されていない 物体の移動特性によってその心理と目標志向が喚起される (Tremoulet & Feldman, 2000) - 哲学における読心術や,幼児・子供では研究が盛んだが,知能を持ったエージェントの行動の理解に 関してはまだ研究が少ない - ただ,モデルアプローチ研究は近年盛んになりつつある (Feldman & Tremoulet, 2008; Baker, Saxe, & Tenenbaum, 2009; Crick & Scassellati, 2010; Kerr & Cohen, 2010; Pautler, Koenig, Quek, & Ortony, 2011; Burgos-Artizzu, Dollár, Lin, Anderson, & Perona, 2012) 意図推定の研究では,実験者や参加者の行動に焦点を当てた動画を作成し,主観的印象を計測することが 多い (Blythe et al., 1999; McAleer & Pollick, 2008) - この手法は多くの知見をもたらした一方,限界もある > 手作りの動画では製作者の直観が反映されてしまい,なぜある印象がもたらされたかが不明瞭 > その結果,参加者によるエージェントの心的状態の判断と,エージェントの真の心的過程の関 係性を検証できない 一方,運動知覚研究では,エージェントの速度・進行方向を変化させる,機械的にパラメータを操作する 手法が採られてきた (Stewart, 1982; Dittrich & Lea, 1994; Williams, 2000; Tremoulet & Feldman, 2000, 2006; Gao, Newman, & Scholl, 2009; Gao & Scholl, 2011; Pantelis & Feldman, 2012) - ここから本研究では, 2 次元仮想環境内を自らの信念・意図・目標に沿って動き回り,他者エージ

Inferring the intentional states of autonomous virtual agentsmiwalab.cog.human.nagoya-u.ac.jp/database/resume/2018-05-15.pdf · • 生成的モデルを動的ベイジアンネットワーク

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Inferring the intentional states of autonomous virtual agentsmiwalab.cog.human.nagoya-u.ac.jp/database/resume/2018-05-15.pdf · • 生成的モデルを動的ベイジアンネットワーク

1

Inferring the intentional states of autonomous virtual agents Peter C. Pantelis, Chris L. Baker, Steven A. Cholewiak, Kevin Sanik, Ari Weinstein, Chia Chien Wu, Joshua B. Tenenbaum,

& Jacob Feldman

Cognition, Vol. 130, pp. 360-379, 2014

1 Introduction

• 他者の目標・意図の理解は,認知機能の重要な一側面

- 運動は意図を知る手がかりとして重要

• 意図を把握せずに自然発生的な運動を理解することは不可能

- 走る人は「どこかへ向かっている」

- コーラ缶を持つ手は「缶を持ち上げている」

• 自然環境で最も重要な行動は他者エージェントが起こすもので,それは見えない心的過程を反映してい

- しかし目標・意図などの心的状態を推定する計算メカニズムは,まだほとんど解明されていない

• 物体の移動特性によってその心理と目標志向が喚起される (Tremoulet & Feldman, 2000)

- 哲学における読心術や,幼児・子供では研究が盛んだが,知能を持ったエージェントの行動の理解に

関してはまだ研究が少ない

- ただ,モデルアプローチ研究は近年盛んになりつつある (Feldman & Tremoulet, 2008; Baker, Saxe, &

Tenenbaum, 2009; Crick & Scassellati, 2010; Kerr & Cohen, 2010; Pautler, Koenig, Quek, & Ortony, 2011;

Burgos-Artizzu, Dollár, Lin, Anderson, & Perona, 2012)

• 意図推定の研究では,実験者や参加者の行動に焦点を当てた動画を作成し,主観的印象を計測することが

多い (Blythe et al., 1999; McAleer & Pollick, 2008)

- この手法は多くの知見をもたらした一方,限界もある

> 手作りの動画では製作者の直観が反映されてしまい,なぜある印象がもたらされたかが不明瞭

> その結果,参加者によるエージェントの心的状態の判断と,エージェントの真の心的過程の関

係性を検証できない

• 一方,運動知覚研究では,エージェントの速度・進行方向を変化させる,機械的にパラメータを操作する

手法が採られてきた (Stewart, 1982; Dittrich & Lea, 1994; Williams, 2000; Tremoulet & Feldman, 2000, 2006;

Gao, Newman, & Scholl, 2009; Gao & Scholl, 2011; Pantelis & Feldman, 2012)

- ここから本研究では, 2 次元仮想環境内を自らの信念・意図・目標に沿って動き回り,他者エージ

Page 2: Inferring the intentional states of autonomous virtual agentsmiwalab.cog.human.nagoya-u.ac.jp/database/resume/2018-05-15.pdf · • 生成的モデルを動的ベイジアンネットワーク

2018/05/15 松林

2

ェントとやり取りをする自律的エージェント (Independent Mobile Personalities: IMPs) を開発

• IMPsの最終目標は,餌を手に入れて巣に持ち帰ること (Figure 1 A)

- ただし,随時更新される目標にしたがって,刺激に対する反応が決まる

- 目標状態は Explore, Gather, Attack, Fleeの 4つで構成 (Figure 2)

• IMPsは,1次元網膜を搭載した視覚モジュールから情報を取得 (Figure 1 B)

- 動き回ることで環境の地図を徐々に学習 (Figure 1 D)

• IMPsの行動は,プログラマーの直観を直接的に反映しない

- 確率的なマルチエージェント環境では,どのような状況が現れるかはほぼ予測できない

- IMPモジュールのパラメータを変更しても,その影響を予測できない

• IMPsの真の目標状態に基づいて,参加者による推定を評価できる

- 参加者に IMPsの動きから目標状態を推定させ,その推定過程を検証

• 本研究では,エージェントの行動からその心的状態を推定する能力に焦点を当てる

- ある時点のエージェントが 4つの目標状態のどれに属しているのか

• 実験では参加者に IMPsの行動を観察させ,ターゲットの状態を推定させた

- エージェントの状態はプログラム上の変数で一意に決定されるため,参加者推定の妥当性・信頼性を

検証できる

- 手作り動画では,エージェントの真の状態が不明瞭なため,このような分析は不可能

2 Computational model

• 合理性モデル

- IMPsの行動 Aは,目標状態 Gと環境 Sによって確率的に決まる

𝑝(𝐴|𝐺, 𝑆). (1)

- 観察された行動と,エージェントのモデルが与えられれば,ベイズを用いて目標を後向き推論が可能

𝑝(𝐺|𝐴, 𝑆) ∝ 𝑝(𝐴|𝐺, 𝑆)𝑝(𝐺|𝑆). (2)

- ただし,この合理性モデルは定義が明確ではない

- たとえできたとしても,マルチエージェントで連続的に状態が変化するため,膨大な計算が必要

Page 3: Inferring the intentional states of autonomous virtual agentsmiwalab.cog.human.nagoya-u.ac.jp/database/resume/2018-05-15.pdf · • 生成的モデルを動的ベイジアンネットワーク

3

• 生成的モデル

- IMPsの観察された行動を収集し,ベイズを用いて IMPsの目標状態を推定

- 目標状態と環境に基づき行動を正確・高精度に記述するため有用

• 完全な生成的モデルの代わりに概算モデルを用いて,エージェントの目標依存・文脈依存の行動に関して

推定

- 推定において重要な IMPsの特徴として,状況・目標・行動・それらの構造のみを使用

• 生成的モデルを動的ベイジアンネットワーク (Dynamic Bayesian Network :DBN) で構築 (Figure 3)

- IMPsの連続かつ多次元の状態・行動を圧縮するため,類似した状態・行動をまとめて表現

- 確率的関係性は過去の IMPsの行動をもとに表現

• 概算 DBNを通して,参加者が構築した IMPsの行動の内部状態モデルを推定

- 解像度が低くノイズが大きいが,それはモデルのノイズや偶然性として取り入れる

2.1 Approximate representation of states and actions for the Bayesian model

• モデル実装のため,IMPsの行動と環境を単純化

- 行動 左旋回・右旋回・直進の 3つに分類

- 環境 IMP周囲の空間を 9区域に区分 (Figure 4) に,他者エージェント・餌が配置

> 「知覚的に特に顕著である」という元々の直観や,「餌を運ぶエージェントは鼻先に餌を置く」

という知識に基づき,目の前にある小さな区域を設定

2.2 Learning phase

• 生成的モデルを複数回走らせて,IMPの行動指針 (行動の条件付き確率 P(At|Gt, St)) を学習

• 同様に,IMPの 4つの目標状態間の遷移に関する条件付き確率を学習

- 参加者が構築するエージェントのモデルにはばらつきがあるため,一意に決まらない

2.3 Inference phase

• ある時点 t における状態と行動系列が与えられた際の,目標状態 Gtの限界事後確率を算出することで,

参加者の推定をモデル化

- 1ステップごとに,4つの目標状態間の確率分散が算出される

𝑃(𝐺,|𝑆-:, ,𝐴-:,) ∝ 𝑃(𝐴,|𝐺,, 𝑆,)/ 𝑃(𝐺,|𝐺,0-, 𝑆,0-)1234

. (3)

Page 4: Inferring the intentional states of autonomous virtual agentsmiwalab.cog.human.nagoya-u.ac.jp/database/resume/2018-05-15.pdf · • 生成的モデルを動的ベイジアンネットワーク

2018/05/15 松林

4

2.4 Free parameters of the Bayesian model

• 参加者の実験データに適合させるために 3つの自由パラメータを設定

- IMPsの知覚能力に関して 2つ,反応遅延に関して 1つ

2.5 Alternative models

• 動的状況を扱うため,情報の統合に長けたベイズモデルの適合度が高いだろう

- 倹約性 (自由パラメータの少なさ) を保つため,かつ回帰モデルより成績が高いだろう

3 Experiment 1

• 実験 1では,IMPsの行動に関する参加者の推定能力,および目標状態間遷移の推定能力を検証

3.1 Methods

3.1.1 Subjects

• 心理学入門を受講する大学生 14名

- 教示違反のあった 2名を除外

3.1.2 Stimuli

• 20シーンのセットを 60秒間提示 (Figure 5)

- 400 × 400ピクセル

- 4つの IMPsがランダムな位置に配置

- 15個の餌 (灰色) は 3つのクラスタにまとめられ,ランダムな位置に配置

- 2つの障害物 (赤色) が全シーン共通の位置に配置

3.1.3 Procedure

• 訓練 5シーンを提示

- 行動を観察し,そのシーン内で起こっていることを理解するよう教示

- IMPsの目標状態が色で表示 (Figure. 5)

• 5シーン終了後,IMPsが何をしていると思ったか,色は何を表していると思ったかを回答

• 色が IMPsの真の心理状態を表しており,Attack, Explore, Flee, Gatherの 4つがあることを教示

• テスト 15シーンを提示

- IMPsの目標状態の色表示なし

- 4つの IMPsのうち,ターゲットは黒色,その他は青色で表示

• IMPsの行動や文脈から,ターゲットの目標状態をできるだけ早く推定するよう教示

- 4つのキーが 4つの目標状態に対応

Page 5: Inferring the intentional states of autonomous virtual agentsmiwalab.cog.human.nagoya-u.ac.jp/database/resume/2018-05-15.pdf · • 生成的モデルを動的ベイジアンネットワーク

5

- シーンが始まったらできるだけすぐにキーを押す

- 以降は,別の目標状態に遷移したと思ったらキーを押す

• 全 20シーンの順序は参加者間で同一

- テストシーン 1は分析から除外

3.2 Behavioral results

• テスト 14シーンにおける参加者の目標状態の推定 (Figure 6 中段)

- ターゲット IMPの真の状態 (Figure 6 上段) との一致時間 (妥当性) (Table 1 上段)

> テスト時間全体では,平均 48%の正確性 (チャンスレベルのおよそ 2倍)

- ターゲット IMPの状態推定における,参加者間の一貫性 (信頼性)

> 回答なしの時間を除外し,テスト時間全体を平均すると 12名中 8.7名 (73%) が同一の回答

• 推定された目標状態と真の目標状態の混合行列 (Table 2)

- 参加者のエラーが目立つ

> 各シーンの冒頭 13%の時間は回答なし

> IMPsが Flee状態のとき,参加者は主に Attackか Exploreと推定

> Fleeのヒット率はわずか 10%

• 参加者が推定した各目標状態の時間は,IMPsの真の状態によく合致

- Exploreと推定した時間が最も長く,続いて Gather, Attack, Fleeの順

- 真には Gatherのときに,Exploreが過大に推定される傾向が見られた

3.3 Bayesian model performance

3.3.1 KL divergence

• ベイズモデルが算出する 4つの目標状態間の事後分布が,参加者の推定と一致しているかを検証

- Kullback-Leibler (KL) divergenceを使用

> 2つの確率分布に関する非対称的手法

> モデル出力の分布Mと参加者反応の分布 Sにおける,Mを用いて Sを符号化したときの余剰ビ

ットの数

> 低いほど 2つの確率分布の適合度が高く,0なら完全に一致

• 参考としてベースラインモデルの KLを算出

- 4つの目標状態をランダムに等確率を出力する nullモデル KL = .863

- 4つの目標状態について,参加者分布とエージェント分布を知るモデル KL = .630

Page 6: Inferring the intentional states of autonomous virtual agentsmiwalab.cog.human.nagoya-u.ac.jp/database/resume/2018-05-15.pdf · • 生成的モデルを動的ベイジアンネットワーク

2018/05/15 松林

6

3.3.2 Fitting and evaluating the model

• ベイズモデルで 3つの自由パラメータを用いて,シミュレーションを実施

- 半径 50, 70, 100, 130, 160, 190

- 角度 π/6, π/3, π/2; 2π/3, 5π/6

- 遅延 ?

• 半径 100,角度 5π/6,遅延 12秒を用いたとき,KL = .334で,参加者推定に最も適合した (Figure 6 下段)

- 9区域の境目にある不連続をうまく平滑化した

• 代替モデルとして,多重ロジスティック回帰モデルを作成

- 時間的要素を考慮しない一方,正確な旋回速度が使用可能なモデル

- 潜在因子変数として,最近傍のエージェントとの相対角度・距離,最近傍の餌との相対角度・距離,

エージェントの旋回速度,エージェントの速度を設定

- 6つの潜在因子変数,63の組み合わせの候補モデルを検討

- データセットを訓練セットとテストセットに分割 (25%/75%. 50%/50%, 75%/25%)

• 結果,3つの分割データセットに平均的に適合した回帰モデルを選択

- 4つの入力変数 (最近傍のエージェントとの相対角度・距離,最近傍の餌との距離,エージェントの

旋回速度) を採用

• ベイズモデルと回帰モデルの比較

- 自由パラメータの個数は,ベイズモデルの 3に対し,回帰モデルは 15

> モデル倹約の観点から AICを算出

- 14シーンにおける自由パラメータ数調整後の AIC (Figure 9)

> ベイズモデルがいずれのシーンでも好ましい

- 回帰モデルにおける各知覚変数の予測寄与度 (Table 5)

> 最近傍の餌との距離のみを知る回帰モデルが最も適合度が高い (KL = .436)

* 出現頻度の高い Exploreと Gatherを弁別できたため

> ただし,ベイズモデル (KL = .334) よりは劣っていた

• ベイズモデルは,参加者の状態推定に関して高い適合度を見せた (Table 1 & 4)

- 参加者と似たエラーを引き起こし (Table 2 & 3, Figure 7),個々のシーンにおいても参加者と似た状態

推定を行なっていた (Figure 8)

- ベイズモデルが状態を予測できないとき,参加者は推定エラーを起こしている可能性が高い

Page 7: Inferring the intentional states of autonomous virtual agentsmiwalab.cog.human.nagoya-u.ac.jp/database/resume/2018-05-15.pdf · • 生成的モデルを動的ベイジアンネットワーク

7

3.3.3 Estimating the parameters of the DBN through sampling

• IMPsの方針や遷移確率は,モデルシミュレーションを繰り返すことで見積もられる

- データの蓄積は,モデルの学習メカニズムと解釈できる

• ベイズモデルに関してシミュレーションを 2500回実施 (Figure 10)

- シーンのサンプルサイズが大きくなるにつれて,KLが改善

3.4 Discussion

• 参加者は,目標状態を反映したターゲット IMPの行動を推定した

- 真の状態に対し,参加者推定の正確さは中程度

- 推定には参加者間で類似した方法が用いられていた

• 動的ベイズモデルによって,参加者が行った目標推定を予測することができた

- モデルがより緻密に IMPの生成的モデルを予測するほど,参加者推定との適合度も高くなった

- 参加者は IMPの行動の正確なモデルを後向きに用いることで,目標状態の推定を行っていた

4 Experiment 2

• 実験 2では,IMPsの新たなセットを用意し,本ベイズモデルの一般化可能性を検証

• また,実験の前半と後半のパターンを比較するため,シーンの提示順をランダムに変更

4.1 Methods

4.1.1 Subjects

• 心理学入門を受講する大学生 12名

- 教示違反のあった 1名を除外

4.1.2 Stimuli and procedure

• 刺激と手続きは以下を除き,実験 1と同様

- IMPsの目標状態の遷移行列が変更 (Table 8)

> Attackと Fleeへの遷移が多くなるよう変更

- 5つの訓練シーン・15のテストシーンは,参加者間でランダムな順序で提示

> テストシーン 1のみ共通

4.2 Behavioral results

• 実験 1と同程度

- 真の目標に対する参加者推定の正確さは 48%

Page 8: Inferring the intentional states of autonomous virtual agentsmiwalab.cog.human.nagoya-u.ac.jp/database/resume/2018-05-15.pdf · • 生成的モデルを動的ベイジアンネットワーク

2018/05/15 松林

8

- 回答なしの時間を除外し,テスト時間全体を平均すると 11名中 7.9名 (72%) が同一の回答

4.3 Model performance

• 実験 1 で得られた自由パラメータ (半径 100,角度 5π/6,遅延 12秒) を用いて,1000 シーンのシミュレ

ーションを実施 (Figure 11)

- ベイズモデルの出力分布と参加者推定分布に関して,KL = .382

• 遅延パラメータと KLの関係性 (Figure 13)

- 14秒付近が凸な漸近線だが,12秒でも十分最適に近い

• 実験 1の回帰モデルで得られた自由パラメータを用いて,多重ロジスティック回帰を実施

- 新たな参加者データには一般化できなかった (KL = .424)

- 実験 1同様,ベイズモデルのほうが好ましかった (Figure 12)

• 参考としてベースラインの KLを算出

- 4つの目標状態をランダムに等確率を出力する nullモデル KL = .783

- 4つの目標状態について,参加者分布とエージェント分布を知るモデル KL = .569

4.3.1 Model fit, early versus late in the experiment

• 後半になるにつれてエージェントの性質に注意が向き始めたため,参加者の推定パフォーマンスがベイ

ズモデルに近づいてきた?

- しかし,前半・後半で差はなかった

> 試行数 (1-14) を独立変数,推定の正確性を従属変数とした分散分析で,試行数の主効果なし

(F[12. 130] = 1.16. p = .32)

- テストフェーズでは正誤フィードバックがなく,学習しようがないため

4.4 Discussion

• 実験 1で得られた参加者の行動パターンは,プログラム変更された IMPsを観察した実験 2においても概

ね再現

- 真の目標状態に対する推定の正確性,推定の参加者間の信頼性がともに高かった

- 本ベイズモデルが新たなデータセットに対しても頑健であることを,一般的に示すことができた

• また参加者の学習は,ベイズモデルの熟達には影響しないことも明らかになった

5 General discussion and conclusion

• 参加者は IMPsの真の目標状態について,妥当性・信頼性両方の点でよく推定できていた

Page 9: Inferring the intentional states of autonomous virtual agentsmiwalab.cog.human.nagoya-u.ac.jp/database/resume/2018-05-15.pdf · • 生成的モデルを動的ベイジアンネットワーク

9

- ただ,状態遷移を過少に見積もる傾向があった (cf. Zacks & Tversky, 2001)

• 参加者の反応には惰性があり,IMPsの過去の行動も考慮している

- ベイズモデル上では,目標状態の事前分布として,P(Gt|Gt-1. St-1) で累積的に表現

• どのようにして参加者はエージェント行動の適切な生成的モデルを使えるようになるのか?

- ベイズモデル上では,観察を通した IMPs近似モデルの学習と整理を通して獲得

• しかしエージェントのモデル構築に,学習は必要ない場合もある (Baker et al., 2009; Ullman et al., 2009)

- 単純な仮定に基づく構築 (e.g., 合理的エージェント)

- 仮定から導かれる行動に基づく構築 (e.g., 目標に関して合理的に行動するエージェント)

• 自ら意思決定を行う装置を用いたアプローチは,「私たちの行動は暗黙的なシミュレーションで決定され

る」というシミュレーション理論支持者に好まれる

- ただ,自己シミュレーションが許容されるほど,シミュレーション理論とセオリー理論の区別は曖昧

になる

• シミュレーション理論とセオリー理論の議論は,意図推定に関する計算的モデルがないため滞っていた

- IMPsパラダイムはその議論を促す助けとなる

• もしエージェントの行動がプログラムで即時に生成されれば,仮想空間上でやり取りする没入型実験パ

ラダイムが可能になる (Gao et al., 2010; Pantelis & Feldman, 2012)

- 心的状態の推定は人間が直面する一般的な問題であり,生成プロセスの基盤となるパラメータを推

定することが目標となる

• 将来的には,IMPs の行動の幅と知能の深さを人間エージェントの水準にまで拡張し,認知における複雑

な現象を解明したい

Page 10: Inferring the intentional states of autonomous virtual agentsmiwalab.cog.human.nagoya-u.ac.jp/database/resume/2018-05-15.pdf · • 生成的モデルを動的ベイジアンネットワーク

2018/05/15 松林

10

Page 11: Inferring the intentional states of autonomous virtual agentsmiwalab.cog.human.nagoya-u.ac.jp/database/resume/2018-05-15.pdf · • 生成的モデルを動的ベイジアンネットワーク

11

Page 12: Inferring the intentional states of autonomous virtual agentsmiwalab.cog.human.nagoya-u.ac.jp/database/resume/2018-05-15.pdf · • 生成的モデルを動的ベイジアンネットワーク

2018/05/15 松林

12

Page 13: Inferring the intentional states of autonomous virtual agentsmiwalab.cog.human.nagoya-u.ac.jp/database/resume/2018-05-15.pdf · • 生成的モデルを動的ベイジアンネットワーク

13

Page 14: Inferring the intentional states of autonomous virtual agentsmiwalab.cog.human.nagoya-u.ac.jp/database/resume/2018-05-15.pdf · • 生成的モデルを動的ベイジアンネットワーク

2018/05/15 松林

14

Page 15: Inferring the intentional states of autonomous virtual agentsmiwalab.cog.human.nagoya-u.ac.jp/database/resume/2018-05-15.pdf · • 生成的モデルを動的ベイジアンネットワーク

15

Page 16: Inferring the intentional states of autonomous virtual agentsmiwalab.cog.human.nagoya-u.ac.jp/database/resume/2018-05-15.pdf · • 生成的モデルを動的ベイジアンネットワーク

2018/05/15 松林

16

Page 17: Inferring the intentional states of autonomous virtual agentsmiwalab.cog.human.nagoya-u.ac.jp/database/resume/2018-05-15.pdf · • 生成的モデルを動的ベイジアンネットワーク

17

Page 18: Inferring the intentional states of autonomous virtual agentsmiwalab.cog.human.nagoya-u.ac.jp/database/resume/2018-05-15.pdf · • 生成的モデルを動的ベイジアンネットワーク

2018/05/15 松林

18