Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
1
Inferring the intentional states of autonomous virtual agents Peter C. Pantelis, Chris L. Baker, Steven A. Cholewiak, Kevin Sanik, Ari Weinstein, Chia Chien Wu, Joshua B. Tenenbaum,
& Jacob Feldman
Cognition, Vol. 130, pp. 360-379, 2014
1 Introduction
• 他者の目標・意図の理解は,認知機能の重要な一側面
- 運動は意図を知る手がかりとして重要
• 意図を把握せずに自然発生的な運動を理解することは不可能
- 走る人は「どこかへ向かっている」
- コーラ缶を持つ手は「缶を持ち上げている」
• 自然環境で最も重要な行動は他者エージェントが起こすもので,それは見えない心的過程を反映してい
る
- しかし目標・意図などの心的状態を推定する計算メカニズムは,まだほとんど解明されていない
• 物体の移動特性によってその心理と目標志向が喚起される (Tremoulet & Feldman, 2000)
- 哲学における読心術や,幼児・子供では研究が盛んだが,知能を持ったエージェントの行動の理解に
関してはまだ研究が少ない
- ただ,モデルアプローチ研究は近年盛んになりつつある (Feldman & Tremoulet, 2008; Baker, Saxe, &
Tenenbaum, 2009; Crick & Scassellati, 2010; Kerr & Cohen, 2010; Pautler, Koenig, Quek, & Ortony, 2011;
Burgos-Artizzu, Dollár, Lin, Anderson, & Perona, 2012)
• 意図推定の研究では,実験者や参加者の行動に焦点を当てた動画を作成し,主観的印象を計測することが
多い (Blythe et al., 1999; McAleer & Pollick, 2008)
- この手法は多くの知見をもたらした一方,限界もある
> 手作りの動画では製作者の直観が反映されてしまい,なぜある印象がもたらされたかが不明瞭
> その結果,参加者によるエージェントの心的状態の判断と,エージェントの真の心的過程の関
係性を検証できない
• 一方,運動知覚研究では,エージェントの速度・進行方向を変化させる,機械的にパラメータを操作する
手法が採られてきた (Stewart, 1982; Dittrich & Lea, 1994; Williams, 2000; Tremoulet & Feldman, 2000, 2006;
Gao, Newman, & Scholl, 2009; Gao & Scholl, 2011; Pantelis & Feldman, 2012)
- ここから本研究では, 2 次元仮想環境内を自らの信念・意図・目標に沿って動き回り,他者エージ
2018/05/15 松林
2
ェントとやり取りをする自律的エージェント (Independent Mobile Personalities: IMPs) を開発
• IMPsの最終目標は,餌を手に入れて巣に持ち帰ること (Figure 1 A)
- ただし,随時更新される目標にしたがって,刺激に対する反応が決まる
- 目標状態は Explore, Gather, Attack, Fleeの 4つで構成 (Figure 2)
• IMPsは,1次元網膜を搭載した視覚モジュールから情報を取得 (Figure 1 B)
- 動き回ることで環境の地図を徐々に学習 (Figure 1 D)
• IMPsの行動は,プログラマーの直観を直接的に反映しない
- 確率的なマルチエージェント環境では,どのような状況が現れるかはほぼ予測できない
- IMPモジュールのパラメータを変更しても,その影響を予測できない
• IMPsの真の目標状態に基づいて,参加者による推定を評価できる
- 参加者に IMPsの動きから目標状態を推定させ,その推定過程を検証
• 本研究では,エージェントの行動からその心的状態を推定する能力に焦点を当てる
- ある時点のエージェントが 4つの目標状態のどれに属しているのか
• 実験では参加者に IMPsの行動を観察させ,ターゲットの状態を推定させた
- エージェントの状態はプログラム上の変数で一意に決定されるため,参加者推定の妥当性・信頼性を
検証できる
- 手作り動画では,エージェントの真の状態が不明瞭なため,このような分析は不可能
2 Computational model
• 合理性モデル
- IMPsの行動 Aは,目標状態 Gと環境 Sによって確率的に決まる
𝑝(𝐴|𝐺, 𝑆). (1)
- 観察された行動と,エージェントのモデルが与えられれば,ベイズを用いて目標を後向き推論が可能
𝑝(𝐺|𝐴, 𝑆) ∝ 𝑝(𝐴|𝐺, 𝑆)𝑝(𝐺|𝑆). (2)
- ただし,この合理性モデルは定義が明確ではない
- たとえできたとしても,マルチエージェントで連続的に状態が変化するため,膨大な計算が必要
3
• 生成的モデル
- IMPsの観察された行動を収集し,ベイズを用いて IMPsの目標状態を推定
- 目標状態と環境に基づき行動を正確・高精度に記述するため有用
• 完全な生成的モデルの代わりに概算モデルを用いて,エージェントの目標依存・文脈依存の行動に関して
推定
- 推定において重要な IMPsの特徴として,状況・目標・行動・それらの構造のみを使用
• 生成的モデルを動的ベイジアンネットワーク (Dynamic Bayesian Network :DBN) で構築 (Figure 3)
- IMPsの連続かつ多次元の状態・行動を圧縮するため,類似した状態・行動をまとめて表現
- 確率的関係性は過去の IMPsの行動をもとに表現
• 概算 DBNを通して,参加者が構築した IMPsの行動の内部状態モデルを推定
- 解像度が低くノイズが大きいが,それはモデルのノイズや偶然性として取り入れる
2.1 Approximate representation of states and actions for the Bayesian model
• モデル実装のため,IMPsの行動と環境を単純化
- 行動 左旋回・右旋回・直進の 3つに分類
- 環境 IMP周囲の空間を 9区域に区分 (Figure 4) に,他者エージェント・餌が配置
> 「知覚的に特に顕著である」という元々の直観や,「餌を運ぶエージェントは鼻先に餌を置く」
という知識に基づき,目の前にある小さな区域を設定
2.2 Learning phase
• 生成的モデルを複数回走らせて,IMPの行動指針 (行動の条件付き確率 P(At|Gt, St)) を学習
• 同様に,IMPの 4つの目標状態間の遷移に関する条件付き確率を学習
- 参加者が構築するエージェントのモデルにはばらつきがあるため,一意に決まらない
2.3 Inference phase
• ある時点 t における状態と行動系列が与えられた際の,目標状態 Gtの限界事後確率を算出することで,
参加者の推定をモデル化
- 1ステップごとに,4つの目標状態間の確率分散が算出される
𝑃(𝐺,|𝑆-:, ,𝐴-:,) ∝ 𝑃(𝐴,|𝐺,, 𝑆,)/ 𝑃(𝐺,|𝐺,0-, 𝑆,0-)1234
. (3)
2018/05/15 松林
4
2.4 Free parameters of the Bayesian model
• 参加者の実験データに適合させるために 3つの自由パラメータを設定
- IMPsの知覚能力に関して 2つ,反応遅延に関して 1つ
2.5 Alternative models
• 動的状況を扱うため,情報の統合に長けたベイズモデルの適合度が高いだろう
- 倹約性 (自由パラメータの少なさ) を保つため,かつ回帰モデルより成績が高いだろう
3 Experiment 1
• 実験 1では,IMPsの行動に関する参加者の推定能力,および目標状態間遷移の推定能力を検証
3.1 Methods
3.1.1 Subjects
• 心理学入門を受講する大学生 14名
- 教示違反のあった 2名を除外
3.1.2 Stimuli
• 20シーンのセットを 60秒間提示 (Figure 5)
- 400 × 400ピクセル
- 4つの IMPsがランダムな位置に配置
- 15個の餌 (灰色) は 3つのクラスタにまとめられ,ランダムな位置に配置
- 2つの障害物 (赤色) が全シーン共通の位置に配置
3.1.3 Procedure
• 訓練 5シーンを提示
- 行動を観察し,そのシーン内で起こっていることを理解するよう教示
- IMPsの目標状態が色で表示 (Figure. 5)
• 5シーン終了後,IMPsが何をしていると思ったか,色は何を表していると思ったかを回答
• 色が IMPsの真の心理状態を表しており,Attack, Explore, Flee, Gatherの 4つがあることを教示
• テスト 15シーンを提示
- IMPsの目標状態の色表示なし
- 4つの IMPsのうち,ターゲットは黒色,その他は青色で表示
• IMPsの行動や文脈から,ターゲットの目標状態をできるだけ早く推定するよう教示
- 4つのキーが 4つの目標状態に対応
5
- シーンが始まったらできるだけすぐにキーを押す
- 以降は,別の目標状態に遷移したと思ったらキーを押す
• 全 20シーンの順序は参加者間で同一
- テストシーン 1は分析から除外
3.2 Behavioral results
• テスト 14シーンにおける参加者の目標状態の推定 (Figure 6 中段)
- ターゲット IMPの真の状態 (Figure 6 上段) との一致時間 (妥当性) (Table 1 上段)
> テスト時間全体では,平均 48%の正確性 (チャンスレベルのおよそ 2倍)
- ターゲット IMPの状態推定における,参加者間の一貫性 (信頼性)
> 回答なしの時間を除外し,テスト時間全体を平均すると 12名中 8.7名 (73%) が同一の回答
• 推定された目標状態と真の目標状態の混合行列 (Table 2)
- 参加者のエラーが目立つ
> 各シーンの冒頭 13%の時間は回答なし
> IMPsが Flee状態のとき,参加者は主に Attackか Exploreと推定
> Fleeのヒット率はわずか 10%
• 参加者が推定した各目標状態の時間は,IMPsの真の状態によく合致
- Exploreと推定した時間が最も長く,続いて Gather, Attack, Fleeの順
- 真には Gatherのときに,Exploreが過大に推定される傾向が見られた
3.3 Bayesian model performance
3.3.1 KL divergence
• ベイズモデルが算出する 4つの目標状態間の事後分布が,参加者の推定と一致しているかを検証
- Kullback-Leibler (KL) divergenceを使用
> 2つの確率分布に関する非対称的手法
> モデル出力の分布Mと参加者反応の分布 Sにおける,Mを用いて Sを符号化したときの余剰ビ
ットの数
> 低いほど 2つの確率分布の適合度が高く,0なら完全に一致
• 参考としてベースラインモデルの KLを算出
- 4つの目標状態をランダムに等確率を出力する nullモデル KL = .863
- 4つの目標状態について,参加者分布とエージェント分布を知るモデル KL = .630
2018/05/15 松林
6
3.3.2 Fitting and evaluating the model
• ベイズモデルで 3つの自由パラメータを用いて,シミュレーションを実施
- 半径 50, 70, 100, 130, 160, 190
- 角度 π/6, π/3, π/2; 2π/3, 5π/6
- 遅延 ?
• 半径 100,角度 5π/6,遅延 12秒を用いたとき,KL = .334で,参加者推定に最も適合した (Figure 6 下段)
- 9区域の境目にある不連続をうまく平滑化した
• 代替モデルとして,多重ロジスティック回帰モデルを作成
- 時間的要素を考慮しない一方,正確な旋回速度が使用可能なモデル
- 潜在因子変数として,最近傍のエージェントとの相対角度・距離,最近傍の餌との相対角度・距離,
エージェントの旋回速度,エージェントの速度を設定
- 6つの潜在因子変数,63の組み合わせの候補モデルを検討
- データセットを訓練セットとテストセットに分割 (25%/75%. 50%/50%, 75%/25%)
• 結果,3つの分割データセットに平均的に適合した回帰モデルを選択
- 4つの入力変数 (最近傍のエージェントとの相対角度・距離,最近傍の餌との距離,エージェントの
旋回速度) を採用
• ベイズモデルと回帰モデルの比較
- 自由パラメータの個数は,ベイズモデルの 3に対し,回帰モデルは 15
> モデル倹約の観点から AICを算出
- 14シーンにおける自由パラメータ数調整後の AIC (Figure 9)
> ベイズモデルがいずれのシーンでも好ましい
- 回帰モデルにおける各知覚変数の予測寄与度 (Table 5)
> 最近傍の餌との距離のみを知る回帰モデルが最も適合度が高い (KL = .436)
* 出現頻度の高い Exploreと Gatherを弁別できたため
> ただし,ベイズモデル (KL = .334) よりは劣っていた
• ベイズモデルは,参加者の状態推定に関して高い適合度を見せた (Table 1 & 4)
- 参加者と似たエラーを引き起こし (Table 2 & 3, Figure 7),個々のシーンにおいても参加者と似た状態
推定を行なっていた (Figure 8)
- ベイズモデルが状態を予測できないとき,参加者は推定エラーを起こしている可能性が高い
7
3.3.3 Estimating the parameters of the DBN through sampling
• IMPsの方針や遷移確率は,モデルシミュレーションを繰り返すことで見積もられる
- データの蓄積は,モデルの学習メカニズムと解釈できる
• ベイズモデルに関してシミュレーションを 2500回実施 (Figure 10)
- シーンのサンプルサイズが大きくなるにつれて,KLが改善
3.4 Discussion
• 参加者は,目標状態を反映したターゲット IMPの行動を推定した
- 真の状態に対し,参加者推定の正確さは中程度
- 推定には参加者間で類似した方法が用いられていた
• 動的ベイズモデルによって,参加者が行った目標推定を予測することができた
- モデルがより緻密に IMPの生成的モデルを予測するほど,参加者推定との適合度も高くなった
- 参加者は IMPの行動の正確なモデルを後向きに用いることで,目標状態の推定を行っていた
4 Experiment 2
• 実験 2では,IMPsの新たなセットを用意し,本ベイズモデルの一般化可能性を検証
• また,実験の前半と後半のパターンを比較するため,シーンの提示順をランダムに変更
4.1 Methods
4.1.1 Subjects
• 心理学入門を受講する大学生 12名
- 教示違反のあった 1名を除外
4.1.2 Stimuli and procedure
• 刺激と手続きは以下を除き,実験 1と同様
- IMPsの目標状態の遷移行列が変更 (Table 8)
> Attackと Fleeへの遷移が多くなるよう変更
- 5つの訓練シーン・15のテストシーンは,参加者間でランダムな順序で提示
> テストシーン 1のみ共通
4.2 Behavioral results
• 実験 1と同程度
- 真の目標に対する参加者推定の正確さは 48%
2018/05/15 松林
8
- 回答なしの時間を除外し,テスト時間全体を平均すると 11名中 7.9名 (72%) が同一の回答
4.3 Model performance
• 実験 1 で得られた自由パラメータ (半径 100,角度 5π/6,遅延 12秒) を用いて,1000 シーンのシミュレ
ーションを実施 (Figure 11)
- ベイズモデルの出力分布と参加者推定分布に関して,KL = .382
• 遅延パラメータと KLの関係性 (Figure 13)
- 14秒付近が凸な漸近線だが,12秒でも十分最適に近い
• 実験 1の回帰モデルで得られた自由パラメータを用いて,多重ロジスティック回帰を実施
- 新たな参加者データには一般化できなかった (KL = .424)
- 実験 1同様,ベイズモデルのほうが好ましかった (Figure 12)
• 参考としてベースラインの KLを算出
- 4つの目標状態をランダムに等確率を出力する nullモデル KL = .783
- 4つの目標状態について,参加者分布とエージェント分布を知るモデル KL = .569
4.3.1 Model fit, early versus late in the experiment
• 後半になるにつれてエージェントの性質に注意が向き始めたため,参加者の推定パフォーマンスがベイ
ズモデルに近づいてきた?
- しかし,前半・後半で差はなかった
> 試行数 (1-14) を独立変数,推定の正確性を従属変数とした分散分析で,試行数の主効果なし
(F[12. 130] = 1.16. p = .32)
- テストフェーズでは正誤フィードバックがなく,学習しようがないため
4.4 Discussion
• 実験 1で得られた参加者の行動パターンは,プログラム変更された IMPsを観察した実験 2においても概
ね再現
- 真の目標状態に対する推定の正確性,推定の参加者間の信頼性がともに高かった
- 本ベイズモデルが新たなデータセットに対しても頑健であることを,一般的に示すことができた
• また参加者の学習は,ベイズモデルの熟達には影響しないことも明らかになった
5 General discussion and conclusion
• 参加者は IMPsの真の目標状態について,妥当性・信頼性両方の点でよく推定できていた
9
- ただ,状態遷移を過少に見積もる傾向があった (cf. Zacks & Tversky, 2001)
• 参加者の反応には惰性があり,IMPsの過去の行動も考慮している
- ベイズモデル上では,目標状態の事前分布として,P(Gt|Gt-1. St-1) で累積的に表現
• どのようにして参加者はエージェント行動の適切な生成的モデルを使えるようになるのか?
- ベイズモデル上では,観察を通した IMPs近似モデルの学習と整理を通して獲得
• しかしエージェントのモデル構築に,学習は必要ない場合もある (Baker et al., 2009; Ullman et al., 2009)
- 単純な仮定に基づく構築 (e.g., 合理的エージェント)
- 仮定から導かれる行動に基づく構築 (e.g., 目標に関して合理的に行動するエージェント)
• 自ら意思決定を行う装置を用いたアプローチは,「私たちの行動は暗黙的なシミュレーションで決定され
る」というシミュレーション理論支持者に好まれる
- ただ,自己シミュレーションが許容されるほど,シミュレーション理論とセオリー理論の区別は曖昧
になる
• シミュレーション理論とセオリー理論の議論は,意図推定に関する計算的モデルがないため滞っていた
- IMPsパラダイムはその議論を促す助けとなる
• もしエージェントの行動がプログラムで即時に生成されれば,仮想空間上でやり取りする没入型実験パ
ラダイムが可能になる (Gao et al., 2010; Pantelis & Feldman, 2012)
- 心的状態の推定は人間が直面する一般的な問題であり,生成プロセスの基盤となるパラメータを推
定することが目標となる
• 将来的には,IMPs の行動の幅と知能の深さを人間エージェントの水準にまで拡張し,認知における複雑
な現象を解明したい
2018/05/15 松林
10
11
2018/05/15 松林
12
13
2018/05/15 松林
14
15
2018/05/15 松林
16
17
2018/05/15 松林
18