16
タスクの到達度予測による信念状態の評価 産業技術大学院大学 上田隆一 26回自律分散システム・シンポジウム

第26回自律分散システムシンポジウムの講演資料

Embed Size (px)

DESCRIPTION

以下の予稿の発表資料です。 上田隆一: “タスクの到達度予測による信念状態の評価,” 第26回自律分散システムシンポジウム, pp. 2A1-1, 2014.

Citation preview

Page 1: 第26回自律分散システムシンポジウムの講演資料

タスクの到達度予測による信念状態の評価

産業技術大学院大学 上田隆一

第26回自律分散システム・シンポジウム

Page 2: 第26回自律分散システムシンポジウムの講演資料

不確かさの中での行動決定

•  自律型ロボットのセンシング  –  GPS,  カメラ,  レーザー,  ソナー,  ・・・  – 誤差の発生,  使用不能な状況の発生が不可避  

•  不確かさ対策  – 外部からの支援(工場等)  – 確率的手法を用いたセンサ情報統合[Thrun2005]    – 不確かさを考慮した行動決定  

•  分からないなら分からないなりに動作する  •  自律性には不可欠  

2014年1月24日 第26回自律分散システム・シンポジウム 2

Page 3: 第26回自律分散システムシンポジウムの講演資料

従来研究1:  Coastal  Naviga>on[Roy99] •  移動ロボットのナビゲーション  

– 距離センサで自己位置推定、ゴール地点まで移動  

•  4次元空間で動的計画法  – 状態  =  (x,y,θ,Η)  

•  H:  自己位置推定の不確かさの大きさを表す値  

– 得られる行動:壁沿いの移動が多くなる  

2014年1月24日 第26回自律分散システム・シンポジウム 3

goal

位置を見失う  可能性

(x,y,θ)

推定の不確かさの  度合い:  H

Page 4: 第26回自律分散システムシンポジウムの講演資料

従来研究2:  Q-­‐MDP  Value  Method  [LiNman95]

2014年1月24日 4

goal

•  状態既知として計画問題を解く  –  価値関数Vを得る(本発表ではポテンシャル関数と考えてよい)  

•  ロボットの行動時  –  自己位置推定の不確かさを確率分布bで表現  –  bとVから、どの行動をとると価値の期待値が高いか  (≒最もゴールに近づくか)計算  

第26回自律分散システム・シンポジウム

確率分布  b 行動A

行動B

どちらの期待価値  が高い?

Page 5: 第26回自律分散システムシンポジウムの講演資料

比較

2014年1月24日 第26回自律分散システム・シンポジウム 5

•  Coastal  Nav.    – 不確かさの遷移モデルが計画前に必要  

•  壁を検出する距離センサなら、ある程度は可能  •  他は難しい  

•  Q-­‐MDP  – 簡便  – 情報獲得のための行動シーケンスを得られた例は見られない  

•  「情報が得られるまで待機する」という行動が得られる程度[上田2007]  

Page 6: 第26回自律分散システムシンポジウムの講演資料

研究目的

•  Q-­‐MDP法で観測の不確かさを  考慮した行動生成を試みる  – そのままでは期待できないので改良する

2014年1月24日 第26回自律分散システム・シンポジウム 6

Page 7: 第26回自律分散システムシンポジウムの講演資料

改良Q-­‐MDP法    —  考え方 •  期待値計算の際、ゴールに近い箇所を重み付け  

 •  単に期待値が一番高い行動ではなく、  投機的な行動選択ができるのでは?  

2014年1月24日 第26回自律分散システム・シンポジウム 7

goal

確率分布  b 行動A

行動B

この部分が  行動決定に影響する  度合いを強く

この部分が  行動決定に影響する  度合いを弱く

Page 8: 第26回自律分散システムシンポジウムの講演資料

数理モデル

•  Q-­‐MDP法の期待値計算式  

•  改良Q-­‐MDP法の期待値計算式

2014年1月24日 第26回自律分散システム・シンポジウム 8

行動aを選択  したと仮定

ある状態からある状態へ  遷移したときの評価値  行動前の確率密度

ü  行動前の確率密度を行動前の価値で割ったものを重みとする  (価値が正で、高価値ほど値が小さい場合)  

ü  他にも考えられる

Page 9: 第26回自律分散システムシンポジウムの講演資料

シミュレーションでの行動生成・比較

•  目的  –  Q-­‐MDP法と改良Q-­‐MDP法の比較  – 下図のように環境が完全な情報を与えない状況での  ロボットの行動観察  

2014年1月24日 第26回自律分散システム・シンポジウム 9

ゴール

点ランドマーク  (距離と方向が分かる。1個だけ)

ロボット

Page 10: 第26回自律分散システムシンポジウムの講演資料

環境・ロボットの動作・価値関数の定義

•  ロボットの行動(3種類)  –  時計/反時計周りに5[deg]/step  +  誤差  –  向きに沿って10[mm]  +  誤差  

•  価値関数(ポテンシャル関数)V  –  V(x)  =  ゴールまでの距離/10  +  ゴールの方向/5  

2014年1月24日 第26回自律分散システム・シンポジウム 10

x[mm]

y[mm]

点ランドマーク  (0,0)

ゴール  (0,200)

ロボットの  初期状態(1000,0,-­‐90[deg])

Page 11: 第26回自律分散システムシンポジウムの講演資料

確率的位置推定(パーティクルフィルタ)の実装

•  パーティクル数:  1000  

•  更新  –  ランドマーク観測(1回/5[step])  

•  距離と向きから  –  ロボットが動いたとき(毎step)  

•  動作に合わせて分布変更  •  ゴールに入ったパーティクルを除去  

•  リセット法  –  センサリセット[Lenser2000]  

•  Q-­‐MDPの計算はパーティクルを利用  

2014年1月24日 第26回自律分散システム・シンポジウム 11

ロボットの状態が一意に  定まらない

Page 12: 第26回自律分散システムシンポジウムの講演資料

Q-­‐MDP法と改良Q-­‐MDP法の比較

•  500[step]以内にゴールにロボットが  到達できる頻度を比較  – ローカルミニマムで動けなくなる頻度を比較したい  

•  各手法を100回ずつ試行  

2014年1月24日 第26回自律分散システム・シンポジウム 12

Page 13: 第26回自律分散システムシンポジウムの講演資料

試行結果

手法 成功率 成功時の  平均ステップ数

改良Q-­‐MDP 87[%] 289[step]

Q-­‐MDP 17[%] 242[step]

(参考)状態既知 100[%] 121[step] (参考)パーティクルの平均値を推定姿勢として行動決定

0[%] -­‐

2014年1月24日 第26回自律分散システム・シンポジウム 13

ü 通常のQ-­‐MDPで多く生じるローカルミニマムの問題が、改良Q-­‐MDPでは大幅に解消  

ü 改良Q-­‐MDPでもローカルミニマムは発生  

Page 14: 第26回自律分散システムシンポジウムの講演資料

改良Q-­‐MDP法で得られた行動(成功した試行)

2014年1月24日 第26回自律分散システム・シンポジウム 14

Page 15: 第26回自律分散システムシンポジウムの講演資料

改良Q-­‐MDP法で得られた行動(失敗した試行)

2014年1月24日 第26回自律分散システム・シンポジウム 15

Page 16: 第26回自律分散システムシンポジウムの講演資料

結論・今後の展望

•  改良Q-­‐MDP法で、シミュレーション中のロボットが  観測情報の不確かさを補って行動決定  – すり鉢状のポテンシャル関数→ゴールのありそうな  箇所をなぞる動作  

•  Q-­‐MDP法の改良  – シミュレーションの環境で17[%]の成功率から87[%]へ  

•  時計回りと反時計まわりの繰り返しを禁止すれば、  成功率はほぼ100[%]と考えられる  

•  今後  – 別環境での実験で他にどんな行動が発生するか調査

2014年1月24日 第26回自律分散システム・シンポジウム 16