第26回自律分散システムシンポジウムの講演資料

タスクの到達度予測による信念状態の評価

産業技術大学院大学　上田隆一

第26回自律分散システム・シンポジウム

不確かさの中での行動決定

•  自律型ロボットのセンシング –  GPS, カメラ, レーザー, ソナー, ・・・ – 誤差の発生, 使用不能な状況の発生が不可避

•  不確かさ対策 – 外部からの支援（工場等） – 確率的手法を用いたセンサ情報統合[Thrun2005] – 不確かさを考慮した行動決定

•  分からないなら分からないなりに動作する •  自律性には不可欠

2014年1月24日第26回自律分散システム・シンポジウム 2

従来研究1: Coastal Naviga>on[Roy99] •  移動ロボットのナビゲーション

– 距離センサで自己位置推定、ゴール地点まで移動

•  4次元空間で動的計画法 – 状態 = (x,y,θ,Η)

•  H: 自己位置推定の不確かさの大きさを表す値

– 得られる行動：壁沿いの移動が多くなる


goal

位置を見失う可能性

(x,y,θ)

推定の不確かさの度合い: H

壁

従来研究2: Q-‐MDP Value Method [LiNman95]

2014年1月24日 4

goal

•  状態既知として計画問題を解く –  価値関数Vを得る（本発表ではポテンシャル関数と考えてよい）

•  ロボットの行動時 –  自己位置推定の不確かさを確率分布bで表現 –  bとVから、どの行動をとると価値の期待値が高いか（≒最もゴールに近づくか）計算

第26回自律分散システム・シンポジウム

確率分布 b 行動A

行動B

どちらの期待価値が高い？

比較


•  Coastal Nav. – 不確かさの遷移モデルが計画前に必要

•  壁を検出する距離センサなら、ある程度は可能 •  他は難しい

•  Q-‐MDP – 簡便 – 情報獲得のための行動シーケンスを得られた例は見られない

•  「情報が得られるまで待機する」という行動が得られる程度[上田2007]

研究目的

•  Q-‐MDP法で観測の不確かさを考慮した行動生成を試みる – そのままでは期待できないので改良する


改良Q-‐MDP法 — 考え方 •  期待値計算の際、ゴールに近い箇所を重み付け

•  単に期待値が一番高い行動ではなく、投機的な行動選択ができるのでは？


goal

確率分布 b 行動A

行動B

この部分が行動決定に影響する度合いを強く

この部分が行動決定に影響する度合いを弱く

数理モデル

•  Q-‐MDP法の期待値計算式

•  改良Q-‐MDP法の期待値計算式


行動aを選択したと仮定

ある状態からある状態へ遷移したときの評価値行動前の確率密度

ü  行動前の確率密度を行動前の価値で割ったものを重みとする（価値が正で、高価値ほど値が小さい場合）

ü  他にも考えられる

シミュレーションでの行動生成・比較

•  目的 –  Q-‐MDP法と改良Q-‐MDP法の比較 – 下図のように環境が完全な情報を与えない状況でのロボットの行動観察


ゴール

点ランドマーク（距離と方向が分かる。1個だけ）

ロボット

環境・ロボットの動作・価値関数の定義

•  ロボットの行動（3種類） –  時計/反時計周りに5[deg]/step + 誤差 –  向きに沿って10[mm] + 誤差

•  価値関数（ポテンシャル関数）V –  V(x) = ゴールまでの距離/10 + ゴールの方向/5


x[mm]

y[mm]

点ランドマーク (0,0)

ゴール (0,200)

ロボットの初期状態(1000,0,-‐90[deg])

確率的位置推定（パーティクルフィルタ）の実装

•  パーティクル数: 1000

•  更新 –  ランドマーク観測（1回/5[step]）

•  距離と向きから –  ロボットが動いたとき（毎step）

•  動作に合わせて分布変更 •  ゴールに入ったパーティクルを除去

•  リセット法 –  センサリセット[Lenser2000]

•  Q-‐MDPの計算はパーティクルを利用


ロボットの状態が一意に定まらない

Q-‐MDP法と改良Q-‐MDP法の比較

•  500[step]以内にゴールにロボットが到達できる頻度を比較 – ローカルミニマムで動けなくなる頻度を比較したい

•  各手法を100回ずつ試行


試行結果

手法成功率成功時の平均ステップ数

改良Q-‐MDP 87[%] 289[step]

Q-‐MDP 17[%] 242[step]

(参考）状態既知 100[%] 121[step] （参考）パーティクルの平均値を推定姿勢として行動決定

0[%] -‐


ü 通常のQ-‐MDPで多く生じるローカルミニマムの問題が、改良Q-‐MDPでは大幅に解消

ü 改良Q-‐MDPでもローカルミニマムは発生

改良Q-‐MDP法で得られた行動（成功した試行）


改良Q-‐MDP法で得られた行動（失敗した試行）


結論・今後の展望

•  改良Q-‐MDP法で、シミュレーション中のロボットが観測情報の不確かさを補って行動決定 – すり鉢状のポテンシャル関数→ゴールのありそうな箇所をなぞる動作

•  Q-‐MDP法の改良 – シミュレーションの環境で17[%]の成功率から87[%]へ

•  時計回りと反時計まわりの繰り返しを禁止すれば、成功率はほぼ100[%]と考えられる

•  今後 – 別環境での実験で他にどんな行動が発生するか調査


Technology

第26回自律分散システムシンポジウムの講演資料