Upload
ryuichi-ueda
View
4
Download
3
Embed Size (px)
DESCRIPTION
以下の予稿の発表資料です。 上田隆一: “タスクの到達度予測による信念状態の評価,” 第26回自律分散システムシンポジウム, pp. 2A1-1, 2014.
Citation preview
タスクの到達度予測による信念状態の評価
産業技術大学院大学 上田隆一
第26回自律分散システム・シンポジウム
不確かさの中での行動決定
• 自律型ロボットのセンシング – GPS, カメラ, レーザー, ソナー, ・・・ – 誤差の発生, 使用不能な状況の発生が不可避
• 不確かさ対策 – 外部からの支援(工場等) – 確率的手法を用いたセンサ情報統合[Thrun2005] – 不確かさを考慮した行動決定
• 分からないなら分からないなりに動作する • 自律性には不可欠
2014年1月24日 第26回自律分散システム・シンポジウム 2
従来研究1: Coastal Naviga>on[Roy99] • 移動ロボットのナビゲーション
– 距離センサで自己位置推定、ゴール地点まで移動
• 4次元空間で動的計画法 – 状態 = (x,y,θ,Η)
• H: 自己位置推定の不確かさの大きさを表す値
– 得られる行動:壁沿いの移動が多くなる
2014年1月24日 第26回自律分散システム・シンポジウム 3
goal
位置を見失う 可能性
(x,y,θ)
推定の不確かさの 度合い: H
壁
従来研究2: Q-‐MDP Value Method [LiNman95]
2014年1月24日 4
goal
• 状態既知として計画問題を解く – 価値関数Vを得る(本発表ではポテンシャル関数と考えてよい)
• ロボットの行動時 – 自己位置推定の不確かさを確率分布bで表現 – bとVから、どの行動をとると価値の期待値が高いか (≒最もゴールに近づくか)計算
第26回自律分散システム・シンポジウム
確率分布 b 行動A
行動B
どちらの期待価値 が高い?
比較
2014年1月24日 第26回自律分散システム・シンポジウム 5
• Coastal Nav. – 不確かさの遷移モデルが計画前に必要
• 壁を検出する距離センサなら、ある程度は可能 • 他は難しい
• Q-‐MDP – 簡便 – 情報獲得のための行動シーケンスを得られた例は見られない
• 「情報が得られるまで待機する」という行動が得られる程度[上田2007]
研究目的
• Q-‐MDP法で観測の不確かさを 考慮した行動生成を試みる – そのままでは期待できないので改良する
2014年1月24日 第26回自律分散システム・シンポジウム 6
改良Q-‐MDP法 — 考え方 • 期待値計算の際、ゴールに近い箇所を重み付け
• 単に期待値が一番高い行動ではなく、 投機的な行動選択ができるのでは?
2014年1月24日 第26回自律分散システム・シンポジウム 7
goal
確率分布 b 行動A
行動B
この部分が 行動決定に影響する 度合いを強く
この部分が 行動決定に影響する 度合いを弱く
数理モデル
• Q-‐MDP法の期待値計算式
• 改良Q-‐MDP法の期待値計算式
2014年1月24日 第26回自律分散システム・シンポジウム 8
行動aを選択 したと仮定
ある状態からある状態へ 遷移したときの評価値 行動前の確率密度
ü 行動前の確率密度を行動前の価値で割ったものを重みとする (価値が正で、高価値ほど値が小さい場合)
ü 他にも考えられる
シミュレーションでの行動生成・比較
• 目的 – Q-‐MDP法と改良Q-‐MDP法の比較 – 下図のように環境が完全な情報を与えない状況での ロボットの行動観察
2014年1月24日 第26回自律分散システム・シンポジウム 9
ゴール
点ランドマーク (距離と方向が分かる。1個だけ)
ロボット
環境・ロボットの動作・価値関数の定義
• ロボットの行動(3種類) – 時計/反時計周りに5[deg]/step + 誤差 – 向きに沿って10[mm] + 誤差
• 価値関数(ポテンシャル関数)V – V(x) = ゴールまでの距離/10 + ゴールの方向/5
2014年1月24日 第26回自律分散システム・シンポジウム 10
x[mm]
y[mm]
点ランドマーク (0,0)
ゴール (0,200)
ロボットの 初期状態(1000,0,-‐90[deg])
確率的位置推定(パーティクルフィルタ)の実装
• パーティクル数: 1000
• 更新 – ランドマーク観測(1回/5[step])
• 距離と向きから – ロボットが動いたとき(毎step)
• 動作に合わせて分布変更 • ゴールに入ったパーティクルを除去
• リセット法 – センサリセット[Lenser2000]
• Q-‐MDPの計算はパーティクルを利用
2014年1月24日 第26回自律分散システム・シンポジウム 11
ロボットの状態が一意に 定まらない
Q-‐MDP法と改良Q-‐MDP法の比較
• 500[step]以内にゴールにロボットが 到達できる頻度を比較 – ローカルミニマムで動けなくなる頻度を比較したい
• 各手法を100回ずつ試行
2014年1月24日 第26回自律分散システム・シンポジウム 12
試行結果
手法 成功率 成功時の 平均ステップ数
改良Q-‐MDP 87[%] 289[step]
Q-‐MDP 17[%] 242[step]
(参考)状態既知 100[%] 121[step] (参考)パーティクルの平均値を推定姿勢として行動決定
0[%] -‐
2014年1月24日 第26回自律分散システム・シンポジウム 13
ü 通常のQ-‐MDPで多く生じるローカルミニマムの問題が、改良Q-‐MDPでは大幅に解消
ü 改良Q-‐MDPでもローカルミニマムは発生
改良Q-‐MDP法で得られた行動(成功した試行)
2014年1月24日 第26回自律分散システム・シンポジウム 14
改良Q-‐MDP法で得られた行動(失敗した試行)
2014年1月24日 第26回自律分散システム・シンポジウム 15
結論・今後の展望
• 改良Q-‐MDP法で、シミュレーション中のロボットが 観測情報の不確かさを補って行動決定 – すり鉢状のポテンシャル関数→ゴールのありそうな 箇所をなぞる動作
• Q-‐MDP法の改良 – シミュレーションの環境で17[%]の成功率から87[%]へ
• 時計回りと反時計まわりの繰り返しを禁止すれば、 成功率はほぼ100[%]と考えられる
• 今後 – 別環境での実験で他にどんな行動が発生するか調査
2014年1月24日 第26回自律分散システム・シンポジウム 16