View
786
Download
0
Embed Size (px)
Citation preview
人間とのインタラクションにより言葉と行動を学習するロボット
岡山県立大学情報工学部情報通信工学科
人工知能学研究室岩橋直人
1
内容
1. 対話技術の現状2. 動作と言語によるコミュニケーション学習機構
L‐Core の概要3. 物体概念の学習4. 動作の模倣学習5. 連続音声からの語彙の学習6. 共有信念に基づく発話理解の学習7. 共有信念に基づく発話生成8. 確認発話生成9. 実世界に関する質問応答の学習10. まとめ
2
1.対話技術の現状
3
4
言語理解のスペクトラム(Shank 85)
SHRDLU(72)
有意味
固定された構造によってのみ解釈され他者の理解を参照しない
認知的理解経験に基づいて学習したり変化する,現在の経験を過去の経験に知的に関連付ける,などができる
完全な感情移入
互いのすべての動きや動機がわかる親しい者同士の理解
従来技術
(ELIZA(66))
2. 動作と言語によるコミュニケーション学習機構 L‐Core の概要
5
ロボット対話
実世界情報をカテゴリ化、予測し、実世界を操作可能な対話システム
日常生活支援ロボットの対話機能は、現状ではまったく不十分である
ロボットの対話技術はとても難しい!どうして?
従来の言語処理では、記号の意味は記号で記述されているユーザーと物理世界に関する共有信念を形成できない
「いつものあれ持ってきて」「これを引き出しにもどしておいて」
6はじめに
共有信念はコミュニケーションの基盤7はじめに
翔太: コーヒーを飲むかい
美咲: コーヒーを飲むと目が覚めるわ
美咲は、目を覚ましたいので申し出を受けたい。美咲は、目を覚ましたくないので申し出を断りたい。翔太は、美咲が目を覚ましたいので申し出を受けたい、と思った。翔太は、美咲が目を覚ましたくないので申し出を断った、と思った。
共有信念はコミュニケーションの基盤8はじめに
翔太: コーヒーを飲むかい
美咲: コーヒーを飲むと目が覚めるわ
美咲は、目を覚ましたいので申し出を受けたい。
翔太は、美咲が目を覚ましたいので申し出を受けたい、と思った。
実世界
ロボット信念
拡張性
記号接地
ユーザ信念
共有
9
ロボット対話の三つの要件
対話処理の記号創発的アプローチ
L‐Core幼児のようにコミュニケーションを自律的に学習する手法
10
報道映像11
L‐Coreの信念システム12
共有信念関数Ψ(s,a) 個別確信度
ベクトル
動作-オブジェクト
関係行動
コンテキスト音声言語 動作物体
L‐Coreの信念システム
全体確信度関数 f(d)
発話と行動の生成と理解
13
L‐Core の機能
ロボットに向けられた発話の検出
状況依存的発話理解
確認発話生成
実世界に関する質問応答
役割反転模倣
自律的オンライン物体学習
音韻学習
物体概念学習
動作模倣学習
語彙学習
文法学習
語用法学習
14
3. 物体概念の学習
15
マルチモーダル情報の取得物体のマルチモーダルカテゴリゼーション
視覚情報・聴覚情報
SIFTSIFT
物体を観察 局所的な特徴量
211
ベクトル量子化500次元
ヒストグラム
wavewave
物体を振り音を取得フレームを
13次元MFCCに変換
211
ベクトル量子化50次元
ヒストグラム
視覚情報
聴覚情報
特徴の発生回数(Bag of features)
物体のマルチモーダルカテゴリゼーション
触覚情報
物体を掴む
触覚情報
角度変化量圧力
211
ベクトル量子化5次元
ヒストグラム
角度変化量物体がどれだけつぶれたか?柔らかさ
一定負荷時の圧力物体からの応力硬さ
ハンドの構成 取得した特徴量
Pressure Sensor × 4
Actuator ×4
物体のマルチモーダルカテゴリゼーション
マルチモーダルLDA• 文書 ⇒ 物体
• 単語 ⇒ マルチモーダル情報 w*• トピック ⇒ カテゴリ z• パラメタ推定することで物体の分類
が可能
Nvα θ z wv βv
wa βa
wh βh
Na
Nh
M
視覚
聴覚
触覚
α : ディリクリ事前分布
θ : 多項分布のパラメータ
z : カテゴリ
w* : モーダル情報
β* : 多項分布のパラメータ
物体のマルチモーダルカテゴリゼーション
丸、音無し
やわらかい….
丸、シャカシャカ鳴る、硬い….
カテゴリ1
(ぬいぐるみ)
カテゴリ2
(マラカス)
LDALDA
LDALDA
物体概念の構築
• 物体を分類することで、物体概念を構築
– 視覚・聴覚・触覚情報を様々な組み合わせで構築
• 人の分類と比較
– 人の分類:8人の被験者共通に現れた分類
• 40個のおもちゃ8カテゴリを使用
物体のマルチモーダルカテゴリゼーション
分類結果
Category ID1 2 3 4 5 6 7 8
5
10
15
20
25
30
35
40
CategoryID
1 2 3 4 5 6 7 8
5
10
15
20
25
30
35
40
人手による分類(正解) 視覚情報のみによる分類
マルチモーダルカテゴリゼーションCategory ID
1 2 3 4 5 6 7 8
5
10
15
20
25
30
35
40
マルチモーダル情報を
用いることで人手と同じ分類が可能
マルチモーダル情報を
用いることで人手と同じ分類が可能
Obj
ect I
D
Obj
ect I
D
Category ID1 2 3 4 5 6 7 8
5
10
15
20
25
30
35
40
視覚・聴覚
Obj
ect I
D
Obj
ect I
D
物体のマルチモーダルカテゴリゼーション
未観測情報の推定
未知物体のカテゴリ認識
カテゴリを通したクロスモーダル予測視覚情報から聴覚情報を予測
視覚情報から触覚情報を予測
聴覚と触覚情報から視覚情報を予測
・・・
視視
聴聴
触触
カテゴリ
カテゴリ
物体のマルチモーダルカテゴリゼーション
4. 動作の模倣学習
23
24
動作の模倣学習
課題:単語音声と物体操作の ペア から動詞とそ
の意味を学習する
難しさ: 非観測情報の推測参照点
座標系
*羽岡, 岩橋, “言語獲得のための参照点に…,” IEICE技研報告 PRMU2000‐105, pp.39‐46, 2000.
ランドマークと座標系の例25
飛び越えさせる
近づかせる乗せる
持ち上げる
参照点に依存したHMMによる動作の学習
26
HMM
0
0
動作「のせる」
出力正規分布
HMMは時系列信号の確率モデル
複数軌道を入力して一つのHMMを学習する
「のせる」の学習データ
参照点に依存したHMMによる軌道生成
軌道は、HMMの尤度(確率)が最も高くなるように生成する
入力: 動作ID, 参照点
出力: 最尤軌道
27
0
0
動作「のせる」
参照点
元の位置
参照点に依存したHMMによる動作とランドマークの認識
28
飛び越えさせる
近づかせる乗せる
持ち上げる
動作模倣学習デモビデオ29
5. 連続音声からの語彙の学習
30
ここは会議室の前です
問 題 点
1. 発話中のどこが場所名かわからない
2. 音声認識誤りが生じる
3.意味(指示対象の分布)がわからない
ロボットは単語の知識を持たない(音声は音素列として認識)
問 題 設 定発話と指示対象の共起情報から単語の音素系列とその意味を学習
ここおあかいでぃひつのまえ
かいでぃひつのまえ
32トラッキングの様子
早送り映像
自律移動ロボットを使用した場所名の学習
地図の生成
愛知万博での鬼ごっこデモ自律移動ロボットASKA
LRF
学習データ:90組の発話と位置座標
33
1 デル部屋
2 梅崎研秘書室
3 梅崎先生の部屋
4 小竹研究室
5 加藤研究室
6 徳丸研究室
7 インターンシップ推進室
8 専攻会議室
9 夢空間
10 コミュニケーションスペース
1 ここが X です
2 ここの名前は X だよ
3 この場所は X っていうんだ
4 X です
5 X だよ
6 X っていうんだ
7 ここが X
8 ここの名前は X
9 この場所は X
(X は場所名を表す)
キーワード (10種類) 言いまわし (9種類)
自己位置推定で得られた位置座標と対応するキーワード
1 234
5
6
7
8
9
10
実験結果: 獲得されたキーワード
34
うめだきせえせえのへや(梅崎先生の部屋)
あめぜきてんせえのへあ
でれべや(デル部屋)
いんたあしいとぅすいしんしつ(インターンシップ推進室)
ゆめくうかん(夢空間)
かとおけんけえしつ(加藤研究室)
こみにけえしのすぺえす(コミュニケーションスペース)
めえせきせえせえのへや
めぜけんししょしつ(梅崎研秘書室)
おだけきんけえしつ(小竹研究室)
せんこおかいぎしつ(専攻会議室)
とくまでけんきえしつ(徳丸研究室)
80% の音素正解精度で単語を獲得
学習手法の概要
35
提案手法の概要
36
三種類の確率モデル(音響,文法,語意)を統合
発話a
対象o
文法音響 語意
単語列s
HMM
N‐gram
)|(log)(log)|(logmax
)|()()|(log),(log
sPsPsP
sPsPsPP
s
soa
oaoa
一般の音声認識
音素系列の統計量に基づき初期の単語セットを生成
少ない単語数でモデルの尤度が高くなるように単語の削除(MDL基準)と連結を繰り返す
語意のモデル
37
発話a
対象o
単語列s
単語列と対象の関係
HMM
N‐gram
単語と対象の関係を2次元正規分布でモデル化
n
iii woPr
1)|( ir : 意味の重み
)|,()|( wyxPwoP
yx
yxxy
y
y
x
x
xyxyyx
yxyx
))((2)()()1(2
1exp12
12
2
2
2
22
: 単語iw)|( soP
xx : の分散 xyxy : の相関係数yy : の分散
の平均xx :の平均yy :
語意のモデル
発話a
対象o
単語列s
単語列と対象の関係
HMM
N‐gram
38
P(x,y | w)
x
y
「うめざきけんひしょしつ」
「せんこうかいぎしつ」
学習の様子
39
1: ここのなまえわ/うめざえ/けえひ/しょ/すだよ
2: ここのなまえわ/うめざえけえひしょ/すざよ
4: ここのなまえわ/うめざえけえひしょ/すだよ
5: ここのなまえわ/うめざえけえひしょしつ/だよ
10: ここのなまえわ/うめざえっけんいひしょあしつ/だよ
モデル選択の回数
教示内容: 「 ここの名前は梅崎研秘書室だよ 」音素認識: こ こ の な ま あ う わ う め ざ え け ん し ょ お す ざ よ
90組の発話と位置座標のデータを用いてバッチ学習
モデル選択前258単語 → モデル選択後20単語
6. 共有信念に基づいた発話理解の学習
40
学習の様子41
共有信念関数Ψ(s,a) 個別確信度
ベクトル
動作-オブジェクト
関係行動
コンテキスト音声言語 動作物体
信念システム
全体確信度関数 f(d)
発話と行動の生成と理解
42
共有信念関数
43
1,
2
3
4
5
( , ) max log ( | ; , )
log ( | ; ) log ( | ; )
log ( | ; )
log ( , | ; )
log ( , | ; )
l z
T L
M
M
s a p s z L G
p t W L p l W L
p u W L
p t l W R
p t l q H
個別確信度ベクトル
MCE 学習 ML/MAP 学習
信念モジュール
音声言語 HMMs
物体画像Gaussians
動作 HMMs
動作‐オブジェクト関係Gaussians
行動のコンテキストMultinominal distribution
発話理解44
arg max ( , ) A
a s A
最適動作 入力音声
可能な動作
最適化の過程
0
20
40
60
80
100
120
140
1 2
系列5
系列4
系列3
系列2
系列1
音声認識結果:1st: カーミット 青い 箱 持ち上げて2nd:カーミット 青い 箱 のせて
発話:“カーミット 青い 箱 のせて”
行動コンテキスト
動作‐オブジェクト関係
動作
物体
音声言語
OptimalSecond
Ψ(s,a)
実験
96 発話‐シーン サンプルペア
詳細な発話と、曖昧で断片的な発話を含む
語彙
50物体に対して60 単語, 7動作に対して7単語
学習エピソード数の影響を評価
Leave‐one‐out cross validation
46
オンライン MCE 学習
‐0.2
0
0.2
0.4
0.6
0.8
1
1.2
1.4
1.6
0 10 20 30 40 50 60 70 80 90
Local con
fiden
ce value
系列1系列2系列3系列4系列5系列6
Speech
Object
Motion‐object relationship
Motion
Holding
Previously moved
The number of episodes
47
個別
確信
度ベ
クト
ル
エピソード数
理解率の改善
30
40
50
60
70
80
90
100
0 10 20 30 40 50 60 70 80 90
Und
erstanding
rate (%
)
系列1
The number of episodes
38%
48
エピソード数
音声
理解
率(%
)
共有信念に基づいた発話理解
“飛び越えさせて” “のせて”
49
共有信念に基づいた発話理解50
1 2 3
U
概念構造51
“小さいカーミット茶色い箱乗せて”
トラジェクタ : 1 : 小さい カーミット
ランドマーク : 3 : 茶色い 箱
軌道 : U : 乗せて
概念構造 Z
構文構造
[小さい カーミット] [茶色い 箱] [乗せて]
意味構造
トラジェクタ ランドマーク
軌道
格助詞を含む構文の概念構造52
意味構造
軌道
トラジェクタ ランドマーク
1 2 3
U
構文構造
[小さい カーミット を] [茶色い 箱 に] [乗せて]
“小さいカーミットを茶色い箱に乗せて”
物体_トラジェクタ : 1 : 小さい カーミット _を
物体_ランドマーク : 3 : 茶色い 箱 _に
軌道 : U : 乗せて
概念構造 Z
cv cv
10. まとめ
53
54
L‐Coreの技術的位置付け
SHRDLU(72)
有意味
固定された構造によってのみ解釈され他者の理解を参照しない
認知的理解経験に基づいて学習したり変化する,現在の経験を過去の経験に知的に関連付ける,などができる
完全な感情移入
互いのすべての動きや動機がわかる親しい者同士の理解
最新技術
言語理解のスペクトラム(Shank 85)
L‐Core(13)
RoboCup@Home 200955
RoboCup@Home 2010 優勝56
まとめ
L‐Coreユーザ信念と物理世界状況に依存した信念システム
認知的言語理解の達成
多機能統合に成功
頑健性、実用性の向上が必要
57
今後の展開
ユーザの行動習慣の学習
時間の概念 「きのう見せたペンを持ってきて」
ペット、フルーツ、道具などの、抽象度の高い意味を持つ語彙の学習
動作学習と言語学習の統一原理追求
…
58
59
新しいアプローチ
SHRDLU(72)
有意味
固定された構造によってのみ解釈され他者の理解を参照しない
認知的理解経験に基づいて学習したり変化する,現在の経験を過去の経験に知的に関連付ける,などができる
完全な感情移入
互いのすべての動きや動機がわかる親しい者同士の理解
最新技術
(ELIZA(66))
雑談の記号接地60