32
http://apple.ee.uec.ac.jp/isyslab 2014.9.26 CID講演会@京都工芸繊維大学:ロボットによる言語獲得とインタラクション ロボットによる言語獲得とインタラクション ~ロボットの”gaga to water”~ 電気通信大学大学院 情報理工学研究科 知能機械工学専攻 長井隆行

ロボットによる言語獲得とインタラクション ~ロボットの”gaga to water”~(長井隆行)

Embed Size (px)

Citation preview

Page 1: ロボットによる言語獲得とインタラクション ~ロボットの”gaga to water”~(長井隆行)

http://apple.ee.uec.ac.jp/isyslab 2014.9.26 CID講演会@京都工芸繊維大学:ロボットによる言語獲得とインタラクション

ロボットによる言語獲得とインタラクション ~ロボットの”gaga to water”~

電気通信大学大学院

情報理工学研究科

知能機械工学専攻

長井隆行

Page 2: ロボットによる言語獲得とインタラクション ~ロボットの”gaga to water”~(長井隆行)

http://apple.ee.uec.ac.jp/isyslab 2014.9.26 CID講演会@京都工芸繊維大学:ロボットによる言語獲得とインタラクション

2

ロビの悲劇

Page 3: ロボットによる言語獲得とインタラクション ~ロボットの”gaga to water”~(長井隆行)

http://apple.ee.uec.ac.jp/isyslab 2014.9.26 CID講演会@京都工芸繊維大学:ロボットによる言語獲得とインタラクション

3

問題意識

ロボットは環境を認識して適切な行動をする

言葉による命令を実行できる

環境(実世界)や人間の言葉を『理解』しているのだろうか? 本当にかしこいの?

自動ドアやリモコンとの違いは 環境を認識して適切な行動

⇒人が来たから開けよう!

人間からの命令を忠実に実行

⇒チャンネルを変えろ!

Page 4: ロボットによる言語獲得とインタラクション ~ロボットの”gaga to water”~(長井隆行)

http://apple.ee.uec.ac.jp/isyslab 2014.9.26 CID講演会@京都工芸繊維大学:ロボットによる言語獲得とインタラクション

人間の理解

言葉の意味を本当に分かってる?

「こんにちは」の意味は?

辞書に書いてある?

循環論法

意味がちゃんと分からないのになぜ会話できるの?

4

Page 5: ロボットによる言語獲得とインタラクション ~ロボットの”gaga to water”~(長井隆行)

http://apple.ee.uec.ac.jp/isyslab 2014.9.26 CID講演会@京都工芸繊維大学:ロボットによる言語獲得とインタラクション

5

理解の定義

理解とは

経験を分類してその分類を通して観測できない事実や未来を予測すること

(見えないものを見ようとする工夫)

理解の重要性(なぜ理解するのか)

いかに「見えないものを見るか」がこの世界を生き抜く上で非常に重要だった

言葉の意味(の理解)

言葉(音)を聞いたときに予測されたこと

Page 6: ロボットによる言語獲得とインタラクション ~ロボットの”gaga to water”~(長井隆行)

http://apple.ee.uec.ac.jp/isyslab 2014.9.26 CID講演会@京都工芸繊維大学:ロボットによる言語獲得とインタラクション

リンゴが食べられるのは?

6

これは前に食べた リンゴと同じグループだから たべても大丈夫!

リンゴというグループ

(概念)

これは食べても大丈夫?

食べられるかどうかは直接 目には見えない性質

Page 7: ロボットによる言語獲得とインタラクション ~ロボットの”gaga to water”~(長井隆行)

http://apple.ee.uec.ac.jp/isyslab 2014.9.26 CID講演会@京都工芸繊維大学:ロボットによる言語獲得とインタラクション

会話が成立するのはなぜ?

相手の気持ち(見えないもの)を見る努力

7

コミュニケーション = 相手の予測

Page 8: ロボットによる言語獲得とインタラクション ~ロボットの”gaga to water”~(長井隆行)

http://apple.ee.uec.ac.jp/isyslab 2014.9.26 CID講演会@京都工芸繊維大学:ロボットによる言語獲得とインタラクション

人間のような知能を もつために必要なこと

経験の分類と予測 真の理解の基本的な仕組み

反射行動 行動なしでは経験できない

まねをする(共感) 経験(学習)するための道しるべ

アフォーダンス(体の共通性) 未知の環境で経験するための仕組み

8

ロボットが経験 するために必要

Page 9: ロボットによる言語獲得とインタラクション ~ロボットの”gaga to water”~(長井隆行)

http://apple.ee.uec.ac.jp/isyslab 2014.9.26 CID講演会@京都工芸繊維大学:ロボットによる言語獲得とインタラクション

9

「WALL-E」に学ぶロボットの知能

みまね アフォーダンス 分類 語意の理解

⇒WALL-Eが人間の言葉を理解できるかどうかは不明 しかし・・・

道具の使い方学習 (アフォーダンス)

Page 10: ロボットによる言語獲得とインタラクション ~ロボットの”gaga to water”~(長井隆行)

http://apple.ee.uec.ac.jp/isyslab 2014.9.26 CID講演会@京都工芸繊維大学:ロボットによる言語獲得とインタラクション

10

ロボット (DiGORO)

Monitor

Laser range finder

1-DOF Waist

CCD camera×2

NIR TOF

Directional microphone

2-DOF Neck

Onboard PC×5

6-DOFArm×2

6-DOFHand×2

Omni-directional base

全方位台車によるSLAM 未知物体のオンライン学習 高精度な音声認識 様々な視覚認識 動作の見まね学習と理解 自然言語理解による動作の生成 子供や高齢者との遊び 多種多様な道具の使用

etc…

DiGORO(だいごろー)

高機能だけど高い・・・

Page 11: ロボットによる言語獲得とインタラクション ~ロボットの”gaga to water”~(長井隆行)

http://apple.ee.uec.ac.jp/isyslab 2014.9.26 CID講演会@京都工芸繊維大学:ロボットによる言語獲得とインタラクション

見まね学習

まねすることはとても大切

11

Page 12: ロボットによる言語獲得とインタラクション ~ロボットの”gaga to water”~(長井隆行)

http://apple.ee.uec.ac.jp/isyslab 2014.9.26 CID講演会@京都工芸繊維大学:ロボットによる言語獲得とインタラクション

12

ここまでの整理 言葉(単語)の理解(意味)

世界を分ける (キリンとライオンは別ものだ!)

音韻列(音)を何に結びつけるか

(シンボルグラウンディング)

経験を通して結びつける

環境や学習者の構造が同じ(似ている)

共起性(同時に起こるものには関係がある)

経験することが必要

分類することで予測する

常に変化する

⇒ 赤ちゃんのように言葉を学習していくロボットを作ろう!

Page 13: ロボットによる言語獲得とインタラクション ~ロボットの”gaga to water”~(長井隆行)

http://apple.ee.uec.ac.jp/isyslab 2014.9.26 CID講演会@京都工芸繊維大学:ロボットによる言語獲得とインタラクション

Multimodal Latent Dirichlet Allocation (MLDA)

マルチモーダル情報に基づくカテゴリ分類手法

各モダリティの特徴量の類似性からカテゴリを決定

[1]

Gibbs Samplingによりパラメータ , を推定

視覚

聴覚

触覚

単語

: ディリクレ事前分布

: 多項分布のパラメータ

: カテゴリ

: モーダル情報

: 多項分布のパラメータ

: ディリクレ事前分布

Nakamura,T. et al.: “Grounding of word meanings in multimodal concepts using LDA”, in Proc. IROS2009,

pp.3943–3948, 2009

[1]

• モデルを利用した未観測情報の予測が可能

やわらかい

Page 14: ロボットによる言語獲得とインタラクション ~ロボットの”gaga to water”~(長井隆行)

http://apple.ee.uec.ac.jp/isyslab 2014.9.26 CID講演会@京都工芸繊維大学:ロボットによる言語獲得とインタラクション

マルチモーダル情報取得と処理 Bag of Featuresモデル

多数・多次元の情報を,生起回数の情報として利用

聴覚情報 MFCC特徴量(13次元)

触覚情報 時系列データの近似パラメータ(2次元)

視覚情報 DSIFT特徴量(128次元)

ベクトル量子化

ベクトル量子化

ベクトル量子化

500次元ヒストグラム

50次元ヒストグラム

15次元ヒストグラム

単語情報 ユーザの教示発話

教師なし 形態素解析 Bag of Words表現

移動ロボット アームロボット

Page 15: ロボットによる言語獲得とインタラクション ~ロボットの”gaga to water”~(長井隆行)

http://apple.ee.uec.ac.jp/isyslab 2014.9.26 CID講演会@京都工芸繊維大学:ロボットによる言語獲得とインタラクション

階層ベイズ言語モデルの導入

Mochihashi,D. et al.: “Bayesian Unsupervised Word Segmentation with Nested Pitman-Yor Language Modeling”,

in Proc. ACL-IJCNLP, Volume 1, pp.100–108, 2009

[1]

Nested Pitman-Yor Language Model (NPYLM)

持橋らによって提案された教師なし形態素解析手法 [1]

• 単語N-gramと文字N-gramに対して,階層Pitman-Yor過程を導入

• 入力(音素)データのみを用いて,確率的に文章の分節化を行う

これはくまのぬいぐるみ これはどうぶつのかたち これはやわらかいよ

これは / くまのぬいぐるみ これは / どうぶつのかたち これは / やわらかいよ

音素(音節)の並びから, 有り得そうな分割位置を教師なしで推定

自律的な語彙の獲得が実現

Page 16: ロボットによる言語獲得とインタラクション ~ロボットの”gaga to water”~(長井隆行)

http://apple.ee.uec.ac.jp/isyslab 2014.9.26 CID講演会@京都工芸繊維大学:ロボットによる言語獲得とインタラクション

オンラインマルチモーダルLDA

Model 1 Model 2

パラメータ 更新

入力 入力

パラメータ 更新

モデルを 選択

Model 1 Model 1

Model 2 Model 2

モデルを 選択

パーティクルフィルタに基づくモデルの選択

• モデル学習時に初期パラメータの異なるモデルを複数個作成

• 単語の予測精度の高いモデルを選択

, , , ,| | | |w v a h w v a h

z

P w w P w z P z P w d

Page 17: ロボットによる言語獲得とインタラクション ~ロボットの”gaga to water”~(長井隆行)

http://apple.ee.uec.ac.jp/isyslab 2014.9.26 CID講演会@京都工芸繊維大学:ロボットによる言語獲得とインタラクション

システムの概要 情報の自律取得と概念・言語のオンライン学習

このシステムを長期間運用して語彙をオンラインで獲得させたい・・・

Page 18: ロボットによる言語獲得とインタラクション ~ロボットの”gaga to water”~(長井隆行)

http://apple.ee.uec.ac.jp/isyslab 2014.9.26 CID講演会@京都工芸繊維大学:ロボットによる言語獲得とインタラクション

学習の結果

18

1. T. Araki, et al. “Online Object Categorization Using Multimodal Information Autonomously Acquired by a Mobile

Robot”, Advanced Robotics, 26, (17), pp.1995-2020, 2012

2. T. Araki, et al. “Online Learning of Concepts and Words Using Multimodal LDA and Hierarchical Pitman-Yor

Language Model”, IROS 2012, pp.1623-1630, Portugal, Oct.2012

3. 長井隆行, 中村友昭, "マルチモーダルカテゴリゼーション 経験を通して概念を形成し言葉の意味を理解するロボットの実現に向けて", 人工知能学会誌,Vol.27,No.6,pp.555-562, Nov.2012

Page 19: ロボットによる言語獲得とインタラクション ~ロボットの”gaga to water”~(長井隆行)

http://apple.ee.uec.ac.jp/isyslab 2014.9.26 CID講演会@京都工芸繊維大学:ロボットによる言語獲得とインタラクション

学習の結果

19

Page 20: ロボットによる言語獲得とインタラクション ~ロボットの”gaga to water”~(長井隆行)

http://apple.ee.uec.ac.jp/isyslab 2014.9.26 CID講演会@京都工芸繊維大学:ロボットによる言語獲得とインタラクション

もっと色々学習させる!

Object MLDA

Motion MLDA

Time MLDA

Person MLDA

Integrated MLDA

Integrated MLDA

Integrated MLDA Place

MLDA

Page 21: ロボットによる言語獲得とインタラクション ~ロボットの”gaga to water”~(長井隆行)

http://apple.ee.uec.ac.jp/isyslab 2014.9.26 CID講演会@京都工芸繊維大学:ロボットによる言語獲得とインタラクション

もっと色々学習させる

人や動作、場所などの概念も学習させる

徐々に文法も学習する

21

Page 22: ロボットによる言語獲得とインタラクション ~ロボットの”gaga to water”~(長井隆行)

http://apple.ee.uec.ac.jp/isyslab 2014.9.26 CID講演会@京都工芸繊維大学:ロボットによる言語獲得とインタラクション

“gaga to water”

TED Deb Roy’s talk (2011)

http://digitalcast.jp/v/11656/

22

Page 23: ロボットによる言語獲得とインタラクション ~ロボットの”gaga to water”~(長井隆行)

http://apple.ee.uec.ac.jp/isyslab 2014.9.26 CID講演会@京都工芸繊維大学:ロボットによる言語獲得とインタラクション

ここでの課題

Roy, B. C., et al.: “Exploring Word Learning in a High-Density Longitudinal Corpus”, in Proc. of the 31st Annual

Meeting of the Cognitive Science Society, pp.2106-2111, 2009

Thomaz, A. L., et al.: “Learning about Objects with Human Teachers”, in Proc. of HRI'09, pp.15-22, 2009

[1]

[2]

Adapted form [1]

インタラクティブ学習のフレームワーク 子供-養育者間インタラクションの根底にあるダイナミクス [1]

ロボットと教示者間の相互作用 [2]

Page 24: ロボットによる言語獲得とインタラクション ~ロボットの”gaga to water”~(長井隆行)

http://apple.ee.uec.ac.jp/isyslab 2014.9.26 CID講演会@京都工芸繊維大学:ロボットによる言語獲得とインタラクション

インタラクティブ学習のフレームワーク

ユーザーとのインタラクションを考慮した学習フレームワーク

提案したオンライン学習・予測手法,情報取得システムを統合

インタラクション行動

オンライン学習行動

予測行動

情報取得とモデルの学習

予測単語の発話

予測を利用した物体の探索

共有注意行動

視線方向の推定

Page 25: ロボットによる言語獲得とインタラクション ~ロボットの”gaga to water”~(長井隆行)

http://apple.ee.uec.ac.jp/isyslab 2014.9.26 CID講演会@京都工芸繊維大学:ロボットによる言語獲得とインタラクション

インタラクティブ学習フレームワーク cont’d

Page 26: ロボットによる言語獲得とインタラクション ~ロボットの”gaga to water”~(長井隆行)

http://apple.ee.uec.ac.jp/isyslab 2014.9.26 CID講演会@京都工芸繊維大学:ロボットによる言語獲得とインタラクション

実験 A) 4名の被験者による実験(インタラクション実験)

20物体5カテゴリを使用 インタラクションあり2名/なし2名 インタラクションあり条件ではロボットの反応を見ながら物体を自由に選択 インタラクションなし条件ではすべての物体を順に学習

B) 1週間の学習実験(学習実験) 全物体を使用

Page 27: ロボットによる言語獲得とインタラクション ~ロボットの”gaga to water”~(長井隆行)

http://apple.ee.uec.ac.jp/isyslab 2014.9.26 CID講演会@京都工芸繊維大学:ロボットによる言語獲得とインタラクション

インタラクション実験 A) 結果

平均発話長(MLU) タイプ/トークン比(TTR) ロボットの分類精度

• ロボットの学習進度と教示の複雑さが相関 • ロボットと教示者間のダイナミクス

Page 28: ロボットによる言語獲得とインタラクション ~ロボットの”gaga to water”~(長井隆行)

http://apple.ee.uec.ac.jp/isyslab 2014.9.26 CID講演会@京都工芸繊維大学:ロボットによる言語獲得とインタラクション

学習実験 B) 結果 提案フレームワークにより1週間で200個の物体を学習

教示発話数合計: 1055発話 獲得語彙数合計924単語: 58単語(有意味) + 234単語(重複) + 632単語(無意味)

40単語(名詞), 10単語(形容詞), 4単語(動詞), 4単語(機能語)

Page 29: ロボットによる言語獲得とインタラクション ~ロボットの”gaga to water”~(長井隆行)

http://apple.ee.uec.ac.jp/isyslab 2014.9.26 CID講演会@京都工芸繊維大学:ロボットによる言語獲得とインタラクション

学習実験 B) 結果 cont’d

分類精度 単語予測精度

カテゴリ分類結果(混同行列)

Page 30: ロボットによる言語獲得とインタラクション ~ロボットの”gaga to water”~(長井隆行)

http://apple.ee.uec.ac.jp/isyslab 2014.9.26 CID講演会@京都工芸繊維大学:ロボットによる言語獲得とインタラクション

学習実験 B) 結果 cont’d

視覚から予測される単語の例

Juliusを用いた音素認識(かな認識)による語彙の獲得

Page 31: ロボットによる言語獲得とインタラクション ~ロボットの”gaga to water”~(長井隆行)

http://apple.ee.uec.ac.jp/isyslab 2014.9.26 CID講演会@京都工芸繊維大学:ロボットによる言語獲得とインタラクション

ロボットの ”gaga to water”

31

Page 32: ロボットによる言語獲得とインタラクション ~ロボットの”gaga to water”~(長井隆行)

http://apple.ee.uec.ac.jp/isyslab 2014.9.26 CID講演会@京都工芸繊維大学:ロボットによる言語獲得とインタラクション

32

まとめ

ロボットに本当の意味で「理解」させたい!

理解するということがどういうことなのか完全に分かっているわけではない

理解していることをどうやって確かめる?

もロボットなりの知能が存在する

ロボットだけの世界で何が起きるか?

身体が違う人間とロボットがどこまで理解し合えるだろうか?

本当の友達になれるのか?

個体知能⇔社会的知能