ロボットによる言語獲得とインタラクション～ロボットの”gaga to water”～（長井隆行）

http://apple.ee.uec.ac.jp/isyslab ２０１４．９．２６ＣＩＤ講演会＠京都工芸繊維大学：ロボットによる言語獲得とインタラクション

ロボットによる言語獲得とインタラクション～ロボットの”gaga to water”～

電気通信大学大学院

情報理工学研究科

知能機械工学専攻

長井隆行


2

ロビの悲劇


3

問題意識

ロボットは環境を認識して適切な行動をする

言葉による命令を実行できる

環境（実世界）や人間の言葉を『理解』しているのだろうか？本当にかしこいの？

自動ドアやリモコンとの違いは環境を認識して適切な行動

⇒人が来たから開けよう！

人間からの命令を忠実に実行

⇒チャンネルを変えろ！


人間の理解

言葉の意味を本当に分かってる？

「こんにちは」の意味は？

辞書に書いてある？

循環論法

意味がちゃんと分からないのになぜ会話できるの？

4


5

理解の定義

理解とは

経験を分類してその分類を通して観測できない事実や未来を予測すること

（見えないものを見ようとする工夫）

理解の重要性（なぜ理解するのか）

いかに「見えないものを見るか」がこの世界を生き抜く上で非常に重要だった

言葉の意味（の理解）

言葉（音）を聞いたときに予測されたこと


リンゴが食べられるのは？

6

これは前に食べたリンゴと同じグループだからたべても大丈夫！

リンゴというグループ

（概念）

これは食べても大丈夫？

食べられるかどうかは直接目には見えない性質


会話が成立するのはなぜ？

相手の気持ち（見えないもの）を見る努力

7

コミュニケーション＝相手の予測


人間のような知能をもつために必要なこと

経験の分類と予測真の理解の基本的な仕組み

反射行動行動なしでは経験できない

まねをする（共感）経験（学習）するための道しるべ

アフォーダンス（体の共通性）未知の環境で経験するための仕組み

8

ロボットが経験するために必要


9

「WALL-E」に学ぶロボットの知能

みまねアフォーダンス分類語意の理解

⇒WALL-Eが人間の言葉を理解できるかどうかは不明しかし・・・

道具の使い方学習（アフォーダンス）


10

ロボット (DiGORO)

Monitor

Laser range finder

1-DOF Waist

CCD camera×２

NIR TOF

Directional microphone

2-DOF Neck

Onboard PC×５

6-DOFArm×2

6-DOFHand×2

Omni-directional base

全方位台車によるSLAM 未知物体のオンライン学習高精度な音声認識様々な視覚認識動作の見まね学習と理解自然言語理解による動作の生成子供や高齢者との遊び多種多様な道具の使用

etc…

DiGORO（だいごろー）

高機能だけど高い・・・


見まね学習

まねすることはとても大切

11


12

ここまでの整理言葉（単語）の理解（意味）

世界を分ける (キリンとライオンは別ものだ！)

音韻列（音）を何に結びつけるか

（シンボルグラウンディング）

経験を通して結びつける

環境や学習者の構造が同じ（似ている）

共起性（同時に起こるものには関係がある）

経験することが必要

分類することで予測する

常に変化する

⇒ 赤ちゃんのように言葉を学習していくロボットを作ろう！


Multimodal Latent Dirichlet Allocation (MLDA)

マルチモーダル情報に基づくカテゴリ分類手法

各モダリティの特徴量の類似性からカテゴリを決定

[1]

Gibbs Samplingによりパラメータ , を推定

視覚

聴覚

触覚

単語

：ディリクレ事前分布

：多項分布のパラメータ

：カテゴリ

：モーダル情報

：多項分布のパラメータ

：ディリクレ事前分布

Nakamura,T. et al.: “Grounding of word meanings in multimodal concepts using LDA”, in Proc. IROS2009,

pp.3943–3948, 2009

[1]

• モデルを利用した未観測情報の予測が可能

やわらかい


マルチモーダル情報取得と処理 Bag of Featuresモデル

多数・多次元の情報を，生起回数の情報として利用

聴覚情報 MFCC特徴量(13次元)

触覚情報時系列データの近似パラメータ(2次元)

視覚情報 DSIFT特徴量(128次元)

ベクトル量子化



500次元ヒストグラム



単語情報ユーザの教示発話

教師なし形態素解析 Bag of Words表現

移動ロボットアームロボット


階層ベイズ言語モデルの導入

Mochihashi,D. et al.: “Bayesian Unsupervised Word Segmentation with Nested Pitman-Yor Language Modeling”,

in Proc. ACL-IJCNLP, Volume 1, pp.100–108, 2009

[1]

Nested Pitman-Yor Language Model (NPYLM)

持橋らによって提案された教師なし形態素解析手法 [1]

• 単語N-gramと文字N-gramに対して，階層Pitman-Yor過程を導入

• 入力（音素）データのみを用いて，確率的に文章の分節化を行う

これはくまのぬいぐるみこれはどうぶつのかたちこれはやわらかいよ

これは / くまのぬいぐるみこれは / どうぶつのかたちこれは / やわらかいよ

音素（音節）の並びから，有り得そうな分割位置を教師なしで推定

自律的な語彙の獲得が実現


オンラインマルチモーダルLDA

Model 1 Model 2

パラメータ更新

入力入力

パラメータ更新

モデルを選択

Model 1 Model 1

Model 2 Model 2

モデルを選択

パーティクルフィルタに基づくモデルの選択

• モデル学習時に初期パラメータの異なるモデルを複数個作成

• 単語の予測精度の高いモデルを選択

, , , ,| | | |w v a h w v a h

z

P w w P w z P z P w d


システムの概要情報の自律取得と概念・言語のオンライン学習

このシステムを長期間運用して語彙をオンラインで獲得させたい・・・


学習の結果

18

1. T. Araki, et al. “Online Object Categorization Using Multimodal Information Autonomously Acquired by a Mobile

Robot”, Advanced Robotics, 26, (17), pp.1995-2020, 2012

2. T. Araki, et al. “Online Learning of Concepts and Words Using Multimodal LDA and Hierarchical Pitman-Yor

Language Model”, IROS 2012, pp.1623-1630, Portugal, Oct.2012

3. 長井隆行, 中村友昭, "マルチモーダルカテゴリゼーション経験を通して概念を形成し言葉の意味を理解するロボットの実現に向けて", 人工知能学会誌，Vol.27，No.6，pp.555-562, Nov.2012


学習の結果

19


もっと色々学習させる！

Object MLDA

Motion MLDA

Time MLDA

Person MLDA

Integrated MLDA

Integrated MLDA

Integrated MLDA Place

MLDA


もっと色々学習させる

人や動作、場所などの概念も学習させる

徐々に文法も学習する

21


“gaga to water”

ＴＥＤ Deb Roy’s talk (2011)

http://digitalcast.jp/v/11656/

22


ここでの課題

Roy, B. C., et al.: “Exploring Word Learning in a High-Density Longitudinal Corpus”, in Proc. of the 31st Annual

Meeting of the Cognitive Science Society, pp.2106-2111, 2009

Thomaz, A. L., et al.: “Learning about Objects with Human Teachers”, in Proc. of HRI'09, pp.15-22, 2009

[1]

[2]

Adapted form [1]

インタラクティブ学習のフレームワーク子供－養育者間インタラクションの根底にあるダイナミクス [1]

ロボットと教示者間の相互作用 [2]


インタラクティブ学習のフレームワーク

ユーザーとのインタラクションを考慮した学習フレームワーク

提案したオンライン学習・予測手法，情報取得システムを統合

インタラクション行動

オンライン学習行動

予測行動

情報取得とモデルの学習

予測単語の発話

予測を利用した物体の探索

共有注意行動

視線方向の推定


インタラクティブ学習フレームワーク cont’d


実験 A) 4名の被験者による実験（インタラクション実験）

20物体5カテゴリを使用インタラクションあり2名/なし2名インタラクションあり条件ではロボットの反応を見ながら物体を自由に選択インタラクションなし条件ではすべての物体を順に学習

B) 1週間の学習実験（学習実験）全物体を使用


インタラクション実験 A) 結果

平均発話長（ＭＬＵ）タイプ/トークン比（TTR）ロボットの分類精度

• ロボットの学習進度と教示の複雑さが相関 • ロボットと教示者間のダイナミクス


学習実験 B) 結果提案フレームワークにより1週間で200個の物体を学習

教示発話数合計： 1055発話獲得語彙数合計924単語： 58単語（有意味） + 234単語（重複） + 632単語（無意味）

４０単語（名詞）, 10単語（形容詞）, ４単語（動詞）, ４単語（機能語）


学習実験 B) 結果 cont’d

分類精度単語予測精度

カテゴリ分類結果（混同行列）


学習実験 B) 結果 cont’d

視覚から予測される単語の例

Juliusを用いた音素認識（かな認識）による語彙の獲得


ロボットの ”gaga to water”

31


32

まとめ

ロボットに本当の意味で「理解」させたい！

理解するということがどういうことなのか完全に分かっているわけではない

理解していることをどうやって確かめる？

もロボットなりの知能が存在する

ロボットだけの世界で何が起きるか?

身体が違う人間とロボットがどこまで理解し合えるだろうか？

本当の友達になれるのか？

個体知能⇔社会的知能

Engineering

ロボットによる言語獲得とインタラクション ～ロボットの”gaga to water”～（長井隆行）

ロボットによる言語獲得とインタラクション～ロボットの”gaga to water”～（長井隆行）