Deep Learningを用いたロボット制御

Deep Learningを用いたロボット制御

2016/7/23 第9回科学技術におけるロボット教育シンポジウム

チーフアーキテクト

奥田遼介

株式会社Preferred Networks

今日の内容

私が関わった様々なロボット関連の技術を紹介します

詳細な解説や動画は弊社のブログに掲載してあります

— 「プリファードリサーチ」で検索

目次

— レゴ

分散深層強化学習

ぶつからない車

— 産業用ロボット

バラ積み取り出し

Amazon Picking Challenge

自己紹介

奥田遼介

-2010一関工業高等専門学校

-2014東北大学修士

— 文字列処理など

2014 （株）プリファードインフラストラクチャー

2014- （株）プリファードネットワークス

— チーフアーキテクト

— 映像解析系、製造業系にかかわる研究開発

— ChainerやCuPyの開発

私とレゴマインドストーム

2003年中学生：RCX

2012年大学院生：NXT 2.0

— ETロボコン2012に出場

— チャンピオンシップ大会 TOPPERS賞受賞，総合部門第4位

2015年社会人： EV3

ETロボコンでは何をしたか？

プログラムのリモート書き換え機能を実装

— ETロボコン専用スクリプト言語

— BT転送

SATORI2

— 自動リトライによるパラメーター調整

会社紹介: Preferred Networks (PFN)

2014年3月設立（Preferred Infrastructureからスピンオフ）

本社：東京、アメリカ子会社：カリフォルニア州サンマテオ

社員数：約40名（そのうち35名程度はエンジニア）

投資元：NTT、FANUC、トヨタ自動車

ディープラーニング(人工知能)

Industrial IoT

製造業

自動車

ヘルスケア

7

世界的な企業とのパートナーシップで機械学習を活用

産業応用において実データを用いた共同R&Dプロジェクト

— 特殊なデータ・必要要件、アルゴリズムの改良、多くの試行錯誤、…

— 一般的なパターン認識システムとは異なる状況での経験とノウハウ

(C) WSJ

(C) WSJ

今回よく出てくる3つのキーワード

機械学習

— 経験（データ）によって賢くなるアルゴリズム

強化学習

— 試行錯誤を通じて環境に適応した制御を獲得する枠組み

深層学習（ディープラーニング）

— 機械学習手法のひとつ、近年大きく研究が進んでいる

機械学習（マシンラーニング）

経験（データ）によって賢くなるアルゴリズムの研究

– データから知識・ルールを自動獲得する

– データの適切な表現方法も獲得する

– 人工知能の中で、人が知識やルールを明示的に与える方法の限界から生まれてきた

学習データ

分類モデル

画像認識タスクでの性能向上（ILSVRC）

28.2

25.8

16.4

11.7

6.7 5.98 5.1 4.94 4.823.56

0

5

10

15

20

25

30

エラー率

これが人Deep Learning

の衝撃

強化学習のモチベーション

学習行動

webサービスゲームAI

ルーターロボット自動車...

ヒストグラム線形モデル

SVM

Deep NN

...

データ

前処理

サービスに反映

データ収集

このループを自動で回したい

状態 s の時に

どの行動 aを

取ればよいかを

報酬 r を

手掛かりに学習する

強化学習の問題設定（簡易版）

エージェント

行動 a良い結果

・すいすい走る

悪い結果・他車とぶつかる

評価報酬 r を与える（罰の場合もある）

状態 s：周りの情報

状態 sに対する行動 a

は直接教えない

レゴを活用したデモンストレーション

分散深層強化学習

2015年6月のInteropで発表したデモ

全体システム

Ｗｅｂカメラ（ＵＳＢ）

ＢＴ制御シミュレーター

(Processing)

画像認識

(AR Toolkit)

深層学習（Chainer）

座標データ

センサーデータ操作指令

GPU搭載PC

複数ロボットカーの協調走行

状態：273次元

— 視線：32方向の視線に対する情報など（障害物までの距離・角度）

行動：5種類（前後加速, 左右回転, ブレーキ)

報酬r：

— 良い：指定されたパスに沿って速く移動する

— 悪い：壁や障害物、他の車にぶつかる

どのように走行すれば最適かを学習

— 状態sの時に各行動aの報酬を予測するNNを学習

273 600 400 200 100 50

入力：状態s

前加速後加速右回転左回転ブレーキ

出力：各行動aの報酬予測

CES 2016ロボットカーデモ

トヨタ、NTTとの共同展示

ディープラーニングと強化学習を用いることで、自動で運転能力を習得するデモ

https://www.youtube.com/watch?v=a3AWpeOjkzw

https://www.youtube.com/watch?v=7A9UwxvgcV0

何がすごいか

約300次元の入力情報から適切な行動を車自らが自動的に獲得する

— 入力・出力が何に対応するかも教えていない

— 全方位を見て複雑な状況でも適切によける

— それぞれの車は独立に行動を決定

CESのデモでは4日間で白い車はお互いに衝突無し

複数台のセンサーデータを集めて学習を加速

— データ共有して学習する事でより速く、より賢くなる

なぜレゴでデモを作ったか？

今の深層強化学習でどんな事が出来るか示したかった

— よくある「IoT・ビッグデータ」はデータを集めるだけの場合がほとんど

分析すらできなくて、コストだけかかって価値にならない

— IoTの会社なので実物を動かしながら、技術の実用性を示す

お客さんとのプロジェクトの内容は外に出せない

— 技術の詳細を公開できないので、ぼやかした説明になる

レゴを使った利点

高速にデモを作れた

— 最初のデモは2か月で制作

— 他のラジコンカーも試したけど、EV3が一番安定して制御できた

— 制御・通信部分を自由にいじれる

ほど良いバッテリー時間とパワー

— 2時間くらい動いてくれる

— パワーが結構ある（CESの時は通信機と別バッテリーも搭載）

動くデモは圧倒的にインパクトがある

— 安定して動く

— 同じ型を大量に購入できる（最終的に20台くらい購入）

他の製品は付属品が品切れになっていたりした

レゴの欠点・デモで苦労した点

ちょっと本体が大きい

— もう一回り小さい型が欲しいところ

ラジコンモードが標準であってほしい

もう少し早いモーターが欲しい

— 大きいタイヤ使いたくなかった

屋内の精密な位置・向き測定は難しい

— カメラの解像度、光の状態、設置が面倒くさい

産業用ロボットへの技術適用

バラ積み取り出し

— 乱雑に置かれた物体

— 入力：上方からの深度付き画像

— 出力：吸着ハンドの目標座標

自動車工場によくある設定

— 別工場から部品が箱にバラバラな状態で送られてくる

— 専用の機械（高価で煩い）か、人が取り出して並べていた

バラ積みロボットの学習

バラ積みロボットの学習

従来手法

— パターンマッチ、ブロブ検出など

— パラメタチューニングが難しい

提案手法

— Deep Learningで代替

— 学習データを自動で収集

バラ積み取出しの学習

https://www.youtube.com/watch?v=ATXJ5dzOcDw

国際ロボット展2015にて展示

https://www.youtube.com/watch?v=ATXJ5dzOcDw

Amazon Picking Challengeとは

Amazonが主催

6/29-7/3, ドイツ

RoboCup2016 と併設

今年2回目

倉庫の自動化を目指す

タスク：指示された12個のitemを15分以内に棚から取ってくる / 棚に入れればOK

アイテムと棚39種類のアイテム・光沢や透明・重い、大きい、小さい、変形

棚内の配置例

結果

Pickタスクで2位(1位と同スコア)！ Stowタスクで4位(3位と僅差)！

http://amazonpickingchallenge.org/results.shtml

タスク後の記念撮影

http://amazonpickingchallenge.org/results.shtml

ロボット外観

・2本のFANUC製ロボットアームで2種類のハンド（バキューム、グリッパ）を使用・アームの先端に2種類の画像センサを搭載

他のチーム

バキュームとグリッパの融合ハンド台座に前後軸

アームに前後軸

PFN

Stow :4位(161)

Pick ： 2位(105)

全16チーム

— 日本から4チーム

Delft（オランダ）

— Stow : 1位(214)

— Pick ：1位(105)

— アーム：Yasukawa

Nimbro（ドイツ）

— Stow : 2位(186)

— Pick ：3位(97)

— アーム：Universal Robots

画像認識性能の戦い

Realsense

Lidar

Segmentation

(CNN)

アイテム解析・吸着可能位置推定(CNN)

・面の法線推定（点群処理）・向き姿勢推定（点群処理）

吸着可能位置推定法線方向推定

向き姿勢推定

全チームが深層学習を利用。各チームそれぞれに改良を重ねていた。

まとめ

機械学習のこれから

多くの分野に急速に普及する

— 画像認識、音声認識、動画認識、テキスト認識

— 画像生成、テキスト生成

画像認識

— 深層学習の登場により、大きく技術が向上

— 複雑な制御を行うためにはほぼ必須の技術に

音声認識

— テキスト化、指示の伝達、コミュニケーション

強化学習

— より現実に近い設定で動くように進歩中

ロボット

活動範囲を広げるには学習の活用が必須

— 産業用ロボットは基本的に決まった動きの繰り返し

プログラミングの難しさ、安全性

これからのロボット

— 大量のセンサを搭載、カメラも使う

— 機械学習により自動的に動きを獲得

— 人に対して安全に振る舞う

社会への進出

— ドローン、産業用・災害用・家庭用ロボットなどなど

レゴを通して学べる良いこと

物・サービスづくり

— ソフト・ハードを通して、実現したいものを作っていく能力

— ハード

工作技術、動きの仕組み、現実世界の複雑さ

— ソフト

制御、プログラミング、アルゴリズム

— 解決力

障害の原因を特定してひとつずつ解決していく

誰かにとって役に立つ何かを作っていく

本日のデモの詳細情報

「プリファードリサーチ」で検索

— https://research.preferred.jp/

— バラ積みロボットの学習

— 強化学習によるロボットカーの自動制御

— 画風変換

— 画像の自動生成

We are hiring!インターン・アルバイトも募集中です

Engineering

Deep Learningを用いたロボット制御