73
1 2016/8/31 黒川塾39

黒川塾 三十九 (39)「誰にでもわかる!エンタメ的人工知能(AI)考察」(松原、伊藤、三宅)講演資料

Embed Size (px)

Citation preview

Page 1: 黒川塾 三十九 (39)「誰にでもわかる!エンタメ的人工知能(AI)考察」(松原、伊藤、三宅)講演資料

1 2016/8/31

黒川塾39

Page 2: 黒川塾 三十九 (39)「誰にでもわかる!エンタメ的人工知能(AI)考察」(松原、伊藤、三宅)講演資料

2

記事にして頂いたメディア様(アルファベット順) ファミ通様 AIをトークテーマとして第39回“黒川塾”を開催! エンタメ業界から見たその可能性を検証する http://www.famitsu.com/news/201608/26114217.html GameDeets様/Yahoo!Japan ゲーム様 【黒川塾39】AIは人類を超越した存在になりうるのか? https://gamedeets.com/archives/170223 http://games.yahoo.co.jp/news/item?n=20160824-00000013-ygame_gamedeets techne様 黒川塾三十九「誰にでもわかる!エンタメ的人工知能(AI)考察」開催 http://www.art-techne.com/technenews/news201608232328.html

Page 3: 黒川塾 三十九 (39)「誰にでもわかる!エンタメ的人工知能(AI)考察」(松原、伊藤、三宅)講演資料

3

Page 4: 黒川塾 三十九 (39)「誰にでもわかる!エンタメ的人工知能(AI)考察」(松原、伊藤、三宅)講演資料

黒川塾資料(39)

• Part I. 松原先生 資料 (P.5-16)

• Part II. 伊藤先生 資料 (P.17-56)

• Part III. 三宅資料 (P.57-73)

4

Page 5: 黒川塾 三十九 (39)「誰にでもわかる!エンタメ的人工知能(AI)考察」(松原、伊藤、三宅)講演資料

松原先生資料

Part I.

5

Page 6: 黒川塾 三十九 (39)「誰にでもわかる!エンタメ的人工知能(AI)考察」(松原、伊藤、三宅)講演資料

1950年頃研究がスタート

どうしようもなく弱い時代が続く

1970年代 力任せ方式の実現

1980年代 プロ棋士レベル

1997年 世界チャンピオンに勝つ

2000年代後半 パソコンが世界チャンピオンに勝つ

2010年代 スマートフォンが世界チャンピオンに勝つ?

チェス

Page 7: 黒川塾 三十九 (39)「誰にでもわかる!エンタメ的人工知能(AI)考察」(松原、伊藤、三宅)講演資料
Page 8: 黒川塾 三十九 (39)「誰にでもわかる!エンタメ的人工知能(AI)考察」(松原、伊藤、三宅)講演資料
Page 9: 黒川塾 三十九 (39)「誰にでもわかる!エンタメ的人工知能(AI)考察」(松原、伊藤、三宅)講演資料

1975年頃研究がスタート どうしようもなく弱い時代が続く 1984年 森田将棋発売 1990年代 アマチュア有段レベル 2000年代 アマチュア高段レベル 2006年 ボナンザが機械学習で評価関数を作る 2010年 女流プロに勝つ 2013年 プロ棋士に勝ち越す 2015年 実力的にはトッププロ棋士に勝つ!!

将棋

Page 10: 黒川塾 三十九 (39)「誰にでもわかる!エンタメ的人工知能(AI)考察」(松原、伊藤、三宅)講演資料

10

Page 11: 黒川塾 三十九 (39)「誰にでもわかる!エンタメ的人工知能(AI)考察」(松原、伊藤、三宅)講演資料
Page 12: 黒川塾 三十九 (39)「誰にでもわかる!エンタメ的人工知能(AI)考察」(松原、伊藤、三宅)講演資料
Page 13: 黒川塾 三十九 (39)「誰にでもわかる!エンタメ的人工知能(AI)考察」(松原、伊藤、三宅)講演資料

第二回電王戦

2013年3月23日 阿部4段対習甦 ×

3月30日 佐藤4段対ponanza ○

4月6日 船江5段対ツツカナ ○

4月13日 塚田9段対Puella α △

4月20日 三浦8段対GPS将棋 ○

コンピュータがプロ棋士に3勝1敗1引き分けで勝利!!(現役男性プロ棋士に初勝利)

Page 14: 黒川塾 三十九 (39)「誰にでもわかる!エンタメ的人工知能(AI)考察」(松原、伊藤、三宅)講演資料

2015年3月14日 斉藤5段 対 Apery × 3月21日 永瀬6段 対 Selene X(反則負け) 3月28日 稲葉7段 対 やねうら王 ○ 4月4日 村山7段 対 ponanza ○ 4月11日 阿久津8段 対 AWAKE ×(バグ負け)

一応 プロ棋士の勝ち越し パソコン固定(1台

数ヶ月前にソフトを固定してプロ棋士に貸し出して変更は許されず

第四回電王戦

Page 15: 黒川塾 三十九 (39)「誰にでもわかる!エンタメ的人工知能(AI)考察」(松原、伊藤、三宅)講演資料

2015年10月11日 情報処理学会将棋プロジェクト終了宣言。トッププロ棋士に勝つコンピュータ将棋を開発するというプロジェクトの目的を事実上クリアできたので終了する。マスコミでかなり取り上げられる。

羽生さんといい勝負をするのは今しかない!!数年後にしても意味がない。

コンピュータ将棋の研究は人間より強くするという目的ではないものに移る

コンピュータ将棋以外の目的に移る

終了宣言

Page 16: 黒川塾 三十九 (39)「誰にでもわかる!エンタメ的人工知能(AI)考察」(松原、伊藤、三宅)講演資料

1960年代に研究が始まる

長い長いとても弱い時代が続く

2000年代半ば モンテカルロ法の応用手法開発

2010年代 アマ高段者レベル

2016年 AlphaGoがイ・セドルに勝つ

ディープ・ラーニング、モンテカルロ法、強化学習

囲碁

Page 17: 黒川塾 三十九 (39)「誰にでもわかる!エンタメ的人工知能(AI)考察」(松原、伊藤、三宅)講演資料

伊藤先生資料

Part II.

17

Page 18: 黒川塾 三十九 (39)「誰にでもわかる!エンタメ的人工知能(AI)考察」(松原、伊藤、三宅)講演資料

囲碁の歴史と人工知能 「人間を超えるコンピュータ囲碁」

電気通信大学

伊藤毅志

アミューズメント産業研究所 第8回公開講座

Page 19: 黒川塾 三十九 (39)「誰にでもわかる!エンタメ的人工知能(AI)考察」(松原、伊藤、三宅)講演資料

伊藤毅志 <肩書>

電気通信大学情報理工学研究科情報・通信工学専攻 助教

デジタルハリウッド大学 客員教授

電気通信大学エンターテイメントと認知科学研究ステーション 代表

情報処理学会ゲーム情報学研究会 主査

コンピュータ囲碁フォーラム 理事

UEC杯コンピュータ囲碁大会、電聖戦 実行委員長

<研究対象>

・複雑な問題解決における人間の思考過程の研究

・人間の熟達化に伴う「直観」のメカニズムの研究

・人間らしい思考過程を模倣する人工知能の研究

・人間とコンピュータの円滑なコミュニケーションを実現する研究

自己紹介

研究の題材としてのゲーム

Page 20: 黒川塾 三十九 (39)「誰にでもわかる!エンタメ的人工知能(AI)考察」(松原、伊藤、三宅)講演資料

本日のお話

1. ゲーム情報学の中の囲碁

2. いろいろなゲームAIの歴史

3. コンピュータ囲碁の歴史

4. コンピュータ囲碁の技術

5. AlphaGoとDeep Learning

Page 21: 黒川塾 三十九 (39)「誰にでもわかる!エンタメ的人工知能(AI)考察」(松原、伊藤、三宅)講演資料

囲碁の情報学的分類

• 囲碁などのゲームは、情報学的に以下のように分類される。

「二人 完全情報 確定 ゼロ和 ゲーム」

プレー人数 相手の手が みえている か?

不確定な要素 (サイコロ)等 が無いか?

勝敗のつく ゲームか?

同種のゲームは世界にたくさんある 例)囲碁、チェス、将棋、オセロ、チェッカー、中国象棋などなど

1.ゲーム情報学の中の囲碁

Page 22: 黒川塾 三十九 (39)「誰にでもわかる!エンタメ的人工知能(AI)考察」(松原、伊藤、三宅)講演資料

1.ゲーム情報学の中の囲碁

• ゲーム木からみた二人完全情報確定ゲームの複雑さ

一般にある局面で平均 N通りの合法手があり、そのゲームの終局までに約 M手かかることがわかっているとすると・・・

N×N×N×・・・×N=NM 通りの局面

Page 23: 黒川塾 三十九 (39)「誰にでもわかる!エンタメ的人工知能(AI)考察」(松原、伊藤、三宅)講演資料

1.ゲーム情報学の中の囲碁

・チェッカー 10の30乗 ・オセロ 10の60乗 ・チェス 10の120乗 ・将棋 10の220乗 ・囲碁 10の360乗

一般に探索量が多いほど ゲームAIを作ることが難しい

・想定される探索の量と難しさ

Page 24: 黒川塾 三十九 (39)「誰にでもわかる!エンタメ的人工知能(AI)考察」(松原、伊藤、三宅)講演資料

1.ゲーム情報学におけるコンピュータ将棋・囲碁

• 将棋・囲碁以外のゲームAIの研究の歴史概観

「チェッカー」 1950年代 サミュエル(IBM研究者)(←遺伝的アルゴリズム) 1992年 シェーファーら 「Chinook」 VS ティンズレー氏 (2勝4敗33引分) 42年間5敗だけのチャンピオンを破る (←探索型アルゴリズム) 2007年 シェーファーら 「完全解の発見!」(引き分け)

「オセロ (リバーシ)」(「オセロ」はツクダの商標登録) 1975年頃 アメリカにて初のリバーシプログラム(←チェスの探索手法を用いる)

1980年代 森田オセロ、Paul Rosenbloom 作のIAGOなど

1990年代 リーら「BILL」 (←自動的に静的評価関数を学習)

1997年 Michael Buro 「logistello」 (←自動定石学習法、パターン学習法など)

対村上氏 (6戦全勝)

「チェス」 1770年 自動チェスマシン「トルコ人」 (ヴォルフガング・フォン・ケンペレン) 1840年代 チャールズ・バベッジの著作

1949年 クロード・シャノン「チェスをプレイするコンピュータプログラミング」 1951年 アラン・チューリング「コンピュータチェスの研究成果」

1967年 グリーンブラッド 初のコンピュータチェスプログラム

1997年 Deep Blue vs カスパロフ氏 (世紀の対決) 勝ち越す!

世界初のプログラムできる計算機の考案!

情報理論の父

計算機科学の父

1770年 ハンガリーのヴォルフガング・フォン・ケンペレン作 「トルコ人」(精巧なオートマトンマシン)

Page 25: 黒川塾 三十九 (39)「誰にでもわかる!エンタメ的人工知能(AI)考察」(松原、伊藤、三宅)講演資料

・1974年 初のコンピュータ将棋プログラム(早稲田大学) ・1979年 初のプログラム同士の対戦 大阪大学 VS 玉川大学(2ヶ月!) ・1983年 初の市販プログラム ・1987年 コンピュータ将棋協会 ・1990年 第1回コンピュータ将棋選手権 ・1990年代 (アマチュア有段者レベルへ) -詰め将棋の研究(探索研究の進歩) ・2000年代~現在 (アマチュア高段者レベルへ) ・2006年 Bonanzaの登場(評価関数の機械学習) ・2007年 渡辺竜王 vs 「Bonanza」 Lose ・2010年 清水市代 vs 「あから2010」 Win

-合議アルゴリズム

・2012年 第1回電王戦 米長邦雄永世棋聖 vs 「ボンクラーズ」 Win

・2013年 第2回電王戦 プロ棋士5名 vs コンピュータ5台(3勝1敗1分) ・2014年 第3回電王戦 プロ棋士5名 vs コンピュータ5台(4勝1敗) ※プロ棋士な有利なルールに変更

・2015年 第4回電王戦 Final プロ棋士5名 vs コンピュータ5台(2勝3敗) ・2015年 情報処理学会「コンピュータ将棋プロジェクト」終了宣言

「将棋」

Page 26: 黒川塾 三十九 (39)「誰にでもわかる!エンタメ的人工知能(AI)考察」(松原、伊藤、三宅)講演資料

2 5 3 -2 3 2 0 4 -1

2 -2 -1

自分の手

相手の手

MAX

2

MIN MIN MIN

現在の局面

1手先の局面

2手先の局面

チェス、オセロ、将棋のAI技術 評価関数とミニマックス探索 ・・・相手は自分にとって一番嫌な手を選択するはずだ!

→数手先をすべて読んでみて、その局面の良し悪しを判断し、次の一手を決める

Page 27: 黒川塾 三十九 (39)「誰にでもわかる!エンタメ的人工知能(AI)考察」(松原、伊藤、三宅)講演資料

評価関数の設計(将棋の場合) • 駒の損得、駒の効率、局面の進行度などをコンピュータに理解できるように数値化する

歩 香 桂 銀 金 角 飛

基本価値 100 430 450 640 690 890 1040

駒が成る価値 320 200 190 30 0 260 260

持ち駒の付加価値 15 50 60 80 90 220 230

駒の損得 ⇒駒の点数化

駒の効率 -飛車角の位置、囲いの形など

局面進行度 -序盤か?中盤か?終盤か? →駒得優先から詰み優先へ

2006年Bonanza以降、評価関数の機械学習が主流に

⇒ より人間らしい自然な指し手の獲得

Page 28: 黒川塾 三十九 (39)「誰にでもわかる!エンタメ的人工知能(AI)考察」(松原、伊藤、三宅)講演資料

ゲーム木探索の目標

・如何に深くたくさん読むか?

→一般に一手深く読むとレーティングにして約200ぐらい強くなると言われている

・如何に正確な評価関数を構築するか?

→評価関数が正確なら読まなくても良い!?

「探索の高速化」と「評価関数の設計」がゲーム木探索の両輪

Page 29: 黒川塾 三十九 (39)「誰にでもわかる!エンタメ的人工知能(AI)考察」(松原、伊藤、三宅)講演資料

ゲームとしての囲碁の特異性

・合法手(ルール上選べる手)の多さ ・・・チェスライクゲームとは比較にならない多さ ⇒ゲーム木探索が出来ない!

・静的評価関数の設計の難しさ ・・・石の強さ、意味の理解の難しさ ・・・石の活き死にの判定の難しさ ⇒良い手が広い!

コンピュータ囲碁の世界

☆実は全く違う囲碁の世界!!

Page 30: 黒川塾 三十九 (39)「誰にでもわかる!エンタメ的人工知能(AI)考察」(松原、伊藤、三宅)講演資料

コンピュータ囲碁の歴史(1)

・1960年代 -コンピュータ囲碁の初の論文(1962) ⇒囲碁の好手、悪手に関する研究

-初の囲碁プログラム(Zobrist;1968) 38級?程度 ・1970年代

-影響力関数(1972) -石の生死判定アルゴリズム -Reitman & Wilcoxのプログラム(1979) ⇒攻撃と防御の基本的戦略 ⇒連と群の階層パターン 15級程度

・1980年代 -初のコンピュータ囲碁大会(1984;ロンドン、13路盤) -初の19路盤コンピュータ囲碁大会(1986-2000;台北) -囲碁プログラムの開発競争 (Many Faces of Go, Go Intellect, Goliath) -商用プログラムの開発 ⇒棋力の一定の向上

3.コンピュータ囲碁の歴史

Page 31: 黒川塾 三十九 (39)「誰にでもわかる!エンタメ的人工知能(AI)考察」(松原、伊藤、三宅)講演資料

コンピュータ囲碁の歴史(2) ・1990年代~2000年代前半 <様々な技術の適用&失敗、、、> △機械学習 △ニューラルネットワーク △モンテカルロ碁 △認知科学的アプローチ △組あわせゲーム理論を用いた囲碁の数理的解析

⇒どれも明確な成果を上げなかった

・2006年 モンテカルロ革命!! -モンテカルロ囲碁(Computer Olympiad2006; 9路盤で大活躍!)

・2008年 -8月7日 US Go Congress のイベント

「MoGo」が韓国のプロ棋士金明完八段に9子局で勝利!

-12月 第2回UEC杯開催 「Crazy Stone」2連覇

エキシビション(7子): 青葉かおり四段 VS Win:「Crazy Stone」

・2011年 -12月 第5回UEC杯開催 「Zen」優勝(日本のプログラム初優勝) エキシビション(6子): 鄭銘コウ九段 VS Win「Zen」

・2012年~2015年

ープロ棋士との対戦は、5子から3子へ

・2016年 ディープラーニングの登場!(アルファ碁の衝撃!) -1月論文発表、3月李世ドルに勝ち越す!

飛躍的向上

飛躍的向上

Zenが初めてプロ棋士(小林光一名誉棋聖)に 3子で勝利!2016年3月23日

Zenがプロ棋士(武宮陽光六段)に2子で勝利! 2016年6月7日 李世ドルVSアルファ碁 2016年3月 アルファ碁の4勝1敗

Page 32: 黒川塾 三十九 (39)「誰にでもわかる!エンタメ的人工知能(AI)考察」(松原、伊藤、三宅)講演資料

Alpha Goのニュース • 2016年1月28日(日本時間AM3:00) Googleの研究グループがNatureに以下の論文を発表した! “Mastering the Game of Go with Deep Neural Networks and Tree Search” <概要>

・ディープラーニングと教科学習を用いた手法で囲碁の局面を評価する新しい手法を確立し、モンテカルロ木探索の手法と組み合わせることで、既存のプログラムに対して99.8%勝つばかりか、囲碁のヨーロッパチャンピオンのプロ棋士を相手に5連勝した!

3.コンピュータ囲碁の歴史

Page 33: 黒川塾 三十九 (39)「誰にでもわかる!エンタメ的人工知能(AI)考察」(松原、伊藤、三宅)講演資料

4.コンピュータ囲碁の技術

1)2006年モンテカルロ法以前 ⇒人間の思考を模倣した知識ベースのシステム

2)モンテカルロ木探索 ⇒UCTを用いた膨大なシミュレーション

3)ディープラーニングの登場 ⇒人間の直観や大局観の機械学習

人間トップを超える 人工知能技術

Page 34: 黒川塾 三十九 (39)「誰にでもわかる!エンタメ的人工知能(AI)考察」(松原、伊藤、三宅)講演資料

1.盤面認識 ・点、連、群、眼、地、連結の認識 ・群の強さと影響力の認識

2.候補手生成 ・定石、死活、ヨセなどに関するパターン知識 ・捕獲可能性に関する限定的な探索

3.着手の決定 ・各候補手を評価値で比較

モンテカルロ以前のコンピュータ囲碁

知識を用いた大幅な候補手の絞込み(10手程度) ⇒限定的な探索、浅い先読み(5手以内程度)

人間が考えていることを模倣する!!

4.コンピュータ囲碁の技術

Page 35: 黒川塾 三十九 (39)「誰にでもわかる!エンタメ的人工知能(AI)考察」(松原、伊藤、三宅)講演資料

モンテカルロ法とは?

・・・乱数を用いたシミュレーションを何度も行うことにより近似解を求める計算手法。解析的に解くことが困難な問題でも、十分多くの回数シミュレーションを繰り返すことにより、近似的に解を求めることができる。

モンテカルロ法を用いた円周率の計算の例

⇒正方形に内接する円を描いて、正方形の内部にランダムに点を打ち、以下の値を計算する!

(円の内部の点の数)/(全部の点の数)

=786/1000

半径1の円に外接する正方形は面積4なので、

1×1×π=π= 4×0.786=3.144

4.コンピュータ囲碁の技術

Page 36: 黒川塾 三十九 (39)「誰にでもわかる!エンタメ的人工知能(AI)考察」(松原、伊藤、三宅)講演資料

モンテカルロ法のゲームへの応用

原始モンテカルロ…乱数シミュレーション対局を大量に行い、最も勝率の高い手を選択する

ランダム対戦 : たくさんのプレーアウト

15/100 45/100 62/100 54/100

4.コンピュータ囲碁の技術

さすがに乱数対戦だけでは強くならなかった!

強くするための2つの工夫! 1)計算効率を上げる 2)シミュレーションの質を上げる

Page 37: 黒川塾 三十九 (39)「誰にでもわかる!エンタメ的人工知能(AI)考察」(松原、伊藤、三宅)講演資料

計算効率を上げる手法←UCB値の利用

どれがよく出るかわからないスロットマシンが複数台あるとき、どのスロットマシンにどれだけコインを費やすか?

<最適化計算>UCB(Upper Confidence Bound) の値を計算し、最も大きい値のモノを試す。

UCB = そのスロットのその時点での報酬(期待値)

+ 𝛼 × log (すべての試行回数/そのスロットを試した回数)

→ スロットの報酬が大きいものほど試す → あまり試していないスロットほど試す

多腕バンディット問題

Page 38: 黒川塾 三十九 (39)「誰にでもわかる!エンタメ的人工知能(AI)考察」(松原、伊藤、三宅)講演資料

モンテカルロ木探索の登場

1/10 5/10 6/10 3/10 50/100

どっちが信頼出来る?

こっちをもっと調べたほうが良いかも、、、

・どの手をどれだけ調べるべきか?

→N腕バンディット問題

(Multi-armed Bandit Problem)

→UCB値を用いた計算資源の割振り

UCB値を求める

→勝率の高い手をたくさん調べる

→あまり調べていないものを調べる

1.勝率の高い手を多くプレイアウトする 2.プレイアウトの回数がある閾値を超えたら、木を展開する

Page 39: 黒川塾 三十九 (39)「誰にでもわかる!エンタメ的人工知能(AI)考察」(松原、伊藤、三宅)講演資料

モンテカルロ+UCT=モンテカルロ木探索

1/10 4/10 6/10 5/10 65/100

・一定数を超えたら、子ノードを展開する →さらに深く調べる

評価関数を持たないのに、擬似的に ゲーム木探索のような探索を実現!

・可能性のある手に計算資源 を多く割り振る

Page 40: 黒川塾 三十九 (39)「誰にでもわかる!エンタメ的人工知能(AI)考察」(松原、伊藤、三宅)講演資料

シミュレーションの質の向上

-Sylvain Gelly, Yizao Wang,Remi Munos,Olivier Teytaud: Modification of UCT with Patterns in Monte-Carlo Go, [Research Report] RR-6062, INRIA, (2006).

シミュレーションにおいて完全にランダムな手ばかりを選んでいると強くならない。(あり得ない局面に基づいた勝率計算ではダメ!) →知的なプレイアウト(有り得そうな局面を調べる) ことが必要!

3×3のパターンの知識を入れると強くなる

プレイアウトの量より質が重要!

Page 41: 黒川塾 三十九 (39)「誰にでもわかる!エンタメ的人工知能(AI)考察」(松原、伊藤、三宅)講演資料

モンテカルロ法の凄い点

・複雑な評価関数の設計が不要! ⇒膨大なプレーアウトと勝率計算のみ

・並列化が容易! ⇒並列化の効果が非常に出やすい

爆発的な成功!!

4.コンピュータ囲碁の技術

Page 42: 黒川塾 三十九 (39)「誰にでもわかる!エンタメ的人工知能(AI)考察」(松原、伊藤、三宅)講演資料

AlphaGoとDeep Learning

予兆と関連研究 -2014年~2015年に関連する研究が発表されていた

・Christopher Clark, Amos Storkey: Teaching Deep Convolutional Neural Networks to Play Go, arXiv:1412.3409 (2014). ・Maddison, Chris J., Huang, Aja, Sutskever, Ilya, and Silver, David: Move Evaluation in Go Using Deep Convolutional Neural Networks, arXiv:1412.6564, (2014). ・Yuandong Tian, Yan Zhu: Better Computer Go Player with Neural Network and Long-term Prediction, arXiv:1511.06210, (2015).

-プロ棋士の棋譜データを教師データとするディープラーニングを用いることで、プロ棋士の手を予測するシステムを作るというもの

→これまでの予測器が40%前半ぐらいだったものが、これらの研究では50%を上回るもの、最高では57%にも及ぶ

Page 43: 黒川塾 三十九 (39)「誰にでもわかる!エンタメ的人工知能(AI)考察」(松原、伊藤、三宅)講演資料

ディープラーニングとは?(1) ・・・人間の神経回路網を模したニューラルネットワークがベースになっている技術で、それを多層構造にすることによって、学習能力を高めたもの。

入力層

学習させたいデータの特徴量を入力

出力層

隠れ層

正解

比較して違いを小さくするように隠れ層の重みを調整していく

ニューラルネットワーク

Page 44: 黒川塾 三十九 (39)「誰にでもわかる!エンタメ的人工知能(AI)考察」(松原、伊藤、三宅)講演資料

ディープラーニングとは?(2) 一般に、3層以上になると精度が向上しないという問題を抱えていた。 ⇒オートエンコーダー(自己符号化機)を導入して多層構造を実現!

入力層 出力層

隠れ層

入力層と出力層を同じにして、正解例を読み込ませ、 よりたくさんの情報を持っている特徴量を生み出す!

正解例

隠れ層は入力・出力層よりもデータ数を小さくする <特徴量の圧縮>

この特徴量は次の層で、新しい正解例として用いられ、さらに特徴量は圧縮される

これを何回も繰り返し、最終的に特徴量として良いものが形成される

Page 45: 黒川塾 三十九 (39)「誰にでもわかる!エンタメ的人工知能(AI)考察」(松原、伊藤、三宅)講演資料

Alpha Goの技術(1):手の予測ネットワーク

Policy network (PN-SL) (第一段階; SL:Supervised Learning)

• 入力は 19 x 19 x 48(特徴)+手番,13層

• 大量の棋譜から着手確率を学習 – KGS の 6d~9d の棋譜 16万局 (3千万局面), 予測率 57%,処理時間 3 ms,学習時間 3週間(50 GPU)

※一昨年前の同グループによる論文以降,多くのプログラムが導入を試みるも、再現が難しかった… NiceGo,Aya,HiraBot,CGI,Zen,...

– 課題は実行速度(GPU を 8台使っても遅い)

アルファ碁の技術

Page 46: 黒川塾 三十九 (39)「誰にでもわかる!エンタメ的人工知能(AI)考察」(松原、伊藤、三宅)講演資料

Alpha Goの技術(2):強化学習フェーズ

Policy network (PN-RL) (第二段階; RL:Reinforcement Learning)

• 構造は同じ,重み(初期値)は SL 版から転用

• 新しいプログラムと古いプログラムを対局させて

(自己)学習させる

– 対局(データの作成)に時間が掛かる

– 学習そのものは 1日で 128局を 1万回(50 GPU)

– 全部で何日掛かったかは不明

• SL 版に対する勝率 80%以上

アルファ碁の技術

Page 47: 黒川塾 三十九 (39)「誰にでもわかる!エンタメ的人工知能(AI)考察」(松原、伊藤、三宅)講演資料

Alpha Goの技術(3):評価関数の学習

Value network (VN) (第三段階;強化学習を用いた局面勝率の学習)

• 局面の勝率を学習

• 構造はほぼ同じだが出力は勝率1つ

• これまでと同様に学習させると局面同士の相関が強いために上手くいかないので,

– 自己対戦の棋譜 3千万局から独立に 3千万局面

• Policy network(RL 版)を使ったシミュレーションに近い結果を 1万 5千倍速く得られる

アルファ碁の技術

Page 48: 黒川塾 三十九 (39)「誰にでもわかる!エンタメ的人工知能(AI)考察」(松原、伊藤、三宅)講演資料

Alpha Goの技術(4):モンテカルロとの融合

探索部:PN と VNを用いた探索

• PN-SLを用いて手を絞り、基本的には従来のMCTSを用いて探索を行う。

• 探索では、一部VNとMCTSを併用している。

• VNはMCTSの補助的な役割を担っている。

アルファ碁の技術

Page 49: 黒川塾 三十九 (39)「誰にでもわかる!エンタメ的人工知能(AI)考察」(松原、伊藤、三宅)講演資料

Alpha Goの達成したこと

・Deep Learningの手法と膨大なハードウエアを組み合わせて、、、 1)非常に高性能の予測器(PN)を作った 2)評価関数に近いもの(VN)を作った ・さらに、大規模並列マシンを使って、、、 -プロ棋士レベルの強さのAIが作れることを 示した

人間の直観に近いものを Deep Learningによって獲得した!

Page 50: 黒川塾 三十九 (39)「誰にでもわかる!エンタメ的人工知能(AI)考察」(松原、伊藤、三宅)講演資料

MCTSを使っている以上、MCTSの問題点が解消されていない!!

<問題点> ×直線的な探索が困難 →何らかの乱数探索を使う限り一本道の探索が難しい

×両コウを含む複雑な攻め合いが読み切れない →局面を切り分けて考えられない

AlphaGoの問題点、、、

Page 51: 黒川塾 三十九 (39)「誰にでもわかる!エンタメ的人工知能(AI)考察」(松原、伊藤、三宅)講演資料

Deep Learningの技術でこれまで困難と思われてきた 人間の「直観的思考」をコンピュータが手に入れた!

<AIが出来ないこと> ‐囲碁というゲームを解くためには何が必要なのかを理解すること ≒「問題の理解」 ‐囲碁というゲームを理解するために考えなければならないことを見つけること ≒「問題の発見」 ‐コンピュータの思考過程を人に伝えること≒「思考の可視化」

○新しいルールのゲームを教えたら、勝手にゲームの解き方を考えて解決する! ○コンピュータの行きついた考えを人の理解できる形で見せる!

残された問題!

Page 52: 黒川塾 三十九 (39)「誰にでもわかる!エンタメ的人工知能(AI)考察」(松原、伊藤、三宅)講演資料
Page 53: 黒川塾 三十九 (39)「誰にでもわかる!エンタメ的人工知能(AI)考察」(松原、伊藤、三宅)講演資料

人間と超えたゲームAIとどう向き合うか?

20XX年 殆どのゲームAIは人間を超える

人間とゲームAIとの新しい関係

1)チェスの世界では>人がコンピュータと協調する、利用する アドバンスドチェス、フリースタイルチェス …人間とコンピュータが協力してよりレベルの高い棋譜を作る 2)オセロの世界では>人がコンピュータから学ぶ …コンピュータに新手をぶつけて検討する 3)バックギャモンの世界では>人がコンピュータに近づく …コンピュータ通りにプレイする

2045年問題→シンギュラリティー(技術的特異点)

Page 54: 黒川塾 三十九 (39)「誰にでもわかる!エンタメ的人工知能(AI)考察」(松原、伊藤、三宅)講演資料

2016/8/31

棋風を形成する要素の検出

伊藤研究室紹介1

棋風に関係しそうな要素を列挙し、実際に棋譜を統計的に分析して特徴的な要素をとその特徴を同定する!

→人は何にプレー スタイル(個性)を 感じるのか?

認知計測、心を豊かに

特徴/グループ名 攻め(和集合) 受け(和集合)終局までの手数 0.920789 13.64228自陣に打った駒の数 0.773295 6.322325敵陣に打った駒の数 8.457107 -6.73951

自玉の利きの範囲に打った駒の数

-1.147952 4.7077

敵陣で歩を打った回数 2.316738 -4.577118中段で歩を打った回数 -2.678741 2.045764自陣で歩を打った回数 -4.132284 2.143357敵陣での銀、成り銀の使用頻度

5.688739 -6.526388

中段での銀の使用頻度 -3.172838 -0.827996自陣での銀の使用頻度 -4.664235 4.442322中段の銀を引いた回数 -6.321481 6.729284中段の銀を上げた回数  -1.213988 -4.949289敵陣での角、馬の使用頻度

5.606603 -4.111797

中段での角の使用頻度 4.908857 -3.281391自陣での角の使用頻度 -1.49967 7.228772

Page 55: 黒川塾 三十九 (39)「誰にでもわかる!エンタメ的人工知能(AI)考察」(松原、伊藤、三宅)講演資料

2016/8/31

人間らしい自然な弱さを実現するAI

伊藤研究室紹介2

評価値を調整して適度に弱い手を選ぶ -評価関数が0に近い手を選ぶ

-相手のレベルに合わせて、更に調整する

→自然に弱い手を選ぶAI (接待将棋?)

ものつくり・認知・心を豊かに

ヒューマンエラーのモデルを使ったAI 人間はミスをする生き物

-ミスの認知モデル

-人間らしいミスを模倣するシステム

2013年~ 科研費 基盤B

「ミスを犯す人間らしいゲームAIの研究」

𝑉0 𝑀 = −𝑉(𝑀), &𝑉(𝑀) ≥ 0𝑉(𝑀), &𝑉(𝑀) < 0

評価関数=0の時に最大になるようにする

-500

-400

-300

-200

-100

0

-50

0

-40

0

-30

0

-20

0

-10

0

0 10

0

20

0

30

0

40

0

50

0

𝑉_0

(𝑀

)

𝑉(𝑀)

Page 56: 黒川塾 三十九 (39)「誰にでもわかる!エンタメ的人工知能(AI)考察」(松原、伊藤、三宅)講演資料

2016/8/31

伊藤研究室紹介3 ゲーム応用、学習支援

カーリングの戦略支援システムの提案

ある石の配置のとき、次の最善のショットは?

考えうるショットとその成功確率(推移確率)を入力

モンテカルロ・ シミュレーション

最も勝率の高い戦略は?

モンテカルロアプローチを利用して、戦略の達成率を計算し、もっとも良いショットを選ぶ

Page 57: 黒川塾 三十九 (39)「誰にでもわかる!エンタメ的人工知能(AI)考察」(松原、伊藤、三宅)講演資料

三宅資料

Part III.

57

Page 58: 黒川塾 三十九 (39)「誰にでもわかる!エンタメ的人工知能(AI)考察」(松原、伊藤、三宅)講演資料

デジタルゲームの人工知能

三宅 陽一郎

2016.8.23

Page 59: 黒川塾 三十九 (39)「誰にでもわかる!エンタメ的人工知能(AI)考察」(松原、伊藤、三宅)講演資料

一手先

分岐

三手先

二手先

ゲーム状態(=盤面)

探索

アナログゲームの人工知能の形式

Page 60: 黒川塾 三十九 (39)「誰にでもわかる!エンタメ的人工知能(AI)考察」(松原、伊藤、三宅)講演資料

AI(キャラクター)

AIの認識領域

プレイヤー

計画経路

デジタルゲームの人工知能の形式

Page 61: 黒川塾 三十九 (39)「誰にでもわかる!エンタメ的人工知能(AI)考察」(松原、伊藤、三宅)講演資料

チェス

将棋

囲碁

デジタル ゲームAI

1995 1960

ロボカップサッカー (ロボカップ)

2010

人狼

カーリング

1980 2000 2050 2020

プロに勝つ(こともある) プロに勝つ(目標)

産学で本格的に研究が始まる

スポーツなどデータマイニングからのAI

1950

ゲームAIの歴史

Page 62: 黒川塾 三十九 (39)「誰にでもわかる!エンタメ的人工知能(AI)考察」(松原、伊藤、三宅)講演資料

3つのAIの連携の例

フィールド

ナビゲーションAI

メタAI

エージェントAI

状況を監視し、キーとなる役割を適切なタイミングでエージェントに指示する。

自律的な判断。 仲間同士の協調

地形を解析する 目的に応じた点を見つけ出す 目的地までのパスを計算する

Support

エージェントが自律的に戦闘・協調しつつ、ナビゲーションAIが 戦術的ポイントを教え、メタAIは、全体の戦闘の流れを作る。

Page 63: 黒川塾 三十九 (39)「誰にでもわかる!エンタメ的人工知能(AI)考察」(松原、伊藤、三宅)講演資料

カリキュラム1 「ゲームAIの全体像」

知能化

人工知能

知性

メタAI

ゲーム システム

ナビゲーションAI

キャラクターAI AIの分化

分散人工知能

古典的 メタAI

現代的 メタAI

適応型 動的ペーシング

ユーザー エクスペリエンス

プロシー ジャル技術

カリキュラム(I) 「ゲームAIの全体像」 概念マップ

自律型

制御型

知識 思考

ナビゲーションデータ

A*

戦術 ポイント

Page 64: 黒川塾 三十九 (39)「誰にでもわかる!エンタメ的人工知能(AI)考察」(松原、伊藤、三宅)講演資料

キャラクター

エージェント アーキテクチャ

意思決定

反射型AI 非反射型AI

ルールベースAI

インフォメーション・フロー

ステートベースAI

ビヘイビア ベースAI

ゴールベースAI

タスクベースAI

ユーティリティベースAI

シミュレーションベースAI

GOAP (ゴール指向 アクション

プラン二ング)

HTN(階層型 タスク

プラン二ング)

FSM (有限状態 マシン)

BT (ビヘイビア ツリー)

カリキュラム(II) 「キャラクターの作り方」 概念マップ

Page 65: 黒川塾 三十九 (39)「誰にでもわかる!エンタメ的人工知能(AI)考察」(松原、伊藤、三宅)講演資料

学習

強化学習 遺伝的

アルゴリズム 統計 学習

適応 進化

ニューラル ネットワーク

動的に変化するゲーム

集団 個体 世界

プロシージャル・ コンテンツ・

ジェネレーション

ⓒ2015 SQUARE ENIX CO., LTD. All Rights

Reserved.

カリキュラム(III) 「プロシージャル、学習、社会性」 概念マップ

データドリブン的アプローチ プロシージャル的アプローチ

Page 66: 黒川塾 三十九 (39)「誰にでもわかる!エンタメ的人工知能(AI)考察」(松原、伊藤、三宅)講演資料

コミュニケーション

ブラックボード アーキテクチャ

言語コミュニケーション

非言語コミュニケーション

場 シンボル 言語

ターゲッティング

評判 システム

協調

ⓒ2015 SQUARE ENIX CO., LTD. All Rights Reserved.

カリキュラム(III) 「プロシージャル、学習、社会性」 概念マップ

Page 67: 黒川塾 三十九 (39)「誰にでもわかる!エンタメ的人工知能(AI)考察」(松原、伊藤、三宅)講演資料

Dragon Age : Way Point

Dragon Age pathfinding program put to the test https://www.youtube.com/watch?v=l7YQ5_Nbifo

Page 68: 黒川塾 三十九 (39)「誰にでもわかる!エンタメ的人工知能(AI)考察」(松原、伊藤、三宅)講演資料

メタAI(=AI Director)によるユーザーのリラックス度に応じた敵出現度

ユーザーの緊張度

実際の敵出現数

計算によって 求められた 理想的な敵出現数

Build Up …プレイヤーの緊張度が目標値を超えるまで 敵を出現させ続ける。 Sustain Peak … 緊張度のピークを3-5秒維持するために、 敵の数を維持する。 Peak Fade … 敵の数を最小限へ減少していく。 Relax … プレイヤーたちが安全な領域へ行くまで、30-45秒間、 敵の出現を最小限に維持する。

Michael Booth, "The AI Systems of Left 4 Dead," Artificial Intelligence and Interactive Digital Entertainment Conference at Stanford. http://www.valvesoftware.com/publications.html

より具体的なアルゴリズム

Page 69: 黒川塾 三十九 (39)「誰にでもわかる!エンタメ的人工知能(AI)考察」(松原、伊藤、三宅)講演資料

まとめ

メタAIを入れ替えるだけで、ゲームコンテンツが入れ替えることができる。メタAIという軽い部分だけを配信することで、コンテンツを入れ替えることが可能になる。

Page 70: 黒川塾 三十九 (39)「誰にでもわかる!エンタメ的人工知能(AI)考察」(松原、伊藤、三宅)講演資料

動的・静的ゲームの意思決定

静的ゲーム (ボードゲーム、RTS)

動的ゲーム (アクションゲーム)

意思決定 「手を選ぶ」という問題に還元できる。

「運動」を生成する。

世界 こちらが手を撃つまで 静止している。

運動し続ける。

思考 局面を解析して最適な解を選ぶ。

世界と共に運動する。

動的なゲームの意思決定は、馬に乗るように、 世界の変化に常に瞬時瞬時対応しながら、貫かねばならない。

Page 71: 黒川塾 三十九 (39)「誰にでもわかる!エンタメ的人工知能(AI)考察」(松原、伊藤、三宅)講演資料

強化学習(例) 強化学習

(例)格闘ゲーム

キック

パンチ

波動

R_0 : 報酬=ダメージ

Page 72: 黒川塾 三十九 (39)「誰にでもわかる!エンタメ的人工知能(AI)考察」(松原、伊藤、三宅)講演資料

強化学習 (例)格闘ゲームTaoFeng におけるキャラクター学習

Ralf Herbrich, Thore Graepel, Joaquin Quiñonero Candela Applied Games Group,Microsoft Research Cambridge "Forza, Halo, Xbox Live The Magic of Research in Microsoft Products" http://research.microsoft.com/en-us/projects/drivatar/ukstudentday.pptx

Page 73: 黒川塾 三十九 (39)「誰にでもわかる!エンタメ的人工知能(AI)考察」(松原、伊藤、三宅)講演資料

強化学習 (例)格闘ゲームTaoFeng におけるキャラクター学習

Ralf Herbrich, Thore Graepel, Joaquin Quiñonero Candela Applied Games Group,Microsoft Research Cambridge "Forza, Halo, Xbox Live The Magic of Research in Microsoft Products" http://research.microsoft.com/en-us/projects/drivatar/ukstudentday.pptx

Microsoft Research Playing Machines: Machine Learning Applications in Computer Games http://research.microsoft.com/en-us/projects/mlgames2008/ Video Games and Artificial Intelligence http://research.microsoft.com/en-us/projects/ijcaiigames/