黒川塾三十九 (39）「誰にでもわかる！エンタメ的人工知能(AI)考察」（松原、伊藤、三宅）講演資料

1 2016/8/31

黒川塾３９

2

記事にして頂いたメディア様（アルファベット順）ファミ通様 AIをトークテーマとして第39回“黒川塾”を開催！エンタメ業界から見たその可能性を検証する http://www.famitsu.com/news/201608/26114217.html GameDeets様/Yahoo!Japan ゲーム様【黒川塾39】AIは人類を超越した存在になりうるのか？ https://gamedeets.com/archives/170223 http://games.yahoo.co.jp/news/item?n=20160824-00000013-ygame_gamedeets techne様黒川塾三十九「誰にでもわかる！エンタメ的人工知能(AI)考察」開催 http://www.art-techne.com/technenews/news201608232328.html

http://www.famitsu.com/news/201608/26114217.html

http://www.famitsu.com/news/201608/26114217.html

https://gamedeets.com/archives/170223

https://gamedeets.com/archives/170223

http://games.yahoo.co.jp/news/item?n=20160824-00000013-ygame_gamedeets







http://www.art-techne.com/technenews/news201608232328.html




3

黒川塾資料（39）

• Part I. 松原先生資料（P.5-16）

• Part II. 伊藤先生資料（P.17-56）

• Part III. 三宅資料（P.57-73）

4

松原先生資料

Part I.

5

1950年頃研究がスタート

どうしようもなく弱い時代が続く

1970年代力任せ方式の実現

1980年代プロ棋士レベル

1997年世界チャンピオンに勝つ

2000年代後半パソコンが世界チャンピオンに勝つ

2010年代スマートフォンが世界チャンピオンに勝つ？

チェス

1975年頃研究がスタートどうしようもなく弱い時代が続く 1984年森田将棋発売 1990年代アマチュア有段レベル 2000年代アマチュア高段レベル 2006年ボナンザが機械学習で評価関数を作る 2010年女流プロに勝つ 2013年プロ棋士に勝ち越す 2015年実力的にはトッププロ棋士に勝つ！！

将棋

10

第二回電王戦

2013年3月23日阿部4段対習甦 ×

3月30日佐藤4段対ponanza ○

4月6日船江5段対ツツカナ ○

4月13日塚田9段対Puella α △

4月20日三浦8段対GPS将棋 ○

コンピュータがプロ棋士に3勝1敗1引き分けで勝利！！（現役男性プロ棋士に初勝利）

２０１５年３月１４日斉藤５段対 Apery × ３月２１日永瀬６段対 Selene X(反則負け）３月２８日稲葉７段対やねうら王 ○ ４月４日村山７段対 ponanza ○ ４月１１日阿久津８段対 AWAKE ×(バグ負け）

一応プロ棋士の勝ち越しパソコン固定(１台

数ヶ月前にソフトを固定してプロ棋士に貸し出して変更は許されず

第四回電王戦

2015年10月11日情報処理学会将棋プロジェクト終了宣言。トッププロ棋士に勝つコンピュータ将棋を開発するというプロジェクトの目的を事実上クリアできたので終了する。マスコミでかなり取り上げられる。

羽生さんといい勝負をするのは今しかない！！数年後にしても意味がない。

コンピュータ将棋の研究は人間より強くするという目的ではないものに移る

コンピュータ将棋以外の目的に移る

終了宣言

1960年代に研究が始まる

長い長いとても弱い時代が続く

2000年代半ばモンテカルロ法の応用手法開発

2010年代アマ高段者レベル

2016年 AlphaGoがイ・セドルに勝つ

ディープ・ラーニング、モンテカルロ法、強化学習

囲碁

伊藤先生資料

Part II.

17

囲碁の歴史と人工知能「人間を超えるコンピュータ囲碁」

電気通信大学

伊藤毅志

アミューズメント産業研究所第８回公開講座

伊藤毅志＜肩書＞

電気通信大学情報理工学研究科情報・通信工学専攻助教

デジタルハリウッド大学客員教授

電気通信大学エンターテイメントと認知科学研究ステーション代表

情報処理学会ゲーム情報学研究会主査

コンピュータ囲碁フォーラム理事

UEC杯コンピュータ囲碁大会、電聖戦実行委員長

＜研究対象＞

・複雑な問題解決における人間の思考過程の研究

・人間の熟達化に伴う「直観」のメカニズムの研究

・人間らしい思考過程を模倣する人工知能の研究

・人間とコンピュータの円滑なコミュニケーションを実現する研究

自己紹介

研究の題材としてのゲーム

本日のお話

1. ゲーム情報学の中の囲碁

2. いろいろなゲームAIの歴史

3. コンピュータ囲碁の歴史

4. コンピュータ囲碁の技術

5. AlphaGoとDeep Learning

囲碁の情報学的分類

• 囲碁などのゲームは、情報学的に以下のように分類される。

「二人完全情報確定ゼロ和ゲーム」

プレー人数相手の手がみえているか？

不確定な要素（サイコロ）等が無いか？

勝敗のつくゲームか？

同種のゲームは世界にたくさんある例）囲碁、チェス、将棋、オセロ、チェッカー、中国象棋などなど

１．ゲーム情報学の中の囲碁


• ゲーム木からみた二人完全情報確定ゲームの複雑さ

一般にある局面で平均 N通りの合法手があり、そのゲームの終局までに約 M手かかることがわかっているとすると・・・

N×N×N×・・・×N＝NM 通りの局面


・チェッカー１０の３０乗・オセロ１０の６０乗・チェス１０の１２０乗・将棋１０の２２０乗・囲碁１０の３６０乗

一般に探索量が多いほどゲームAIを作ることが難しい

・想定される探索の量と難しさ

１．ゲーム情報学におけるコンピュータ将棋・囲碁

• 将棋・囲碁以外のゲームAIの研究の歴史概観

「チェッカー」１９５０年代サミュエル（IBM研究者）（←遺伝的アルゴリズム）１９９２年シェーファーら「Chinook」 VS ティンズレー氏（２勝４敗３３引分）４２年間５敗だけのチャンピオンを破る（←探索型アルゴリズム）２００７年シェーファーら「完全解の発見！」（引き分け）

「オセロ (リバーシ）」（「オセロ」はツクダの商標登録）１９７５年頃アメリカにて初のリバーシプログラム（←チェスの探索手法を用いる）

１９８０年代森田オセロ、Paul Rosenbloom 作のIAGOなど

１９９０年代リーら「BILL」（←自動的に静的評価関数を学習）

１９９７年 Michael Buro 「logistello」（←自動定石学習法、パターン学習法など）

対村上氏（6戦全勝）

「チェス」１７７０年自動チェスマシン「トルコ人」（ヴォルフガング・フォン・ケンペレン）１８４０年代チャールズ・バベッジの著作

１９４９年クロード・シャノン「チェスをプレイするコンピュータプログラミング」１９５１年アラン・チューリング「コンピュータチェスの研究成果」

１９６７年グリーンブラッド初のコンピュータチェスプログラム

１９９７年 Deep Blue vs カスパロフ氏（世紀の対決）勝ち越す！

世界初のプログラムできる計算機の考案！

情報理論の父

計算機科学の父

１７７０年ハンガリーのヴォルフガング・フォン・ケンペレン作「トルコ人」（精巧なオートマトンマシン）

・１９７４年初のコンピュータ将棋プログラム（早稲田大学）・１９７９年初のプログラム同士の対戦大阪大学ＶＳ玉川大学（２ヶ月！）・１９８３年初の市販プログラム・１９８７年コンピュータ将棋協会・１９９０年第1回コンピュータ将棋選手権・１９９０年代（アマチュア有段者レベルへ）－詰め将棋の研究（探索研究の進歩）・２０００年代～現在（アマチュア高段者レベルへ）・２００６年Ｂｏｎａｎｚａの登場（評価関数の機械学習）・２００７年渡辺竜王ｖｓ「Bonanza」 Lose ・２０１０年清水市代 vs 「あから２０１０」 Win

－合議アルゴリズム

・２０１２年第１回電王戦米長邦雄永世棋聖 vs 「ボンクラーズ」 Win

・２０１３年第２回電王戦プロ棋士５名 vs コンピュータ５台（３勝１敗１分）・２０１４年第３回電王戦プロ棋士５名 vs コンピュータ５台（４勝１敗） ※プロ棋士な有利なルールに変更

・２０１５年第４回電王戦 Final プロ棋士５名 vs コンピュータ５台（２勝３敗）・２０１５年情報処理学会「コンピュータ将棋プロジェクト」終了宣言

「将棋」

2 5 3 -2 3 2 0 4 -1

2 -2 -1

自分の手

相手の手

MAX

2

MIN MIN MIN

現在の局面

１手先の局面

２手先の局面

チェス、オセロ、将棋のAI技術評価関数とミニマックス探索・・・相手は自分にとって一番嫌な手を選択するはずだ！

→数手先をすべて読んでみて、その局面の良し悪しを判断し、次の一手を決める

評価関数の設計（将棋の場合） • 駒の損得、駒の効率、局面の進行度などをコンピュータに理解できるように数値化する

歩香桂銀金角飛

基本価値１００４３０４５０６４０６９０８９０１０４０

駒が成る価値３２０２００１９０３００２６０２６０

持ち駒の付加価値１５５０６０８０９０２２０２３０

駒の損得 ⇒駒の点数化

駒の効率－飛車角の位置、囲いの形など

局面進行度－序盤か？中盤か？終盤か？ →駒得優先から詰み優先へ

２００６年Bonanza以降、評価関数の機械学習が主流に

⇒ より人間らしい自然な指し手の獲得

ゲーム木探索の目標

・如何に深くたくさん読むか？

→一般に一手深く読むとレーティングにして約２００ぐらい強くなると言われている

・如何に正確な評価関数を構築するか？

→評価関数が正確なら読まなくても良い！？

「探索の高速化」と「評価関数の設計」がゲーム木探索の両輪

ゲームとしての囲碁の特異性

・合法手（ルール上選べる手）の多さ･･･チェスライクゲームとは比較にならない多さ ⇒ゲーム木探索が出来ない！

・静的評価関数の設計の難しさ･･･石の強さ、意味の理解の難しさ・・・石の活き死にの判定の難しさ ⇒良い手が広い！

コンピュータ囲碁の世界

☆実は全く違う囲碁の世界！！

コンピュータ囲碁の歴史（１）

・1960年代－コンピュータ囲碁の初の論文（1962） ⇒囲碁の好手、悪手に関する研究

－初の囲碁プログラム（Zobrist;1968） 38級？程度・1970年代

－影響力関数（1972）－石の生死判定アルゴリズム－Reitman & Wilcoxのプログラム（1979） ⇒攻撃と防御の基本的戦略 ⇒連と群の階層パターン１５級程度

・1980年代－初のコンピュータ囲碁大会（1984；ロンドン、13路盤）－初の19路盤コンピュータ囲碁大会（1986－2000；台北）－囲碁プログラムの開発競争 (Many Faces of Go, Go Intellect, Goliath) －商用プログラムの開発 ⇒棋力の一定の向上

３．コンピュータ囲碁の歴史

コンピュータ囲碁の歴史（２）・1990年代～2000年代前半＜様々な技術の適用＆失敗、、、＞ △機械学習 △ニューラルネットワーク △モンテカルロ碁 △認知科学的アプローチ △組あわせゲーム理論を用いた囲碁の数理的解析

⇒どれも明確な成果を上げなかった

・2006年モンテカルロ革命！！－モンテカルロ囲碁（Computer Olympiad2006; 9路盤で大活躍！）

・２００８年－８月７日 US Go Congress のイベント

「MoGo」が韓国のプロ棋士金明完八段に９子局で勝利！

－１２月第２回UEC杯開催「Crazy Stone」２連覇

エキシビション（７子）：青葉かおり四段 VS Win:「Crazy Stone」

・２０１１年－１２月第５回UEC杯開催「Zen」優勝（日本のプログラム初優勝）エキシビション（６子）：鄭銘コウ九段 VS Win「Zen」

・２０１２年～2015年

ープロ棋士との対戦は、5子から3子へ

・２０１６年ディープラーニングの登場！（アルファ碁の衝撃！）－１月論文発表、３月李世ドルに勝ち越す！

飛躍的向上

飛躍的向上

Zenが初めてプロ棋士（小林光一名誉棋聖）に３子で勝利！２０１６年３月２３日

Zenがプロ棋士（武宮陽光六段）に２子で勝利！２０１６年６月７日李世ドルVSアルファ碁２０１６年３月アルファ碁の４勝１敗

Alpha Goのニュース • 2016年1月28日（日本時間AM3:00） Googleの研究グループがNatureに以下の論文を発表した！ “Mastering the Game of Go with Deep Neural Networks and Tree Search” ＜概要＞

・ディープラーニングと教科学習を用いた手法で囲碁の局面を評価する新しい手法を確立し、モンテカルロ木探索の手法と組み合わせることで、既存のプログラムに対して９９．８％勝つばかりか、囲碁のヨーロッパチャンピオンのプロ棋士を相手に5連勝した！

３．コンピュータ囲碁の歴史

４．コンピュータ囲碁の技術

１）２００６年モンテカルロ法以前 ⇒人間の思考を模倣した知識ベースのシステム

２）モンテカルロ木探索 ⇒UCTを用いた膨大なシミュレーション

３）ディープラーニングの登場 ⇒人間の直観や大局観の機械学習

人間トップを超える人工知能技術

１．盤面認識・点、連、群、眼、地、連結の認識・群の強さと影響力の認識

２．候補手生成・定石、死活、ヨセなどに関するパターン知識・捕獲可能性に関する限定的な探索

３．着手の決定･各候補手を評価値で比較

モンテカルロ以前のコンピュータ囲碁

知識を用いた大幅な候補手の絞込み（10手程度） ⇒限定的な探索、浅い先読み（5手以内程度）

人間が考えていることを模倣する！！


モンテカルロ法とは？

・・・乱数を用いたシミュレーションを何度も行うことにより近似解を求める計算手法。解析的に解くことが困難な問題でも、十分多くの回数シミュレーションを繰り返すことにより、近似的に解を求めることができる。

モンテカルロ法を用いた円周率の計算の例

⇒正方形に内接する円を描いて、正方形の内部にランダムに点を打ち、以下の値を計算する！

（円の内部の点の数）／（全部の点の数）

＝７８６／１０００

半径１の円に外接する正方形は面積４なので、

１×１×π＝π＝４×０．７８６＝３．１４４


モンテカルロ法のゲームへの応用

原始モンテカルロ…乱数シミュレーション対局を大量に行い、最も勝率の高い手を選択する

ランダム対戦：たくさんのプレーアウト

15/100 45/100 62/100 54/100


さすがに乱数対戦だけでは強くならなかった！

強くするための２つの工夫！１）計算効率を上げる２）シミュレーションの質を上げる

計算効率を上げる手法←UCB値の利用

どれがよく出るかわからないスロットマシンが複数台あるとき、どのスロットマシンにどれだけコインを費やすか？

＜最適化計算＞UCB(Upper Confidence Bound) の値を計算し、最も大きい値のモノを試す。

UCB = そのスロットのその時点での報酬（期待値）

+ 𝛼 × log （すべての試行回数/そのスロットを試した回数）

→ スロットの報酬が大きいものほど試す → あまり試していないスロットほど試す

多腕バンディット問題

モンテカルロ木探索の登場

1/10 5/10 6/10 3/10 50/100

どっちが信頼出来る？

こっちをもっと調べたほうが良いかも、、、

・どの手をどれだけ調べるべきか？

→N腕バンディット問題

(Multi-armed Bandit Problem)

→UCB値を用いた計算資源の割振り

UCB値を求める

→勝率の高い手をたくさん調べる

→あまり調べていないものを調べる

１．勝率の高い手を多くプレイアウトする２．プレイアウトの回数がある閾値を超えたら、木を展開する

モンテカルロ＋UCT＝モンテカルロ木探索

1/10 4/10 6/10 5/10 65/100

・一定数を超えたら、子ノードを展開する →さらに深く調べる

評価関数を持たないのに、擬似的にゲーム木探索のような探索を実現！

・可能性のある手に計算資源を多く割り振る

シミュレーションの質の向上

－Sylvain Gelly, Yizao Wang,Remi Munos,Olivier Teytaud: Modification of UCT with Patterns in Monte-Carlo Go, [Research Report] RR-6062, INRIA, (2006).

シミュレーションにおいて完全にランダムな手ばかりを選んでいると強くならない。（あり得ない局面に基づいた勝率計算ではダメ！） →知的なプレイアウト（有り得そうな局面を調べる）ことが必要！

３×３のパターンの知識を入れると強くなる

プレイアウトの量より質が重要！

モンテカルロ法の凄い点

・複雑な評価関数の設計が不要！ ⇒膨大なプレーアウトと勝率計算のみ

・並列化が容易！ ⇒並列化の効果が非常に出やすい

爆発的な成功！！


AlphaGoとDeep Learning

予兆と関連研究－２０１４年～２０１５年に関連する研究が発表されていた

・Christopher Clark, Amos Storkey: Teaching Deep Convolutional Neural Networks to Play Go, arXiv:1412.3409 (2014). ・Maddison, Chris J., Huang, Aja, Sutskever, Ilya, and Silver, David: Move Evaluation in Go Using Deep Convolutional Neural Networks, arXiv:1412.6564, (2014). ・Yuandong Tian, Yan Zhu: Better Computer Go Player with Neural Network and Long-term Prediction, arXiv:1511.06210, (2015).

－プロ棋士の棋譜データを教師データとするディープラーニングを用いることで、プロ棋士の手を予測するシステムを作るというもの

→これまでの予測器が４０％前半ぐらいだったものが、これらの研究では５０％を上回るもの、最高では５７％にも及ぶ

ディープラーニングとは？（１）・・・人間の神経回路網を模したニューラルネットワークがベースになっている技術で、それを多層構造にすることによって、学習能力を高めたもの。

入力層

学習させたいデータの特徴量を入力

出力層

隠れ層

正解

比較して違いを小さくするように隠れ層の重みを調整していく

ニューラルネットワーク

ディープラーニングとは？（２）一般に、３層以上になると精度が向上しないという問題を抱えていた。 ⇒オートエンコーダー（自己符号化機）を導入して多層構造を実現！

入力層出力層

隠れ層

入力層と出力層を同じにして、正解例を読み込ませ、よりたくさんの情報を持っている特徴量を生み出す！

正解例

隠れ層は入力・出力層よりもデータ数を小さくする＜特徴量の圧縮＞

この特徴量は次の層で、新しい正解例として用いられ、さらに特徴量は圧縮される

これを何回も繰り返し、最終的に特徴量として良いものが形成される

Alpha Goの技術（１）:手の予測ネットワーク

Policy network （PN-SL) （第一段階; SL:Supervised Learning）

• 入力は 19 x 19 x 48（特徴）+手番，13層

• 大量の棋譜から着手確率を学習 – KGS の 6d~9d の棋譜 16万局 (3千万局面), 予測率 57%，処理時間 3 ms，学習時間 3週間（50 GPU）

※一昨年前の同グループによる論文以降，多くのプログラムが導入を試みるも、再現が難しかった… NiceGo，Aya，HiraBot，CGI，Zen，．．．

– 課題は実行速度（GPU を 8台使っても遅い）

アルファ碁の技術

Alpha Goの技術（２）:強化学習フェーズ

Policy network （PN-RL）（第二段階; RL：Reinforcement Learning）

• 構造は同じ，重み（初期値）は SL 版から転用

• 新しいプログラムと古いプログラムを対局させて

（自己）学習させる

– 対局（データの作成）に時間が掛かる

– 学習そのものは 1日で 128局を 1万回（50 GPU）

– 全部で何日掛かったかは不明

• SL 版に対する勝率 80%以上


Alpha Goの技術（３）:評価関数の学習

Value network （VN）（第三段階；強化学習を用いた局面勝率の学習）

• 局面の勝率を学習

• 構造はほぼ同じだが出力は勝率１つ

• これまでと同様に学習させると局面同士の相関が強いために上手くいかないので，

– 自己対戦の棋譜 3千万局から独立に 3千万局面

• Policy network（RL 版）を使ったシミュレーションに近い結果を 1万 5千倍速く得られる


Alpha Goの技術（４）:モンテカルロとの融合

探索部：PN と VNを用いた探索

• PN-SLを用いて手を絞り、基本的には従来のMCTSを用いて探索を行う。

• 探索では、一部VNとMCTSを併用している。

• VNはMCTSの補助的な役割を担っている。


Alpha Goの達成したこと

・Deep Learningの手法と膨大なハードウエアを組み合わせて、、、１）非常に高性能の予測器（PN)を作った２）評価関数に近いもの（VN）を作った・さらに、大規模並列マシンを使って、、、－プロ棋士レベルの強さのAIが作れることを示した

人間の直観に近いものを Deep Learningによって獲得した！

MCTSを使っている以上、MCTSの問題点が解消されていない！！

＜問題点＞ ×直線的な探索が困難 →何らかの乱数探索を使う限り一本道の探索が難しい

×両コウを含む複雑な攻め合いが読み切れない →局面を切り分けて考えられない

AlphaGoの問題点、、、

Deep Learningの技術でこれまで困難と思われてきた人間の「直観的思考」をコンピュータが手に入れた！

＜AIが出来ないこと＞ ‐囲碁というゲームを解くためには何が必要なのかを理解すること ≒「問題の理解」 ‐囲碁というゲームを理解するために考えなければならないことを見つけること ≒「問題の発見」 ‐コンピュータの思考過程を人に伝えること≒「思考の可視化」

○新しいルールのゲームを教えたら、勝手にゲームの解き方を考えて解決する！ ○コンピュータの行きついた考えを人の理解できる形で見せる！

残された問題！

人間と超えたゲームAIとどう向き合うか？

20XX年殆どのゲームAIは人間を超える

人間とゲームAIとの新しい関係

１）チェスの世界では＞人がコンピュータと協調する、利用するアドバンスドチェス、フリースタイルチェス …人間とコンピュータが協力してよりレベルの高い棋譜を作る２）オセロの世界では＞人がコンピュータから学ぶ …コンピュータに新手をぶつけて検討する３）バックギャモンの世界では＞人がコンピュータに近づく …コンピュータ通りにプレイする

２０４５年問題→シンギュラリティー（技術的特異点）

2016/8/31

棋風を形成する要素の検出

伊藤研究室紹介１

棋風に関係しそうな要素を列挙し、実際に棋譜を統計的に分析して特徴的な要素をとその特徴を同定する！

→人は何にプレースタイル（個性）を感じるのか？

認知計測、心を豊かに

特徴/グループ名攻め(和集合) 受け(和集合)終局までの手数 0.920789 13.64228自陣に打った駒の数 0.773295 6.322325敵陣に打った駒の数 8.457107 -6.73951

自玉の利きの範囲に打った駒の数

-1.147952 4.7077

敵陣で歩を打った回数 2.316738 -4.577118中段で歩を打った回数 -2.678741 2.045764自陣で歩を打った回数 -4.132284 2.143357敵陣での銀、成り銀の使用頻度

5.688739 -6.526388

中段での銀の使用頻度 -3.172838 -0.827996自陣での銀の使用頻度 -4.664235 4.442322中段の銀を引いた回数 -6.321481 6.729284中段の銀を上げた回数　 -1.213988 -4.949289敵陣での角、馬の使用頻度

5.606603 -4.111797

中段での角の使用頻度 4.908857 -3.281391自陣での角の使用頻度 -1.49967 7.228772

2016/8/31

人間らしい自然な弱さを実現するAI

伊藤研究室紹介２

評価値を調整して適度に弱い手を選ぶ－評価関数が０に近い手を選ぶ

－相手のレベルに合わせて、更に調整する

→自然に弱い手を選ぶAI （接待将棋？）

ものつくり・認知・心を豊かに

ヒューマンエラーのモデルを使ったAI 人間はミスをする生き物

－ミスの認知モデル

－人間らしいミスを模倣するシステム

2013年～科研費基盤B

「ミスを犯す人間らしいゲームAIの研究」

𝑉0 𝑀 = −𝑉(𝑀), &𝑉(𝑀) ≥ 0𝑉(𝑀), &𝑉(𝑀) < 0

評価関数＝０の時に最大になるようにする

-500

-400

-300

-200

-100

0

-50

0

-40

0

-30

0

-20

0

-10

0

0 10

0

20

0

30

0

40

0

50

0

𝑉_0

(𝑀

)

𝑉(𝑀)

2016/8/31

伊藤研究室紹介３ゲーム応用、学習支援

カーリングの戦略支援システムの提案

ある石の配置のとき、次の最善のショットは？

考えうるショットとその成功確率（推移確率）を入力

モンテカルロ・シミュレーション

最も勝率の高い戦略は？

モンテカルロアプローチを利用して、戦略の達成率を計算し、もっとも良いショットを選ぶ

三宅資料

Part III.

57

デジタルゲームの人工知能

三宅陽一郎

2016.8.23

一手先

分岐

三手先

二手先

ゲーム状態（＝盤面）

探索

アナログゲームの人工知能の形式

AI（キャラクター）

AIの認識領域

プレイヤー

計画経路

弾

デジタルゲームの人工知能の形式

チェス

将棋

囲碁

デジタルゲームAI

1995 1960

ロボカップサッカー（ロボカップ）

2010

人狼

カーリング

1980 2000 2050 2020

プロに勝つ（こともある）プロに勝つ（目標）

？

？

？

産学で本格的に研究が始まる

スポーツなどデータマイニングからのAI

1950

ゲームＡＩの歴史

３つのＡＩの連携の例

フィールド

ナビゲーションAI

メタAI

エージェントAI

状況を監視し、キーとなる役割を適切なタイミングでエージェントに指示する。

自律的な判断。仲間同士の協調

地形を解析する目的に応じた点を見つけ出す目的地までのパスを計算する

Support

エージェントが自律的に戦闘・協調しつつ、ナビゲーションAIが戦術的ポイントを教え、メタAIは、全体の戦闘の流れを作る。

カリキュラム１「ゲームＡＩの全体像」

知能化

人工知能

知性

メタＡＩ

ゲームシステム

ナビゲーションAI

キャラクターAI AIの分化

分散人工知能

古典的メタＡＩ

現代的メタＡＩ

適応型動的ペーシング

ユーザーエクスペリエンス

プロシージャル技術

カリキュラム（I）「ゲームＡＩの全体像」概念マップ

自律型

制御型

知識思考

ナビゲーションデータ

A*

戦術ポイント

キャラクター

エージェントアーキテクチャ

意思決定

反射型ＡＩ非反射型ＡＩ

ルールベースＡＩ

インフォメーション・フロー

ステートベースAI

ビヘイビアベースAI

ゴールベースAI

タスクベースAI

ユーティリティベースAI

シミュレーションベースAI

GOAP （ゴール指向アクション

プラン二ング）

HTN（階層型タスク

プラン二ング）

FSM （有限状態マシン）

BT （ビヘイビアツリー）

カリキュラム（II）「キャラクターの作り方」概念マップ

学習

強化学習遺伝的

アルゴリズム統計学習

適応進化

ニューラルネットワーク

動的に変化するゲーム

集団個体世界

プロシージャル・コンテンツ・

ジェネレーション

ⓒ2015 SQUARE ENIX CO., LTD. All Rights

Reserved.

カリキュラム（III）「プロシージャル、学習、社会性」概念マップ

データドリブン的アプローチプロシージャル的アプローチ

コミュニケーション

ブラックボードアーキテクチャ

言語コミュニケーション

非言語コミュニケーション

場シンボル言語

ターゲッティング

評判システム

協調

ⓒ2015 SQUARE ENIX CO., LTD. All Rights Reserved.

カリキュラム（III）「プロシージャル、学習、社会性」概念マップ

Dragon Age : Way Point

Dragon Age pathfinding program put to the test https://www.youtube.com/watch?v=l7YQ5_Nbifo

https://www.youtube.com/watch?v=l7YQ5_Nbifo



メタAI(=AI Director)によるユーザーのリラックス度に応じた敵出現度

ユーザーの緊張度

実際の敵出現数

計算によって求められた理想的な敵出現数

Build Up …プレイヤーの緊張度が目標値を超えるまで敵を出現させ続ける。 Sustain Peak … 緊張度のピークを3-5秒維持するために、敵の数を維持する。 Peak Fade … 敵の数を最小限へ減少していく。 Relax … プレイヤーたちが安全な領域へ行くまで、30-45秒間、敵の出現を最小限に維持する。

Michael Booth, "The AI Systems of Left 4 Dead," Artificial Intelligence and Interactive Digital Entertainment Conference at Stanford. http://www.valvesoftware.com/publications.html

より具体的なアルゴリズム

http://www.valvesoftware.com/publications.html

まとめ

メタAIを入れ替えるだけで、ゲームコンテンツが入れ替えることができる。メタAIという軽い部分だけを配信することで、コンテンツを入れ替えることが可能になる。

動的・静的ゲームの意思決定

静的ゲーム（ボードゲーム、RTS）

動的ゲーム（アクションゲーム）

意思決定「手を選ぶ」という問題に還元できる。

「運動」を生成する。

世界こちらが手を撃つまで静止している。

運動し続ける。

思考局面を解析して最適な解を選ぶ。

世界と共に運動する。

動的なゲームの意思決定は、馬に乗るように、世界の変化に常に瞬時瞬時対応しながら、貫かねばならない。

強化学習（例）強化学習

（例）格闘ゲーム

キック

パンチ

波動

R_0 : 報酬＝ダメージ

強化学習（例）格闘ゲームTaoFeng におけるキャラクター学習

Ralf Herbrich, Thore Graepel, Joaquin Quiñonero Candela Applied Games Group,Microsoft Research Cambridge "Forza, Halo, Xbox Live The Magic of Research in Microsoft Products" http://research.microsoft.com/en-us/projects/drivatar/ukstudentday.pptx

http://research.microsoft.com/en-us/projects/drivatar/ukstudentday.pptx



強化学習（例）格闘ゲームTaoFeng におけるキャラクター学習

Ralf Herbrich, Thore Graepel, Joaquin Quiñonero Candela Applied Games Group,Microsoft Research Cambridge "Forza, Halo, Xbox Live The Magic of Research in Microsoft Products" http://research.microsoft.com/en-us/projects/drivatar/ukstudentday.pptx

Microsoft Research Playing Machines: Machine Learning Applications in Computer Games http://research.microsoft.com/en-us/projects/mlgames2008/ Video Games and Artificial Intelligence http://research.microsoft.com/en-us/projects/ijcaiigames/




http://research.microsoft.com/en-us/projects/mlgames2008/




http://research.microsoft.com/en-us/projects/ijcaiigames/





Entertainment & Humor

黒川塾 三十九 (39）「誰にでもわかる！エンタメ的人工知能(AI)考察」（松原、伊藤、三宅）講演資料

黒川塾三十九 (39）「誰にでもわかる！エンタメ的人工知能(AI)考察」（松原、伊藤、三宅）講演資料