15
敬请参阅最后一页免责声明 -1- 证券研究报告 2017 10 20 计算机行业 读论文、深入浅出解析 AlphaGo Zero 的技术和应用 ——人工智能系列报告 行业专题研究 DeepMind 在《Nature》上公布最新版 AlphaGo 10 18 日,DeepMind 在《Nature》上公布了他们最新版 AlphaGo 论文,介绍了迄今最强最新的版本 AlphaGo Zero,使用纯强化学习,将价 值网络和策略网络整合为一个架构, 3 天训练后就以 100 0 击败了上一版 本的 AlphaGo。(消息来源:新智元) AlphaGo Zero 主要算法原理:强化学习、蒙特卡洛树、神经网络 左右互博,AlphaGo 自我博弈提升棋力。AlphaGo Zero 在进行了 3 的自我训练后,在 100 局比赛中以 1000 击败了上一版本的 AlphaGo—— 而上一版本的 AlphaGo Lee 击败了曾 18 次获得围棋世界冠军的韩国九段 棋士李世乭。经过 40 天的自我训练后,AlphaGo Zero 变得更加强大,超 越了‚Master‛版本的 AlphaGo——Master 曾击败世界上最优秀的棋士、 世界第一的柯洁。 无为而无不为,AlphaGo 放弃人类围棋知识。使用了纯强化学习(不 是监督学习),没有借助人类样本标注。AlphaGo Zero 没有再利用人类历史 棋局,训练过程从完全随机开始AlphaGo Zero 是在双方博弈训练过程中 尝试解决对人类标注样本的依赖,以前其他版本的 AlphaGo,都经过人类知 识的训练,它们被告知人类高手如何下棋。而最新发布的 AlphaGo Zero 使 用了更多原理和算法,从 0 开始,使用随机招式,40 天后成为围棋界的绝 世高手。 AlphaGo Zero 使用了神经网络、蒙特卡洛树和强化学习,使围棋趋近 最优解。由于暴力枚举算法的不可行,前几代 AlphaGo 采用了卷积神经网 络(采用一个策略网络 PolicyNet 和一个价值网络 ValueNet)、蒙特卡洛树、 监督学习和强化学习。 强化学习的应用前景 强化学习更贴切人类学习本质,应用前景广泛。 (深度)强化学习适用 于解决有限维度、有反馈,需要做出(连续)决策的相关应用,如自动驾驶、 机器人、广告投放、金融投资、动态定价、动态治疗,以及其他前沿科学领 域(预测蛋白质分子的形状,设计新材料和进行气候建模。) 投资建议 A 股:科大讯飞(语音处理)、中科创达(嵌入式 AI)、海康威视(图像 处理)、中科曙光(AI 芯片); 美股:百度(自然语言处理、自动驾驶)、英伟达(GPU 深度学习生态)、 谷歌(自然语言处理、自动驾驶、前沿科技); 一级市场:深鉴科技(AI 芯片)、地平线机器人(自动驾驶)、商汤科技 (图像处理)、云知声(语音处理)等。 风险提示:AI 技术和应用进展不及预期;竞争加剧 推荐(维持评级) 分析师 田杰华 (执业证书编号:S0280517050001) [email protected] 联系人 胡文超 [email protected] 戴煜立 [email protected] 行业与指数对比图 相关研报 Intel 发布神经网络芯片,AI 芯片领域进 入战国时代 2017-10-18 华为 MATE10 发布,拉开 AI 芯片应用序 2017-10-17 京东新推出无人零售方案,巨头、VC 动智能零售多层次发展 2017-10-18 新时代计算机周报 20171016:三季报预 告披露总结,净利预告增速中值低于去年 同期 2017-10-16 AI 零售市场阿里、百度相继出手,百度 风投领投 YI Tunnel 天使轮 2017-10-10 -23% -17% -11% -5% 1% 7% 13% 2016/10 2017/01 2017/04 2017/07 2017/10 计算机 沪深300

读论文、深入浅出解析 AlphaGo Zero 的技术和应用pg.jrj.com.cn/acc/Res/CN_RES/INDUS/2017/10/20/bff2daa6-042b-41f8-837c... · 敬请参阅最后一页免责声明 -1-

  • Upload
    others

  • View
    6

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 读论文、深入浅出解析 AlphaGo Zero 的技术和应用pg.jrj.com.cn/acc/Res/CN_RES/INDUS/2017/10/20/bff2daa6-042b-41f8-837c... · 敬请参阅最后一页免责声明 -1-

敬请参阅最后一页免责声明 -1- 证券研究报告

2017年 10 月 20日

计算机行业

读论文、深入浅出解析 AlphaGo Zero的技术和应用

——人工智能系列报告 行业专题研究

DeepMind 在《Nature》上公布最新版 AlphaGo

10 月 18 日,DeepMind 在《Nature》上公布了他们最新版 AlphaGo

论文,介绍了迄今最强最新的版本 AlphaGo Zero,使用纯强化学习,将价

值网络和策略网络整合为一个架构,3 天训练后就以 100 比 0 击败了上一版

本的 AlphaGo。(消息来源:新智元)

AlphaGo Zero 主要算法原理:强化学习、蒙特卡洛树、神经网络

左右互博,AlphaGo 自我博弈提升棋力。AlphaGo Zero 在进行了 3 天

的自我训练后,在 100 局比赛中以 100:0 击败了上一版本的 AlphaGo——

而上一版本的 AlphaGo Lee 击败了曾 18 次获得围棋世界冠军的韩国九段

棋士李世乭。经过 40 天的自我训练后,AlphaGo Zero 变得更加强大,超

越了‚Master‛版本的 AlphaGo——Master 曾击败世界上最优秀的棋士、

世界第一的柯洁。

无为而无不为,AlphaGo 放弃人类围棋知识。使用了纯强化学习(不

是监督学习),没有借助人类样本标注。AlphaGo Zero 没有再利用人类历史

棋局,训练过程从完全随机开始,AlphaGo Zero 是在双方博弈训练过程中

尝试解决对人类标注样本的依赖,以前其他版本的 AlphaGo,都经过人类知

识的训练,它们被告知人类高手如何下棋。而最新发布的 AlphaGo Zero 使

用了更多原理和算法,从 0 开始,使用随机招式,40 天后成为围棋界的绝

世高手。

AlphaGo Zero 使用了神经网络、蒙特卡洛树和强化学习,使围棋趋近

最优解。由于暴力枚举算法的不可行,前几代 AlphaGo 采用了卷积神经网

络(采用一个策略网络 PolicyNet 和一个价值网络 ValueNet)、蒙特卡洛树、

监督学习和强化学习。

强化学习的应用前景

强化学习更贴切人类学习本质,应用前景广泛。(深度)强化学习适用

于解决有限维度、有反馈,需要做出(连续)决策的相关应用,如自动驾驶、

机器人、广告投放、金融投资、动态定价、动态治疗,以及其他前沿科学领

域(预测蛋白质分子的形状,设计新材料和进行气候建模。)

投资建议

A 股:科大讯飞(语音处理)、中科创达(嵌入式 AI)、海康威视(图像

处理)、中科曙光(AI 芯片);

美股:百度(自然语言处理、自动驾驶)、英伟达(GPU 深度学习生态)、

谷歌(自然语言处理、自动驾驶、前沿科技);

一级市场:深鉴科技(AI 芯片)、地平线机器人(自动驾驶)、商汤科技

(图像处理)、云知声(语音处理)等。

风险提示:AI 技术和应用进展不及预期;竞争加剧

推荐(维持评级)

分析师

田杰华 (执业证书编号:S0280517050001)

[email protected]

联系人

胡文超

[email protected]

戴煜立

[email protected]

行业与指数对比图

相关研报 Intel 发布神经网络芯片,AI 芯片领域进

入战国时代

2017-10-18

华为 MATE10 发布,拉开 AI 芯片应用序

2017-10-17

京东新推出无人零售方案,巨头、VC 推

动智能零售多层次发展

2017-10-18

新时代计算机周报 20171016:三季报预

告披露总结,净利预告增速中值低于去年

同期

2017-10-16

AI 零售市场阿里、百度相继出手,百度

风投领投 YI Tunnel 天使轮

2017-10-10

-23%

-17%

-11%

-5%

1%

7%

13%

2016/10 2017/01 2017/04 2017/07 2017/10

计算机 沪深300

Page 2: 读论文、深入浅出解析 AlphaGo Zero 的技术和应用pg.jrj.com.cn/acc/Res/CN_RES/INDUS/2017/10/20/bff2daa6-042b-41f8-837c... · 敬请参阅最后一页免责声明 -1-

2017-10-20 计算机行业

敬请参阅最后一页免责声明 -2- 证券研究报告

目 录 1、 引子——“左右互搏,天下无双” ........................................................................................................................ 3

2、 3 分钟看懂 AlphaGo 背后的基础知识点............................................................................................................ 3

2.1、 3 张图看懂监督学习、无监督学习、强化学习 ........................................................................................ 3

2.2、 2 分钟理围棋类程序的重要算法——蒙特卡洛树搜索 MCTS ................................................................. 5

3、 AlphaGo Zero 为何是大突破——知易行难 ....................................................................................................... 6

3.1、 围棋竞技——知易行难,穷举算法不可行 .............................................................................................. 6

3.2、 Zero 的最大突破:使用纯强化学习,不再需要录入人类棋谱 ................................................................ 7

3.3、 算法核心仍是蒙特卡洛树算法,策略、估值网络合二为一 ..................................................................... 9

3.4、 AlphaGo Zero 算法技术简析 .................................................................................................................. 9

4、 强化学习更贴切人类学习本质,应用前景广泛 ............................................................................................... 11

4.1、 AlphaGo Zero 带来新思考 .................................................................................................................... 11

4.2、 (深度)强化学习的应用场景探析 ....................................................................................................... 11

5、 投资建议 .......................................................................................................................................................... 12

6、 风险提示 .......................................................................................................................................................... 12

图表目录 ................................................................................................................................................................. 13

Page 3: 读论文、深入浅出解析 AlphaGo Zero 的技术和应用pg.jrj.com.cn/acc/Res/CN_RES/INDUS/2017/10/20/bff2daa6-042b-41f8-837c... · 敬请参阅最后一页免责声明 -1-

2017-10-20 计算机行业

敬请参阅最后一页免责声明 -3- 证券研究报告

1、 引子——‚左右互搏,天下无双‛

“这降龙十八掌掌法之妙,天下无双,一招已难抵挡,何况他以周伯通双手互

搏,一人化二的奇法分进合击?”

——金庸《射雕英雄传》

AlphaGo Zero 打败之前所有版本,‚左右互搏,天下无双‛!10 月 18 日 Google

DeepMind 在《Nature》发表了最新版本的 AlphaGo Zero 的论文。AlphaGo Zero

在进行了3天的自我训练后,在100局比赛中以100:0击败了上一版本的 AlphaGo

——而上一版本的 AlphaGo Lee 击败了曾 18 次获得围棋世界冠军的韩国九段棋

士李世乭。经过 40 天的自我训练后,AlphaGo Zero 变得更加强大,超越了

‚Master‛版本的 AlphaGo——Master 曾击败世界上最优秀的棋士、世界第一的

柯洁。

图表1: AlphaGo Zero 棋力最高,突破 AlphaGo Master

资料来源:DeepMind,新时代证券研究所整理

2、 3 分钟看懂 AlphaGo 背后的基础知识点

2.1、 3 张图看懂监督学习、无监督学习、强化学习

机器学习可分类为监督学习、非监督学习、强化学习,如何简单理解?下面三

图以电视剧《人民的名义》为例,通俗介绍了监督学习(当前最火热、应用范围最

大)、非监督学习、强化学习分别是什么。

监督学习是当前使用最多的模型,需要有标注的数据录入模型,对模型训练(优

化模型的参数),训练的后的模型可以就进行推断了(即应用)。

图表2: 监督学习的应用案例(以抓捕丁义珍为例)

Page 4: 读论文、深入浅出解析 AlphaGo Zero 的技术和应用pg.jrj.com.cn/acc/Res/CN_RES/INDUS/2017/10/20/bff2daa6-042b-41f8-837c... · 敬请参阅最后一页免责声明 -1-

2017-10-20 计算机行业

敬请参阅最后一页免责声明 -4- 证券研究报告

资料来源:电视剧《人民的名义》,百度图片,新时代证券研究所整理

非监督学习强调不对数据进行任何标注(比如给你一堆图片,但是不告诉你他

们分别代表什么),非监督模型可通过一定规则对给定数据进行聚类(Clustering)。

图表3: 非监督学习的应用案例(以抓捕丁义珍为例)

资料来源:电视剧《人民的名义》,百度图片,新时代证券研究所整理

强化学习包含四要素 Agent,环境状态,Action 行动,Rewards。Agent(机

器)通过一定行动(Action),最后会得到环境的 Rewards(奖励或惩罚),最后机器

会记住获得奖励的行动路径。

Page 5: 读论文、深入浅出解析 AlphaGo Zero 的技术和应用pg.jrj.com.cn/acc/Res/CN_RES/INDUS/2017/10/20/bff2daa6-042b-41f8-837c... · 敬请参阅最后一页免责声明 -1-

2017-10-20 计算机行业

敬请参阅最后一页免责声明 -5- 证券研究报告

图表4: 强化学习的应用案例(以抓捕丁义珍为例)

资料来源:电视剧《人民的名义》,百度图片,新时代证券研究所整理

2.2、 2 分钟理围棋类程序的重要算法——蒙特卡洛树搜索 MCTS

蒙特卡洛(Monte Calro)模拟是用大量随机样本解决数值的方法——采样越

多,越接近最优解。蒙特卡洛模拟通过大量随机样本解决数值问题,是一类方法的

统称,诞生于上个世纪 40 年代美国的"曼哈顿计划",名字来源于赌城蒙特卡罗,

象征概率。简单的案例为计算圆周率π的概率:在一个 1×1 的正方形(内臵一个半

径 1/2 的圆)内撒点,如果点数足够大且均匀分布,那么圆的面积近似于圆中点数

/全部点数,由此可计算出圆周率π。

图表5: 蒙特卡洛模拟计算π的案例

资料来源:新时代证券研究所整理

蒙特卡洛树搜索(MCTS,Monte Calro Tree Search)指用随机抽样方法生

成决策树的方法,可用于围棋等游戏。决策树是通过树形图描述一系列决策的模型,

广泛用于数据分析。围棋等棋类游戏属于零和博弈(穷举法下最优结果可算出),

原则上可以建立一个足够庞大的博弈树分析走棋策略,通过将所有可能路径遍历

(由最后的节点向前遍历),可以得出各条路径的赢率。由于围棋等游戏的可能性

太多无法穷举遍历,因此人们采用蒙特卡洛模拟方法(随机抽样)与决策树结合。

Page 6: 读论文、深入浅出解析 AlphaGo Zero 的技术和应用pg.jrj.com.cn/acc/Res/CN_RES/INDUS/2017/10/20/bff2daa6-042b-41f8-837c... · 敬请参阅最后一页免责声明 -1-

2017-10-20 计算机行业

敬请参阅最后一页免责声明 -6- 证券研究报告

蒙特卡洛树搜索(MCTS)包括四个步骤:选择(选择一个节点)、扩展(根据一

定规则,向下拓展至其他节点)、模拟(根据一定规则向下选择一条路径,而不是

遍历所有可能的路径)、反向传播(将数值从最后节点出发,自下向上更新决策相

关的参数)。

图表6: 决策树广泛用于数据分析 图表7: 蒙特卡洛树搜索示意图

资料来源:两棵橘树简书,新时代证券研究所 资料来源:互联网,新时代证券研究所

蒙特卡洛树搜索(MCTS)在 AlphaGo 之前已被用于围棋软件。根据雷锋网

报道,在 AlphaGo 之前,MCTS 已被用于围棋对弈商业软件 Crazy Stone 和 Zen,

还有最大的开源软件 Pachi 和 Fuego,并取得了较好的成绩。

3、 AlphaGo Zero 为何是大突破——知易行难

3.1、 围棋竞技——知易行难,穷举算法不可行

围棋等棋类游戏的特点:规则明确且条目数较少、目标明确(结果最多只有赢、

输、平)、对阵方有限(几个,通常 2 个)、局面变化多、没有随机因素(不像扑克

牌有发牌的随机因素)。

图表8: 围棋等棋类游戏的特点

资料来源:新时代证券研究所

在策梅洛定理下,若暴力穷举算法可行,则两人对弈的棋类游戏过程很简单—

—决定了谁先手、谁后手之后,游戏结束。策梅洛定理(1913):在二人的有限游

戏中,如果双方皆拥有完全的资讯,并且运气因素并不牵涉在游戏中,那先行或后

行者当一必有一方有必胜/必不败的策略。例如:暴力穷举可行情况下,对于先发

优势的棋类游戏,分配了后手的棋手直接投降。

Page 7: 读论文、深入浅出解析 AlphaGo Zero 的技术和应用pg.jrj.com.cn/acc/Res/CN_RES/INDUS/2017/10/20/bff2daa6-042b-41f8-837c... · 敬请参阅最后一页免责声明 -1-

2017-10-20 计算机行业

敬请参阅最后一页免责声明 -7- 证券研究报告

现实中暴力穷举工作量极大,现实中不可行,因此围棋挑战被称为 AI 界的‚阿

波罗计划‛。围棋的特点是规则明确(且规则条目数较少)、目标明确(结果只有赢、

输、平)、环境简单(对阵只有黑白两方),但局面变化极多(数量级 10^170)。由

于围棋的可能性极大,有 19*19=361 个点,一场 150 回合的围棋有多大 10^170

中局面,另外围棋的规则比较简单,很难基于棋面判断优势和劣势,所以在穷举的

算法中需要构建深度和广度都是几百的决策树结构,穷举算法几乎不可能完成。第

二代谷歌 TPU 计算能力是的 45 TFLOPS(每秒 45*10^12 浮点数运算),与围棋

的可能性数量级相差甚远。

图表9: 围棋盘面变化的数量级极大

资料来源:新时代证券研究所

3.2、 Zero 的最大突破:使用纯强化学习,不再需要录入人类棋谱

AlphaGo Zero 与前面几代 AlphaGo 的共同之处:使用神经网络、蒙特卡洛

树和强化学习,使围棋趋近最优解。由于暴力枚举算法的不可行,前几代 AlphaGo

采用了卷积神经网络(采用一个策略网络 PolicyNet 和一个价值网络 ValueNet)、

蒙特卡洛树、强化学习,取得了超过世界冠军的成绩,使得围棋进一步向最优解靠

拢。新的 Zero 也采用了神经网络、蒙特卡洛树和强化学习,但技术上有许多区别。

图表10: 三种机器学习算法基本情况

学习方式 主要特征 朴素定义 主要算法模型

监督学习 有训练样本(数据有标签),通过样本训

练出模型,再根据模型对位臵数据分类

老师教一部分例子,学生通过例子归纳出

原理,再通过原理解决之前没有遇到的问

K-近邻算法、决策树、朴素贝叶

斯、逻辑回归

非监督学习 事先没有任何训练数据样本(数据没有标

签),而直接对数据进行建模

没有老师,学生通过自学摸索出原理,再

通过原理解决问题 聚类、EM 算法、高斯混合模型

强化学习 智能系统从环境到行为映射的学习,以使

奖励信号(强化信号)函数值最大

老师在学生做出某个动作之后,只反馈结

果怎样,而不是去教学生该如何去做 蒙特卡洛、动态规划

资料来源:新时代证券研究所

AlphaGo Zero 最大的突破,使用了纯强化学习(不是监督学习),没有借助

人类样本标注。AlphaGo Zero 没有再利用人类历史棋局,训练过程从完全随机开

始,AlphaGo Zero 是在双方博弈训练过程中尝试解决对人类标注样本的依赖,以

前其他版本的 AlphaGo,都经过人类知识的训练,它们被告知人类高手如何下棋。

而最新发布的 AlphaGo Zero 使用了更多原理和算法,从 0 开始,使用随机招式,

40 天后成为围棋界的绝世高手。

Page 8: 读论文、深入浅出解析 AlphaGo Zero 的技术和应用pg.jrj.com.cn/acc/Res/CN_RES/INDUS/2017/10/20/bff2daa6-042b-41f8-837c... · 敬请参阅最后一页免责声明 -1-

2017-10-20 计算机行业

敬请参阅最后一页免责声明 -8- 证券研究报告

图表11: AlphaGo Zero 作者 Silver 指出 Zero 不适用任何人类数据

资料来源:Nature 自然科学微博,DeepMind,新时代证券研究所

无为而无不为,AlphaGo Zero 放弃监督学习。机器学习主要分为监督学习、

非监督学习和强化学习三种,AlphaGo Zero 主要使用了强化学习,前面其他版本

的 AlphaGo 都使用了监督学习+强化学习的算法,在学习了人类优秀棋局的基础上

进行自我训练。强化学习偏向于控制决策,监督学习偏向映射关系挖掘,可以相互

融合。

图表12: AlphaGo 监督学习与强化学习的差异

资料来源:DeepMind,新时代证券研究所

补充:不录入人类棋谱(人工标注的样本)不代表没有数据输入和模型训练,

自我对弈训练后的结果令人振奋。事实上 AlphaGo Zero 的强化学习以自我对弈

(self-play)的结果为输入数据,对神经网络进行训练。真理需要时间来求证,强

化学习依然需要大量数据,但此次 AlphaGo Zero 的自我对弈盘数只 3 天、490 万

局,即可打败 AlphaGo Lee,使包括业内人士都感到振奋。

Page 9: 读论文、深入浅出解析 AlphaGo Zero 的技术和应用pg.jrj.com.cn/acc/Res/CN_RES/INDUS/2017/10/20/bff2daa6-042b-41f8-837c... · 敬请参阅最后一页免责声明 -1-

2017-10-20 计算机行业

敬请参阅最后一页免责声明 -9- 证券研究报告

图表13: 强化学习和监督学习的区别

强化学习 监督学习

训练数据 序列数据,输入影响下一次输入 带有标签的数据,输入是相互独立的

交互 有 无

反馈 有,反馈有延时 无

生存周期 有 无

训练方式 和自身博弈,可融合监督学习 选择特定的模型进行参数拟合

典型应用 博弈、游戏、股票、自动驾驶等 决策树、分类

资料来源:新时代证券研究所

3.3、 算法核心仍是蒙特卡洛树算法,策略、估值网络合二为一

蒙特卡洛树算法(MCTS)让围棋 AI 成为可能。MCTS 是一类随机方法的统称。

这类方法的特点是,可以在随机采样上计算得到近似结果,随着采样的增多,得到

的结果是正确结果的概率逐渐加大,但在获得真正的结果之前,无法知道目前得到

的结果是不是真正的结果。MCTS 使用了采样的方法有效地降低了围棋 AI 算法的复

杂度。

深度学习大幅缩减 MCTS 搜索空间,加速其收敛。AlphaGo 借助了深度学习中

的策略网络和估值网络,大幅缩减了 MCTS 的搜索空间。估值网络会为各个可行的

下法评估整个盘面的情况,给出一个‘胜率’,这些值会反馈到 MCTS 中,通过反

复迭代出‘胜率’最高的走法。MCTS 决定了策略网络仅会在‘胜率’较高的地方

继续收敛,这样就可以抛弃某些路线,缩减搜索空间。

其他提高效率的举措:AlphaGo Zero 将策略网络、估值网络合二为一,进一步

提高计算效率。在以前版本的 AlphaGo 中,策略网络、估值网络是两个不同的 DNN

(深度神经网络),二者互相独立,在新版本的 AlphaGo Zero 中,DeepMind 巧妙地

将二者合二为一,大幅提高了计算效率。

3.4、 AlphaGo Zero 算法技术简析

核心算法 MCTS 算法的目的是递归迭代找到所有路径中价值最高的,即是找

到采样遍历中的局部最优解,主要步骤如下:

a.选择,从根节点每次遍历都选择路径价值(Q+U)最高的路径。直到遍历到

结束节点;

b.拓展和模拟,如果遍历树的过程中遇到没有赋予 Q 值的节点 C,在 C 点拓

展节点 D,并根据节点 D 模拟出所有到结束节点,并求出 V 值

c.反向传播,当节点 D 的模拟结束后,更新节点 D 的 V 值,并反向传播至根

节点更新路径上的所有 Q 值,重复步骤 a;

d.返回。搜索完成后,返回路径中价值最高的路径的搜索概率 π

图表14: 蒙特卡洛 MCTS 算法示例

Page 10: 读论文、深入浅出解析 AlphaGo Zero 的技术和应用pg.jrj.com.cn/acc/Res/CN_RES/INDUS/2017/10/20/bff2daa6-042b-41f8-837c... · 敬请参阅最后一页免责声明 -1-

2017-10-20 计算机行业

敬请参阅最后一页免责声明 -10- 证券研究报告

资料来源:DeepMind,新时代证券研究所

左右互搏,自我博弈 MCTS+DNN 算法,通过自己与自己博弈训练 DNN(深

度神经网络,主要用了 DNN 中的 CNN 卷积神经网络),策略网络帮助 MCTS 算法

做出较优预测下一步棋,估值网络根据 MCTS 的预测再更新策略网络(目标是策

略函数能逼近估值函数),并继续迭代下一步棋直至棋局结束。算法的潜台词是:

MCTS 算法找出的解相对更优,即估值网络的模型更接近于最优解,所以策略网络

模型要向估值网络逼近。

AlphaGo Zero 自我对弈训练的流程:

a. 程序自我博弈,标记为 s1, ..., sT。在每个位臵 st,使用最新的神经网络 fθ

执行 MCTS αθ,每个走子选择的依据是通过 MCTS, at ∼ πt 计算的搜索概率,并

记录处于最后状态的 sT 的 Z 值。

b. AlphaGo Zero 中神经网络的训练。该神经网络将棋盘位臵 st 和参数θ作为

输入,输出表示每一走子的概率分布的向量 pt 和一个表示当前玩家在位臵 st 上

的胜率的标量值 vt,目标是调整参数θ让 pt 与πt 的相似度最大且 vt 和 Z 的差距最

小,新的参数θ作为下一步 MCTS 的输入。

图表15: AlphaGo Zero 的算法示意图

Page 11: 读论文、深入浅出解析 AlphaGo Zero 的技术和应用pg.jrj.com.cn/acc/Res/CN_RES/INDUS/2017/10/20/bff2daa6-042b-41f8-837c... · 敬请参阅最后一页免责声明 -1-

2017-10-20 计算机行业

敬请参阅最后一页免责声明 -11- 证券研究报告

资料来源:DeepMind,新时代证券研究所

4、 强化学习更贴切人类学习本质,应用前景广泛

4.1、 AlphaGo Zero 带来新思考

作为强化学习的历史性案例,AlphaGo 完全强化带来的新思考:部分场景下,

大量标注数据可能并非必需品。由于人类大脑计算资源有限,在从事围棋等活动时

不可能枚举出所有的落子可能,而更倾向于选择局部最优解,而从 AlphaGo Zero

的棋力来看,人类几千年的围棋认知可能并非完全正确。从应用角度来看,在部分

场景中(不是全部),以后可能不再需要耗费人工去为 AI 的产品做大量的前期准备

工作,类似的深度强化学习算法或许能更容易地被广泛应用到其他人类缺乏了解或

是缺乏大量标注数据的领域。

4.2、 (深度)强化学习的应用场景探析

(深度)强化学习适用于解决有限维度、有反馈,需要做出(连续)决策的相

关应用。由于强化学习每一次输入都会影响到后续的状态和输入,当应用的数据表

征维度较高时,会出现维度灾难的问题。除了 ADAS、机器人以及游戏等应用之外,

深度强化学习还可以应用到以下场景:

1.广告投放,例如算法 LinUCB,会尝试投放更广范围的广告,尽管过去还没

有被浏览很多,能够更好地估计真实的点击率。例如 2016 年双 11,阿里巴巴规模

化上线最前沿的人工智能技术深度增强学习与自适应在线学习,用户点击率提升

10-20%。

2.股票投资,应用强化学习来评价和学习交易策略,根据彭博社的消息,

WorldQuant 公司正在使用深度学习做小规模的交易。

Page 12: 读论文、深入浅出解析 AlphaGo Zero 的技术和应用pg.jrj.com.cn/acc/Res/CN_RES/INDUS/2017/10/20/bff2daa6-042b-41f8-837c... · 敬请参阅最后一页免责声明 -1-

2017-10-20 计算机行业

敬请参阅最后一页免责声明 -12- 证券研究报告

3.动态定价,企业根据市场需求和自身供应能力,以不同的价格将同一产品适时

地销售给不同的消费者或不同的细分市场,以实现收益最大化的策略,强化学习中

的 Q-learning 可以用来处理动态定价问题。

4.动态治疗,动态治疗方案(DTR)是医学研究的一个主题,是为了给患者找

到有效的治疗方法。 例如癌症这种需要长期施药的治疗,强化学习算法可以将患

者的各种临床指标作为输入 来制定治疗策略。

5.前沿科学,范围可以包括预测蛋白质分子的形状,设计新材料和进行气候建

模。

5、 投资建议

AlphaGo Zero 的公布,对于机器学习、人工智能领域具有较大的方法论意义,

即在一些获取大量训练数据代价较大(或者无法取得标注数据)的领域,强化学习

有可能也能取得预期的效果。同时,AI 技术的不断创新和发展,一些公司在较为

成熟的 AI 技术中,语音识别、图像识别、自然语言处理等领域有较大的发展潜力,

我们推荐关注:

A 股中,科大讯飞(语音处理)、中科创达(嵌入式 AI)、海康威视(图像处理)、

中科曙光(AI 芯片);

美股中,百度(自然语言处理、自动驾驶)、英伟达(GPU 深度学习生态)、

谷歌(自然语言处理、自动驾驶、前沿科技);

一级市场中,深鉴科技(AI 芯片)、地平线科技(自动驾驶)、商汤科技(图

像处理)、云知声(语音处理)等。

6、 风险提示

AI 技术和应用进展不及预期;竞争加剧。

Page 13: 读论文、深入浅出解析 AlphaGo Zero 的技术和应用pg.jrj.com.cn/acc/Res/CN_RES/INDUS/2017/10/20/bff2daa6-042b-41f8-837c... · 敬请参阅最后一页免责声明 -1-

2017-10-20 计算机行业

敬请参阅最后一页免责声明 -13- 证券研究报告

图表目录 图表 1: AlphaGo Zero 棋力最高,突破 AlphaGo Master ...................................................................................... 3

图表 2: 监督学习的应用案例(以抓捕丁义珍为例) ............................................................................................. 3

图表 3: 非监督学习的应用案例(以抓捕丁义珍为例) ......................................................................................... 4

图表 4: 强化学习的应用案例(以抓捕丁义珍为例) ............................................................................................. 5

图表 5: 蒙特卡洛模拟计算 π 的案例 ...................................................................................................................... 5

图表 6: 决策树广泛用于数据分析 .......................................................................................................................... 6

图表 7: 蒙特卡洛树搜索示意图 .............................................................................................................................. 6

图表 8: 围棋等棋类游戏的特点 .............................................................................................................................. 6

图表 9: 围棋盘面变化的数量级极大 ...................................................................................................................... 7

图表 10: 三种机器学习算法基本情况 .................................................................................................................... 7

图表 11: AlphaGo Zero 作者 Silver 指出 Zero 不适用任何人类数据 ..................................................................... 8

图表 12: AlphaGo 监督学习与强化学习的差异 .................................................................................................... 8

图表 13: 强化学习和监督学习的区别 .................................................................................................................... 9

图表 14: 蒙特卡洛 MCTS 算法示例 ....................................................................................................................... 9

图表 15: AlphaGo Zero 的算法示意图................................................................................................................. 10

Page 14: 读论文、深入浅出解析 AlphaGo Zero 的技术和应用pg.jrj.com.cn/acc/Res/CN_RES/INDUS/2017/10/20/bff2daa6-042b-41f8-837c... · 敬请参阅最后一页免责声明 -1-

2017-10-20 计算机行业

敬请参阅最后一页免责声明 -14- 证券研究报告

特别声明

《证券期货投资者适当性管理办法》、《证券经营机构投资者适当性管理实施指引(试行)》已于2017年7月1日

起正式实施。根据上述规定,新时代证券评定此研报的风险等级为R3(中风险),因此通过公共平台推送的研报其

适用的投资者类别仅限定为专业投资者及风险承受能力为C3、C4、C5的普通投资者。若您并非专业投资者及风险

承受能力为C3、C4、C5的普通投资者,请取消阅读,请勿收藏、接收或使用本研报中的任何信息。

因此受限于访问权限的设臵,若给您造成不便,烦请见谅!感谢您给予的理解与配合。

分析师声明

负责准备本报告以及撰写本报告的所有研究分析师或工作人员在此保证,本研究报告中关于任何发行商或证券

所发表的观点均如实反映分析人员的个人观点。负责准备本报告的分析师获取报酬的评判因素包括研究的质量和准

确性、客户的反馈、竞争性因素以及新时代证券股份有限公司的整体收益。所有研究分析师或工作人员保证他们报

酬的任何一部分不曾与,不与,也将不会与本报告中具体的推荐意见或观点有直接或间接的联系。

分析师介绍

田杰华,复旦大学电子工程系本科、硕士,现任新时代证券计算机行业首席分析师。曾先后任职于交通银行股

份有限公司总行软件开发中心 3 年、中国银河证券股份有限公司投资研究总部 2 年。

投资评级说明

新时代证券行业评级体系:推荐、中性、回避

推荐: 未来6-12个月,预计该行业指数表现强于市场基准指数。

中性: 未来6-12个月,预计该行业指数表现基本与市场基准指数持平。

回避: 未来6-12个月,未预计该行业指数表现弱于市场基准指数。

市场基准指数为沪深 300 指数。

新时代证券公司评级体系:强烈推荐、推荐、中性、回避

强烈推荐: 未来6-12个月,公司股价超越分析师(或分析师团队)所覆盖股票平均回报20%及以上。该评级由分析师给出。

推荐: 未来6-12个月,公司股价超越分析师(或分析师团队)所覆盖股票平均回报10%-20%。该评级由分析师给出。

中性: 未来6-12个月,公司股价与分析师(或分析师团队)所覆盖股票平均回报相当。该评级由分析师给出。

回避: 未来6-12个月,公司股价低于分析师(或分析师团队)所覆盖股票平均回报10%及以上。该评级由分析师给出。

分析、估值方法的局限性说明

本报告所包含的分析基于各种假设,不同假设可能导致分析结果出现重大不同。本报告采用的各种估值方法及

模型均有其局限性,估值结果不保证所涉及证券能够在该价格交易。

Page 15: 读论文、深入浅出解析 AlphaGo Zero 的技术和应用pg.jrj.com.cn/acc/Res/CN_RES/INDUS/2017/10/20/bff2daa6-042b-41f8-837c... · 敬请参阅最后一页免责声明 -1-

2017-10-20 计算机行业

敬请参阅最后一页免责声明 -15- 证券研究报告

免责声明

新时代证券股份有限公司经中国证券监督委员会批复,已具备证券投资咨询业务资格。

本报告由新时代证券股份有限公司(以下简称新时代证券)向其机构或个人客户(以下简称客户)提供,无意针对或意图违反任

何地区、国家、城市或其它法律管辖区域内的法律法规。

新时代证券无需因接收人收到本报告而视其为客户。本报告是发送给新时代证券客户的,属于机密材料,只有新时代证券客户才

能参考或使用,如接收人并非新时代证券客户,请及时退回并删除。

本报告所载的全部内容只供客户做参考之用,并不构成对客户的投资建议,并非作为买卖、认购证券或其它金融工具的邀请或保

证。新时代证券根据公开资料或信息客观、公正地撰写本报告,但不保证该公开资料或信息内容的准确性或完整性。客户请勿将本报

告视为投资决策的唯一依据而取代个人的独立判断。

新时代证券不需要采取任何行动以确保本报告涉及的内容适合于客户。新时代证券建议客户如有任何疑问应当咨询证券投资顾问

并独自进行投资判断。本报告并不构成投资、法律、会计或税务建议或担保任何内容适合客户,本报告不构成给予客户个人咨询建议。

本报告所载内容反映的是新时代证券在发表本报告当日的判断,新时代证券可能发出其它与本报告所载内容不一致或有不同结论

的报告,但新时代证券没有义务和责任去及时更新本报告涉及的内容并通知客户。新时代证券不对因客户使用本报告而导致的损失负

任何责任。

本报告可能附带其它网站的地址或超级链接,对于可能涉及的新时代证券网站以外的地址或超级链接,新时代证券不对其内容负

责。本报告提供这些地址或超级链接的目的纯粹是为了客户使用方便,链接网站的内容不构成本报告的任何部分,客户需自行承担浏

览这些网站的费用或风险。

新时代证券在法律允许的情况下可参与、投资或持有本报告涉及的证券或进行证券交易,或向本报告涉及的公司提供或争取提供

包括投资银行业务在内的服务或业务支持。新时代证券可能与本报告涉及的公司之间存在业务关系,并无需事先或在获得业务关系后

通知客户。

除非另有说明,所有本报告的版权属于新时代证券。未经新时代证券事先书面授权,任何机构或个人不得以任何形式更改、复制、

传播本报告中的任何材料,或以任何侵犯本公司版权的其他方式使用。所有在本报告中使用的商标、服务标识及标记,除非另有说明,

均为新时代证券的商标、服务标识及标记。

新时代证券版权所有并保留一切权利。

机构销售通讯录

北京 郝颖 销售总监

固话:010-69004649

手机:13811830164

邮箱:[email protected]

上海 李佳璐 销售经理

手机:18801966799

邮箱:[email protected]

深圳 史月琳 销售经理

固话:0755-82291898

手机:13266864425

邮箱:[email protected]

联系我们

新时代证券股份有限公司 研究所

北京地区:北京市海淀区北三环西路99号院1号楼15层

上海地区:上海市浦东新区浦东南路256号华夏银行大厦5楼

广深地区:深圳市福田区福华一路88号中心商务大厦15楼1506室

公司网址:http://www.xsdzq.cn/

邮编:100086

邮编:200120

邮编:518046