Probability, statistics & machine learning(china soft tokyo)

中軟東京株式会社 23/4/14

初等概率论与数理统计以及机器学习算法简介

Probability, Statistics and Machine Learning

第一部分随机事件及其概率•随机事件及其运算•概率的定义及其运算•条件概率•事件的独立性

第二部分机器学习•背景简介•算法简介 - 有监督学习 -- 朴素贝叶斯分类器 -- 线性回归 - 无监督学习 -- K-Means 分类器•大牛们和推荐书籍

概率论与数理统计概率论与数理统计

一门研究和揭示随机现象的统计规律性的学一门研究和揭示随机现象的统计规律性的学科，“将不确定性量化”的学科。科，“将不确定性量化”的学科。

第一部分随机事件及其概率

1.1 随机事件及其概率

随机试验的特点：

1. 可在相同条件下重复进行； 2. 一次试验之前无法确定具体是哪种结果出现，但能确定所有的可能结果。

随机试验常用 E 表示

一、随机试验 ( 简称“试验” )

E1: 抛一枚硬币，分别用“ H” 和“ T” 表示出正面和反面；E2: 将一枚硬币连抛三次，考虑正反面出现的情况；E3: 某城市某年某月内发生交通事故的次数；E4: 掷一颗骰子，可能出现的点数；E5: 记录某网站一分钟内受到的点击次数；E6: 在一批灯泡中任取一只，测其寿命；E7: 任选一人，记录他的身高和体重。

二、样本空间

1. 样本空间：试验的所有可能结果所组成的集合称为样本空间，记为

2. 样本点：试验的单个结果或样本空间的单元素称为样本点，记为 e

随机事件1. 定义样本空间的任意一个子集称为随机事件 , 简称“事件”。2. 两个特殊事件 : 必然事件（ Ω ）、不可能事件（ Φ ）。

例对于试验 E2 ，以下 A 、 B 、 C 即为三个随机事件 : A ＝“至少出一个正面”＝ {HHH, HHT, HTH, THH ， HTT ， THT ， TTH} B = “ 两次出现同一面” = {HHH,TTT} C =“ 恰好出现一次正面” = {HTT ， THT ， TTH}

　三、事件之间的关系

1. 包含关系：“ 事件 A 发生必有事件 B 发生”记为 AB

A ＝ B AB 且 BA.

2. 和事件：“事件 A 与事件 B 至少有一个发生”，记作 AB

n 个事件 A1, A2,…, An 至少有一个发生，记作 i

n

iA

1

3. 积事件：事件 A 与事件 B 同时发生，记作 AB ＝ AB

n 个事件 A1, A2,…, An 同时发生，记作 A1A2…An ， or n

iiA

1

4. 差事件： A － B 称为 A 与 B 的差事件 , 表示事件 A 发生而事件 B 不发生

5. 互斥的事件（也称互不相容事件）：即事件 A 与事件 B 不可能同时发生。 AB ＝

6. 互逆的事件： AB ＝ , 且 AB ＝

BABAAAB 易见的对立事件，称为记作 ;

四、事件的运算1 、交换律： AB ＝ BA ， AB ＝ BA2 、结合律： (AB)C ＝ A(BC) ， (AB)C ＝ A(BC)3 、分配律： (AB)C ＝ (AC)(BC) ， (AB)C ＝ (AC)(BC)4 、对偶 (De Morgan) 律：

.,

,

k

k

kk

kk

kk AAAA

BAABBABA

可推广

例：甲、乙、丙三人各向目标射击一发子弹，以 A 、 B 、 C 分别表示甲、乙、丙命中目标，试用 A 、 B 、 C 的运算关系表示下列事件：

::

::

::

::

::

::

6

5

4

3

2

1

“ ”三人均未命中目标

“ ”三人均命中目标

”“最多有一人命中目标

“ ”恰有两人命中目标

“ ”恰有一人命中目标

”“至少有一人命中目标

A

A

A

A

A

A CBA CBACBACBA CBABCACAB

BACACB ABC

CBA

1.2 概率的定义及其运算从直观上来看，事件 A 的概率是描绘事件 A 发生的可能性大小的量

P(A) 应具有何种性质？

* 抛一枚硬币，币值面向上的概率为多少？* 掷一颗骰子，出现 6 点的概率为多少？出现单数点的概率为多少？* 向目标射击，命中目标的概率有多大？

若某实验 E 满足：

1. 有限性：样本空间 S ＝ {e1, e 2 , … , e n };

2. 等可能性：（公认）

P(e1)=P(e2)=…=P(en).

则称 E 为古典概型也叫等可能概型。

1.2.1.古典概型与概率

设事件 A 中所含样本点个数为 N(A) ，以N() 记样本空间中样本点总数，则有

P(A) 具有如下性质(1) 0 P(A) 1 ；

(2) P() ＝ 1 ； P( )=0

(3) AB ＝，则 P( A B ) ＝ P(A) ＋ P(B)

一、古典概型中的概率 :

( )( )

( )

N AP A

N

例 : 有三个子女的家庭 ,设每个孩子是男是女的概率相等,则至少有一个男孩的概率是多少 ?

={BBB, BBG, BGB, GBB, BGG, GGB, GBG, GGG}

A={BBB, BBG, BGB, GBB, BGG, GGB, GBG}

( ) 7( )

( ) 8

N AP A

N

解 :设 A 事件为至少有一个男孩 , 以 B 表示某个孩子是男孩， G 表示某个孩子是女孩。

二、古典概型的几类基本问题

乘法公式：设完成一件事需分两步，

第一步有 n1 种方法 ,第二步有 n2 种方法，

则完成这件事共有 n1n2 种方法。

（也可推广到分若干步）

复习：排列与组合的基本概念

加法公式：设完成一件事可有两种途径，第一种途径有 n1 种方法，第二种途径有 n2 种方法，则完成这件事共有 n1+n2 种方法。

（也可推广到若干途径）

这两公式的思想贯穿着整个概率问题的求解。

有重复排列：从含有 n 个元素的集合中随机抽取 r 次，每次取一个，记录其结果后放回，将记录结果排成一列，

n n n n

共有 nr 种排列方式 .

无重复排列：从含有 n 个元素的集合中随机抽取 r 次，每次取一个，取后不放回，将所取元素排成一列，

共有 Pnr=n(n-1)…(n-r+1) 种排列方式 .

n n-1n-2 n-r+1

有重复组合：从含有 n 个元素的集合中有重复地随机抽取 r 个，共有

种取法 .

)!1(!

)!1(11

nr

rn

r

rnCH r

rnrn

无重复组合：从含有 n 个元素的集合中无重复地随机抽取 r 个，共有

种取法 .

)!(!

!

! rnr

n

r

P

r

nC

rnr

n

1 、抽球问题

例 1: 设合中有 3 个白球， 2 个红球，现从合中任抽 2 个球，求取到一红一白的概率。

解 : 设 A-- 取到一红一白25( )N C

12

13)( CCAN

5

3)(

25

12

13 C

CCAP

答 : 取到一红一白的概率为 3/5

2 、分球入盒问题例 2 ：将 3 个球随机的放入 3 个盒子中去，问：

（ 1 ）每盒恰有一球的概率是多少？

（ 2 ）空一盒的概率是多少？解 :设 A:每盒恰有一球 ,B: 空一

盒33)( SN !3)( AN9

2)( AP

}{}{1)( 全有球空两合 PPBP

3

2

9

2

3

31

3

3 、生日悖论问题：

某班级有 n 个人 (2n365) ，问至少有两个人的生日在同一天的概率有多大？

1

0

)365

1(1)(1)(n

k

kBPAP

A: 至少有两个人生日在同一天

B: 所有人生日都不在同一天

1

0

)365

1(365

)366(...363364365)(

n

kn

knBP

某人向目标射击，以 A 表示事件“命中目标”，P （ A ） =？

定义：事件 A 在 n 次重复试验中出现 nA 次，则

比值 nA/n 称为事件 A 在 n 次重复试验中

出现的频率，记为 fn(A). 即

fn(A) ＝ nA/n.

1.3 频率与概率

历史上曾有人做过试验 , 试图证明抛掷匀质硬币时，

出现正反面的机会均等。

实验者 n nH fn(H)De Morgan 2048 1061 0.5181 Buffon 4040 2048 0.5069K. Pearson 12000 6019 0.5016K. Pearson 24000 12012 0.5005

实践证明：

当试验次数 n 增大时， fn(A) 逐渐趋向一个稳定值。可将此稳定值记作 P(A) ，作为事件 A 的概率。

2. 概率的性质 (1) 有限可加性：设 A1 ， A2 ，… An , 是 n 个两两互不相容的事件，即 AiAj ＝， (ij), i , j ＝ 1, 2, …, n , 则有 P( A1 A2 … An) ＝ P(A1) ＋ P(A2)+… P(An);

(3) 事件差 A 、 B 是两个事件，则

P(A-B)=P(A)-P(AB)

(2) 单调不减性：若事件 AB ，则P(A)≥P(B)

(4) 加法公式：对任意两事件 A 、 B ，有

P(AB) ＝ P(A) ＋ P(B) － P(AB)

该公式可推广到任意 n 个事件 A1 ， A2 ，…， An 的情形；

(3) 互补性： P(A) ＝ 1 － P(A);

(5) 可分性：对任意两事件 A 、 B ，有

P(A) ＝ P(AB) ＋ P(AB ) .

设 A 、 B ， P （ A ） >0, 则

P(AB) ＝ P(A)P(B|A)

就称为事件 A 、 B 的概率乘法公式。

P(B|A)=P(AB)/P(A)

也称：事件 A 发生的条件下事件 B 发生的条件概率

全概率公式

设 A1 ，… , An 是的一个划分，且 P(Ai

)>0 ， (i ＝ 1 ，…， n) ，

则对任何事件 B 有

n

iii ABPAPBP

1

)|()()( ＝

例：有甲乙两个袋子，甲袋中有两个白球， 1个红球，乙袋中有两个红球，一个白球．这六个球手感上不可区别．今从甲袋中任取一球放入乙袋，搅匀后再从乙袋中任取一球，问此球是红球的概率？

解：设 A1——从甲袋放入乙袋的是白球；A2——从甲袋放入乙袋的是红球；B——从乙袋中任取一球是红球；

12

7

3

1

4

3

3

2

2

1)()|()()|()( 2211 APABPAPABPBP

甲乙

贝叶斯公式

设 A1 ，… , An 是 S 的一个划分，

且 P(Ai) > 0 ， (i ＝ 1 ，…， n) ，

则对任何事件 BS ，有

),...,1(,)|()(

)|()()|(

1

njABPAP

ABPAPBAP n

iii

jj

j

后验概率 = ( 相似度 *先验概率 )/ 标准化常量

例：数字通讯过程中，信源发射 0 、 1 两种状态信号，其中发 0 的概率为 0.55 ，发 1的概率为 0.45 。由于信道中存在干扰，在发 0 的时候，接收端分别以概率 0.9 、 0.05和 0.05 接收为 0 、 1 和“不清”。在发 1 的时候，接收端分别以概率 0.85 、 0.05 和0.1 接收为 1 、 0 和“不清”。现接收端接收到一个“ 1” 的信号。问发端发的是 0 的概率是多少 ?

)BA (P ＝)A(P)AB(P)A(P)AB(P

)A(P)AB(P

＝＝ 0.067

解：设 A--- 发射端发射 0 ， B--- 接收端接收到一个“ 1” 的信号．

45.085.055.005.0

55.005.0

0 (0.55)

0 1

不清

(0.9)

(0.05)

(0.05)

1 (0.45)

1 0

不清

(0.85)

(0.05)

(0.1)

贝叶斯 ( 约 1701-1761) Thomas Bayes英国数学家。约 1701 年出生于伦敦，做过神甫。 1742 年成为英国皇家学会会员。 1761 年 4 月 7 日逝世。贝叶斯在数学方面主要研究概率论。他首先将归纳推理法用于概率论基础理论，并创立了贝叶斯统计理论，对于统计决策函数、统计推断、统计的估算等做出了贡献。他死后，理查德·普莱斯 (Richard Price) 于1763 年将他的著作《机会问题的解法》 (An essay towards solving a problem in the doctrine of chances) 寄给了英国皇家学会，对于现代概率论和数理统计产生了重要的影响。贝叶斯的另一著作《机会的学说概论》发表于 1758 年。贝叶斯所采用的许多术语被沿用至今。

-- 百度百科

-- 百度百科

1.5 事件的独立性一、两事件独立

定义 1 设 A 、 B 是两事件， P(A) ≠0, 若

P(B) ＝ P(B|A) (1.5.1)则称事件 A 与 B 相互独立。

式 (1.5.1) 等价于：

P(AB) ＝ P(A)P(B) (1.5.2)

二、多个事件的独立

定义 2 、若三个事件 A 、 B 、 C 满足：

(1) P(AB)=P(A)P(B), P(AC)=P(A)P(C),

P(BC)=P(B)P(C),

则称事件 A 、 B 、 C 两两相互独立；

若在此基础上还满足：

(2) P(ABC) ＝ P(A)P(B)P(C), (1.5.3)

则称事件 A 、 B 、 C 相互独立。

一般地，设 A1 ， A2 ，…， An 是 n 个事件，如果对任意 k (1kn), 任意的 1i1i2 … ik n ，具有等式 P(A i1 A i2 … A ik) ＝ P(A i1)P(A i2)…P(A ik) 则称 n 个事件 A1 ， A2 ，…， An 相互独立。思考

一颗骰子掷 4 次至少得一个六点与两颗骰子掷 24 次至少得一个双六，这两件事，哪一个有更多的机会遇到？答 :0.518,

0.491

第二部分机器学习

机器学习的产生与发展

• 从人工智能（ Artificial Intelligence ）中产生

•得益于计算机性能的大幅提高而长足发展

机器学习• 例子： -- 数据挖掘：处理大数据（如网页点击数据，医疗数据，生物信息

数据等），从大数据中获得有价值的内在规律 -- 无法进行手写的程序：一般程序编程语言无法实现的功能，如自动驾驶汽车，自动直升机（视频），手写程序识别，人脸识别，计算机图形视觉，绝大部分的自然语言处理

-- 自主定制化程序：如 Amazon, 淘宝的商品推荐系统 -- 理解人类学习能力，如人脑

在美国，在一些调查中，最被 IT 公司雇主所期望的 IT技能中，机器学习居首位

机器学习定义• Arthur Samual （ 1959 ） Machine learning ： Field of study that gives computers the ability to learn without being explicitly programmed.

机器学习定义• Tom Mitchell （ 1998 ） Well-posed Learning Problem ： A computer program is said to learn from experience E with respect to some task T and some performance measure P, if its performance on T, as measured by P, improves with experience E.

浅谈机器学习算法• 有监督学习（ Supervised Learning、教師あり学習）• 无监督学习（ Unsupervised Learning、教師なし学習）•另外，还有半监督学习，增强学习，推荐系统等。

x1

x2

有监督学习

数据是有标签的

无监督学习

x1

x2

数据是无标签的

数据： Hi, 这就是我，你能发现一些我的结构上的规律吗？Good Luck!

有监督学习例：估算房产价值

无监督学习例：新闻分类 --Google 新闻

基因

个体

无监督学习例：基因分析

无监督学习其他实例

社交网络分析

市场区隔消费者群组分析

天文数据分析

请说出以下的例子，属于有监督学习还是无监督学习。

•根据已有邮件被标识为垃圾邮件或非垃圾邮件，学习得到一个垃圾邮件过滤器。• 从网上获得一些新闻的文章，将其分组以使得每组新闻叙述的主题

一致。•给定一个消费者数据库，自动发现市场区隔，并根据消费者的消费

特征将消费者划分到不同的市场区隔。•给定一个病人诊断数据集，该数据集记录了病人是否得糖尿病。根据该数据集的病理特征，学习并预测一个新病人是否可能得了糖尿病。

一种有监督学习的机器学习算法：朴素贝叶斯分类

朴素贝叶斯的思想基础是这样的：对于给出的待分类项，求解在此项出现的条件下各个类别出现的概率，哪个最大，就认为此待分类项属于哪个类别。

通俗来说，就好比这么个道理，你在街上看到一个黑人，我问你你猜这哥们哪里来的，你十有八九猜非洲。为什么呢？因为黑人中非洲人的比率最高，当然人家也可能是美洲人或亚洲人，但在没有其它可用信息下，我们会选择条件概率最大的类别，这就是朴素贝叶斯的思想基础。

卧槽（看口型），这都让你猜出来了

那么现在的关键就是如何计算第 3步中的各个条件概率

朴素贝叶斯分类的正式定义

1. 设为一个待分类项，而每个 a 为 x的一个特征属性。

2. 有类别集合。

3. 计算。

4. 如果，则。

},...,,{ 21 maaax

},...,,{ 21 nyyyC

)|(),...,|(),|( 21 xyPxyPxyP n

)}|(),...,|(),|(max{)|( 21 xyPxyPxyPxyP nk kyx

1. 找到一个已知分类的分类集合。这个集合叫做训练样本集。2. 统计得到在各个类别下各个特征属性的条件概率估计。

3. 如果各个特征属性是条件独立的，根据贝叶斯定理

4. 由于分母对于所有类别都为常数，只需要将分子最大化。又因为各特征属性是条件独立的，所以

)|(),...,|(),|(

......

),|(),...,|(),|(

),|(),...,|(),|(

21

22221

11211

nmnn

m

m

yaPyaPyaP

yaPyaPyaP

yaPyaPyaP

)()()|(

)|(xPyPyxP

xyP iii

m

jijiiimiiii yaPyPyPyaPyaPyaPyPyxP

121 )|()()()|()...|()|()()|(

小编：往往这也是朴素贝叶斯分类的一个致命弱点。哎，果然太朴素了。

应用阶段

估计类别下特征属性划分的条件概率及 Laplace校准

计算各个划分的条件概率 P(a|y) 是朴素贝叶斯分类的关键性步骤1. 特征属性为离散值：统计训练样本中各个划分在每个类别中出现的频率2. 特征属性是连续值：通常假定其值服从高斯分布（也称正态分布）

2

2

2

)(

21

)(

x

exf

计算出训练样本中各个类别中此特征项划分的各均值和标准差，代入上述公式即可得到需要的估计值。

当 P(a|y)=0 ，即当某个类别下某个特征项划分没有出现时，引入 Laplace校准：对没类别下所有划分的计数加 1 。

正态分布的密度函数：

关于正态分布

正态分布的前世今生（上，下）• http://www.mysanco.cn/index.php?class=wenku&action=wenku_item&id=106• http://www.mysanco.cn/index.php?class=wenku&action=wenku_item&id=107

“它以一种宁静无形的方式在最野性的混乱中实施严厉的统治。暴民越多，无政府状态越显现，它就统治得越完美。它是无理性世界中的最高法律。” -- 高尔顿

正所谓，”大道至简，大美天成“。 -- 小编

)(2

1)()(

2

2

2

)(

RxdxexFxXPx x

X

朴素贝叶斯分类的应用范例人群分类Query 分类商品分类网页分类垃圾邮件过滤二战中盟军推测纳粹德国潜艇位置寻找失事马航MH370客机

贝叶斯方法在法航事件搜救过程中的应用在 2009 年 6 月 1 日早晨，法航 447航班失事。2010 年 7 月，法国航空事故调查处委任 Metron负责重新检查分析已有的搜救信息，以便绘制一副飞机残骸可能地点的概率分布图。如图所示，概率由大到小的顺序为：红、橙、黄、绿、蓝。

在对高概率区域进行持续一周的搜寻之后，残骸被发现。

随后，飞行数据记录器和驾驶舱语音记录器被找到。

最终确认残骸的位置离图中的概率中心位置并不远。

应用实例根据Wikipedia 上的一个例子 --根据 Training data 推测某个体样本的类别

问题描述 : 通过一些测量的特征，包括身高、体重、脚的尺寸，判定一个人是男性还是女性。

Training Data性别身高 ( 英

尺 )体重 ( 磅 ) 脚的尺寸 ( 英寸 )

男 6 180 12

男 5.92 190 11

男 5.58 170 12

男 5.92 165 10

女 5 100 6

女 5.5 150 8

女 5.42 130 7

女 5.75 150 9

性别身高 ( 英尺 )

体重( 磅 )

脚的尺寸 ( 英寸 )

? 6 130 8

Sample Data

是男是女？

此问题贝叶斯分类算法的思路1. 人的身高，体重，脚的尺寸，其值是连续的，符合连续随机变量的

特征，因此我们将使用连续随机变量的分布特征。如前所述，应认为这些变量各自服从正态分布（身高的正态分布，体重的正态分布，脚的尺寸的正态分布）。

2. 分别计算三个正态分布函数的均值 (mean), 方差 (variance) 。3. 将样本数据 (待推测的个体数据 ) 的身高，体重，脚的尺寸分别代入各自的正态分布函数，计算其在各个分类 ( 男，或女 ) 下的条件概率密度。

4. 计算各个分类下的条件概率密度的乘积，得到其最大值。则取得最大值的那个所在分类，即为样本的推定所属类。

9

3

6

2

)6(

101984.6)()|()|()|(

103112.1)|(

109881.5)|(

5789.12

1)|(

5.0)(

2

2

男男脚的尺寸男体重男身高

男脚的尺寸

男体重

男身高

男

Pfff

f

f

ef

P

4

1

2

1

103778.5)()|()|()|(

108669.2)|(

106789.1)|(

102346.2)|(

5.0)(

女女脚的尺寸女体重女身高

女脚的尺寸

女体重

女身高

女

Pfff

f

f

f

P是女性的概率最大

影响一个贝叶斯分类器错误率的因素(1) 训练集 (Training Data) 的记录数量。(2) 属性的数目。(3) 属性中的信息。(4) 待预测记录的分布。

一种无监督学习的算法： K-means聚类算法K-means 算法是将样本聚类成 K 个簇（ cluster ）打个比方，宇宙中的星星可以表示成三维空间中的点集，把星星聚类后结果是一个个星团，星团里面的点相互距离比较近，星团间的星星距离就比较远了。

K-means聚类算法过程描述：

要将所有的星星聚成 K 个星团，首先随机选取 K 个宇宙中的点（或者K 个星星）作为 K 个星团的质心

1. 对于每一个星星计算其到 K 个质心中每一个的距离，然后选取距离最近的质心。如此，每一个星星都有了所属的星团。

2. 对于每一个星团，重新计算它的质心（对里面所有的星星坐标求平均）。重复迭代第一步和第二步直到质心不变或者变化很小。

缺点：必须事先给出 K （要生成的簇的数目）；当存在“噪音”和孤立点数据时，容易被极端数据影响。

推演过程示例

K-means聚类算法•输入： - K （簇的数量） - 训练数据集（ Training Set ） :

惯例上除去

}...,,{ )()3()2()1( mxxxx

nix R)( )0(x

K-means聚类算法• 随机初始化 K 个簇的质心：•循环处理 while 收敛 { for i = 1 to m := 距离最近的簇的质心的索引（ 1 to K ）

for k = 1 to K := 从属于索引为 k 的簇中所有样本的平均值}

nK R ,...,, 321

)(ic )(ix

k

k

身高

体重

给不同人群设计 T恤衫的尺寸（ S, M, L）

两种分类器的学习方式的不同• 朴素贝叶斯分类：无监督学习 (Unsupervised learning)• K-Means 分类：有监督学习 (Supervised learning)

另一种有监督学习算法 -- 线性回归

某地房产价格

价格（万）

面积（平米）

有监督学习每一个样本点都是一个正确的答案

回归问题预测输出值

Notation:

m = 训练数据的数量 x’s = 输入变量 / 特征 y’s = 输出变量 / 目标变量

面积平米 (x) 价格 (y)

2104 460

1416 232

1534 315

852 178

… …

房价的训练数据

训练数据集

学习算法

h房产面积估计价格

假设 :

参数 :

成本函数 :

目标 :

单变量线性回归，类似于统计学的线性回归

参数可用梯度下降（ Gradient Descent ）的方法求得

机器学习的主要算法• Regression( 回归分析 )• Instance based learning( 基于实例的学习 )• Decision tree methods( 决策树方法 )• Bayesian method( 贝叶斯方法 )• Kernel Method(核方法 )• Clustering(聚类 ) 如 K-Means• Association rule learning(联合规则学习 )• Artificial Neural Networks( 人工神经网络 )• Deep Learning(深度学习 )• Dimensionality Reduction(维度缩减 )• Ensemble methods( 组合方法 )

视频• Stanford Autonomous Helicopter - Airshow• The Duel: Timo Boll vs. KUKA Robot

机器学习，数据挖掘领域华人权威学者吴恩达（ Andrew Ng ）人工智能和机器学习领域国际上最权威的学者之一 , 也是在线教育平台 Coursera 的联合创始人。

·卡内基梅隆大学的计算机科学学士学位·麻省理工学院的硕士学位·加州大学伯克利分校的博士学位· 2010 年谷歌开发团队 XLab· Google Brain 计划· 2014 年 5 月 16 日，百度宣布吴恩达加入百度，担任百度公司首席科学家 (Baidu Brain 计划 )

研究领域：机器学习和人工智能，研究重点是深度学习（ Deep Learning ）

机器学习，数据挖掘领域华人权威学者韩家炜美国伊利诺伊大学香槟分校计算机系正教授， IEEE 和 ACM院士，美国信息网络学术研究中心主任。

·中国科学与技术大学计算机科学系·中科院研究生院·美国威斯康辛大学计算机系博士毕业

著作：Data Mining: Concepts and Techniques （数据挖掘：概念与技术），为数据挖掘界公认的经典教材

研究方向：数据挖掘（ Data Mining ）

机器学习，数据挖掘领域华人权威学者余凯百度深度学习研究院 (IDL) 常务副院长，第九批 " 千人计划“国家特聘专家，知名机器学习专家。

·南京大学·德国慕尼黑大学获得计算机博士学位·美国 NEC 研究院Media Analytics部门主管·西门子公司数据挖掘部门高级研究员·曾任百度公司的技术副总监

研究方向：机器学习、图像识别、多媒体检索、视频监控，以及数据挖掘和人机

交互等人工智能领域

推荐书目

• 电子书： Introduction To Machine Learning (MTI, Purdue) The Elements of Statistical Learning -- Data Mining, Inference, and Prediction

23/4/14

谢谢！

感谢您的聆听！

Technology

Probability, statistics & machine learning(china soft tokyo)