26
挺挺挺挺挺 挺挺 挺挺挺

挺有意思的统计学

Embed Size (px)

DESCRIPTION

挺有意思的统计学. 吴天双. 什么是统计学?. 韦伯斯特词典:数学的一个分支,用于收集、分析、解释和表现数据的一门科学。 起源:源于拉丁语 Status 分 支:概率论,数理统计,生物统计,物理统计,计量经济学,因果推断,等等等等 应 用:小到家庭记账,中到企业规划,大到国家预算,统计学无处不在。. 第一章:解释一些我们耳熟能详的名词. 随机变量( Random variable) :在 ( Ω , H ,P) 的度量空间内对于 H 可测的方程。 呵呵,炫吧 你可以理解为,一种实验,他有有限或无限种可能的结果。 - PowerPoint PPT Presentation

Citation preview

Page 1: 挺有意思的统计学

挺有意思的统计学吴天双

Page 2: 挺有意思的统计学

什么是统计学?• 韦伯斯特词典:数学的一个分支,用于收集、分析、解释和表现

数据的一门科学。• 起源:源于拉丁语 Status• 分支:概率论,数理统计,生物统计,物理统计,计量经济学,

因果推断,等等等等• 应用:小到家庭记账,中到企业规划,大到国家预算,统计学无

处不在。

Page 3: 挺有意思的统计学

第一章:解释一些我们耳熟能详的名词• 随机变量( Random variable) :在 (Ω , H ,P) 的度量空间内对于 H 可测的方程。 呵呵,炫吧你可以理解为,一种实验,他有有限或无限种可能的结果。• 数学期望( Expectation ):在 (Ω , H ,P) 度量空间内,某个随机变量的某个方程关于

他对应的有限测度的积分。• 方差( Variance ):在此空间内某随机变量中心化后的平方在他对应的有限测度下的

积分。 呵呵,酷吧你可以理解为,如果同样的实验无数次发生,他们的平均值就是他的数学期望。(请注意,期望值可能不等于任何可能的取值)他们距离平均值的平均距离的平方就是他的方差。• 概率( Probability) : 某示性函数关于某个有限测度的积分。 呵呵, Der 吧你可以理解为,如果同样的实验无数次发生,发生某个特定事件的频率。(所以取值在 0 和 1 之间)

Page 4: 挺有意思的统计学

关于概率和期望的大众误解• 只按照可能性,均匀分配(反正结果就是成和不成,一半对一

半)• 搞不清统计的对象(飞机和火车谁安全?加速过十字路口么?)• 愚蠢的统计学教授带炸弹上飞机的问题:如何解释他错在哪。• 概率和期望只在渐进意义下有决定性作用,否则,只是指导性作

用。(例子:买彩票和赌博,当然,这里也有很多经济学因素)• 概率和期望是对未发生事件的刻画,因此只对未来的事情有指导

性。对于已经发生但是仅仅你不知道结果的事件,很多时候没有指导性。

Page 5: 挺有意思的统计学

条件期望与条件概率• 如果 (Ω , H ,P) 是概率空间, F 是 H 的一个西格玛子代数, X

是一个 H 可测的随机变量,则称已知 F 下 f(X) 的条件期望,为f(X) 在 H 对于 F 投影空间的期望。条件概率同理。

碉堡了!• 你可以理解为,如果同样的实验无数次发生,去掉那些不符合已

知事件的实验后,某种事件的平均值或频率。

Page 6: 挺有意思的统计学

独立与不相关• 如果对于任意方程 f, 都有: f(X) 在已知 Y 的条件期望等于 f(X) 的

条件期望,则称变量 X 与 Y 独立。• 你可以理解为, Y 的信息对于刻画 X 没有任何帮助。• 例子:我扔的骰子的结果与你扔的骰子的结果。• 如果 XY 的期望等于 X 的期望乘以 Y 的期望,则称 X 于 Y (线性)

不相关。• 你可以理解为,总体上, Y 对于 X 没有影响。• 例子:风向与跑步

Page 7: 挺有意思的统计学

条件独立( Conditional Independence )• 例 1 :甲乙各扔一枚硬币,显然二人硬币的结果独立。• 例 2 :甲乙先后扔同一枚硬币,若不确定硬币正反面等概率出现,

则此时二人硬币结果不独立。• 例 3 : 假设另一变量 C 为硬币向上的概率。此时,如果已知 C ,

则二人硬币结果关于 C 条件独立。

Page 8: 挺有意思的统计学

关于独立性的笑话•本来是不相关的,你非去搞条件概率(福利彩票的历史走势图)•本来都不是随机变量,非得去算概率•本来是相关的,你非去当做独立事件(屌丝连续表白)•右代宫缘寿选蛋糕问题(你让小学生去搞条件概率么)

Page 9: 挺有意思的统计学

随机变量简介,离散篇• 均匀分布:两点(硬币),多点(骰子,俄罗斯轮盘)•泊松分布:刻画某段时间内某独立事件发生的次数•几何分布:独立事件成功需要的次数•二项分布:多次两点分布的总和•习题:主持人换羊问题,四张扑克选两张同色异色问题,邮票收

集问题

Page 10: 挺有意思的统计学

随机变量简介:连续篇• 均匀分布:区间上随便戳一个点• 指数分布:一台电扇的寿命(无记忆性?)• 正态分布:钟形曲线,统计学里最重要的分布,又称高斯分布•威沙特分布,伽马分布,贝塔分布,等等等等

Page 11: 挺有意思的统计学

重要定理• 大数律:同样的、独立的实验不断重复,结果 的均值一定存在极限,而且这个极限就是这个 实验的数学期望。(应用:蒙特卡罗法,布丰 投针)

• 中心极限定理:同样的、独立的实验不断重复,结果的均值减去实验的数学期望,再乘以试验次数的平方根,趋近于一个正态分布。(应用:渐进置信区间估计)

Page 12: 挺有意思的统计学

第二章:统计的应用•估计( Estimation )•点估计( Point Estimator ):骰子正面的概率,全中国人的平均身高,某品牌电灯泡的平均寿命。• 方法:最小二乘( Least Square ),最大似然( Maximum

Likelihood )。•区间估计( Interval Estimation ):以上参数( parameter )的可信取值范围。• 所谓置信区间( Confidence Interval )如何去理解?• 频率论者( Frequentist ) Vs贝叶斯派( Bayesian )

Page 13: 挺有意思的统计学

•假设检验( Hypothesis Testing )• 一种在某种置信程度上判别一个论断( Statement )是否正确的

方法。•构成:原假设( Null Hypothesis ),备选假设( Alternative

Hypothesis ),统计量( Statistics ),置信等级( Confidence Level ,最常选取的值是 0.05 )。•流程:如果原假设正确,则所选统计量服从某分布,在这个分布

下,统计量实际的取值是否在“合理”的范围。•衍生: p-value ,你可以理解为,在原假设正确的前提下,统计

量出现比观测值更“歪”的概率。

Page 14: 挺有意思的统计学

假设检验的例子• 有人给你一袋球共一千个。已知其中不是红色就是白色。此人声

称里面红白各五百个。你为了验证,有放回地取了十次,结果是九次红球,一次白球。问:此人的声称靠谱么?•每次取出的球的颜色可以视为两点分布,假设取到红球的概率为

p ,则取到白球的概率为 1-p 。•原假设: p=0.5;备选假设 : p≠0.5 。统计量:十次球里红色球的

数量 N 。在原假设下, N服从参数为 (p,10) 的二项分布。取到比观测值更“歪”的情况有四种,总概率 p≈0.02 。• 结论:在 95%置信等级下,我们拒绝原假设。• 不要滥用(多次假设检验找显著)

Page 15: 挺有意思的统计学

方差分析( ANOVA )•目的:用来鉴别来自不同组的数据是否有本质区别•举例:五种饲料,每种喂 100 只鸡。半年后得到这 500 只鸡的体重。我们希望知道这五种饲料的效果是不是一样的,以及如果不一样,哪种更好。•原假设:所有的鸡的体重的期望相同。备选假设:不同组的鸡的体重的期望不同。•基本思想:检查组间方差( between group variance )与组内方差

( within group variance )的比值。

Page 16: 挺有意思的统计学

线性回归 ( Linear Regression )• 应用十分广泛,每当你不确定用什么模型的时候,就用线性模型

吧。 (All models are wrong, some are useful —— Cox)•模型假设因变量 Y 与一些自变量是线性关系• +…++• 可以用来解释和预测•即使原模型不是线性的,很多时候也可以通过变换转变成线性模型• 大家试试

Page 17: 挺有意思的统计学

实验设计•目的:找到与感兴趣目标关联最大的变量•举例:为了科学养鸡,牛厂长采用了一系列新措施:科学鸡饲料,

科学鸡舍,健美体操等。为了辨别哪个有用哪个仅仅是他的恶趣味而已,对于鸡们采取随机分组。•基本思想:比较实验组( Case )和对照组( Control )的结果。

Page 18: 挺有意思的统计学

统计学里最大最普遍的错误:偏差( Bias )• 收集数据的 Bias :数据有时不具有代表性(用抽样的 2000 个北京市人口的身高和收入去估计全国人民的身高和收入),健身计划后只调查坚持下来的人。• 分析数据的 Bias :缺失值的处理,单向缺失值的处理• 解释数据的 Bias :用“巧妙”的方法去扭曲数据的特性(蝾螈法)

Page 19: 挺有意思的统计学

第三章:因果推断( Causal Inference )• 相关不等于因果关系: Correlation doesn’t mean causality• 因果推断在相关性研究的基础上,注重研究哪个变量如何导致另

一个变量的分布改变。•举例:多吃水果和好皮肤是正相关,你可以通过多吃水果来改善皮肤,但是你不能通过改善皮肤来使自己吃更多的水果。•优点:你永远有 Topic 可以研究•缺点:即使很显著,很多人不信,你也没招。•举例:吸烟对于肺癌的影响,至今没有定论,尽管吸烟人群里肺癌发病率三十倍于非烟民。为毛呢?请看下一页

Page 20: 挺有意思的统计学

因果推断大招:混杂( confounder )• 一个未观测的变量同时影响着两个变量,使得这两个变量看上去

是相关的,但是相互没有因果关系,这个未观测的变量就叫混杂。•举例:很可能有一种未观测到的东西(比如某种基因)同时导致

了人喜欢吸烟和容易得肺癌。如果是这样,那么即使戒烟,也不能减小得肺癌的概率。•类似例子:某商场的冰淇淋销量和泳装销量明显呈正相关。但冰淇淋卖的多显然不是泳装卖的多的原因。•原因:夏天来了是二者销量增加的共同原因。• 所有观测性实验( Observational Study )都可能有混杂。

Page 21: 挺有意思的统计学

最好的检验因果的方法:随机实验( Randomized Trail )• 为了检验 X 对于 Y 是否有影响,随机让一半的人取 X=0 ,另一半

取 X=1 。最后检查这两组的区别。• 为了减少误差,一般采取双盲( Double Blind )。•最大的问题:伦理( Ethic ),你也不想当 731 吧。• 很显然,为了研究吸烟对于肺癌的危害,你不能强迫不吸烟的人

去吸烟。• 关于吸烟,比较好的方法是找同卵双生的双胞胎若干对,一个抽

一个不抽,去对比。但也会伴随其他问题。•其他实验设计:半随机实验,观测性实验,各有优缺点。•举例:养宠物对于老年人降血压的影响• 下面请看一组抵制吃面包的统计数据,大家看看每条有啥问题:

Page 22: 挺有意思的统计学

• 一、 98% 的犯罪者吃过面包。•二、平时吃面包的儿童,有大概一半人成绩在平均分以下。•三、 90% 的暴力犯罪,都是在当事人吃完面包 24 小时内发生的。•四、面包会引起成瘾的中毒症状。美国科学家给 100 名罪犯吃面包、喝水一周之后,再喂水两天,100 名罪犯都表现出对面包强烈的渴求欲望。•五、给婴儿喂面包,婴儿会表现的喉部很痛苦。•六、 18世纪的英国,家家户户都会做面包 那时候平均寿命只有

55岁。•七、吃面包的美国人中,几乎没有人发表过什么重大的科研成果。•八、给 100 名实验对象每人发一个面包,让他们共同生活两个月,

只有一个人生存了下来。

Page 23: 挺有意思的统计学

辛普森悖论•即使仅仅是相关性研究,也要注意此悖论。•举例:孙文博和牛帅比较 Dota水平,各找 不同人打 100场中单。孙文博先和 20 个高手 单挑,赢 1场;再和 80 个庸手单挑,赢 40场。 牛帅先和 80 个高手单挑赢 8场;再和 20 个庸手单挑全胜。 总胜率:孙文博 41% ,牛帅 28% 谁更牛逼呢?

Page 24: 挺有意思的统计学

辛普森悖论原因:不同人群比例不同•类似于上一页的 Dota比赛,我们假设现在的实验是考虑吸烟与肺病的关系。下图m/n 表示 n 个人里 m 个人得肺病。

•吸烟人群里的肺病比例更少耶!大家抽个痛!

男 女 肺病比例

吸烟 8/80 20/20 28%

不吸烟 1/20 40/80 41%

Page 25: 挺有意思的统计学

• 解决方法:对于占总体少数比例的样本加以更高的权重,也就是“逆概加权”( Inverse probability weighting )•依旧是上面吸烟的例子,对于每个子群体加权,权重为该子群体

在总群体里出现的概率的倒数。

加权前 男 女 肺病比例

吸烟 8/80 20/20 28%

不吸烟 1/20 40/80 41%

加权后 男 女 肺病比例

吸烟 8/80 80/80 55%

不吸烟 4/80 40/80 27.5%

Page 26: 挺有意思的统计学

• 谢谢大家