富数据信息处理 -...

Preview:

Citation preview

富数据信息处理

清华大学计算机系

智能技术与系统国家重点实验室

马少平

大数据价值丰富

大数据价值稀疏

大数据杂乱

富饶而又贫瘠的资源

大数据的特点

数据多

内容多

涉及广泛

只能从某个角度分析、处理

结论可能多样

大数据之盲人摸象

“大数据不关心因果关系,只关心相关关系”

是不关心,还是不得已而为之?

先发现相关,再探究因果

相关与因果

如果有了时序信息,是否可以部分解决类似问题?

对于偶然因素引起的相关,引入不同角度的数据,是否可以消除?

多方面相关是否更趋近于因果?

一个设想

多信息

多模态

多角度

多验证

原始数据

提取数据

加工数据

富数据

事件

社交 新闻 现场 位置 ……

时间

地点 内容

原因

Google的感冒预测

虚假相关性

举例:流行病预测

数据源:

搜索引擎

社交媒体

新闻媒体

专业网站

特点:

自动选择特征

考虑新闻媒体的反馈作用

先验知识

我们的方法

荨麻疹病预测

肺结核病预测

基本假设:

注视 = 检验

发呆现象

扫视现象

非内容因素的影响

位置

网站的权威性

……

举例:点击模型

富数据分析 点击

位置

鼠标

眼动

展示(垂直,广告)

相关内容的相互影响

专家程度

查询类型

结果质量

满意度

我们的方法

请各位批评指正!

Welcome to visit our homepage

http://www.thuir.org/

Thank you

Recommended