16
基基基基基基基基基基基基基 基基基 基基 基基基基 基基

基于网页浏览的兴趣行为研究

Embed Size (px)

DESCRIPTION

基于网页浏览的兴趣行为研究. 主讲人:米雪 指导老师:张宁. 摘要. 通过研究某高校访问互联网的真实记录,深入挖掘人们上网行为的特征,统计群体用户访问所有网站和单个网站的时间间隔分布,并选择 8 个典型网站和 5 个典型用户,从群体和个体两个层面上比较用户访问不同网站的行为规律特征。结果显示网页浏览行为具有明显的规律性,且不同层面的用户访问不同类型的网站的时间间隔的幂指数表现出了明显的差异。. 数据来源. - PowerPoint PPT Presentation

Citation preview

基于网页浏览的兴趣行为研究

主讲人:米雪 指导老师:张宁

摘要 通过研究某高校访问互联网的真实记

录,深入挖掘人们上网行为的特征,统计群体用户访问所有网站和单个网站的时间间隔分布,并选择 8 个典型网站和 5 个典型用户,从群体和个体两个层面上比较用户访问不同网站的行为规律特征。结果显示网页浏览行为具有明显的规律性,且不同层面的用户访问不同类型的网站的时间间隔的幂指数表现出了明显的差异。

数据来源

本文研究的数据来自国内某高校局域网内师生访问互联网的记录,时间跨度为半个月。统计表明该高校在观测期内一共访问的主站数量为 82,153 个,平均每天的访问 用 户 有 2,631 个 , 平 均 每 天 会 发 出1,510,381 个访问请求,较大的数据量足以反映真实的统计规律。

图 1 表示一周中各个时刻的网页访问量(时间单位为小时,每种颜色代表一天)

图 2 表示群体用户对所有网站的访问量拟合的幂指数为 -1.55 。从群体用户的角度看,人们对网站访问的选择具有幂律特性,即对少数网站有大量的访问量,同时对大多数网站则偶尔才会光顾。

表 1 列出了总体访问量前 20 名的网站

排名 网站域名 访问量(次) 累积概率(%) 1 baidu.com 2791874 0. 223

2 doubleclick.net 1094597 0. 310

3 kaixin001.com 910702 0. 383

4 google.cn 809742 0. 447

5 qq.com 757484 0. 508

6 youdao.com 699653 0. 563

7 microsoft.com 586231 0. 610

8 cnzz.com 530979 0. 653

9 sogou.com 510085 0. 693

10 usst.edu.cn 459955 0. 730

11 taobao.com 442415 0. 765

12 iciba.com 435470 0. 800

13 sina.com.cn 417908 0. 833

14 wanfangdata.com.cn 399501 0. 865

15 163.com 345189 0. 893

16 fetion.com.cn 340012 0. 920

17 sohu.com 315406 0. 945

18 alimama.com 265333 0. 966

19 youku.com 213839 0. 983

20 51.la 211478 1. 000

网页浏览的兴趣行为分析

排队系统中的等待时间分布是标志动力学的中心标量,很大程度上取决于任务到达和服务的随机过程,特别是任务到达和服务的时间间隔分布。同理,人类活动中的时间间隔分布也是人类动力学的研究的重中之重。

根据是否有明确的信息获取目的将用户的访问行为分为两类,一类为兴趣驱动行为,另一类为任务驱动行为,两种行为下访问的网站分别称之为兴趣类网站和任务类网站。

( 一 ) 群 体 用 户 访 问 特 定 网 站 的 时 间 间 隔

图 3 群体用户访问四个典型兴趣类网站的时间间隔分布

图 4 群体用户访问四个典型任务类网站的时间间隔分布

表 2 表示的是各个网站的时间间隔的幂指数与加权平均值:

网站 幂指数 平均时 间间隔

网站 幂指数 平均时 间间隔

淘宝网 2. 60 3. 60s 应届生 2. 44 11. 3s

优酷网 2. 56 6. 60s 有道 2. 23 3. 31s

人人网 2. 52 7. 40s 万方 2. 03 8. 40s

开心网 2. 32 2. 22s 丁丁网 1. 99 31. 1s

平均值 2. 50 4. 96s 平均值 2. 17 13. 53s

显然,平均幂指数越大平均时间间隔就越短。从理论上解释,幂指数越大,双对数坐标下的图形就越陡,数据点更倾向于在图形左边即时间间隔数值较小的区域集中,时间间隔的均值必然越小。

(二)个体用户访问特定网站的时间间隔

统计每个用户访问量排前 20 的名的网站,再从每个用户访问最多的 20 个网站中分别选择排名第一、第十和最后一位的网站统计访问的时间间隔,求出的幂指数归纳如下表:

用户编号 第一名网站 第十名网站 第二十名网站

1 1.28 1.13 1.10

2 1.09 0.80 0.73

3 1.75 1.45 1.11

4 1.85 1.24 0.93

5 1.73 1.10 1.07

与表 2 相比,个体用户的幂指数小于群体用户。

如图 5 所示,个体用户访问单个网站的时间间隔服从幂律分布。可见在个体层面上也存在这样的规律即访问的兴趣越大,幂指数也越大。

结论与讨论1 从群体和个体两个层面分析了用户访问群

体网站和单个网站的时间间隔,发现人们的网页浏览行为都服从幂律分布,幂指数和网站类型、访问频率有着密切的关系。

2 访问兴趣驱动的网站的时间间隔的幂指数大于访问任务驱动的网站的时间间隔的幂指数。

3 平均幂指数越大平均时间间隔就越短。

研究的不足和展望

种种迹象暗示,将人类行为分为任务驱动类型和兴趣驱动类型是可行的,但是暂时还难以得到一个定量的分类标准,并且由于现在网站的功能和内容越来越多,也给分类带来了困难。另外,人们上网行为中的短期兴趣和长期兴趣的关系还有待继续挖掘。

谢谢