42
复复复复复复 2014.06.21

Introduction to Complex Network

Embed Size (px)

Citation preview

复杂网络介绍

2014.06.21

Why networks It is universal language for describing

data Networks from science, nature and technology are

more similar than one would expect. Network analysis techniques in other fields, such as

social networks, have developed for long time, which can be applied in economic network.

Shared vocabulary between fields Computer science, physics, social science, economic,

statistics, biology. It could deal with special problems.

Information propagation Community detection with links relations. Link prediction, viral marketing, etc.

复杂网络的定义 定义

具有自组织、自相似、吸引子、小世界、无标度中部分或全部性质的网络称为复杂网络。 原则上,任何包含大量组成单元的复杂系统,当把构成单元抽象成节点,单元之间的相互作用抽象为边时,都可以当做复杂网络来研究。

与图的关系 复杂网络是一种图结构,并同时具有非平常的拓扑特征。 随机图和点阵 (lattices)属于图结构,但不属于复杂网络。

复杂网络的特性 绝大多数实际的复杂网络的复杂性主要体现在

网络规模庞大; 连接结构复杂:连接结构并非随机,也非规则连接,具有内在的自组织性; 节点的复杂性:如节点可具有多种类型; 网络动态演化过程复杂; 网络较稀疏; 小世界特性; 无标度特性:节点的度分布具有幂指数函数的规律; 超家族特性;

复杂网络分析与风险管理 由于金融系统中存在诸多网络,故在金融风险管理中,可从这些网络分析入手。

评估金融网络的稳定性,并对潜在的危机进行预警; (网络稳定性分析 ) 对金融风险的传播模式进行分析,并有针对性的控制危机蔓延; (网络的信息传播模型和重要节点发现 ) 评估同一行业内或某些区域经济的风险集中度; (网络聚类和网络稳定性分析 ) 评估节点受其他节点的风险的影响程度,帮助信贷机构做出决策;

大纲 1. 复杂网络的基本测度介绍 2. 网络聚类算法 (社团发现 ) 3. 重要节点发现 4. 网络的信息传播机制

1. 复杂网络的基本测度介绍 1.1 平均距离与直径 1.2 小世界特性 1.3 集聚系数 1.4 节点的度分布 1.5 匹配特性 1.6 介数 1.7 节点中心性

1.1 平均距离与直径 最短路径

描述在复杂网络中,两个节点之间最短的连通路径上节点的数目。 在担保网络中,即:若一个节点违约,则通过至少多少步传播,可以传染到另外一个节点。

平均距离 所有最短路径的平均距离。 对网络的整体衡量。

直径 所有最短距离中的最大值。

1.2 小世界特性 特征

很小的平均路径长度; 很高的集聚系数; 即:网络中的任意两个节点,可以通过很短的路径相互到达。 如:社会网络的六度分割理论 (任意两个人可以通过六个人而相互认识 )

董事会网络 Martin Conyon(2006)等构建了美国上市公司之间形成的董事会成员网络,经过分析,他得出:美国的董事会成员网络符合小世界模型,该网络的平均路径长度为 4.32,聚类系数为 0.556。

银行间系统网络 Michael Boss(2004)等构建了澳大利亚的银行间系统网络,并经过分析,也得出了该网络为小世界网络的结论。

1.3 集聚系数 集聚系数

对于一个节点,衡量它的朋友的朋友,仍然是它的朋友的比例。 担保网络中:为节点 v 提供担保的两家公司之间,也存在担保关系。

平均集聚系数 网络中,与同一个节点连接的两节点之间也相互连接的平均概率。

1.4 节点的度分布 衡量网络中节点的度的分布情况 Michael Boss等 (2004)经过研究证明,在由银行间市场形成的网络中,节点的度服从幂律分布;

这一特征表明,在银行间系统网络中,存在一部分度较大的节点;而大部分节点的度则较小。

1.5 匹配特性 描述网络中度大的节点和度小的节点之间的连接关系;

同配性 (assortativity)是指度较大的节点倾向于连接其他度数大的节点; 异配型 (disassortativity)是指度较大的节点倾向于连接度较小的节点。

1.5 匹配特性 董事会网络

Martin Conyon等人发现,董事会成员网络具有同配性,即度较大的节点倾向于连接度较大的节点;而当节点度数过大时,则该节点所连接的节点亦有许多度数较小的节点。

1.6 介数 节点介数

节点 v的介数是:网络中所有最短路径中,经过该节点的数量比例; 节点 v的介数越大,说明该节点在网络中越重要。 在担保网络中,介数较大的节点,应给予关注。

边的介数 边 e的介数是:网络中所有最短路径中,经过该边的数量比例; 边 e的介数越大,说明这条边在网络中越重要。

介数与度分布 节点的介数与度之间有很强的相关性

1.7 节点中心性 中心性反映了网络中各节点的相对重要性,包括:

度中心性 (度越大的节点,度中心性越大 ) 介数中心性 (如 1.6介绍 ) 接近度中心性 特征向量中心性

大纲 1. 复杂网络的基本测度介绍 2. 网络聚类算法 3. 重要节点发现 4. 网络的信息传播机制

2. 网络聚类算法 金融领域应用的动机

聚类分析是其他分析的基础,可将研究对象分为若干内部相似的聚类,然后对每个聚类进行针对性的分析,同时可以促进分布式环境下的并行处理。 最优投资组合构建:将表现类似的公司股票划归同一类,在构建投资组合时即可从这一类中,挑选若干股票即可。 建立指数跟踪 担保网络中:发现连接紧密的担保企业,进行针对性的分析。

2. 网络聚类算法 社团定义

强调局部的定义:使各社团之间的边尽可能少,社团内部的边尽可能多。 传统聚类算法,如基于图分割、谱平分法等,均基于这个思想。

强调整体的定义:划分社团的结果,使得某个评估值最大,如模块度函数 由 Newman等人提出,一种新的聚类思想; 目前衍生很多基于模块度函数的聚类算法。

2. 网络聚类算法 2.1 传统方法

基于图分割的算法 Kernighan – Lin 算法 谱平分法

2.2 分裂算法 2.3 基于模块度的算法

模块度定义 Newman 快速算法 Louvain method 基于模块度的算法的局限性 改进措施

2.1 传统方法 – 基于图分割的算法 Kernighan – Lin 算法

增益函数 Q:社团内部的边数减去连接社团之间的边数的差值。 试探优化法:采用贪婪算法原理。 算法过程:

将网络中的节点随机划分到两个固定大小的社团; 计算这两个社团中任两个节点的交换所带来的增益函数的变化值; 选取最大的两个节点,并交换它们所在的社团; 重复执行第二步和第三步,直至每一个节点都被交换过。 对分割好的社团执行第一步,直至将原始网络分为用户指定的数目的社团。

2.1 传统方法 – 基于图分割的算法 谱平分法

基本思想:根据网络的拉普拉斯矩阵的第二小特征值将网络中的节点分为两个社团。 网络的拉普拉斯矩阵:。其中是对角线元素为各节点度的对角矩阵, 为网络的邻接矩阵。由定义可知:

2.2 分裂算法 分裂算法的基本思想

通过对边的某些属性的分析,区分社团内部的边和社团之间的边的不同;然后通过删除社团之间的边,对网络进行分类。 主要的分裂算法:

Girvan-Newman算法; 边集聚系数法。

2.2 分裂算法 Girvan-Newman算法

基本思想 依据边不属于社团内的程度逐步把不属于任何社团的边删除,直到把所有的边都删除。 删除的依据是边的介数,边介数定义为网络中经过该边的最短路径的数目。

边集聚算法 基本思想

通过计算每条边的集聚系数,区分社团内的边和社团之间的边。 边 i的集聚系数为实际包括该边的三角形的数目与所有可能包括该边的三角形的数目之比。即:

2.3 基于模块度的算法 模块度的定义

模块性:

2.3 基于模块度的算法 Newman 快速算法

基本思想:基于贪婪算法,从每个节点各占据一个社团开始,沿着使网络模块性增加最大或减少最小的方向不断合并社团,期望得到最大的网络模块性,从而获得社团划分结果。 对于稀疏网络,该算法的时间复杂度为。

2.3 基于模块度的算法 Louvain Method

动机:随着网络的日益增大,传统的聚类算法,包括Newman 快速算法等,其时间复杂度已经到了不可接受的程度。故需要新的聚类算法,能够快速对网络进行聚类。故Blondel等 (2008) 提出了 Louvain method算法。

基本思想:基于贪婪算法,从每个节点各占据一个社团开始,沿着使网络模块性增加最大的方向不断合并社团,期望得到整个网络的最大模块度。 与 Newman 快速算法不同,在每一轮合并结束后,要对网络进行重组。该重组的过程直接决定了 Louvain method的运行效率,从而实现了网络的快速聚类。

2.3 基于模块度的算法 Louvain Method

网络重组的过程:

2.3 基于模块度的算法 Louvain Method特点

优点 具有很低的时间复杂度,实验证明,对具有 1.18 亿节点的网络进行聚类,该算法只需 152分钟。 聚类结果具有较高的准确率。

缺点 Louvain method是基于优化模块度的聚类算法,而基于模块度的聚类算法有一个共有的缺点:该类算法对社团的分辨率有限制,它难以发现规模偏小或偏大的社团。

大纲 1. 复杂网络的基本测度介绍 2. 网络聚类算法 3. 重要节点发现 4. 网络的信息传播机制

3. 重要节点发现 引言

在金融网络中,重要节点的发现有助于监管机构重点监管某些重要的金融主体的状态,以便对可能的系统风险等进行预防控制。同时,在危机发生后,亦可根据节点对风险传播的重要性,有针对性的对节点进行免疫。 例子:假设下的被监管的温州担保网络。 目前重要节点发现的研究在社会网络和信息网络中很多,金融网络中的研究尚少,这与金融数据的难以获取息息相关。

3. 重要节点发现 3.1 重要节点挖掘研究现状 3.2 HITS算法 3.3 PageRank算法 3.4 节点重要性与网络聚类

重要节点在聚类中的应用 吸引力传播算法 代表节点与重要性节点比较

3.1 重要节点挖掘研究现状 评价网络的节点的重要性,目前主要有三个方面的研究:

社会网络分析领域 该领域的学者认为,节点的重要性等价于该节点与其他节点的连接而使其具有的显著性,如节点的度、节点的介数等节点属性。

系统科学领域 系统科学领域主要是通过评估在删除某节点后对网络连通性带来的破坏程度,来反映该节点的重要性。即:影响程度等价于重要性。

计算机科学领域 该领域主要集中在 Internet 搜索领域,最具代表性的算法有 PageRank算法和 HITS算法。

3.2 HITS算法 基本思想:

Internet网络中每个页面的重要性有两个刻画指标,分别是权威性和枢纽性。 一般来说,一个页面的权威性由指向该页面的其他页面的枢纽值决定。如果一个页面被多个具有高枢纽值的页面引用,那么该页面就具有较高的权威值。 另一方面,一个页面的枢纽值由它指向的页面的权威值决定。如果一个页面指向多个具有高权威值的页面,那该页面将具有较高的枢纽值。 通过赋予网络中每个节点初始的权威值和枢纽值,然后重复迭代直至收敛,即可对整个网络节点进行排名。

3.3 PageRank算法 基本思想:

根据每个网页的链入连接数对它们进行相关性分配:当网页有一个链接指向网页时,就认为网页获得了一定的分数,该分数的多少取决于网页的重要程度,即网页的重要性越大,网页获得的分数就越高。 由于 Internet上的页面相互连接,该分值的计算过程是一个迭代过程。算法收敛后所有索引到的页面将按照所得的分数进行排序并将结果返回给用户。

3.4 节点重要性与网络聚类 重要节点在聚类中的应用

K-centers聚类算法: 在所有点中,迭代寻找 K个中心点作为每个聚类的中心。 该算法对初始的 K个中心点的设定很敏感,通常需要运行多次该算法,来保证算法的准确性。 需要设定最终的聚类数目。

K-means算法: 该算法的中心点是一个形心,并非实际存在的点。 需要设定最终的聚类数目

是否可以设计一个对中心点初始设定不敏感的聚类算法,且可以自动获取最优的聚类数目? Brendan等人提出了基于消息传递的吸引力传播算法,有效的解决了上述问题。

3.4 节点重要性与网络聚类 吸引力传播算法

每个节点均有一定的概率作为其他节点的代表节点。 该算法不需要预先设定聚类的最终数目,而由设置的每个节点作为代表点的初始概率所决定。 该算法基于消息传播机制。对于每一对节点 ,,有隶属度和普适度两类消息。通过迭代的在网络中传递消息,最终获取每个节点作为其他节点的代表节点的可能性。 隶属度和普适度的更新规则:

3.4 节点重要性与网络聚类 聚类中的代表节点与重要性节点比较

传统的重要性节点,允许多个重要的节点处于同一网络的局部位置,节点之间的重要性可以共存; 聚类中的代表节点,则相对比较排外。当局部网络存在一个很关键的代表节点后,该代表节点将会使得该局部网络里的其他节点的重要性大为降低。即,在一个社团里,只有一个代表节点,但可以有多个重要性节点。

大纲 1. 复杂网络的基本测度介绍 2. 网络聚类算法 3. 重要节点发现 4. 网络的信息传播机制

4. 网络的信息传播机制 4.1 基于概率的信息传播机制 4.2 基于用户决策的信息传播机制 4.3 金融系统的风险传播机制

4.1 基于概率的信息传播机制 应用场景

主要用于疾病传播、谣言传播和病毒传播; 基本思想

网络中的正常节点处于易感状态,当它接触具有传染性的邻居节点时,将有一定的概率 被感染,从而变为感染状态;𝛌 当节点被感染后,亦有一定的概率 ,节点可转变为移除状态𝛽或重新变为易感状态; 网络个体在传播机制中处于被动;

基于概率的信息传播模型 SIR模型 SIS模型 SIRS模型

4.2 基于用户决策的信息传播机制 应用场景

新科技、新行为习惯、风俗等的传播; 基本思想

在网络中的节点选择它所在的状态时,它会参考邻居节点的状态,选择让其效用最大的状态; 网络个体节点自主决策最佳的状态;

4.3 金融系统的风险传播机制 风险传播机制的特点

网络个体处于被动状态,不能自主选择最佳状态; 在决定单个节点的状态时,需要考虑其所有邻居节点所处的状态;

金融风险传播机制的研究现状 担保网络

担保数据难以获得,故大部分的研究均是以模拟网络为主; 对于担保网络的风险传播机制,以描述性内容为主,定性较多,定量少;

银行间系统网络