2.4 网络中的统计物理学
2.4.1 统计物理方法
统计物理方法研究的对象是由大量微观粒子组成的宏观物质系统,任务是按照物质的微观结构、微观粒子的运动特征及粒子间的相互作用,采用统计方法探求系统的宏观性质及其变化规律。由于粒子的数量非常大,无法一一求解它们所遵从的运动方程,同时,粒子间的相互作用及外界对系统的干扰,导致粒子运动状态呈现不完全确定性,系统运动状态呈现随机性,但在一定条件下,系统的各运动状态均以一定的概率出现。一个宏观状态对应着大量瞬息万变的微观运动状态,系统的某个物性的实测值是在给定条件下,各微观状态的相应量的统计平均值,统计物理学就是要找出这种统计规律性。
统计物理学或统计力学是用概率统计的方法,对由大量粒子组成的宏观物体的物理性质及宏观规律做出微观解释的理论物理学分支,它架起了从微观到宏观研究的桥梁,不仅为各种宏观复杂系统(气体、液体、固体、等离子体等)提供理论依据,而且为新诞生的网络科学提供了理论基础和有力工具,发挥了重要的作用。
目前,网络科学研究涉及的统计物理中的主要理论武器有主方程、福克-普朗克方程、平均场理论方法、自组织理论、临界和相变理论、熵的概念,以及渗流理论等。下面主要介绍平均场理论方法、自组织理论、主方程及其应用。
2.4.2 平均场理论方法
1.平均场理论方法的基本思想
统计力学和复杂网络研究中常用的一种统计物理方法是平均场理论方法。该方法通俗易懂,虽然是一种近似处理方法,但结果的物理意义比较明显。在连续介质微观力学中,有两类基于微结构信息确定非均匀介质有效性能的基本理论,即基于物理的平均场理论和基于数学的渐近均匀化理论。
平均场理论方法的基本思想是把相互作用的总体效果等效为一个“平均场”,不去计算局部的、处处不同的相互作用情况,仅考虑全局的、平均的作用情况。也就是说,平均场理论是把环境对物体的作用进行集体处理,以平均作用效果替代单个作用效果的相加方法。平均场理论方法能简化对复杂问题的研究,把一个高次、多维的难以求解的问题转化为一个低维问题,相当于将环境对研究对象的影响进行积分后,再与研究对象发生作用。
2.平均场理论方法应用一:无标度网络
网络科学诞生以来,复杂网络理论模型中的度分布求解广泛应用平均场理论方法来得到近似解。实际上,平均场理论方法在复杂网络和一些实际问题应用中已经取得了重要的成果。平均场理论方法不仅适用于从连续相变到临界现象的研究,而且是网络科学研究的一种有效工具,应用范围十分广泛,凡是平均场理论方法的核心思想适用的问题,都可以应用它来解决。
下面给出用平均场理论方法求解BA模型(无标度网络模型)的度分布的一个例子。为计算 BA 模型的度分布,令ki(t)表示t时刻节点i的度数,将ki(t)视为连续动力学函数,得到近似的动力学方程:
式中, m代表t时刻增加的新节点数。解方程得ki(t)=m(t/i)β,β=1/2称为动力学指数。
因为需要随机选择一个节点,所以必须将ki(t)中的i视为服从均匀分布的随机变量。于是,由动力学方程解,网络的度分布可以推导如下:
令t→∞,得到的网络稳定度(密度)分布为
式中,γ=1+1β=3称为度(分布)指数。注意,尽管=1,但由于上式的连续密度函数只是离散概率的近似,因此对小度数会有较大的偏差。
该方法的主要优点是简洁明了,对许多增长网络模型都能得到ki(t)的明确表达式。
3.平均场理论方法应用二:网络上的传播问题
复杂网络上的传播问题,不仅有流行病的传播,而且有舆论、物质、信息、能量等的传播,它们都可以应用平均场理论方法求解,因为这些方程都是平均场意义上的微分方程。例如,传统的SIR模型或SIS模型就是流行病传播的平均场方程,它们可以用大家熟悉的微分方程解法来求解。
平均场理论方法的思想是不管这些具体细节,而只考虑全局的、平均的传播可能性,也就是仅考虑被视为常参量(或者依赖于某几个全局因素的可变参量)的传播概率或传播速率β,以及康复概率γ。这样,对于病人可治愈且终生免疫的情况,显然易感染人群、感染人群和治愈且终生免疫人群的人数变化率的最简化表述就是 SIR(Susceptible Infected Recovered)模型;而治愈后并不能免疫,可能立即再次感染情况的最简化表述就是SIS(Susceptible Infected Susceptible)模型。
2.4.3 自组织理论
1987 年,巴克、汤超和威森非尔德进一步提出:自然界可以自发地自组织为一个稳定的临界状态,这个临界状态对微扰显示最丰富的反应,而且自然界经过亿万年的演化,大多数系统已经达到自组织临界状态,所以世界才如此丰富多彩。这个理论得到了大约5000篇论文的响应(包括实际证据、追踪研究等)。这些论文涉及非常广泛的科学领域,说明自组织临界现象确实广泛存在。
说明自组织临界现象的最简明例子可能是沙堆。在沙漠中,沙堆的斜率常常大致相同,原因是如果斜率太大,那么沙子就会滑落到地面,如果斜率太小,沙漠中的风沙又会使沙子不断地沉积。因此,存在一个沙堆斜率的稳定阈值。沙堆的斜率小于阈值时,不会显示宏观的流动,运动无序;沙堆斜率大于阈值时,一定会显示宏观的流动,表示有序运动。系统会自己组织到它的阈值,并且这个阈值对应的状态是稳定的。如果微扰使系统偏离这个状态,那么偏离会自动地逐渐消失,所以被称为“自组织临界现象”。
沙堆上每粒沙子的局域状态都是非常不同的,有的摇摇欲坠,有的相当稳定。在不同地方加一粒沙子可能对沙堆完全没有影响,也可能引起一大堆沙子从顶部一直滑落到底。不难想象,当沙堆的斜率小于阈值时,只可能有比较小的雪崩,大的雪崩很少。反之,当沙堆的斜率大于阈值时,大的雪崩很多,而小的雪崩很少。只有当沙堆的斜率等于阈值时,各种大、小的雪崩才会出现。也就是说,沙堆在所有偏离临界的状态下对微扰的响应都不够敏感、丰富,只有在临界状态时才能够对微扰显示最敏感、最丰富的响应。
2.4.4 主方程
主方程在网络科学研究中有着广泛的应用,它是统计物理学中描述一大类问题的重要方法,且对研究平衡和非平衡问题都是有效的方法,揭示了微观可逆性与宏观不可逆性之间的关系,可以给出趋向平衡的细致描述。
1.马尔可夫过程
马尔可夫过程是在演化过程中没有记忆效应的过程,也就是忘记历史的过程。或者说,假定演化tk时刻的状态已知,则在t>tk时的状态与tk之前的状态无关。
马尔可夫过程的数学定义如下。设{X(t), t∈T}是一个随机过程, E为期状态空间,若对任意n≥1,t1<t2<…<tn<t∈T,有x1,x2,…,xn,x∈E,且X(t)在已知条件X(t1)=x1,X(t2)=x2,…, X(tn)=xn下的条件概率分布满足
则称{X(t), t∈T}为一个马尔可夫过程。
马尔可夫过程是统计物理中最有意义、最简单、最重要的过程。这种过程的全部信息包含在P1(y,t)及P2(y1,t1|y2,t2)中。定义转移概率W2(y1,t1|y2,t2)为
转移概率背后隐藏着微观力学机制的问题。
转移概率W2(y1,t1|y2,t2)的性质如下。
(1)W2(y1,t1|y2,t2)≥0.
(2)∫d y2W2 ( y1 , t1|y2 , t2 )=1.
(3) P1(y2,t2)=∫d y1P1(y1,t1)W2(y1,t1|y2,t2).
2.马尔可夫链
马尔可夫链是马尔可夫过程最简单的例子之一,它的准确数学定义如下。设{X(n),n=0,1,2,…}是一个随机过程,其状态集合为E={i0,i1,i2,…},若对任意n及i0,i1,i2,…,in+1,对应的随机变量X(0),X(1),…,X(n+1)满足
式中P{X(n+1)= j|X (n)=in} 表示系统处于状态 j 的概率,则称{X(n), n=0,1,2,…}为一个马尔可夫链。
同样,分析n阶转移概率Wn,
它又称条件概率密度,表示从时刻t1到tn-1的事件都发生时, tn时刻发生事件yn的概率。
对于马尔可夫过程, Wn(y1,t1|y2,t2|…|yn-1,tn-1|yn,tn)=W2(yn-1,tn-1|yn,tn)表示概率转移与历史无关。对于马尔可夫过程,凡是n≥3的联合概率Pn都可以用P1和P2的乘积来表示。例如,
不难证明Smoluchowski方程成立:
这个方程体现了路径积分的思想。
可以导出概率密度P1(y,t)满足的积分微分方程:
3.主方程在复杂网络中的应用
由 Dorogovtsev、Mendes 和 Samukhin 提出的主方程方法考虑了一个更广的吸引模型,新节点有原始吸引度 A,按 BA 模型择优从不指定的节点连出m条线,允许重复连线,因此每个节点有度k=q+A,其中q称为入度。吸引模型只从新节点连出m条线时,退化为 BA 模型,此时A=m。他们从概率角度,把qi(t)作为随机变量来处理,令P(q,i,t)表示加入的节点i在t时刻有入度q的概率,可得P(q,t)满足的主方程,然后用节点度的平均P(q,t)=P(q,i,t)作为网络度的定义,对BA模型有
假定P(q,t)=P(q)存在,补充[P(q,t)-P(q,t)]=0,得
上式右边是“精确解”,对于小度数,它不是幂律,对大的k=q+m才是幂律。
这一方法的最大优点是概率清晰,但仍然不是严格的数学方法。
国内外很多学者基于真实的社会以社区为单位,首先讨论了社区结构对流行病传播带来的影响,构造了社区网模型来研究其上的流行病传播,并且也用主方程得到了解析解。他们发现人员的迁移可导致流行病的间接传播,且社区结构有利于病毒的存活。然后,考虑到人们容易在公共场所聚集的特点,侧重研究了公共场所的人员聚集对流行病传播的影响,并且发现了加速传播效应。
另外,常用的还有比率方程方法。比率方程方法简单直观,在许多领域(如等离子体物理、化学反应和具有各种相互作用的分子、原子物理等领域)中已得到广泛应用。它在实证和模拟中,都用网络中度为k的(平均)点数Nk(t)代替ki(t)来考虑Nk(t)的变化规律,且同样采用m∏(ki)=2mt去近似。根据连续性理论,网络点数Nk(t)随时间变化的比率方程为
在网络稳定度分布条件下,利用大数定律将度数为k的节点出现的频率作为网络有度数k的概率的近似。于是,简化后得到差分方程
比率方程方法的特点是给网络度分布提供了一个统计定义,为实证研究提供了模拟网络度分布的基础,而且能够计算 BA 模型的度相关性。与平均场理论方法一样,比率方程方法仍然是一种启发式的推导方法,也会遇到方程可能难解的问题。