1.3 度、平均度和度分布
度是节点的一个关键属性,表示该节点和其他节点之间的链接个数。在手机通话网络中,度表示一个人通过手机联系过的人数;在引文网络中,度表示一篇论文获得的引用数。
度
我们使用ki表示网络中第i个节点的度。例如,对于图1-2所示的无向网络,我们有k1=2,k2=3,k3=2,k4=1。在无向网络中,总链接数L可以使用节点度之和来表示:
在计算节点度之和时,每个链接被计算了两次,因此公式1.1中有一个系数1/2。例如,在图1-2中,连接节点2和节点4的链接,在计算节点2的度时被计算了一次,在计算节点4的度时又被计算了一次。
平均度
平均度是网络的一个重要属性(边栏1.2)。在无向网络中,平均度被定义为:
边栏1.2
统计知识简要回顾
对于N个样本x1,…,xN,4个重要的统计量:
均值:
n阶矩:
标准差:
样本分布:
这里px满足归一化约束
有向网络中,需要区分入度和出度。入度表示指向节点i的链接个数,而出度表示节点i指向其他节点的链接个数。从而,节点i的度为:
例如,在万维网中,网页的出度kout表示该网页指向的网页数目,其入度kin表示指向它的网页数目。有向网络中的总链接数为:
这里不像公式1.1那样有一个系数1/2:公式1.4的两个求和项将出度和入度分开进行计算。有向网络的平均度为:
度分布
度分布pk表示“网络中随机选出的一个节点其度为k”的概率。由于pk是一个概率,则其必须满足归一化约束,即:
对于有N个节点的网络而言,其度分布可以表示成归一化的直方图(图1-3):
图1-3 度分布
网络的度分布可以由公式1.7计算得到。
(a)该网络大小为N=4,其度分布如图b所示。
(b)4个节点中有一个度为1的节点(k1=1),因此p1=1/4;有两个度为2的节点(k3=k4=2),因此p2=1/2;有一个度为3的节点(k2=3),因此p3=1/4。没有度大于3的节点,因此,对于任意k>3,我们有pk=0。
(c)对于一维格子网络而言,所有节点的度都是2。
(d)图c所示网络的度分布是克罗内克(Kronecker)的德尔塔函数,即pk=δ(k-2)。
这里的Nk是指度为k的节点个数。因此,度为k的节点个数可以根据度分布计算出来,即Nk=Npk。
度分布被认为在网络科学中发挥了核心作用,特别是在无标度网络被发现之后[8]。其中一个原因是,大多数网络性质可以通过度分布计算得到。例如,网络平均度可以写成:
另一个原因是,度分布的具体函数形式决定着很多网络现象,例如网络健壮性和病毒传播。接下来,让我们看一看真实网络中有着怎样的度分布(图1-4)。
图1-4 一个真实网络的度分布
真实网络中,节点的度差异很大。
(a)酵母的蛋白质相互作用网络(表1-1)。每个节点对应一个酵母蛋白质,链接表示实验发现的蛋白质间的相互作用。注意,底部所示的几个蛋白质有自环,它们的度为2。
(b)图a所示的蛋白质相互作用网络的度分布。节点的度分布在0(对应孤立节点)和92(对应度最大的那个节点,此类节点通常被称为枢纽节点)之间。度不同的节点,其个数也差异很大:度为1的节点有几乎一半(p1=0.48),而只有一个节点的度为92(p92=1/N=0.0005)。
(c)度分布通常画在双对数坐标下。当然,除了采用双对数坐标之外,也可以直接绘制lnpk关于lnk的函数。采用双对数坐标的好处会在第3章进行讨论。