4.3 无线传感器网络信任博弈
4.3.1 演化博弈与无线传感器网络信任的结合
无线传感器网络信任与各传感器节点的行为密切相关。无线传感器网络传感器节点一般处于不确定的环境中,具有相对变化的特点,各传感器节点通常根据各相邻节点之间的信任值进行相互之间的信任策略决策,这种由传感器节点选择信任策略到建立信任关系的过程将保证各节点之间的协作。各传感器节点通过与其他传感器节点的反复交互,不断地学习与模仿,来动态调整自身的信任或不信任策略,从而实现节点间的信任或不信任策略选择的演化,最终达到信任或不信任策略的演化稳定,这个过程利用演化博弈中的复制动态动力学方程能很好地进行描述。因此,将演化博弈思想应用到无线传感器网络信任决策可以深刻地揭示信任的特征及演化机制,为提高无线传感器网络的安全性并促进无线传感器网络的稳定性提供理论基础。
无线传感器网络信任博弈的建立过程具有以下特点:
(1)各传感器节点的行为具有有限理性。由于无线传感器网络信任博弈是多个传感器节点之间的博弈,即某个传感器节点在进行信任决策时,不仅要考虑其他传感器节点加入后对博弈的影响,还要考虑选择信任或不信任策略后自己和其他有利益关系的传感器节点之间的收益关系,而这些信息的处理体现了有限理性的特征。
(2)无线传感器网络信任博弈具有重复性和非零和性。各传感器节点之间的博弈是重复进行的,双方的博弈过程都不会改变支付矩阵,彼此都可以看到对方过去的动作和收益。另外,当各传感器节点都选择信任策略时,双方的收益可以实现双赢,因此无线传感器网络信任博弈是非零和的。
(3)无线传感器网络中各传感器节点进行策略决策时具有模仿性。当传感器节点不能完全正确地判断自己行为得失但知道前期利益相关参与者的收益得失的时候,模仿前期最佳动作就是它的最佳策略。本章后续内容将利用复制动态动力学方程分析这种策略选择的模仿性。
4.3.2 无线传感器网络信任博弈模型
无线传感器网络传感器节点信任建立过程中表现出的有限理性决定了个体不是一开始就能找到最优策略,它们会在博弈过程中不断学习,通过模仿与试错寻找较好的动作策略。同时,这种有限理性意味着无线传感器网络信任博弈的均衡是不断调整和改进的过程,而不是一次性选择的结果,而且即使达到了某个均衡也可能出现偏离的现象。实际上,对无线传感器网络信任博弈分析的核心不仅是个体的最优策略选择,还包括种群个体的策略调整过程、趋势和最终的稳定性,其中稳定性是指种群个体采用某个特定策略的比例不变,而非某个个体选择的策略不变。
定义4-1 无线传感器网络信任博弈是一个由四元数组=(P,N,S,U)组成的对称博弈,其中:
·P表示由大量个体(传感器节点)组成的一个种群(无线传感器网络)。
·N表示由传感器节点构成的个体集合。
·S表示可供传感器节点选择的策略集合,其中S={s1,s2}={Trust,Distrust}。
·U表示两个传感器节点在一次博弈中得到的收益形成的支付矩阵,其值如表4-1所示。
表4-1 无线传感器网络信任博弈的支付矩阵
在表示无线传感器网络传感器节点的信任关系时,各传感器节点信任值常使用信任度进行度量,文献[129],[132],[133],[170]都给出了不同的信任度计算方法,本章不考虑如何计算传感器节点的信任度,但假设每个传感器节点都已具有某个信任度值,并且其信任度值越高表示越值得信任。
在无线传感器网络信任博弈中,每个传感器节点可以选择动作Trust或Distrust。动作Trust意味着一个传感器节点和其他节点进行交互时与对方节点进行合作,而选择动作Distrust将导致与对方节点的合作失败。下面分别讨论各种情况。
情况1 进行交互的两个传感器节点都选择动作Trust。此时每个传感器节点都与对方传感器节点合作,帮助对方传感器节点转发数据包,从而提高了自身的信任度,所以每个传感器节点都得到了信任度收益GT。又因对方传感器节点选择动作Trust而帮助转发数据包得到了收益GC。另外,为激励传感器节点选择动作Trust,选择动作Trust的传感器节点将得到αT的激励。同时,在发送自身或转发对方传感器节点数据包时导致能量消耗分别产生成本C,因此,综合上述分析,每个传感器节点的总收益为GT+GC-2C+αT。
情况2 一个传感器节点选择动作Trust而另一个传感器节点选择动作Distrust。此时选择动作Trust的传感器节点因帮助对方传感器节点转发数据包得到信任度收益GT,并且得到αT的激励。同时,因转发对方传感器节点数据包产生成本C,并且因对方传感器节点选择动作Distrust,导致不合作使得自身数据包无法发送到目标传感器节点而产生损失L。因此,选择动作Trust的传感器节点的总收益为GT-C-L+αT。选择动作Distrust的传感器节点因为不需要为其他传感器节点转发数据包,所以节省了能量消耗和延长了生命期,从而获得了收益GD。同时因对方传感器节点选择动作Trust而帮助自己转发数据包得到了收益GC,但又因发送自身数据包产生成本C。因此,选择动作Distrust的传感器节点的总收益为GD+GC-C。
情况3 两个传感器节点都选择动作Distrust。此时将导致无线传感器网络的完全不合作,但因为不需要为其他传感器节点转发数据包,所以节省了能量消耗和延长了生命期,从而获得了收益GD。因此,两个传感器节点的总收益均为GD。
4.3.3 无线传感器网络信任演化稳定策略和动力学分析
由于无线传感器网络信任博弈模型中共包含Trust和Distrust两种动作,因此在由传感器节点构成的种群中,可设θ(t)=(θ1(t),θ2(t))表示种群在时刻t所处的混合策略,其中θ1(t)表示选择动作Trust的传感器节点数比例,θ2(t)表示选择动作Distrust的传感器节点数比例,则有θ2(t)=1-θ1(t)。为简化起见,以下记θ1(t)为θ。那么,由式(2-9)可得传感器节点在时刻t选择动作Trust的期望收益为
选择动作Distrust的期望收益为
由式(2-10)得到整个无线传感器网络种群P的平均期望收益为
因此,由式(2-12)可以得到传感器节点信任演化的复制动态动力学方程为
令F(θ)=0,则复制动态动力学方程式(4-4)最多有3个稳定状态,即
其中式(4-7)表示的稳定状态可能与式(4-5)或式(4-6)表示的稳定状态相同。
根据演化稳定策略的性质,一个稳定状态必须对动态系统的微小扰动具有稳定性。这实际上和微分方程中的稳定性定理要求满足的条件一致,也就是说,若θ*是动态系统的稳定状态,则必须满足条件F′(θ*)<0。如果用相位图表示复制动态动力学方程,那就是与x轴相交且交点处的切线斜率为负的点为无线传感器网络信任博弈的演化稳定策略。
定理4-1 若GT+αT-GD-C>0,GD+C+L-GT-αT>0且2GT+2αT-2GD-2C-L>0,那么=0和=1均是无线传感器网络信任博弈的演化稳定策略且p(=0)<p(=1),其中p(=0)和p(=1)分别表示传感器节点选择动作Distrust和Trust的概率。
证明 对式(4-4)两边求导得
分别令θ为0和1得
由2GT+2αT-2GD-2C-L>0可得GT+αT-GD-C>GD+C+L-GT-αT。
所以,可得
由式(4-9)至式(4-11)可得复制动态动力学方程式(4-4)的相位图如图4-1所示。
由图4-1可知,=0和=1处切线斜率小于0,因此=0和=1均是无线传感器网络信任博弈的演化稳定策略。又由式(4-11)可知,参与交互的传感器节点选择动作Distrust的概率小于选择动作Trust的概率,即p(=0)<p(=1)。证毕。
图4-1 复制动态动力学方程相位图(一)
定理4-1代表的含义如下:当参与交互的第一个传感器节点选择动作Trust时,由于
即参与交互的第二个传感器节点选择动作Trust的收益大于选择动作Distrust的收益;当参与交互的第一个传感器节点选择动作Distrust时,由于
即参与交互的第二个传感器节点选择动作Distrust的收益大于选择动作Trust的收益。=0和=1均是无线传感器网络信任博弈的演化稳定策略,意味着动作Trust和Distrust都有可能被参与交互的传感器节点选择。
定理4-2 若GT+αT-GD-C>0,GD+C+L-GT-αT>0且2GT+2αT-2GD-2C-L<0,则=0和=1均是无线传感器网络信任博弈的演化稳定策略且p(=0)>p(=1)。
证明 与定理4-1的证明过程类似,可得
由式(4-14)至式(4-16)可得传感器节点信任演化的复制动态动力学方程式(4-4)的相位图如图4-2所示。
图4-2 复制动态动力学方程相位图(二)
由图4-2可知,=0和=1处切线斜率小于0,因此=0和=1均是无线传感器网络信任博弈的演化稳定策略。又由式(4-16)可知,参与交互的传感器节点选择动作Distrust的概率大于选择动作Trust的概率,即p(=0)>p(=1)。证毕。
定理4-3 若GT+αT-GD-C<0,则=0是无线传感器网络信任博弈的演化稳定策略。
证明 易得
由式(4-17)、式(4-18)可得传感器节点信任演化的复制动态动力学方程式(4-4)的相位图如图4-3所示。
图4-3 复制动态动力学方程相位图(三)
由图4-3可知,只有=0处切线斜率小于0,因此只有=0是无线传感器网络信任博弈的演化稳定策略。证毕。
定理4-3表明,无论参与交互的第一个传感器节点选择动作是Distrust还是Trust,参与交互的第二个传感器节点选择动作Trust的收益总是小于选择动作Distrust的收益。最终选择动作Trust的参与交互的传感器节点数比例会稳定在=0处,即都选择动作Distrust,这将导致整个无线传感器网络中的传感器节点都处在互相不合作的状态。
定理4-4 若GT+αT-GD-C-L>0,则=1是无线传感器网络信任博弈的演化稳定策略。
证明 易得
由式(4-19)、式(4-20)可得传感器节点信任演化的复制动态动力学方程式(4-4)的相位图如图4-4所示。
由图4-4可知,只有=1处切线斜率小于0,因此只有=1是无线传感器网络信任博弈的演化稳定策略。证毕。
定理4-4表明,无论参与交互的第一个传感器节点选择动作是Distrust还是Trust,参与交互的第二个传感器节点选择动作Trust的收益总是大于选择动作Distrust的收益。最终选择动作Trust的参与交互的传感器节点数比例会稳定在=1处,即都选择动作Trust。实际上,当定理4-4的条件满足时,动作Trust已成为无线传感器网络信任博弈的严格占优策略。
图4-4 复制动态动力学方程相位图(四)
由定理4-1至定理4-4可知,要促使参与交互的传感器节点选择动作Trust,从而保证无线传感器网络的安全性和稳定性,设计的信任管理机制应满足定理4-1或定理4-4的条件。引入的αT使传感器节点在信任博弈的过程中增加了激励机制,当定理4-1条件满足并逐步增大αT时,=(GD+C+L-GT-αT)/L→0,这意味着随着无线传感器网络信任博弈的进行,选择动作Distrust的参与交互的传感器节点数比例将逐渐降低,最后达到一个稳定的低比例水平。当αT增大到一定程度使得定理4-4的条件满足时,整个无线传感器网络将处于理想的稳定状态,此时无论参与交互的传感器节点开始选择何种策略,最终都将选择动作Trust作为稳定状态。对于定理4-2和定理4-3满足的条件是设计无线传感器网络信任管理机制时必须要避免的情况,因为它们意味着参与交互的传感器节点选择动作Distrust的概率大于选择动作Trust的概率或将选择动作Distrust作为最终的稳定状态,这会导致无线传感器网络处于不稳定状态。