上QQ阅读APP看书,第一时间看更新
第四节 常用预警预测分析方法介绍
一、基本概念
预警,指根据传染病疫情报告、监测资料,或者国际、国内疫情信息,对某种传染病或者不明原因疾病进行分析评估,对可能引起传染病在人群中发生、暴发、流行发出的警示信息,并采取应对措施。
疾病预警的特点:以疾病监测为基础;信息指导行动,预警为指导响应而服务;及时性要求越早越好,危害和损失会随时间推移迅速增加;可通过应用不同的数据类型、改进监测数据收集的及时性、采用优化的预警算法等来提高及时性;信息的不充分性,在预警信息发出时,经常对疾病或事件刚出现时,所掌握的信息可能很有限。
预测,对传染病未来的疫情水平和趋势做出判断,采用一定的预测模型进行模拟分析,须以已有的与传染病流行密切相关的信息为基础,如疫情监测资料、致病因子资料、宿主资料、环境资料等。预测可分为长期预测(5~10年)、中期预测(3~4年)和短期预测(1~2年)。
二、预警与预测的区别和联系
1.区别
(1) 预警针对特定的事件,预测不是针对一次事件,更关心对事物的短期、中期或长期趋势的估计和测算。
(2) 预警的结果用于指导立即的响应行动,预警信息一旦发出,预示着事件可能发生或正在发生,需要立即采取行动;预测的结果用于指导防治规划或计划的制订。
(3) 方法学上,预警多基于易于获取的有限信息,使用简单、快速的方法进行分析,结果为定性结果;预测可以使用更加广泛的信息来建立复杂的预测模型,结果可为定性或定量。
(4) 预警强调对可能发生的或正在发生的事件进行探测,据此发出警示信息;预测强调对尚未发生的事物做出描述。
2.联系
(1) 都是对未来事物的预先描述。
(2) 均基于现有的事实,对今后的疫情做出判断和描述。
(3) 从某种角度上,预警可看作一种特殊的定性预测,或者是预测技术的一种应用特例。
三、预警预测的分类
1.单病例预警
对于某些罕见或具有重要公共卫生意义的疾病,如我国传染病防治法中规定的甲类和按甲类管理的传染病,在某地出现病例后即可提示预警。
2.数学模型预警和预测
利用既往已掌握的监测信息,通过统计学分析技术,建立疾病的预警和预测模型。大体可以分为两种类型:
(1) 基于疾病历史发病水平的预警和预测:
利用既往疾病的发病数据,建立预警和预测模型。如可以按一定周期(周、旬、月等)收集某种传染病的发病资料,利用时间序列分析技术建立预测模型,对未来的短期或长期发病趋势进行预测;或可以根据历年的发病水平,建立传染病按周(或月)的预警线,对疾病的发病进行预警。
疾病的历史发病数据是一个广义的概念,既包括病例就诊前的行为,如互联网查询记录、缺课/缺勤记录、非处方药物销售和热线咨询电话等,也包括病例的就诊信息,如基于症状/症候群的数据和基于疾病诊断的数据。
这类疾病的预警模型构建方法包括基于时间维度的预警模型(如控制图法、移动平均控制图法、移动百分位数法、累积和控制图、指数加权移动平均法)、基于空间维度的预警模型(如Kulldorff空间扫描统计量)、基于时间和空间维度的预警模型(如时空扫描统计量、前瞻性时空重排扫描统计量等)。预测模型的构建方法则以时间序列分析技术应用最广。
(2) 基于疾病流行因素的预测模型:
疾病的发生和发展通常受一系列因素的影响,这些因素包括病原(流行株、型别构成、致病力、变异和耐药性等)、宿主动物(数量、种类、带菌或带毒率等)、媒介生物(密度、种群、带毒率等)、自然因素(气象、地理、环境等因素)、社会因素(生活习惯、生活环境、人口密度和流动人口等)以及人的行为等,通过疾病与因素之间的影响因素分析,可建立统计学模型,并根据相关因素的变化,对疾病的发生和发展进行预警和预测。如影响疟疾流行的因素涉及两类指标:第一,传播危险性指标,如气象、植被状况、地面水状况等自然地理环境指标,它们通过影响媒介按蚊的丰度及其叮人习性以及疟原虫的发育而影响着疟疾的发病及流行;第二,易感性危险指标,如人群免疫状态、人口流动、防制措施等,它们通过影响人群对疟疾的易感性而改变疟疾的发病和流行。因此可以通过疟疾的发病水平和流行因素建立统计学预测模型。
此类预测模型的构建可以用聚类分析、判别分析、回归分析、神经网络技术、决策树分析等多元分析方法。
四、预警与预测方法举例
1.移动平均数法建立预警线
先根据一定的步长建立移动平均值,再用(均数+ u α ×标准差)制作预警线。表3-5利用1994~1999年某疾病按周发病数制作预警线,以5周为一个移动周期,表中加粗斜体数据块作为2000年第1周的预警基线数据,分别计算平均数(18.77)、标准差(12.42),并得出预警值(31.19)。后续每周的预警基线数据依次往后推一周,计算每一周的预警值,进而得出预警线(图3-12)。
表3-5 移动平均数制作预警线示例
2.移动百分位数法建立预警线
原理与移动平均数法相似,只是移动百分位数法的预警值通过计算百分位数而得到。如:以研究疾病观察周既往5年该周及其前后2周的周发病数为基线数据,计算出指定的百分位数(如 P 50、 P 60、 P 65、 P 70、 P 75、 P 80、 P 90、 P 95),作为候选的预警阈值,建立预警线(图3-13)。预警阈值的选择根据实际情况而定,如需提高预警的敏感性,则可将阈值适当降低,反之则升高预警的百分位数值。该方法应用广泛,如国家传染病自动预警信息系统中的时间预警模型使用的就是移动百分数法。
图3-12 某疾病移动平均数法制作预警线示意图
图3-13 移动百分位数法建立预警线示意图
3.利用泊松分布原理建立预警线
以法国数学家西蒙D.泊松名字命名的泊松概率分布,为随机地发生在某段时间、某段距离或某个空间内的“稀有事件”的次数的概率分布提供了一个很好的模型,如某一城市的交通事故数,某项保险的索赔次数等。当某种疾病的比较罕见或发病水平较低时,我们可以将其近似地当成是符合泊松分布。
利用泊松分布原理可以实现对罕见疾病(或传染病)的预警。设随机变量X的取值为0,1,2,……,则泊松概率分布为:
其中, λ为泊松分布的均数。设某种罕见疾病在某一周期内的平均发病水平(均值)为 λ,则可以根据这一平均水平计算该种疾病发生X例病例时的概率,若P{X > k}的概率小于给定的α(通常取0.05)水准,即认为病例数超过k例属于小概率事件,此时k即为预警值。
假设现有某地区某年流行性脑脊髓膜炎的按周发病数,可利用Poisson分布原理制作预警线。首先,计算各周的均数 λ,经计算知, λ = 1.81。接着,根据 λ的值,利用公式(3-1)计算 P{ X = k}的值,其中 k = 0,1,2,……;经计算知: P{ X = 0}= 0.1640, P{ X = 1}= 0.2965, P{ X = 2}= 0.2680, P{ X = 3}= 0.1615, P{ X = 4}= 0.0730,此时, P{ X > 3}= 1 - P{ X = 0}- P{ X = 1}- P{ X = 2}- P{ X = 3}= 0.110, P{ X > 4}= 1 - P{ X = 0}- P{ X = 1}- P{ X = 2}- P{ X = 3}- P{ X = 4}= 0.037;可知,预警界值为 k = 4。
对于流行性脑脊髓膜炎等有季节性的疾病而言,在不同季节的发病水平不同,预警界值也应该不同,因此,可以根据实际情况,制作分段预警线(如图3-14)。
图3-14 某省2005年流行性脑脊髓膜炎发病分段预警线示意图
(资料来源:林君芬.2008.)
4.指数平滑法预测模型的构建
对于未来发生的事情,最新观察值将较早期观察值包含更多的信息,因而在预测时,最新观察值将较早期观察值具有更大的权重。指数平滑法通过对序列中最新观察值和早期观察值赋予不同的权重,对序列进行预测。这就是指数平滑法的原理。指数平滑法的表达式为 = αz t +(1 - α) ,α为平滑指数, 为下一期预测值, z t为当期真实值, 为当期预测值。到时期t时,只需要知道实际数值和本期预测值两个数据就可预测下一个时间的数值。
5.S型曲线预测乙肝发病率
根据某省1990~2008年某地报告的乙肝发病率资料,要求预测2009年该省的乙肝报告发病率,这可以通过SPSS的曲线估计过程实现(图3-15)。
图3-15 利用SPSS拟合曲线模型的截图
通过模型拟合,发现S曲线模型拟合结果最为理想(图3-16),其模型方程为: Y = e b0+b1/t,其中b0 = 217.0458,b1 = -426 164.5803,预测2009年全省乙肝报告发病率为: Y = e 234.901+(-461 796.83/2009)= 136.74,95%的可信区间为93.19~200.65。模型的确定系数 R 2 = 0.928。
图3-16 某省乙肝报告发病率的曲线拟合图
6.利用决策树分析技术建立预测模型
决策树是一个类似于流程图的树结构,其中每个内部节点表示在一个属性上的测试,每个分支代表一个测试输出,而每个树叶节点代表类或类分布,树的最顶层节点是根节点。决策树表示方法是应用最广泛的逻辑方法之一,它从一组无次序、无规则的事例中推理出决策树表示形式的分类规则。决策树分类方法采用自顶向下的递归方式,在决策树的内部节点进行属性值的比较并根据不同的属性值判断从该节点向下的分支,在决策树的叶节点得到结论。决策树是应用非常广泛的分类方法,目前有多种决策树算法,较为流行的算法有CHAID、ID3、C4.5、CART、CN2、SLIQ、SPRINT等。
决策树技术不但可以揭示影响反应变量的因素,还可以反映出各因素对反应变量的重要程度。同时,它还可以反映不同特征的人群对反应变量产生影响的范围不同,能够找到最佳的影响范围,有利于在实际工作中将资源相对集中于一定特征的人群,从这一点看,这比仅仅分析出有哪些变量影响到结果更具有指导实践的意义。
决策树技术的分析过程可以显示出变量之间相互作用的关系,能够具体分析到某变量在各组中的作用方式。且可以解决共线性和非线性的问题,不会因为自变量之间的共线性而遗漏有意义的变量,也不会因为模型选择不当而出现不合理的结果。特别地,它可以将缺失值考虑在内,可以将其看作一个独立的观察值,也可以自行将其排除在外,这也是其优于传统的参数统计方法(如多元线性回归等)的一个重要方面。
决策树以汇总的树形图为表现形式,能清楚直观地显示出分析过程和结果。它的具体操作及树的生成过程也可以实现互动操作,可以根据专业知识设定选择适当大小和相应规则的模型。
下面利用气象因子建立其对甲型H1N1流感活动强度的预报模型。所选气象因子(自变量)包括:日平均气压、最高气压、降水量、最低气压、平均气温、最高气温、最低气温、平均相对湿度、最小相对湿度、平均风速、最大风速、风向、极大风速和日照时数;所选因变量为甲型H1N1流感在各型流感中所占的比例,资料来源于某省流感监测哨点医院。很多专业的数据挖掘软件和统计软件都可以对决策树建模,用SPSS的决策树过程(算法为分类回归树法,CART)建模结果见图3-17。表3-6是根据树形图分析得出的6个末端节点整理成气象因子对甲型H1N1阳性率影响的分析结果。
图3-17 气象因子对甲型H1N1流感活动强度的分类回归树模型
表3-6 气象因子对甲型H1N1阳性率影响的决策树分析结果
进一步以甲型H1N1阳性率的第25百分位数( P 25)、第50百分位数( P 50)和第75百分位数( P 75),作为划分甲型H1N1活动强度的参考指标, P 25、 P 50和 P 75分别为0.00%、0.60% 和9.87%,由此将疫情指数划分为三个等级。当甲型H1N1阳性率在 P 25~ P 50之间时,疫情指数为一级;当甲型H1N1阳性率在 P 50~ P 75之间时,疫情指数为二级;当甲型H1N1阳性率大于 P 75时,疫情指数为三级。以各气象指标为自变量,建立气象因子对甲型H1N1流感的预报模型。
结果表明,进入模型的气象因子的重要程度依次为:最低气压、平均风速、降水量、平均气压,结果见表3-7。根据本模型可对甲型H1N1流感的活动强度做出预报。第1、2组的阳性率的平均值在 P 50~ P 75(0.60%~9.87%)之间,将这两组合并为一个等级,疫情指数预报为二级。第3、4、5、6组阳性率的平均值大于 P 75(9.87%),将这四组合并为一个等级,疫情指数预报为三级,详见表3-7。
表3-7 气象因子对甲型H1N1阳性率影响的决策树预报
*气压单位hPa,风速单位m/s,降水量单位mm
(何凡 李傅冬)