尿液生物化学与检验
上QQ阅读APP看书,第一时间看更新

第四节 大数据及精准医疗在尿液生物化学研究中的作用

随着互联网、社交网络、物联网、云计算等新一代信息技术的应用和推广,大数据时代应运而生。大数据库中含有丰富的信息资源,其潜在价值越来越大,数据信息的提取和挖掘能力成为了大数据时代的发展战略需求,需要利用多种数据挖掘工具来开发其潜在的有效价值,以促进多学科的发展和更新。医学的发展经历了传统医学和循证医学的阶段,如今发展到以分子生物学为本质出发点,对疾病精准的预防、诊断和治疗的精准医学时代。作为现代医疗模式的革命和创新——精准医学及精准医疗时代的到来,挖掘和整合涵盖流行病学、预防医学、临床医学、康复医学、卫生经济学和医学分子生物学等多学科领域的大数据将成为精准医学发展的首要任务之一,通过大数据挖掘分析技术提取有效的价值,可以指导和制订出适合每位患者的精准的个体化预防和治疗方案,以期达到治疗效益最大化和医疗资源配置最优化。
大数据是指无法在一定时间内用传统数据库软件工具对其内容进行抓取、管理和处理的数据集合,大部分专业人士认为它是继云计算、物联网之后信息技术产业又一次颠覆性的技术变革产物。它有别于以往的“海量数据”,大数据不仅在于数据量大,更在于其具有数据类型繁多、价值密度低、处理速度快等属性特征。①数据量大:我国医疗卫生服务和各种医疗卫生信息系统产生了巨量数据,以每个CT图像约150MB的数据、每个基因组序列文件约为750MB、每个标准病理图接近5GB计算,乘以我国人口数量和平均寿命,那么每个社区医院或中等规模制药企业均可以生成和累积达数个TB甚至数个PB级的结构化和非结构化数据。②类型繁多:医疗数据类型复杂,不仅限于电子病历中患者的基本数据、输入转出数据等结构化数据,还包括医学影像数据,临床实验室检测数据及互联网中存在的医学数据等海量的半结构化和非结构化数据。③价值密度低:目前大数据的价值存在稀疏的特点,价值密度的高低与数据总量的大小成反比,因此,需通过强大的机器算法和大数据处理技术来实行数据价值挖掘。④处理速度快:处理速度是大数据区分于传统数据分析最显著的特征,如在电子商务背景下,不管其采用批处理还是流处理方式,其衡量的是用户“交互点”,如网站响应速度、订单完成速度、产品和服务的交付速度等。假设交互点是一个黑盒子,一边吸入数据,经过黑盒子处理后,在另一边流出价值,处理速度指的是吸入、处理和产生价值的速度。在医疗信息服务中可能包含大量在线或实时数据分析处理的需求。例如:临床决策支持中的诊断和用药建议、流行病学分析报表生成、健康指标预警等都需要更快的处理生成速度。因此,有大数据定义指利用常用软件工具捕获、管理和处理数据所耗时超过可容忍时间的数据集合。
当今人类产生的数据量远超过以前人类历史任何时代所产生的总和。数据的产生及来源大致经历了3个阶段:运营式系统阶段、用户原创内容阶段和感知式系统阶段。在运营式系统阶段,数据库的出现使得数据管理的复杂程度大大降低,该阶段的数据往往伴随一定的运营活动而产生,并记录在数据库中,如在医疗服务过程中,对就医患者的信息登记和记录保存,该类数据的产生往往是被动的。在用户原创内容阶段,互联网及Web2.0时代的诞生促使人类社会数据量再次飞跃,如社交网络、专业网站、信息平台的建成后,人们愿意主动地在网上发布思想见解、经验和经历等,医学中的专业数据网站、医疗信息平台可以收集大量的数据信息,如医疗事故信息的上报、统计;医生专业知识的交流和分享;医学科研数据的网络化交流和搜索等,这个阶段数据产生方式往往是主动的。在感知式系统阶段,系统的广泛使用导致了数据信息的爆发,促进了大数据的产生。这个阶段人们多使用微小的带有处理功能的传感器,并通过这些设备来对整个社会活动的运转进行监管,源源不断地产生新数据,如在医疗行业中的远程会诊、医学教学视频、移动医疗技术产生和传输的实时数据等,这个阶段数据的产生方式多是自动的。因此,可以说大数据的产生伴随着电子信息和通信技术的发展,经历了被动、主动和自动3个阶段,它们构成了大数据的来源。医疗卫生“大数据”的数据资源包括医疗服务的医院信息系统(HIS)、电子健康档案系统(EHRs)、实验室信息系统(LIS)、医学影像信息系统(PACS)、放射学信息系统(RIS)的数据等,医院与医保的结算与费用数据,医学研究的学术、社会、政府数据,医院药物采购与使用监管数据,居民的行为与健康管理数据及政府的人口与公共卫生数据,构成了医疗卫生领域大数据的初期数据资源。
至2003年完成“人类基因组计划”以来,医学诊断模式发生了革命性的变化,“基因组后科学”的发展又提出了新的目标——精准医学,2011年美国基因组学与生物医学界的智库发表了《迈向精准医学:建立生物医学与疾病新分类学的知识网络》。随着分子生物学和高通量基因测序技术的发展,促进尿液基因组学及基因组后的转录组学、蛋白质组、脂类组学、糖类组学、表观遗传学等多种“组学”进步,它们产生了与尿液生物化学有关的海量大数据,为社会精准医学的发展提供了丰富的数据源。随着现代信息技术的更新和世界全球一体化的推进,世界各国之间的信息网络平台建设得到了飞速发展,尤其是医疗卫生事业领域的信息交流更加密切,各种临床、科研、政府决策、分子生物学等医学信息的交流与共享,极大地丰富和整合了医学数据信息资源,为整个人类医学卫生事业的发展提供了良好的数据源保障。
(查艳 黄山 达静静 袁静)