上QQ阅读APP看书,第一时间看更新
第15章 炎症性肠病的信息化方法与知识管理
第1节 炎症性肠病的信息化方法与知识管理的意义
以计算机技术为基础的信息技术已经成为了现代科学的重要基石,是现代科学研究的重要技术手段之一。近几十年以来,由于计算机网络技术的发展,特别是万维网的诞生,使得人们能够非常方便地获得大量的数据。准确地讲,现代科学已经进入大数据时代,这为我们的科学研究提供了全新的信息环境与技术手段。
在医学研究领域,我们同样面临着极其庞大的数据,这包括各种诊疗数据(如电子病历和个人健康档案等),医学基础研究的试验与分析数据(如基因研究与分析数据等),临床实验的档案资料以及各类医学研究资料与论文等。我们需要从这些庞大的数据中分析问题,发现问题,寻求其内在的关联性与因果性来分析问题,从而找到解决问题的有效方法。所以,信息化方法对医学研究也具有极其重要的意义。同样,信息化方法对于炎症性肠病的研究也具有重要的意义。
处理庞大的医学数据的第一步,就是把这些数据有机地组织起来,使得我们能够有效地对这些数据进行存储管理与检索。这通常是通过数据库方法来实现的。这些数据库管理方法已经比较成熟。在炎症性肠病(IBD)方面,已经有了一系列数据库系统,在美国、加拿大和欧洲都已经建立了大型的炎症性肠病流行病学数据库,汇集了许多炎症性肠病的流行病学的基本资料。
对于许多研究人员来讲,流行病学的数据只是研究的最基本的资料之一。他们感兴趣的还有建立在这些基本数据之上的各类基础医学的研究知识,包括炎症性肠病的分类,炎症性肠病药物的机制等。炎症性肠病研究数据库为研究人员提供了面向研究的基础数据的检索支持。在本章的第二节里,我们将介绍这些面向炎症性肠病流行病学数据库。在第三节里,我们将介绍面向炎症性肠病研究的数据库。
医学研究领域的数据的一个显著特征就是,这些数据经常都是与医学领域的某些特定知识相关联的。这里,知识可以被看成结构化的有规律性的数据的描述。因此,这些知识也可以被看成是医学数据的一部分。对于这些面向知识描述的数据处理,我们称之为知识管理。知识管理之所以不同于数据处理在于:知识管理涉及知识表达语言与逻辑推理。
一个特定领域的基本概念(或者是规范的术语)的集合及其概念之间的关系描述被称为一个本体(Ontology)。在医学领域,已经存在着一系列规范的术语集或本体,如著名的临床概念术语集SNOMED CT,医学检验术语集LOINC,医学文献检索术语集MESH,基因本体GO等。
万维网为今天的大数据时代提供了全新的信息基础。这就是促使万维网之父Tim Berners-Lee于2000年左右提出了语义万维网(The Semantic Web,简称语义网) 的思想,其所主要期待的是,希望对现有网络信息资源做语义标注,使得人们能够更方便快捷地找到网络信息。语义网的主要思想是采用逻辑语言作为描述工具来刻画各种信息内容(即它们的语义)。由于采用了逻辑语言来描述信息,我们有时把这些基于逻辑语言描述的信息称为知识。我们把这些采用语义网的信息和知识处理技术统称为语义技术(semantic technologies)。
知识处理及其语义技术已经在生命科学和医学方面得到了广泛的应用。它不同于传统的基于数据库的信息化手段在于,它不仅仅能够提供传统的数据检索的能力,而且能够提供知识分析,推理和决策的支持,使得我们对庞大的医学数据的分析能够建立在基于领域知识的基础上,更精准地描述问题,更深层地分析问题,更有效地解决问题。在本章的第四节将详细介绍炎症性肠病语义检索与知识管理技术。
第2节 炎症性肠病流行病学数据库系统
在这一节里,我们介绍一些面向炎症性肠病流行病学的主要数据库。
一、北美炎症性肠病流行病学数据库
(一) 曼尼托巴大学炎症性肠病流行病学数据库
该数据库访问地址为:http://www.ibdmanitoba.org/epidim.htm。该数据库于1995年开发完成,利用了加拿大曼尼托巴省的健康数据库(Manitoba Health Database)的数据,并通过给近400家医疗部门邮寄调查问卷获取了关于IBD患者的记录。通过使用该IBD数据库科研人员获取了许多的关于炎症性肠病的科研成果,如:长期炎症性肠病患者的信息需求与偏好;IBD在不同经纬度的骨密度的变化规律;关于IBD患者医疗开支的研究等。
(二) CCFA 美国克罗恩病和大肠炎病基金委员会的数据库
CCFA DNA Data Bank 关于IBD遗传学的数据库,访问地址为:http://www.ccfadatabank. org/,该数据库包含了442位IBD先证者及其DNA信息,同时也包含了这些患者父母的DNA信息。其界面如图15-1所示,可通过查询表单进行查询条件的设置,在该数据库中查询满足条件的IBD患者的统计数据。
(三) CCFA GI Buddy
CCFA GI Buddy是一款克罗恩病(CD)和溃疡性结肠炎(UC)的移动客户端跟踪工具,可以对IBD患者的症状进行跟踪、检测患者整个身体状况、产生医疗报告来查看IBD病情的发展趋势、记录IBD患者的饮食种类及成分等。目前该产品支持Apple产品,如Iphone,Ipad等,其界面快照如图15-2所示。
图15-1 美国克罗恩病和大肠炎病基金委员会的数据库
图15-2 CCFA GI Buddy
(四) Crohn’s site
该网站是一个为青少年IBD患者提供帮助的网站,由美国Starlight儿童基金维护,通过该网站,IBD患者可以分享各自的故事与经历,与其他患者交流学习,同时从网站上获得关于饮食、运动等多个方面的建议,并习得学校学习的技能,如处理与学习、老师的关系等,借此来激励IBD少年患者能够积极乐观地对待自己的处境。图15-3是该网站提供的一个类似于专家咨询系统的部分,IBD患者可将自己的症状、疑惑等问题提交至该系统,可获得详细的解答。
图15-3 IBD的专家咨询系统
二、欧洲炎症性肠病流行病学数据库
(一) EpiCom 数据库
EpiCom(Epidemiology Committee)是2006—2010年间在哥本哈根大学成立的流行病学委员会,最初的目的是探索IBD与环境因素之间的关联关系。EpiCom 数据库于2006年开始开发,共耗资75 000欧元,有英语和俄语两种版本,是一个基于Web的IBD数据库,访问网址为http://www.epicom-ecco.eu,需要用户名和密码登录,才可访问。图15-4是其网站主界面。
(二) 丹麦克罗恩病数据库
访问网址为http://www.dccd-ibd.dk/en/index.php,该数据库由丹麦胃肠病学协会 (DGS)和丹麦儿科协会 (PDS)于2001年共同收集构建,通过收集丹麦全国的IBD患者数据,其目的在于改善IBD患者的诊断与治疗的质量,制定全国性的IBD流行病学的跟踪研究,如IBD的发病率、流行度、死亡率、并发症、药物治疗等,发现改善IBD治疗效果与预测效果的指标及潜在的新的治疗方案。
(三) Maven Semantic:IBD研究数据库
其访问地址http://www.mavensemantic.com/,Maven Semantic是全球最大的医学专家数据库,拥有超过6 000 000的医学专家数据,以及150 000个医疗组织信息,这些信息中包含了这些专家及机构的邮箱地址、邮编以及联系方式等信息,并可自由下载。该数据库中研究IBD的专家大约有20 000位,按高级医疗人员的数量排序,前10位研究IBD的国家依次是美国、英国、德国、日本、意大利、加拿大、法国、西班牙、荷兰和瑞典;从该数据库中可查询研究IBD的主要机构,以及相关的制药公司、医院、政府实验室等。
图15-4 EpiCom 数据库
关于IBD流行病学数据库,主要分散在全球各国的研究机构中,以欧美居多,但由于这些数据库一般作为机构内部使用,很少对外开放,互联网中比较多的是关于IBD网站,其功能主要有IBD的常识介绍、研究成果、IBD患者的护理方法等。关于IBD的科研文献主要研究IBD相关的流行病学特征、治疗方案、影响因素等,很少涉及对IBD数据库及相关的流行病学数据库的介绍。目前通过互联网能访问的IBD数据库较少,这些数据库一般都需要用户名与密码进行访问才能获取完整的数据概览,这主要考虑到IBD患者的隐私问题,还有很多IBD数据库并没有对外公开。总的来说,目前关于IBD流行病学数据库的研究,仍主要以各个医疗单位内部构建与使用为主,不过从近几年IBD逐年递增的趋势看,为了更好地研究IBD的病因及治疗方案等,IBD研究的全球合作将是其发展趋势,IBD科研数据的开放也将是必然的。
第3节 面向炎症性肠病研究的数据库
炎症性肠病的研究涉及对患者的易感性(genetic susceptibility)、环境因素、免疫系统的失调、共生微生物(commensal microbiota)与宿主的关系等复杂因素的分析。在这个研究过程中,需要分析大量的异构数据,这包括基因与转录的有关数据,蛋白与所影响的组织的通路(pathway)数据,蛋白与调节机制(regulatory mechanism)相关联的数据等。面向炎症性肠病研究的数据库,集成了上述各种类型的数据,使得研究人员能够方便地使用信息化手段来获得这些数据,并对之进行分析。
IBDSite是一个典型的面向炎症性肠病研究的数据库,其官网地址为http://www.itb.cnr. it/ibd/。界面图如图15-5所示。IBDSite通过从现有的医学文献中收集了与炎症性肠病相关的人类基因数据,特别关注于那些与肠道微生物相互作用并能引起免疫系统变化的基因。IBDSite分析了在PubMed上八千多篇关于炎症性肠病的论文,收集了ArrayExpression和GEO上关于人类或动物的15 000个基因阵列(array)数据,以及数以百计的NGS试验数据。
图15-5 IBDSite系统界面图
IBDSite的两个核心数据库是与IBD相关的细菌数据库和与IBD相关的人类基因数据库。为了使得这两个核心数据库中的数据有机地整合成一体,使得我们能够对它们之间的关联性进行分析,IBDsite引入了原数据(metadata)描述,采用了基于基因本体GO的概念标注(annotation),加上了KEGG的通路相关数据,BioGrid中的蛋白分子交互(Interaction)的相关数据等。IBDSite同时配置了网页交互的界面与数据分析的工具,使得使用者能够方便地使用该系统。
IBDSite网页界面上提供了一系列的工具,这包括通过普通检索来获得有关数据。它支持下列三个不同层次的查询:分子部件(Molecular components)层次查询,分子系统(Molecular system)层次查询,与细菌层次的查询。
在分子部件层次的查询,键入对应的基因名(如NOD2),则可以看到该基因所对应的一系列相关数据,如所在的染色体号,所对应表达的组织,基因产品(Gene Product),基因表达式等相关数据。图15-6所示的是NOD2的查询结果的部分数据。
图15-6 NOD2查询结果
继续点击上述结果中的通路链接,系统将跳跃到KEGG网站上所对应的N基因所关联的通路的结构化数据,如图15-7所示。
图15-7 KEGG通路查询结果
点击其对应的基因本体Gene Ontology的链接,我们可以看到该基因其所对应的功能(function)与处理(process)。如图15-8所示,NOD2所对应的基因功能包括ATP绑定(ATP Binding)等。NOD2所对应的基因处理包括免疫反应的激活(activation of immune response),而且其对应的基因本体的概念ID为 GO:0002253等。
图15-8 基因本体的相关结果
IBDSite所提供的分子系统层次的查询(图15-9),包括不同距离的通路系统,或者是基因本体(GO)所对应的生物处理,或者是蛋白与蛋白之间相互作用(Protein-Protein Interaction,PPI)网络之中的基因距离等参数。
图15-9 分子系统层次的查询
IBDSite提供针对不同细菌谱系的查询,如在该界面上选择放线菌( Actinobacteria)为查询参数。点击其查询的结果中的放线菌链接,系统将跳跃到NBCI系统界面,如图15-10所示。
图15-10 NCBI放线菌查询结果
第4节 炎症性肠病语义检索与知识管理
一、炎症性肠病本体与知识分类
从上一节关于面向炎症性肠病研究的数据库介绍中,我们看到了在多个相关的数据库中跳转查询的好处,因为它能够为我们提供更丰富的信息资源。但是,这种跳转查询需要人工的介入,而且常常依赖于个人经验和比较耗费时间的。在涉及比较复杂的信息资源查询与分析过程中,我们常常希望计算机系统能够为我们自动地或半自动地完成这些查询与分析的任务。这就需要我们引入知识分析和推理的支持。在面向网络的大数据时代,语义技术成为了我们进行知识分析与管理的一种首选技术。语义技术的一个核心技术就是构造领域本体,即构造特定领域的概念集合及其概念之间的关联性的描述。
在生命科学与医学领域,已经有许多本体采用语义技术的语言标准被构造出去。著名的Bioportal网站汇集了许多生命科学与医学方面的本体库,其官网地址为:http://bioportal. bioontology.org/。截至2013年8月,Bioportal已经汇集了349个生命科学与医学方面的本体,涉及超过六百万的术语。其最经常被访问的本体包括著名的临床概念术语集(SNOMED Clinical Terms),国家药物文件库(National Drug File),MedDRA,国际疾病分类(International Classification of Diseases)和美国国家癌症研究所叙词表(NCI Thesaurus)。
从Bioportal上查询炎症性肠病(Inflammatory Bowel Disease)的相关本体,可以看到IBD概念分散在24个不同的本体之中。图15-11显示的是Bioportal的部分结果。
虽然,现在还尚未存在针对炎症性肠病的独立的本体,其许多相关概念已经被几个大型的医学本体所覆盖,其中关于炎症性肠病的分类已经被临床概念术语集SNOMED和国际疾病分类(International Classification of Diseases,version 10,ICD10)所描述。如炎症性肠病在ICD10中,被归到noninfective inflammatory bowel disease概念之中,其对应的概念ID为K50-K52。
图15-11 BioPortal本体查询结果
二、关联生命数据集与炎症性肠病语义检索
生物医学本体及其语义数据为我们提供了丰富的数据资源。由于这些本体与语义数据都是采用国际规范的知识描述语言或元数据描述语言来表达数据的,使得计算机系统可以很方便地对之进行知识处理与管理。而且,更重要的是能够支持对海量语义数据的推理,从而实现大数据时代的全新方式的信息服务与知识服务。
由于存在着许多不同的生物医学本体和语义数据集,它们之间又存在着很强的关联性,即一些本体中的某些概念同时也被用到(或等同于)另一些本体中的某个概括。通过这种概念等价与关联性的描述,我们可以把多个本体和语义数据组成有机的整体,使得我们可以采用计算机自动处理的方式更方便更精准地获得所需的信息。
关联生命数据集(Linked Life Data,LLD)已经集成了32个生命科学与医学方面的语义数据集,总的语义数据规模超过了百亿三元组级,所涉及的实体(entity,即概念与个体等)超过了15亿个。关联生命数据集的官网地址为http://linkedlifedata.com/,提供了采用语义数据查询语言SPARQL服务端(endpoint)的语义查询的支持,同时还提供了采用传统的关键词查询的支持。
下面我们通过一些SPARQL查询的例子,介绍关联生命数据集SPARQL服务端所提供的面向炎症性肠病的语义查询。
实例一:列出NOD2基因所编码的蛋白所对应的分子功能。其对应的SPARQL查询为:
SPARQL查询语句类似于数据库查询语义SQL,由SELECT与WHERE部分组成。查询语句的开头使用PREFIX来定义语义数据的命名空间(Namespace),以便于给语义数据三元组中的对应的概念或实体提供唯一的语义标识。SELECT语句定义了该查询所需要返回的结果。SELECT语句定义了对应查询的三元组匹配模式。该SPARQL查询的结果如下:
该查询共获得41个回答,其部分查询结果如下:
我们经常关心如何更有效地采用语义查询来获得我们所需要的论文。后面的两个例子介绍如何采用SPARQL语义查询从关联生命数据集查询相关的文献。
实例三:列出PubMed中讨论NOD2与炎症性肠病的关系的论文。其对应的SPARQL查询描述为:
查询的结果(共167个),其部分结果如图15-12所示。
图15-12 PubMed中讨论NOD2与发炎性肠病的关系的论文部分查询结果
实例四:列出2011年以后PubMed上讨论NOD2与IBD关系的论文,其对应的SPARQL查询为:
其查询的结果显示共有五篇论文满足该语义查询的要求,如图15-13所示。
图15-13 2011年以后PubMed上讨论NOD2与IBD关系的论文查询结果
总 结
本章介绍了面向炎症性肠病信息化方法与知识管理技术。通过介绍一系列面向炎症性肠病的流行病学数据库,使得我们了解到如何方便地查询到其相应的流行病学资料。通过介绍面向炎症性肠病的研究数据库,使得我们掌握如何使用这些研究数据库,获得研究所需要的数据及其数据分析方法。以本体技术及其语义分析为特征的知识管理与分析方法,使得我们了解到了面向炎症性肠病的概念分类。其所提供的语义数据的处理与查询,使得我们能够方便地对面向炎症性肠病的复杂的数据关联性进行有效的分析。同时,也非常方便地为研究人员提供精准的文献查询及其面向基础数据(如基因和蛋白等)的知识分析与处理。
(黄智生 俞思伟 徐雷 李瑾)
参考文献
1.Hendler J,Berners-Lee T. From the Semantic Web to social machines:A research challenge for AI on the World Wide Web. Artificial Intelligence,2010,174(2):156-161.
2.Berners-Lee T,Hall W,Hendler J,et al. Creating a science of the Web. Science,2006,313(5788):769-771.
3.Merelli I,Viti F,Milanesi L. IBDsite:a Galaxy-interacting,integrative database for supporting inflammatory bowel disease high throughput data analysis. BMC Bioinformatics,2012,13(Suppl 14):S5.
4.Bernard A,Langille M,Hughes S,et al. A Systematic Review of Patient Inflammatory Bowel Disease Information Resources on the World Wide Web. Am J Gastroenterol,2007,102(9):2070-2077.
5.黄智生.关联生命数据集//李劲松,黄智生. 生物医学语义技术. 杭州:浙江大学出版社,2012.
6.Whetzel PL,Noy NF,Shah N,et al. Bioportal:Ontologies and Integrated Data Resources at the Click of a Mouse. ICBO,2011.
7.Wong S,Walker JR,Graff LA,et al. The information needs and preferences of persons with longstanding IBD. Canadian Journal of Gastroenterology,2012,26:525-531.
8.Carter MJ,Lobo AJ,Travis SPL. Guidelines for the management of inflammatory bowel disease in adults. Gut,2004,53(suppl 5):v1-v16.
9.Burisch J,Cukovic-Cavka S,Kaimakliotis I,et al. Construction and validation of a web-based epidemiological database for inflammatory bowel diseases in Europe:An EpiCom study[J]. Journal of Crohn’s and Colitis,2011,5(4):342-349.
10.Vind I,Riis L,Jess T,et al. Increasing incidences of inflammatory bowel disease and decreasing surgery rates in Copenhagen City and County,2003-2005:a population-based study from the Danish Crohn colitis database. The American journal of gastroenterology,2006,101(6):1274-1282.
11.Bardhan K D,Simmonds N,Royston C,et al. A United Kingdom inflammatory bowel disease database:making the effort worthwhile. Journal of Crohn’s and Colitis,2010,4(4):405-412.
12.Bernstein C N,Wajda A,Svenson L W,et al. The epidemiology of inflammatory bowel disease in Canada:a population-based study. The American journal of gastroenterology,2006,101(7):1559-1568.
13.Munkholm P. Findings from the European Collaborative Inflammatory Bowel Disease Database. Gastroenterology & hepatology,2007,3(10):760.
14.Makharia G K,Ramakrishna B S,Abraham P,et al. Survey of inflammatory bowel diseases in India. Indian Journal of Gastroenterology,2012,31(6):299-306.
15.Watanabe M. Perspectives for IBD in Japan. Note From the editor,2013:18.