2014年2月26日
向癌症宣战——国际癌症基因组联盟
你的生命从第一个细胞开始,一分为二、二又分为四,以此类推,到了第47次,细胞数达到了约1亿亿,即1016,你就有了人形。如此众多的细胞并非乌合之众,它们中的每一个都知道自己该做什么,每一个细胞都携带着一整套基因密码,按照密码的指令,完成着数百万件的工作,以维持和保护着你的生命。即使是最简单的细胞,其构造的精细程度也是人类智慧难以做到的,例如制造酵母的基本细胞,所需要的“零件”就和大型波音777喷气客机一样多,而人体细胞与之相比,要更多样,也更复杂。
人体细胞大多数存活的时间在1个月左右,任何部位的细胞都在有秩序地更新着。当一个细胞离去时,它不露声色地卸开并吞噬掉它的组成成分而进入凋亡。在你身上,平均每一天都有数十亿个细胞殉职。然而,在某些特殊情况下,细胞出现了错误,它并没有按照指令死去,相反,开始拼命地分裂和扩散,这就出现了癌症。虽然出现这种错误极其偶然,但是后果却十分严重。
人体的癌症是从一个单细胞开始的,它并非外来入侵物,而是人自身的一部分。这个出现错误的单细胞,可能被人体的免疫系统清除掉,但也可能躲过免疫系统,特别是在人体免疫力低下时,它肆无忌惮地游走于全身,逐渐从正常细胞向着肿瘤细胞转化并分裂繁衍。这是一个复杂而多阶段的过程,通常要经过很多年。当分裂累积到10亿个细胞以上,才能形成肿瘤而被我们发现。从这个角度上说,癌症患者可能在十余年前就患上了癌症。
癌细胞的生长,也是人的基因因素和外部因素,如致癌的物理和化学环境、生物感染等相互作用的结果。正因如此,癌症发展不仅具有快速性,还有其复杂性。它可以在身体内的任何部位发病,一旦形成肿瘤,变态的细胞会疯狂地增长,甚至超越边界,侵袭身体的毗邻部位并扩散、转移到其他器官。癌症的迅速扩散和转移,成为这种病高死亡率的重要原因。
癌症的复杂性是对人类的最大挑战,现在人们已经认识到的,作为一种疾病,癌症是由多种复杂因素造成的,但是无论是什么因素,无论是什么癌症,都是因为细胞的基因蓝图或基因组发生了改变。在细胞的生长分化过程中,由于基因组的操控,使得蛋白质呈现出各种不同的状态,例如大小的不同、形状的变化和生长速度的快慢等。也正是这些内部原因,在基因组变化下,致使正常的细胞中断了正常生物学的发展途径,从而走向了畸形发展,以致失态的细胞失去控制地疯长。
近年来,癌症已成为人类第二大杀手,仅次于冠心病。世界卫生组织的统计数字相当惊人,仅在2012年,大约就有1400万新增癌症病人,有820万人在当年因癌症去世。更令人担忧的是,这两个数字还在逐年攀升。根据研究预测,在未来的20年内,世界癌症的发病率将以大约70%的速率增加,到2020年癌症当年发病将增至2200万人。
1975年,诺贝尔生理学或医学奖获得者杜尔·贝克(R.Dulbecco)(图1)在《科学》杂志上撰文,提出了人类应对癌症的一个重要策略,这就是从基因组测序出发,从整体角度找出癌症发病机制。这一思想成为癌症研究的转折点,它促成了25年之后“人类基因组计划”的启动,最终这一计划于2003年顺利完成。基因组测序和信息处理能力的发展为癌症的基因组研究奠定了基础。
图1
2005年,美国癌症研究所和美国人类基因组研究所又启动了“癌症基因图集”(the cancer genome atlass, TCGA)计划。这项计划的目的是利用大规模基因组测序,来加速癌症分子生物学基础的研究。当时选择了预后较差的脑肿瘤、肺癌和卵巢癌作为研究重点,由英国桑格实验室和美国华盛顿大学医学院开始进行癌症基因组研究。在短短一年多的时间内,发现了一些癌症的相关基因突变和基因组结构的变异,显示出这一研究方向的巨大潜力,也证明了在国际范围内收集基因图谱的可行性。“癌症基因图集”计划的成功直接导致了另一个更大规模国际合作计划的出台。
在美国国家健康研究所的推动下,一个世界范围内的国际研究组织——“国际癌症基因组联盟”(International Cancer Genome Consortium, ICGC),以下简称“联盟”,呈现于世人面前。“联盟”于2008年4月29日在加拿大多伦多宣布成立,目标是在10年内通过国际合作对50种癌症收集大规模的基因组数据。参加的成员国组织有澳大利亚国家健康和医药研究中心、加拿大基因组、安大略癌症研究院、中国基因组测序协会、欧盟委员会、法国癌症研究所、印度生物技术部自然科学部、日本国家癌症中心、新加坡基因研究所、英国维尔康基金会、维尔康基金会桑格研究所、美国国家卫生院等。
癌症是人类最复杂的疾病之一,其复杂性在于它是基因突变与免疫学复杂交汇作用的结果,虽然已经建立了癌症的分类,但是,癌症的复杂性使得人们几乎找不到任何两个彼此相似的癌症过程,即使有相似的组织病理学特征、相似的癌症分期与相似的治疗,但在临床效果上也表现出极大的差异,这就给癌症的基因数据收集和研究带来了复杂性和海量性。“联盟”的建立不仅必要,它也是自“基因组计划”以来人类最雄心勃勃的一个生物医学研究计划。“联盟”要求每一个成员国组织,至少提供出一种或一个亚种以上的癌症基因组全方位的基因数据,每一种项目要收集来自大约500个病人的样本,并提出高分辨率的数据分析。
“联盟”根据癌症的“优先级标准”,提出了50种癌症类型。优先级包括癌症的影响力,如发病率,死亡率、治疗的有效率以及发病年龄等,还包括科学价值和可行性,例如有能力获得充分高质量的样本,以保证提供海量的数据。这50种也都是对全球临床具有重大作用的类型,其中包括肺癌、乳腺癌、结肠癌、肾癌、食管癌、胃癌、肝癌等。
这项计划要求利用基因分析技术,编制涉及这50种主要癌症的全方位基因突变编目。这份编目将成为发展新的诊断、治疗和预防癌症的方法的重要基础,也将在现有合作的基础上,为未来更大的项目计划,即在基因水平上进一步的合作打下基础,因而“联盟”在人类应对癌症挑战上具有重要的战略意义。
“联盟”的研究艰巨而复杂,仅以“大数据”这一特点来说,相关数字就多得令人窒息。一个杆菌的样本,DNA就是数以百万个字母长的密码,这些密码又叫做“基础对”。对于一个人的基因组,则包含着30亿个DNA的基础对。从1982年以来,世界基因库所存储的数据几乎每18个月就要翻一番,而整合这些数据,找出蛋白质和其他相关分子是如何随着环境或组织变化而变化时,又将是一个带有巨大挑战的海量分析。
2009年12月,英国桑格研究所在《自然》上刊文称,他们率先破译了肺癌、皮肤癌和乳腺癌的全部基因密码,绘制出相应的肿瘤基因图谱。通过这一研究发现,在肺癌细胞的基因中,含有22910个突变点,而在导致皮肤癌的恶性黑色素瘤的基因中,含有33345个突变点,这些突变大多数是“被动的”,并不导致癌变,只有其中一小部分显现出具有“主动性”,会导致癌症发生,它的数量很少,往往不足10个。这是自“联盟”成立以来的第一个突出成功的案例,他们的成功让科学家们看到了提前破解基因突变奥秘的希望。
2012年12月5日,“联盟”宣布中国在原有分工胃癌研究的基础上又新增添4个新项目,即对食管癌、结直肠癌、肝癌和鼻咽癌的基因检测。这4种癌症在中国更为常见,胃癌、食管癌和肝癌在中国的发病率是世界其他地区的两倍,而鼻咽癌则有70%的患者在中国。目前参与“联盟”计划的中国科学家已经有200多位,他们来自北京、上海、广州、深圳和香港等12个城市和9个研究所,都是精通基因测序以及生物信息学技术的专家。
2014年2月26日,“联盟”做出了总结报告称,他们已经收集到了超过1万个癌症基因组数据,这些数据可以帮助人们更好地认识癌症,提高癌症诊断技术。根据这项研究估计,一个正常细胞的癌变大约需要5个以上基因突变,针对这5个以上的靶点进行治疗,成为当前治疗癌症的方向。然而由于癌症的突出异质性和复杂性,靶点的确定以及癌症的靶向治疗都难度极大,尽管癌症基因组研究为当前癌症研究提供了一种主要思路,证实了利用生物信息技术战胜癌症的可行性和较好的前景,成为人类对癌症基因研究的新里程碑,但真正实现对癌症治疗的有效策略还有很长一段路要走。
关键词:国际癌症基因组联盟,International Cancer Genome Consortium (ICGC)
图1:http://www.nobelprize.org/nobel_prizes/medicine/laureates/1975/