临床肿瘤内科手册(第6版)
上QQ阅读APP看书,第一时间看更新

8 新药临床试验和实体瘤的疗效标准

新药临床试验     实体瘤的疗效评价标准

新药临床试验

(一)总体考虑

抗肿瘤药物上市之前的临床试验分为Ⅰ期、Ⅱ期和Ⅲ期临床试验,各期临床试验目的不同。根据国家食品药品监督管理局新药审评中心制定的《抗肿瘤药物临床试验技术指导原则》,在开始试验之前,需要考虑以下问题:

1.受试人群

由于细胞毒类抗肿瘤药物具有较大毒性,为避免健康受试者遭受不必要的损害,初次进入人体的Ⅰ期试验一般应选择肿瘤患者进行,入选患者应该是采用标准治疗失败或复发者。

2.给药方案

抗肿瘤药物的疗效和安全性与给药方案密切相关,给药剂量与给药间隔不同,所产生的毒性也可能不同。对于细胞毒类药物而言,在毒性可以耐受的前提下应尽量提高给药的剂量达到最佳疗效,因此临床研究早期宜尽可能对不同的给药方案进行探索,找出能够获得最大疗效且耐受性可以接受的给药方案。对新型的分子靶向治疗药物而言,其给药方案的探索可能不同于传统的细胞毒药物的方法。

3.不同瘤种的探索

通常一种抗肿瘤药物可能不只是对一种瘤种有效,也不可能对所有瘤种都具有同样疗效。在早期探索性临床试验中,应参考临床前研究结果选择多个瘤种进行临床研究,以获得该药物对不同瘤种敏感性的初步结果。Ⅲ期研究再针对某个或几个相对敏感、最具开发价值的瘤种进行大样本确证性试验,获得肯定疗效后,再选择其他潜在的有效瘤种进行研究。

(二)临床试验的分期和要点

目前国际上已经有了统一、公认的方法。一般可以将新药试用的步骤分为四期,其目的及方法如表8-1~3。

表8-1 新药试用的设计和目的

表8-2 临床试验的目标和分期

表8-3 各期临床试验的目的和要点

1.Ⅰ期(phaseⅠ)试验

(1)研究目的:

主要目的是探索不同给药方案下的最大耐受剂量(MTD)、剂量限制性毒性(DLT)、合理的给药方案,确定Ⅱ期临床试验推荐的给药方案。同时了解新药人体药代动力学特征,获取初步药代动力学参数,并观察初步疗效。

(2)受试人群的选择:

原则上应至少符合以下基本标准:①经病理组织学和(或)细胞学确诊的恶性肿瘤患者。②经常规治疗无效的或缺乏有效治疗的恶性肿瘤患者,且纳入新药试验后可能受益者。若需要对特定目标人群进行观察,则可有选择性地入组具有相应目标肿瘤人群进行研究。③无严重的造血功能异常(不适用于血液病患者),心、肺、肝、肾功能基本正常。④体力状况评分(performance status,PS)ECOG 0至1级或卡氏评分>70分。⑤应排除以往抗肿瘤治疗的持续效应。入组治疗时间应与以往治疗有足够的时间间隔,通常至少在4周以上,避免以往治疗的干扰。⑥至少有3个月的预期寿命,可以对安全有效性资料进行随访。⑦年龄一般18~65岁。⑧生育年龄的受试者应采取有效避孕措施。⑨签署知情同意书。

(3)给药方案:

要确定某一新药的合适剂量和给药方法、途径等需要根据多方面资料。临床医师对药物性质和试验研究的结果了解得愈多,就能够较快地找出合适的安全剂量。很多新药都是现有药物的衍生物,来源及结构与已知药物相近,因此也就可以从已知药物的剂量,根据在动物体内毒性的比较研究结果来推定。大多时候需要直接根据动物的资料拟定初步临床试用剂量,一般都需要由很小剂量开始以免引起中毒:首次试用的“安全剂量”=狗的急性半数致死量(LD50)的1/10,狗的最大耐受量(MTD),或出现毒性反应最低剂量的1/20;也有人计算为小鼠半数致死量的1/10(按体表面积mg/m2)。另一条件是需要根据药物作用的快慢和体内转化等推定两次给药的间隔。一般两次给药的间隔可根据药物作用的潜伏期(period of latent drug effect,PLD)决定。所谓药物作用的潜伏期就是在动物中自给药至出现药物作用的间隔,一般可给狗低于致死剂量观察出现毒性的时间得出。许多药物的作用潜伏期不同,例如多数烷化剂只有几小时;而巯嘌呤、氟尿嘧啶等抗代谢物均需要几日,如果给药间隔过短,很容易引起蓄积,患者严重中毒甚至死亡。一般调整剂量的方法需要根据药物在动物中的代谢决定。

以动物(一般为狗或小鼠)半数致死量(LD50)的1/ 10开始,如观察时间超过药物作用的潜伏期(PLD)仍无疗效或反应出现,则按倍数递加,直至有一个以上病例出现限制剂量提高的不良反应(DLT),一般为2/3患者出现3度毒性或1/3患者出现4度毒性为止,每次加量的间隔时间必须为一个PLD。出现不良反应时待症状消失后可再给较小剂量,如无毒性反应出现,可再加量,这样即能求出出现毒性反应的最小剂量(最低中毒剂量,minimum toxic dose,MTD)和最大耐受量(maximum tolerated dose,MTD)。每次剂量增加的幅度为保证安全,一般按改进的Fibonacci公式进行(表8-4),即每次增剂量越高增加幅度越小。

表8-4 改进的Fibonacci剂量递增的方法

第二组患者开始试用时可由前一组患者的剂量基础上进行调整,不必再由首次安全剂量开始。这样,一般经过20~60例的试用后即可确定作为下一阶段正式试用的合适剂量。

对于一些非细胞毒类抗肿瘤药,由于其毒性相对较小,Ⅰ期临床试验的单次给药起始剂量计算可采用非临床试验中非啮齿类动物NOAEL(no observed adverse effect level,未观察到不良反应的剂量)的1/5,或者更高。

Ⅰ期试验中需要注意的问题有:

(1)动物与人的差异:

实验动物与人对药物的敏感程度和反应性质上均存在着差异,一般说来人比动物要敏感得多。例如噻替哌(thiotepa)大鼠的耐受量为2mg/kg,人则是0.15mg/kg;左旋苯丙氨酸氮芥大鼠的耐受量是1.6mg/kg,人则是0.15mg/kg。前述计算“安全剂量”的方法一般说来是适用的,但有时也可能遇到些意外,例如6-氮杂尿嘧啶(6-azauracil)给小鼠、大鼠、猫、狗、猿等每日90mg/kg亦无肯定中毒表现,猫甚至可以耐受2g/kg的高剂量,但给人服用4~5mg/kg时即有明显的中枢神经系统中毒和骨髓抑制。长春花生物碱(VLB)小鼠的耐受量为0.3~0.45mg/kg,而一般临床开始用量为0.15mg/kg,两者相近。

在毒性方面动物与人也有相当联系和差异,Owens曾就动物系统的预报效果进行比较,将各种类型的肿瘤药包括烷化剂、抗代谢药、抗生素及植物药共21种对啮齿类、狗、猿和人的毒性进行对比,动物资料对各系统的预报效果如表8-5。

表8-5 临床前毒性研究的预报效果(引自Owens,1962)

由上可看出药物引起的骨髓抑制、消化道反应和对肝、肾功能的影响,人与动物具有共同性,通过动物资料常能正确地反映药物对人的影响;但神经系统毒性在大多数情况下动物资料不能提示人体的反应;而药物对皮肤及其附件的影响(如皮炎和脱发),无论大小动物与人之间都没有任何联系。

从临床使用的观点来看,大多数药物提高剂量的主要限制为骨髓抑制和消化道反应,所以动物资料在毒性方面常可提供主要线索。另一方面也需要警惕可能发生一些预期不到的毒性反应,尤其是中枢神经系统反应如抽搐、运动和感觉障碍等。

(2)患者之间的个人差异:

要找出一个适合于所有患者的剂量在实际上是有困难的,也是不合理的。临床上不但要考虑患者的体重,其他如不同年龄、一般状况、肿瘤种类以及肝、肾功能状况等都对耐受量有影响;即使许多条件都大致相近,人与人之间对药物的反应也存在着相当差异。很多医师都有这样的体验:多数患者对“标准剂量”的阿霉素、吉西他滨、卡铂和顺铂都会有相当程度的胃肠反应,但也有个别患者却泰然自若。因此一般只要求给出有效剂量的大致范围就够了。

不同种属患者之间的差异是当前临床广泛重视的问题之一,例如对雌激素的耐受剂量白种人比有色人种要大。

2.Ⅱ期(PhaseⅡ)试验

(1)研究目的:

治疗作用初步评价阶段。其目的是初步评价药物对目标适应证患者的治疗作用和安全性,也包括为Ⅲ期临床试验研究设计和给药剂量方案的确定提供依据。

(2)试验设计:

由于Ⅱ期临床试验是探索性研究,而非确证性研究。因此此阶段的研究设计可以根据具体的研究目的,采用多种形式,包括随机盲法对照临床试验。

(3)受试人群的选择:

受试者的入选条件与Ⅰ期基本相同,或根据Ⅰ期研究结果进行适当调整,但一般要求每个受试者应至少有一个按RECIST标准可测量的肿瘤病灶,以定量分析药物的抗肿瘤疗效。一般而言,Ⅱ期临床试验尽可能多选择瘤种分别进行考察,而不是仅选择一两个瘤种。这样可以帮助选择最具开发价值的适应证进行Ⅲ期临床研究,减少研发风险。

(4)给药方案:

应在Ⅰ期临床试验的基础上进一步探索和优化给药方案,可考虑同时采用两个或多个剂量组,对给药方案进行细化和调整,包括给药剂量、给药间隔、速度、疗程、合理的剂量调整以及联合放化疗方案等。

本阶段的主要问题有六方面:确定初试肿瘤的种类,确定病例数目,判断疗效的指标,对影响疗效的因素进行分析,进一步调整并确定给药方法和途径等;其中判断疗效的指标是一专门问题。

(1)确定试用肿瘤的种类:

前面我们已经初步讨论,初试肿瘤的种类常可决定某一新药的前途,为了避免由选择不当而带来的错误,近年来许多学者都主张最好作广谱试用,但从实际可能来看广谱试用要求病例数目及所需时间均较多,所以在临床上确定首先试用的肿瘤种类仍然具有一定重要性。一般我们可以参考几方面资料决定初试肿瘤的种类:

1)药物对动物肿瘤的疗效:

药物对动物肿瘤与人体肿瘤疗效之间的联系向来为人重视。实验治疗预报效果的人体肿瘤“模型”,例如药物对小鼠浆细胞瘤和急性白血病的作用在一定程度上可以预报相应人体肿瘤的反应; Zubrod及Pratt认为理想的预报系统应当是建立只种啮齿动物肿瘤与人体肿瘤这种一对一的联系,但目前还远远不够完备,多数常用的动物肿瘤即使是诱发瘤,如肝癌及宫颈癌等,只能说明药物可能具有一定抗肿瘤作用,与人体各相应肿瘤对药物的反应并无固定联系。目前多数临床学者仍然持有这样的观点:动物肿瘤中有效的药物对人体肿瘤不一定有效,但对人体肿瘤有效的药物对动物肿瘤大多有效,所以只有在动物筛选中具有抗肿瘤作用的药物才值得临床使用。也有相当多的人认为诱发瘤或自发瘤对药物的反应可能更接近人体肿瘤的反应。如何继续改进或建立一些新的动物瘤株,以提高实验治疗的预报效果,同时密切实验与临床的联系,将是我们重要的研究课题。

2)体外实验:

人体和动物瘤株在体外组织培养在抗肿瘤药物的筛选中具有决定性地位,为目前临床学家选择首先试用瘤谱的重要参考指标。此外具体患者的肿瘤细胞培养资料也曾受到重视,但仍然存在争论。异种移植的资料,例如将人体肿瘤细胞移植于裸鼠皮下作为筛选药物的模型也是初试瘤种的重要数据。直接来自人体肿瘤细胞的实验资料对临床使用具有重要参考价值,可惜现有方法在操作、稳定性、时间和经济方面都有缺点所以仍存在争论。例如早年Wright分析了188例患者,218份肿瘤标本在组织培养上对数化学药物的反应,结果与临床疗效符合的占50.4%,不符合的占27.5%,另有22.1%不能得出结论,认为药物的肿瘤细胞在组织培养中浸润生长的影响与临床结果相近。Dowd及Dipaolo应用在琼脂碟上化学药物对瘤细胞悬液中甲烯蓝的抑制程度作为对脱氢酶的抑制即细胞毒素作用的指标,认为在琼脂碟上无作用的药物在临床上大多无效,而有抑制作用的大都有效。因之认为可作为选择抗瘤谱的参考。

3)相近药物的抗瘤谱:

目前已经肯定药物的抗肿瘤作用与其化学结构有一定关系,一般根据相近药物的抗瘤谱虽不能准确估计新药的抗瘤谱,但可作为初步试用的参考。例如氨蝶呤与甲氨蝶呤基本一致,阿霉素与表柔比星、卡铂与顺铂、紫杉醇与多西紫杉醇也基本如此。但结构上的微小差异有时可造成抗肿瘤作用强度或范围的很大不同,例如右旋的苯丙氨酸氮芥则与左旋或消旋的苯丙氨酸氮芥(即美法仑)完全不同;伊立替康与拓扑替康,奥沙利铂(草酸铂)与顺铂差别均较大。

4)药物在第一阶段试用中的疗效:

虽然在第一阶段试用中例数可能不多,但对以后的试用可以提供宝贵的参考资料。一些具有高度抗肿瘤作用的药物实际上在第一阶段试用中常可观察到明显的疗效,常常成为进行Ⅱ期临床研究的重要依据。某一药物何以对一类肿瘤有效而对另一些肿瘤无效,目前尚无满意的解释;但实际上对霍奇金病有效的药物对其他淋巴瘤也大多有效(如氮芥和环磷酰胺氮芥),对结肠癌有效的药对其他消化系腺癌也可能有些疗效(如氟尿嘧啶及其核苷),所以初次试用的结果对以后的试用有一定意义。

5)药物的毒性:

对药物的毒性进行细致观察也常可提供十分有价值的线索,尤其是对某些系统的特异性毒性更有意义,例如远在1943年Gilman及Philips正是由于注意到硫芥和氮芥对动物骨髓和淋巴结有明显破坏作用,才开始用来治疗这一系统的肿瘤;同样ACTH和肾上腺皮质激素也是由于观察到在实验中可使大鼠胸腺和淋巴结萎缩,因之被用来治疗网状内皮系统肿瘤的;最有代表性的例子是二氯二苯二氯乙烷(DDD)的临床作用,DDD毒性很大,但由于发现它对狗的肾上腺皮质的束状带有选择性破坏作用,因而被用来治疗功能性肾上腺皮质癌;其他如普卡霉素(光辉霉素)由于可引起动物睾丸萎缩,所以被认为可能对睾丸肿瘤有效。发现沙利度胺可以引起胎儿畸形是上一世纪药物研究中的大事,但后来发现其机制是抑制胎儿的新生血管,所以被用来治疗肿瘤。虽然看起来这些都是“偶然发现”,但充分说明细致观察药物的作用,不论是疗效还是毒性,都对试用工作有帮助。

6)药物的合成路线:

目前在合成新药时大多从一定理论出发,例如左旋苯丙氨酸氮芥的合成构思是将苯丙氨酸作为载体将氮芥基团导入肿瘤组织内,由于黑色素瘤内含有较多的酪氨酸,而苯丙氨酸为酪氨酸的前身,所以学者们预期此药可能对黑色素瘤有效。根据“运转型-作用型”理论合成的己烯雌酚双膦酸酯(Honvan)从设计上就是希望此药经过酸性磷酸酶水解后对前列腺癌起作用,所以首先试用的病例是十分明确的。但像上述这样的例子并不多,目前药物的寻找和筛选仍具有一定盲目性,有时临床疗效也并不符合设计时的想法。靶向治疗的发展为这方面提供了很好的范例,大大减少了试验的盲目性。

如上所述,我们一方面可以根据多方面资料选择有效可能性较大的肿瘤,另一方面也要注意照顾广谱试用的原则;所以一般总是首先同时选择数种不同类型的肿瘤(如网状内皮系统肿瘤、癌、黑色素瘤及软组织肉瘤等)分期进行试用,这样既有一定方向性,又可避免选择病例不当而漏掉有效药物的可能性。

(2)确定病例数目:

统计学的论断无论是肯定还是否定都需要一定的病例数目,由于第二阶段试用常可决定新药的命运,所以试用前应有相当计划。在已经调整确定剂量的基础上,本阶段所需病例数取决于试用肿瘤种类的多少和药物对所选肿瘤可能达到的疗效水平。例如:如果要求药物对某一肿瘤必须是100%有效,那只要有一例无效就可以加以否定;但实际上我们对药物有效率的要求并不这样严格,如在观察一种新药对多发性骨髓瘤的疗效时,根据目前现有药物的疗效水平,只要新药对20%以上的患者有效,就可以超过现有药物具有临床使用价值,在这种情况下我们只要从统计学处理上得出以下结论之一就够了:结论1:新药的疗效很可能是20%或更高;结论2:新药的疗效很不可能超过20%。这样就可以根据出现的几率计算所需病例数目:先假设此药的真正有效率为20%,则试用一个病例无效的可能性为80%,根据病例数目的增多可以计算如下:

积累病例数在连续试用时无效的几率

第1例 0.8

第2例 0.8×0.08=0.64

第3例 0.8×0.8×0.8=0.512

当连续使用于14个病例时,全部无效的几率只有0.044,即小于5%,从统计学上可以下“很不可能”的论断;或者反过来说当连续试用14个病例均无效时,此药的有效率也就很不可能超过20%了,也就是前述的论断2;因此只要试用14个以上病例就可以初步决定新药的临床使用前途。Gehan曾根据以上原则把第二阶段试用中对新药预期的疗效水平和最低病例数目的关系计算列为表8-6:

表8-6 药物的疗效水平与所需病例数目的关系(自Gehan)

由上表可以查出为了确定某一新药对某种肿瘤的有效率必需超过50%,错误的可能要求在5%以下,那就需要5个病例。相反我们也可以利用上表来推测文献中所下结论的可靠程度。

从以上计算可以看出试用肿瘤的种类愈多,所需的例数就愈多。但实际上某一新药临床试用的意义不在于精确地算出对各种肿瘤的有效率,而在于它能否解决临床上存在的问题,也就是新药的使用价值问题。如何全面地判断新药的临床价值不属于本文讨论的范围,一般说来应参考四方面条件即:①所治疾病现有的治疗水平;②毒性大小;③新药提高疗效的程度;④来源是否容易,给药是否简单易行等。例如前面已经谈过一般对新药治疗多发性骨髓瘤的有效率要求是20%以上;所以某一新药其疗效在此水平以下,又无其他方面的优点,就没有进一步再在多发性骨髓瘤试用的价值。

3.Ⅲ期临床试验

(1)研究目的:

治疗作用确证阶段。其目的是进一步验证药物对目标适应证患者的治疗作用和安全性,评价受益与风险关系,将新的治疗同标准治疗或不治疗进行比较,以确定新的治疗是否在疗效或不良反应方面是否有一定优越性,最终为药物注册申请的审查提供充分的依据。

(2)试验设计:

试验一般应为具有足够样本量的随机盲法对照试验。随机化可减少对受试者分组时产生的选择偏倚。盲法的优点是可减少偏差以及客观评价不良事件。

应注意的是,在已有常规标准有效治疗方法时,应选择临床上标准治疗方案为对照。此时可采用优效性或者非劣效性设计。在缺乏有效治疗方案的情况下,采用最佳支持治疗或安慰剂作为对照是可接受的。此时必须采用优效性设计。

Ⅲ期临床试验的设计方法有平行设计和析因设计,平行设计是采用较多的方法。因为药物对生存期的影响可能会因为交叉用药而难以判断,因此大多数情况下抗肿瘤药物不宜采用交叉设计。同时对两个或多个药物联合使用进行评价时,应采用析因设计。但如果治疗方式之间对疗效可能存在负的交互作用(拮抗作用)或对不良反应有正的交互作用(重叠毒性)时,需慎重设计。

Ⅲ期临床试验设计中,可考虑进行中期分析,以便对安全性和有效性进行监控,也可依据中期分析结果对后续临床研究的实施提出建议。

Ⅲ期临床试验从一开始即应有生物统计专家参与。目前国际上多中心随机Ⅲ期临床研究的例子已经很多。我们参加的对绝经后雌激素受体阳性晚期乳腺癌来曲唑(letrozole)和他莫昔芬对比研究,屈洛昔芬(droloxfen)和他莫昔芬的Ⅲ期临床研究均已完成。前者为阳性,从而确定了晚期绝经后雌激素受体阳性乳腺癌一线治疗的地位;而后者为阴性,未能像Ⅱ期临床研究那样说明屈洛昔芬优于他莫昔芬。

(3)受试人群的选择:

应选择在Ⅱ期临床试验中观察到的疗效确切的瘤种,入选条件与Ⅱ期基本相同。每个瘤种样本量应依据两组主要疗效指标的预期差异,依据统计学原理估算得到。

(4)给药方案:

根据Ⅱ期临床试验结果确定合理的给药方案。给药疗程一般持续应用到疾病进展或出现不可耐受的毒性。对于某些特定的治疗如辅助治疗,应参照相应瘤种的临床治疗指南确定其疗程。同时,应当制订试验过程中具体的剂量调整原则,例如因毒性的减量原则。

(5)疗效和安全性观察与评价:

常用的疗效观察指标包括总生存期(overall survival,OS)、无病生存期(diseasefree survival,DFS)、无进展生存期(progression-free survival,PFS)、疾病进展时间(time to progression,TTP)、治疗失败时间(time to treatment failure,TTF)、客观缓解率(objective response rate,ORR)、患者自评结果(patient-reported outcomes,PRO)和健康相关的生活质量(health-related quality of life,HRQoL)以及生物标志物(biomarker)等。不同指标具有自身的优点和缺点,可根据所研究的药物类别、肿瘤类型、当前临床治疗状况以及开发目标等来综合考虑,选择合适的主要和次要疗效观察指标。总生存期通常被认为是评价药物临床获益的首选终点。

安全性考察内容除了一般常规项目之外,应重点关注Ⅰ/Ⅱ期临床试验和非临床试验观察到的毒性以及少见毒性。

4.Ⅳ期临床试验

新药上市后大样本的观察。其目的是考察在广泛使用条件下的药物疗效和不良反应、评价在普通或者特殊人群中使用的受益与风险关系以及改进给药剂量等。

新药上市后可以进行的研究很多,例如新适应证的开发、给药途径研究、联合用药等。但最重要的是观察可能发生的某些发生率很低的不良反应。例如氟尿嘧啶的神经毒性和环磷酰胺的肺毒性均是在上市后多年才发现的。重视新药上市后资料的积累是多数有信誉的药厂应当完成的事,也是临床试验的良好结束。

(三)存在问题和展望

尽管新抗肿瘤药物的临床研究已经积累了相当经验,但存在的问题仍然不少。与抗感染化学治疗相比,最大问题是疗效和不良反应的预报体系尚不够完备。此外,由于肿瘤本身的不均一性,疗效和不良反应在不同人群的差异也较大,所以基础研究十分重要。

近年来由于肿瘤分子生物学的进展,出现了越来越多的非细胞毒靶向药物,为临床试验在方法学方面带来新的挑战。例如生物治疗药物和化疗药物的主要研究终点和观察指标不同,因此临床试验方法显然不能和细胞毒类一样,前者更重视生存质量(QOL)的改善和远期结果而不是肿块缩小。制定国际统一的试验方法无疑是当前一个重要的研究课题。生物治疗和化学治疗的不同见表8-7。

表8-7 生物治疗和化学治疗的不同

此外,新药引起的远期不良反应愈来愈受到注意。很多患者治愈后生育能力和其他器官的功能损伤以致儿童患者的发育问题都应重视。

统计学在临床试验中愈来愈重要,如何做到既符合科学性和伦理性要求又能节省人力物力是一个实际问题。可喜的是目前已经有了可供参考的指导原则。

国内临床试验的质量尚有待进一步提高。例如疗效不经确认、不良反应记录不够以致疗效偏高,而不良反应偏低。这些都有待不断开展GCP的培训和完善法规,特别是监察和督察制度的坚持。另一方面研究人员素质的提高,也是当务之急。

实体瘤的疗效评价标准

(一)WHO标准

1979年,WHO确定了实体瘤疗效评价标准,并作为通用标准在全世界范围内沿用多年。此标准内容大致如下:

1.肿瘤病灶的分类

(1)可测量病灶:

临床或影像学可测量双径的病灶,包括:皮肤结节、浅表淋巴结、肺内病灶(X线胸片≥10mm× 10mm或CT≥20mm×10mm)、肝内病灶(CT或B超测量≥20mm×10mm)。

(2)单径可测量病灶:

仅可测一个径者。

(3)可评价、不可测量的病灶:

微小病灶无法测径者,如肺内粟粒状或点片状病灶、溶骨性病灶。

(4)不可评价病灶:

腔隙积液、放射治疗后无进展的病灶、皮肤或肺内的癌性淋巴管炎等。

2.疗效评价方法

(1)可测量病灶:

完全缓解(complete remission,CR):所有病灶完全消失,至少维持4周。

部分缓解(partial remission,PR):双径可测病灶,各病灶最大垂径乘积之和(取病灶最大径,及与其相垂直的径线,两者长度相乘,得到最大垂径乘积,再将各病灶最大垂径乘积相加)缩小50%以上,至少维持4周;单径可测病灶,各病灶最大径之和减少50%以上,至少维持4周。

无变化(no change,NC)或稳定(stable disease,SD):双径可测病灶,各病灶最大垂径乘积之和缩小不足50%,或增大未超过25%,至少维持4周;单径可测病灶,各病灶最大径之和缩小不足50%,或增大不超过25%,至少维持4周。至少经两周期治疗(6周)才能评价为NC。

进展(progressive disease,PD):一个或多个病灶增大超过25%,或出现新病灶。新出现胸、腹水,若细胞学找到癌细胞,应判定为PD。

(2)可评价,不可测量病灶:

CR:所有病灶完全消失,至少维持4周。

PR:肿瘤大小估计缩小50%以上,至少维持4周。

NC:至少经2个周期(6周)治疗后,病灶无明显变化,估计肿瘤缩小不足50%,或增大未超过25%。

PD:出现新病灶,或估计肿瘤增加超过25%。

(3)骨转移病灶:

CR:溶骨性病灶消失,骨扫描恢复正常,至少维持4周。

PR:溶骨性病灶部分缩小、钙化或成骨性病灶密度减低,至少维持4周。

NC:病灶无明显变化,至少在治疗开始后8周以上方可评价为NC。

PD:出现新病灶,或原有骨病灶明显增大,但出现骨压缩、病理性骨折或骨质愈合不作为疗效评定的唯一依据。

(4)不可评价病灶:

CR:所有病灶完全消失,至少维持4周。

NC:病灶无明显变化,估计肿瘤减少不及50%,或增大未超过25%,至少维持4周。

PD:出现新病灶,或估计肿瘤增加超过25%。而腔隙积液时,如不伴其他病灶进展,只是单纯积液增多则不能评价为PD。

(二)RECIST评价方法

随着WHO标准被广泛采用,人们发现这一评价疗效的方法存在如下问题:①WHO标准中将“可评价”和“可测量”的概念混为一谈,使得疗效评价出现差异;②缺乏对最小病灶的大小及最少病灶数量的明确规定;③单个病灶进展和肿瘤整体(所有病灶测量的总和)进展的概念界定不清;④目前,高质量CT和MRI及重建技术可以测量病灶的三维直径,使双径测量不再准确。因此,该标准越来越多地影响了不同医疗机构特别是国际性研究组之间对实体瘤疗效评价的统一性。针对以上问题,1994年欧洲癌症研究与治疗组织(European Organization for Research and Treatment of Cancer,EORTC)、美国国立癌症研究所(National Cancer Institute,NCI)和加拿大NCI在回顾WHO疗效评价标准的基础上,进行了充分的交流和讨论,直至1998年10月取得了一致的意见,在WHO疗效评价标准的基础上进行了必要的修改和补充,采用简易精确的单径测量代替传统的双径测量方法,新的实体瘤疗效评价标准(Response Evaluation Criteria in Solid Tumors,RECIST)首次在1999年美国的ASCO会议上报告,并于次年的JNCI杂志上正式发表。以下做简单介绍:

1.肿瘤病灶的测量

(1)肿瘤病灶的定义:

可测量病灶:至少有一条可以精确测量的径线(记录为最大径),常规检测条件下病灶最大径≥20mm或螺旋CT检测最大径≥10mm。

不可测量病灶:小病灶(常规检测条件下直径<20mm或螺旋CT检测最大径 <10mm)和其他真正不可测量的病灶,包括骨病变、脑膜病变、腹腔积液、胸腔积液、心包积液、炎性乳癌、皮肤/肺的癌性淋巴管炎、影像学不能确诊和随诊的腹部肿块、囊性病变等。

注:不再沿用“可评价病灶”概念。所有数据使用标尺或卡尺测量并记录,并以公制米制表示。所有基线测量应该尽可能在接近治疗开始前完成,至少要在治疗开始前4周内。

(2)测量方法:

基线状态和随诊应用同样的技术和方法进行病灶评估。如果影像学方法和临床查体检查同时用来评价疗效时,应以前者为主。

临床查体:可触及的表浅病灶如浅表淋巴结或皮肤结节,皮肤病灶应用标尺标记大小制成彩色照片存档。

X片胸片:肺实质内清晰明确的病灶可作为可测量病灶,但仍推荐CT扫描的方法。

CT和MRI:是目前最可靠、重复性最好的疗效评价方法。对于胸、腹和盆腔,常规CT和MRI用10mm或更薄的层厚连续扫描,螺旋CT用5mm层厚连续重建模式完成,而头颈部及特殊部位的扫描方案应个体化制定。

注:CT扫描原则上要求最小的病灶不应该小于2倍的扫描层厚。没有禁忌证的一般应给予静脉对比增强,以区别血管和软组织与邻近肿瘤组织。每次必须在相同的窗位进行病灶测量。建议使用螺旋CT扫描。

超声检查:当试验研究的终点目标为客观肿瘤疗效时,超声波不能用来作为评价手段。仅可用于测量表浅可扪及的淋巴结、皮下结节和甲状腺结节,亦可用于确认临床查体后浅表病灶的完全消失。

内镜和腹腔镜:作为客观肿瘤疗效评价至今尚未广泛应用。但这种方法取得的活检标本可证实病理组织上的CR。

肿瘤标志物:不能单独用来评价疗效。但治疗前肿瘤标志物高于正常水平时,治疗后评价CR时,所有的标志物需恢复正常。

细胞学和病理组织学:在少数病例,细胞学和病理组织学可用于鉴别CR和PR,区分治疗后的良性病变还是残存的恶性病变。若可测量病灶为缓解、稳定但伴有治疗中出现的任何渗出性液体,需细胞学证实有无肿瘤细胞,若找到肿瘤细胞,则应评价为进展。

2.肿瘤治疗疗效评价

(1)基线状态评价:

为了评价客观疗效,对基线状态的肿瘤总负荷进行评估,以便与治疗后的结果进行比较。对于临床药物研究来说,只有在基线状态有可测量病灶的患者才能进入研究。如果可测量病灶为孤立性病灶需要组织/细胞病理学证实。

目标病灶:应代表所有累及的器官,每个脏器最多选择5个可测量的病灶,全身病灶数最多10个,作为目标病灶在基线状态评价时测量并记录。目标病灶应根据可测量病灶最大径和可准确重复测量性来选择。所有目标病灶的长度总和称为基线状态的最大径之和。

非目标病灶:所有其他病灶(或病变部位)作为非目标病灶并在基线状态时记录,不需测量的病灶在随诊期间要注意其存在或消失。

(2)疗效评价标准:

1)目标病灶的评价:

CR完全缓解:所有目标病灶消失。

PR部分缓解:基线病灶最大径之和至少减少30%。

PD病变进展:基线病灶最大径之和至少增加20%或出现新病灶。

SD病变稳定(stable disease):基线病灶最大径之和有减少但未达PR或有增加但未达PD。

2)非目标病灶的评价:

CR完全缓解:所有非目标病灶消失和肿瘤标志物恢复正常。

IR/SD未完全缓解(incomplete response)/病变稳定:一个或多个非目标病灶持续存在和(或)肿瘤标志物高于正常。

PD病变进展:出现新病灶和(或)非目标病灶明确进展。

(3)WHO与RECIST方法对于可测量病灶疗效评价标准的异同通过表8-8表示:

表8-8 WHO与RECIST方法对于可测量病灶疗效评价标准的比较

3.总疗效评价(表8-9)

表8-9 总疗效评价

(1)最佳疗效评价:

最佳疗效评价是指治疗开始后到疾病进展/复发之间记录到的最小测量记录值(进展的确定是以研究中的最小值——可能是基线值也可能是有效病例治疗后的最小值为基准)。通常,最好疗效评价包括病灶测量和疗效确认。因全身情况恶化而停止治疗者,虽然没有PD证据,应归类为“症状性恶化”,即使在中断治疗后,也应该尽量记录客观的疾病进展情况。早期进展、早期死亡和不可避免事件的发生因各研究而异,但应该在方案中有明确规定。在难以区分残存肿瘤或正常组织的情况下,评价为完全缓解时,应在确认疗效前进行组织或细胞学活检证实。

(2)肿瘤再评价的频率:

肿瘤再评价的频率在治疗中因方案而定,应该采取与治疗时间相匹配的模式,但是在前后连贯的Ⅱ期临床试验中,当治疗带来的好处不明了时,每隔6~8周随访一次比较合适,或者通常为治疗时间的2倍,但没有严格规定。

(3)疗效评价的确认:

对客观疗效进行确认的主要目的是避免高估有效率。这在以客观疗效为主要研究终点的试验研究中尤为重要。对于疗效评价为完全缓解或部分缓解的患者,必须在肿瘤首次达到标准后不少于4周后重新测量并得到证实。对于以治疗后生存时间为研究终点的研究并不需要反复的确证肿瘤大小的变化。

(4)总疗效持续时间:

是指从评价为CR或PR之时到第一次明确记录疾病进展或复发的时间。完全缓解时间指从评价为CR之时到第一次明确记录疾病进展或复发的时间。

(5)疾病稳定时间:

是从治疗开始到疾病进展的时间。临床相关疾病稳定时间因不同肿瘤的类型和分级而不同,因此推荐在研究方案中规定评价疾病稳定时间的最小时间间隔。这个时间间隔应该考虑疾病稳定状态给治疗人群带来的预期临床好处。

(6)疗效复阅:

对于以有效率为主要研究终点的临床试验,强调应有本研究组以外的专家或专家组进行疗效复阅。最好同时复阅患者档案和影像学资料。

4.结果报告

所有进入研究的患者,即使是违背主要治疗方案和不合条件而出组的,都应进行疗效评价。每一个患者均可归入以下一类:

完全缓解 CR

部分缓解 PR

疾病进展 PD

疾病稳定 SD

因肿瘤致早期死亡

因治疗毒性致早期死亡

其他原因致早期死亡

无法分类(不能评价或资料不完整)

所有符合入组标准的患者都应包括在有效率的主要分析中。疾病进展和各种原因致早期死亡及无法分类的患者视为治疗无效。无法分类的精确定义因方案不同而异。除外那些违背主要治疗方案的患者(如其他原因致早期死亡、早期中断治疗、未完成主要治疗等),可以对亚组患者进行分析。但是不能从亚组分析中得出治疗效果的结论,而且必须明确报告把患者排除在外的原因。要求提供95%的可信区间范围。

2000年公布的RECIST1.0版,作为一种抗癌新药临床试验的疗效评价方法,已被许多研究人员、企业团体、行业和政府当局广泛应用。然而,由于近年来新的药物,尤其是大量的非细胞毒性分子靶向药物进入临床试验,对该标准的质疑开始出现。例如,评价肿瘤负荷是否一定需要10个靶病灶?对不以客观缓解率为主要研究终点的临床试验,是否需要确认疗效?以生存为终点的临床试验患者是否一定要有可测量的靶病灶?分子靶向药物临床试验如何运用RECIST?如何应用FDG-PET和MRI等新的影像学技术?如何评估淋巴结?随之涌现出的上述一系列问题导致出现了RECIST1.1版。RECIST1.1版修正之处源自于对欧洲癌症治疗研究组织(EORTC)实体瘤临床试验数据库中6500例患者、18 000多处靶病灶的检验数据模拟研究以及文献综述的评估。RECIST 1.1版主要针对靶病灶的数目、疗效确认的必要性及淋巴结的测量等方面作了更新。

(1)病灶数目的判定:在RECIST 1.1版中,用于判断疗效的可测量靶病灶数目从最多10个、每个器官5个改为现在的5个、每个器官2个。尽量包含受侵器官。

(2)重新定义淋巴结的测量:淋巴结短径≥15mm为靶病灶,淋巴结≥10mm和<15mm为有病理意义的非靶病灶,淋巴结 <10mm的为非病理性正常淋巴结。

(3)疾病进展:PD的定义除了原靶病灶长径总和增加20%以外,还包括其绝对值增加5mm,出现新病变也视为PD。根据RECIST 1.1版,多个靶病灶中的单个病灶消失后又重新出现不足以证明其为PD,而是需要所有病灶的长径总和达到PD标准或其绝对值增加5mm。当一个靶病灶在随访中散裂为多个病灶时,应将各单个病灶长径相加。当多个靶病灶融合时应取其最大长径。

(4)对于以至疾病进展时间(TTP)、无进展生存期(PFS)等疾病进展(PD)指标为主要研究终点,而不是以ORR作为主要研究终点的随机对照临床试验和非细胞毒靶向药物临床试验不要求一定要有可观测的靶病灶,只有不可测量病灶亦可进入临床试验,不再需要疗效确认。

(5)X线、CT和MRI是RECIST中常用的疗效评估方法,但CT作为解剖成像技术对病灶的分辨力强、重现性好,是目前RECIST中最常用的疗效评估手段和首选方法。CT扫描的标准应为5mm薄层CT,因其可显示所有的10mm可测量病灶。随访采用的成像技术必须与基线相同,以保证肿瘤测量的重现性。

(6)疗效确认:对于以ORR为主要研究终点的临床试验,必须进行疗效确认。但以总生存(OS)为主要研究终点的随机对照Ⅲ期临床试验不再需要疗效确认。

(徐兵河)

参考文献

1.World Health Organization.WHO handbook for reporting results of cancer treatment.Offset Publication No.48.Geneva(Switzeland):1979.

2.Therasse P,Arbuck SG,Eisenhauer EA,et al.New guidelines to evaluate the response to treatment in solid tumors.JNCI,2000,92:205-216.

3.Eisenhauer EA,Therasse P,Bogaerts J,et al.New response evaluation criteria in solid tumours:Revised RECIST guideline(version 1.1).Eur J Cancer,2009,49:228-247.