第四节
RNA和蛋白质的华尔兹
蛋白质能够催化几乎任何化学反应,按理说催化自己的生成也应该不成问题。但是出人意料的是,蛋白质不能够催化自己的合成!这倒不是因为蛋白质没有把氨基酸连在一起的能力,例如细胞里面有一种重要的分子,叫做谷胱甘肽(glutatione),就是由蛋白质催化合成的。谷胱甘肽由三个氨基酸单位组成,分别是谷氨酸、半胱氨酸、和甘氨酸(见图2-8)。由于它只有三个氨基酸单位,所以还不够蛋白质的“资格”,而只能被称为“肽”。有几个氨基酸就叫做几肽,所以谷胱甘肽是个三肽。即使要把这三个氨基酸连在一起,也需要两个酶的催化。第一步,γ-谷氨酰半胱氨酸合成酶把谷氨酸和半胱氨酸连在一起,形成谷胺酰半胱氨酸这个二肽。再由谷胱甘肽合成酶把甘氨酸加到这个二肽上,形成谷胱甘肽。这个例子说明,由蛋白质组成的酶是可以合成肽链的。既然肽链可以被蛋白质合成,为什么蛋白质的合成就不行呢?
这是因为合成谷胱甘肽的方法不能被扩大到蛋白质的合成上。在合成谷胱甘肽时,γ-谷氨酰半胱氨酸合成酶上面同时有谷氨酸和半胱氨酸的结合点,而且这些结合点把两个氨基酸的位置安排得恰到好处,再经过酶的催化,这两个氨基酸就连在一起了。谷胱甘肽合成酶上同时有谷胱二肽的结合点和甘氨酸的结合点,它们彼此之间的位置也是恰到好处,所以可以把甘氨酸和二肽连在一起,形成谷胱甘肽(图2-8)。
图2-8 谷胱甘肽的合成的两个步骤。上图为谷胱甘肽的分子结构,下图表示谷胱甘肽的合成需要两个酶的作用
现在假设我们要合成一个由5个氨基酸组成的蛋白质,其中的氨基酸依次是ABCDE(这样写只是为了叙述方便,其实其中的一些字母,例如B,并不真的代表一种氨基酸)。合成AB时需要一个酶,同时结合A和B。合成ABC时需要另一个酶,同时结合AB和C。到这一步,合成过程和谷胱甘肽的过程是一样的。但是合成ABCD就需要第三个酶同时结合ABC和D,合成ABCDE还需要第四个酶同时结合ABCD和E,余此类推(图2-9)。
图2-9 一种假设的由蛋白质催化合成肽链ABCDE所需要的酶和步骤
这样,要合成由N个氨基酸组成的蛋白,就需要N-1种酶,而且要结合的肽链也越来越长。对于有几百个氨基酸单位的蛋白质来讲,这显然是不切实际的。这还是只对一种蛋白质的合成,而细胞里有几千种的蛋白质,用这种方法来合成所有这些蛋白质更不可能。况且合成蛋白质的酶自己也是蛋白质,它们又如何被合成呢?所以走谷胱甘肽合成的这条路来合成蛋白质是行不通的。
RNA虽然可以把氨基酸连起来,形成蛋白质,但是如果没有一种机制来规定氨基酸被加上去的顺序,这样合成的蛋白质中氨基酸的排列顺序只能是随机的。这样随机形成的蛋白质中会有一些具有生命所需要的性质(例如催化功能),在生命的早期也许起过作用,但是随着生命的化学系统逐渐定型,对蛋白质序列的要求就越来越严格。有时一个氨基酸单位的改变都会影响蛋白质的功能,例如人的镰状细胞贫血症(sickle-cell anemia)就是血红蛋白中一个谷氨酸单位被缬氨酸取代而引起的。所以要合成具有一定氨基酸顺序的蛋白质,必须要有含有这个序列的严格指令。
蛋白质中的氨基酸序列本身就包含有这个信息,如果这个信息可以被读取,蛋白质也可以被用作模板来复制自己。假设每一种氨基酸都可以结合同样的氨基酸,那么蛋白质伸开的肽链就可以把各种氨基酸按照自己的顺序排列起来,再由RNA把这些氨基酸连在一起。但这只是一种假设,氨基酸并不能结合与自己相同的氨基酸。蛋白质作为一个整体的确可以结合氨基酸,前面所说的谷胱甘肽合成酶就是一个例子,但在这样的结合中一个氨基酸对应的不是一个氨基酸,而是肽链卷曲以后由多个氨基酸组成的结合区。肽链的正确卷曲还有其他氨基酸的参与,所以蛋白质要结合一个氨基酸,需要整个蛋白质作用。由于这个原因,蛋白质是不能作为模板来指导自己的复制的。换句话说,由于蛋白质中的氨基酸之间没有如RNA分子中碱基之间那样的配对机制,蛋白质里面的信息(氨基酸的排列方式)并不能被读取,信息必须储存在别的分子中。
RNA由4种核苷酸(腺苷酸、鸟苷酸、胞苷酸、尿苷酸,分别用字母A、G、C、U代表)线性相连组成,好像由4个字母写成的长句子。这4个字母排列的顺序就可以用来储存信息。例如AGC代表一个意思,GCC又代表另一个意思,就像24个英文字母按照不同顺序排列,可以组成不同的词一样。用这种方式,蛋白质中氨基酸的顺序就可以储存在RNA分子中。那么需要几个“字母”来代表一个氨基酸呢?RNA里面只有4种核苷酸,两个核苷酸只有16种(4×4)排列方式,而氨基酸却有20个,显然是不够的。如果用三个核苷酸来决定一个氨基酸,就有64(4× 4× 4)种排列方式,在决定氨基酸种类上是富富有余了,所以现在的生物都使用密码子(triplet code)来为蛋白质中氨基酸的序列编码。这些为蛋白质编码的密码子类似于电报的密码,叫做密码子(codon)。由于64远大于20,许多氨基酸由多个密码子来编码,第3个字母可以不同,例如CAU和CAC都代表组氨酸,AAA和AAG都代表赖氨酸。许多氨基酸还有4个密码子,例如GCU、GCC、GCA、GCG都代表丙氨酸(图2-10)。不过可以储存信息是一回事,能不能读取信息又是另一回事。蛋白质中氨基酸的排列顺序也是一种信息,只是细胞无法读取,如果储存在RNA分子中核苷酸序列里的信息也没有方法被读取,这样的信息仍然没有用处。
图2-10 为氨基酸编码的核苷酸密码子
在这里,早期的生物有另一个“幸运”,就是有催化作用的RNA可以把氨基酸连在一个小RNA分子上。这个小RNA分子上面又有几个核苷酸专门用来和储存蛋白质氨基酸顺序的RNA分子上的密码子配对,例如小RNA分子上的ACU就可以和编码RNA分子上的UGA配对,这样就可以把氨基酸带到RNA分子附近(见图2-11)。这几个通过碱基配对而和密码子结合的核苷酸序列就叫做反密码子(anticodon),是小RNA分子读取RNA分子中密码子信息的工具。如果每一种氨基酸都对应小RNA分子上特定的反密码子,这些氨基酸就可以被带到RNA分子上为自己编码的密码子附近,并且按照RNA分子上面密码子的顺序排列起来。如果这时有第三个RNA分子能够把这些氨基酸连起来,就可以合成蛋白质。由于氨基酸的顺序是按照编码RNA分子上密码子的顺序决定的,mRNA分子就可以准确地指导蛋白质的合成,RNA分子中为蛋白质编码的信息就可以被读取了。
由于每一种蛋白质都有自己特有的氨基酸序列,这意味着每种蛋白质都需要专门为自己编码的RNA分子。这应该不是个问题。同一个mRNA分子可以被重复使用,合成多个蛋白质分子,理论上每种蛋白质有一个为它编码的RNA分子就够了,所以细胞储存这些信息并不需要太多的资源。
这个机制还真的被原核生物采用了。原核生物细胞中蛋白质的合成,是在一种叫做核糖体(ribosome)的结构中进行的。核糖体是由RNA和蛋白质组成的巨大复合物。原核生物的核糖体分为“大亚基”和“小亚基”两大部分(参看图1-9),其中小亚基含有1个由1540个核苷酸组成的RNA分子和21个蛋白质分子,大亚基含有两种RNA分子,分别由120个和2900个核苷酸组成,以及31个蛋白质分子。核糖体里面的蛋白质没有催化作用,而是帮助整个结构的稳定。核糖体里的RNA rRNA才是催化蛋白质合成的分子。为蛋白质编码的mRNA结合于核糖体,在那里指导蛋白质的合成。合成蛋白质所需要的氨基酸则被与它相连的小RNA分子——转运RNA(transfer RNA,简称tRNA),转运到mRNA分子附近,通过tRNA上的反密码子和mRNA上的密码子结合。大亚基上由2900个核苷酸组成的rRNA有催化功能,可以把这些氨基酸连在一起,这样就能够准确地按照mRNA中的信息合成蛋白质,而且几乎没有误差(图2-11)。因此蛋白质肽链的合成是由三种RNA分子(mRNA、tRNA、rRNA)协同完成的。这个机制是如此成功,所以不仅原核生物首先使用,地球上所有的其他生物也都继承了这个机制。这个合成蛋白质机制的发展和完善,是原核生物的又一大功劳。
图2-11 RNA指导蛋白质合成。氨基酸先被连接到tRNA分子上,通过tRNA分子上的反密码子与mRNA分子上的密码子配对,把氨基酸带到mRNA附近,由核糖体中的RNA(rRNA)把这些氨基酸连在一起,形成肽链。左下为苯丙氨酸tRNA的结构,显示tRNA分子内的碱基配对使分子形成三叶草的形状,右下为tRNA的实际空间形状
在生命出现的早期,RNA催化自己的复制,并且催化蛋白质的合成。到了原核生物,RNA分子的合成已经不再由别的RNA分子催化,而改用蛋白质来催化,但是RNA催化肽链合成的功能却一直保留。离开RNA,就没有蛋白质的合成;而没有蛋白质,RNA也无法合成。现在所有生物体内的RNA,都是由蛋白质催化合成的,而所有的蛋白质又是RNA催化形成的。RNA和蛋白质之间跳的这种“华尔兹”是所有现代生命的基础。