第一推动丛书·综合系列(套装共8册)
上QQ阅读APP看书,第一时间看更新

变化可控吗?

复杂引擎是一种信息操作策略,创造变体,然后非随机地挑选。输出结果的可变性为从中选择提供了可能。在复制过程中引入变化的最简单方式是允许发生错误。在分子层面上,错误通常是随机的。因为变化是分子热运动造成的,因此不太可能是为了系统未来的某种需求。但这并不意味着随机变化对引擎是必需的。如果复制过程中引入的变化不是随机的,复杂引擎仍然能够运作得很好。任何来源的变化都能为选择提供材料。然而让人吃惊的是,随机变化能够提供最大的潜力。如果变化不是随机的,系统也能进化,但未来的潜力会受到限制。如果对未来应当是怎样有预先的构想,则所有没有想到的可能性都被排除。只有变化包括随机因素,才为系统真正打开了机遇之门。随机变化将未来的潜力最大化。

抽象地思考信息的变化很难,我们可以看看非常重要的进化系统——生命——引入变化的各种方法的一些细节。生物新的可遗传变化的最终来源是错误和灾难,但生命利用了一些窍门来充分开发这种资源。复制DNA的分子机制很精巧,但并不能排除错误。DNA分子很长而且易断,许多化学物质和大部分高能辐射都能导致DNA受损。因此你的DNA中编码的信息不断受到攻击。细胞可以产生酶来探测和修复损伤,但修复机制不是完美的。这实际上有好处;错误对进化的不断进行很重要。如果某个物种发展出了能完美复制和修复DNA的机制,未来就无法再进化。最终,环境会改变,其他进化的生物会改变以适应新的环境,并在对食物等资源的竞争中胜出。之前完美的生物就会越来越处于劣势并走向灭绝。没有错误,就不会有变化。在生物界,不变的完美是灭绝的保证。

错误的关键作用导致了一个惊人的结果,就是经过数百万代后,生物已经进化出了它们的突变率。复杂引擎只在很窄的一个突变率范围内才能最有效地运作,变化率要足够大,但又不能过度,以至于丢失之前积累的有用信息。变化太多同太少一样有害。图6.4说明了这一点,生成100位1字符串的最多1算法的最优突变率是每一代每一位2%。在自然界观察到的突变率也说明了这一点。基因组包含10000(104)个核苷酸的病毒的突变率约为每一代每个核苷酸10-4次突变。而有400万(4×106)个核苷酸的细菌的突变率接近10-6,DNA中有30亿(3×109)个核苷酸的哺乳动物的突变率约为10-8

DNA还有一种对生命进化很重要的变化机制是保留副本。当一个或一段基因在同一个DNA分子内部有副本时,就不容易损失信息。

当一份拷贝在未来变化时,副本会保留原来的功能。对动植物基因组的分析发现进化变化产生的副本使得细胞蛋白质的扩充和多样化成为可能。对序列的删除则是另一种更具破坏性的变化来源。

还有两种相当不同的机制确保最初由突变、副本和删除引起的变化能与其他基因活动“适配”并促进有用的新序列的推广应用。这两种机制是减数分裂过程中染色体的随机配对和DNA的重组,这个过程产生精子和卵子。这些机制很重要,因为不仅仅是外部环境决定DNA的变体是传播还是消失,生物体内的基因(以及基因变体)的互动也起作用。在有性繁殖的背景下,这些机制确保每个后代都能获得其父母完整而又独特的基因变体的混合。重组使得信息可以混合,随机配对则使得每个后代都能拥有4个祖父母的基因变体同样,任何一本生物学入门教材都会介绍配对和重组(有时候也叫“交换”)。

染色体的随机配对会混合群体中已经出现的序列变体。所有多细胞生物的细胞中都有多个DNA分子;DNA分子被蛋白质和RNA包裹,形成的微观结构就是染色体。DNA分子短,染色体也短;分子长,染色体就长。由于细胞中DNA分子长短不一,因此实验人员可以根据染色体的长短来对其进行区分。另外,大部分多细胞生物的每个细胞中都有每个DNA分子的两个不同备份。这意味着每个细胞中每种染色体都有两条。每一对有一条来自父亲,另一条来自母亲。人类细胞有46条染色体,两条一对,共23对。豚鼠细胞有64条染色体,果蝇有8条,玉蜀黍有20条。每条染色体中的DNA编码一组特定的基因。在有性繁殖过程中,配偶子含有每对染色体中的一条,但具体哪一条是随机的。因此,来自每个祖父母的染色体平均各占1/4。但只是平均;具体的分布是随机的。

图8.1展现了重组。最常见的形式是同源重组,两个包含相似但不完全一样的序列的DNA分子(图中的1和2)对齐,使得相似的序列并列;然后两个分子都在随机选择的同样位置截断并交错重连,这样截断点两边各来自父母的一方。

图8.1 每一条横线代表一个DNA分子(来自父母中的一方),线上的字母代表核苷酸序列编码的一个基因。由于大多数生物都有两个父母,因此每个基因都有两份拷贝,这两份拷贝稍有区别,用(′)标注。在重组时,携带同样基因的两条DNA链排到一起,在相同的位置断开,然后交错重连

随机配对和重组的组合保证了卵子和精子结合产生的后代都有独特的基因变体组合,而且每种基因都有两个。这反过来又保证了每个基因变体都有与其他基因变体组合的机会。在许多遗传背景下具有优势的DNA序列将有可能在群体中广泛传播;没有优势的则会消失。复制和修复,以及更为罕见的副本和删除导致的错误使得新的变体不断产生。如果新变体的引入太过迅速,系统就会被错误占据,并因为过于缺乏(有用的)信息而崩溃。如果引入的速度太低,变化就会非常缓慢。

表8.1列出了生物系统变化的主要来源。分子生物学的最新进展带来了引入变化的新方法。这些方法统称为基因工程。现在能够将基因(DNA序列)从一个生物转移到另一个生物,也能在实验室合成新的基因并将其植入生物的染色体。这样就能改变基于DNA信息所表达的身体的某方面特征,使得生物具有新的特征。人类设计的变体的引入与复杂引擎的循环完全相容。从计算的角度看,人类修补匠只不过是提供了新的变化来源。

表8.1 自然生物系统可遗传变化的主要来源

注:列出的每种变化都对DNA有影响,也都涉及随机变化

进化算法为展示进化系统有可能用到的变化机制的谱系提供了实验室。表8.1中列出的所有自然方法都有相应的模仿算法,也有一些算法是计算机背景下独有的。单点的随机变化与重组的组合为大部分计算问题提供了足够的变体David Goldberg, Genetic Algorithms in Search, Optimization and Machine Learning(1989)。戈德堡对遗传算法的定义中包含有重组。。计算机实验和基因工程的最新进展都令人信服地证明了,只要技术上可行,在进化系统中人工创造新的变体在理论上没有障碍。