给科学家的科学思维(套装10册)
上QQ阅读APP看书,第一时间看更新

到目前为止,在所讨论的有关年龄和成就的研究中,有一点是相同的:它们关注的都是著名科学家,那些被我们称赞为天才的人。这些研究得出的结论,与我们这些凡夫俗子有关联吗?

对卓越科学家的这种长期关注合乎方法论:这一领域大多数现存的知识都是通过手工做成统计表格,草草地记下重要研究产生的日期,估算科学家完成这些研究时的年龄,有时还要在图书馆浩瀚的文献中找出证据。同时,著名科学家的信息也更容易获得,因为这些内容都在传记和颂词中有所记载。

即便是今天,虽然计算机极大地降低了数据收集和整理的工作量,但考虑到第1章(“解决‘谁是谁’的问题”部分)所讨论的论文署名歧义带来的挑战,研究个人职业生涯仍然是一项艰难的任务。然而,多亏了数据挖掘和机器学习方面的进步,通过使用科研选题、作者所在机构以及引用模式等多方面信息,人名消歧的准确性在过去10年得到了极大提高。因此,研究者就可以获取到更多、更全面的关于科学家个人职业生涯的历史信息,这里指的不仅是天才科学家,也包括在这一领域辛勤耕耘的普通科研人员。这些技术进步也为相关研究提供了新的契机。我们将在本章看到,数据并不只是检验和证实了现有的理论和框架,它实际上彻底颠覆了我们对于个人职业发展的思考方式。

被打乱的科学家的职业生涯

图5-1(a)显示了1982年诺贝尔物理学奖获得者肯尼思·G.威尔逊(Kenneth G. Wilson)的科研生涯。我们将他第一次发表论文视为他学术研究的起点,他每发表一篇新论文,我们就在他职业生涯相应的时间点(学术年龄)上添加一枚大头针。大头针的高度表示论文的影响力,近似等于论文发表后10年所获得的总引用量。

图5-1 肯尼思·G. 威尔逊的论文发表史

(a)水平轴显示威尔逊第一篇论文发表后的年份,每一条垂直线代表一篇发表的论文。每条线的高度代表c10,即论文发表10年后获得的总引用量。威尔逊引用量最高的论文发表于1974年,也就是他第一篇论文发表后的第9年,是他48篇论文中的第17篇,因此t*=9,N*=17,N=48。

(b)威尔逊被打乱的职业生涯,我们保留大头针的位置,但将每篇论文的影响力用另外一篇的影响力替换,从而打乱威尔逊职业生涯中最重要成果产生的时间顺序116

通过这种“放图钉”的表现方式,我们能够呈现出每一位科学家的职业生涯。对不同学科的成千上万名科学家重复这一步骤,我们就能够回答一个简单却难以回答的问题:尽管关于天才科学家有大量的文献研究,但普通科学家在什么时候能发表他们最重要的研究成果?

有人通过分析众多物理学家的职业生涯史得到这个问题的答案。研究者检索了曾在《物理学评论》(Physical Review)上发表过论文的236 884名物理学家的出版记录,并按照“论文发表记录至少横跨20年”这一条件从中筛选出了2 856人116。我们能够从数据中定位每位科学家最优秀的成果,即他已发表的论文中引用量最高的论文。为了查清科学家在什么时候发表了自己最有影响力的论文,我们采用t*值描述科学家发表最优秀的论文时的学术年龄。t*会标注亚历山大·弗莱明关于“产黄青霉菌”(Penicillium Chrysogenum)的论文,或者玛丽·居里的关于放射性的论文,但它也可以标注隔壁办公室同事的论文,这些论文的引用量或许要可怜得多,却是论文作者最好的一篇。

图5-2为P(t*)的函数曲线图,即某位科学家最有影响力的论文发表于自己第一篇论文t*年后的概率。P(t*)在0~20年达到较高值表明,大多数物理学科研人员是在职业生涯的早期或中期发表他们最有影响力的论文,在这一时期之后,P(t*)便有明显的回落。这证明,一旦科学家过了职业生涯中期,就不太可能再有突破性的研究成果。

图5-2 随机影响规则

科学家职业生涯中最高影响力论文发表时间t*的分布(实线)以及对职业生涯随机化后的分布(虚线)。两条曲线差别并不明显,表明科学家发表的论文中,影响力是随机分布的116

但是,进一步仔细分析可以发现,解释这个曲线并不像最初预想的那么简单。为了理解这一点,先来思考一个问题:如果最高影响力论文的产出时间完全是随机的,那么这张图会呈现什么样的结果呢?

试想一下,职业生涯中的创造性纯粹是随机的。要理解这样的随机生涯看起来像什么,我们随机挑选两枚大头针,然后互换,重复这个动作数千次。这样,我们就得到每位研究人员职业生涯被打乱的另一个版本[见图5-1(b)]。被打乱的职业生涯和他真实的职业生涯差别在哪里?个人的论文产出并没有改变,这些论文总体的影响力也没有变化,因为我们没有改变大头针的长短,也没有改变论文的发表时间。唯一改变的是这些论文发表的顺序。将你所有的论文想象成发给你的一叠扑克牌,你最有影响力的论文是方块A,然后我们洗牌,将包括A在内的扑克牌的顺序打乱。现在,你的方块A可能出现在这叠扑克牌的任何位置——上面、中间或是下面。

下一步,我们在打乱的职业生涯中测量P(t*),然后将打乱顺序后得到的P(t*)与真实的职业生涯在一张图中绘制出来。令人意想不到的是,图5-2的两条曲线几乎相互重合。也就是说,在被随机打乱的职业生涯中,最重要的研究成果的发表时间与原始数据没有太大差别。这意味着什么呢?

巅峰会在职业生涯的任何时刻出现

图5-2中两种分布曲线相同,这表明P(t*)的变化可以完全由职业生涯中产出率的改变来解释。确实,那条随机曲线描述了某位研究人员职业生涯中产出率的变化。它表明在这个样本中的研究人员,产出率会在职业生涯的第15个年头迎来一个高峰,然后在第20年之后快速回落。这意味着,年轻科学家在事业的早期有一些重大的突破,并不是因为年轻和创造力紧密相连,而只是因为他们正处于最多产的时期。换句话说,如果产出率能够调节,那么最有影响力的论文将在职业生涯中的任何时刻出现。我们将这种现象称作“随机影响规则”116

我们还是继续使用扑克牌的比喻。想象一下,你一次从一叠牌中抽出一张,但频率不同。刚开始工作时,你感到兴奋,扑克牌抽了一张又一张,一刻不停,踌躇满志地要找到那张A。过了这段时期之后,节奏逐渐变慢,你伸手拿牌的节奏也慢了下来。如果扑克牌是事先完全洗好的,而且在前20年抽到的牌远多于在此之后抽到的牌,那么什么时候最有可能抽到A呢?当然是前20年。也就是说,职业生涯的前20年并不比后20年更具创造力。在职业生涯早期抽中了A,仅仅是因为你付出了更多努力。

要更直接地测试随机影响规则,我们可以看一看在一叠扑克牌中,A会出现在哪里。为此,让我们来计算一下最高影响力论文N*在发表的一系列论文N中的位置。然后计算PN*/N),即在该序列中某一位置发表引用量最高的论文的概率,N*/N取值越小表示所处阶段越早,N*/N≈1则表示处于后期。如果随机影响规则是有效的,那么PN*/N)应该服从均匀分布,即无论N*/N的取值如何变化,最优秀论文出现的概率是相同的。用专业术语来说,这意味着累积分布PN*/N(16)必须呈现线性下降,服从(N*/N-1。数据完全符合随机影响规则的预测[见图5-3(a)]。

图5-3 创造性领域的随机影响规则

累积分布PN*/N),其中N*/N表示职业生涯中影响力最大的论文的顺序N*,数值范围为1/N~1。N*/N的累积分布是一条斜率为-1的直线,表明在某人的作品序列中,N*出现在所有位置的概率相同。该图显示了20 040名科学家[见图5-3(a)]、3 480名艺术家[见图5-3(b)]以及6 233名电影导演[见图5-3(c)]的PN*/N112。对每一位从事创造性工作的个人,我们取他的3件最有影响力的作品(论文、艺术品或电影),分别根据引用量、拍卖价格和在互联网电影数据库(IMDb)中的评分等级进行衡量,然后度量它们在其职业生涯中的相对位置。这些图证实,在这3种职业生涯中,3件最有影响力的作品,每一件的完成时间在所有作品序列中都是随机分布的117

但为什么探讨只停留在最有影响力的论文上?影响力位列第二的论文是什么情况呢?位列第三的呢?你可能猜到了,没错,相同的规律再次出现了[见图5-3(a)]。累积分布曲线明显是一条直线。也就是说,你职业生涯中的重大突破随时都会降临,而且这一规律并不局限于最优秀的成果,其他重要程度不等的成果也同样是随机分布的117。这一随机影响规则不仅可以用来解释科学家的职业生涯,同样也适用于各种创造性领域从业者的职业生涯,比如艺术家和电影导演(见图5-3)117

随机影响规则这种概念在文献中多有记载,最早可以追溯至20世纪70年代西蒙顿(Simonton)所做的研究,他提出过一种叫作“成功的恒定概率”的模型2,118-121。长期以来,研究人员怀疑,同样的规则也适合于艺术界,比如文学和音乐创作118,直到40多年之后,用于验证这一想法的数据集才被收集起来。

科学的真相

The Science of Science

遗失的获奖者

第4章的结论表明,诺贝尔奖的获奖成就往往产生于获奖者职业生涯的早期。然而本章的内容则表明,普通科学家的职业生涯是受随机影响规则支配的。那么,随机影响规则也适用于诺贝尔奖得主的职业生涯吗122?为此,在获诺贝尔奖之前发表的论文中,我们测量了获奖论文和引用量最高的论文在论文序列中的位置(51.74%的引用量最高的论文同时也是获奖论文),发现这两者往往都位于论文序列的早期[图5-4(a)]。这表明与普通科学家相比,诺贝尔奖得主往往更早就发表了他们最重要的论文。

但是,我们还必须面对一个选择效应——由于诺贝尔奖从未追授给去世的人,因此那些较早产出突破性研究成果的科学家更有可能获奖。为了验证这一猜想,我们拿掉有可能受到这种选择偏差影响的诺贝尔奖论文,衡量余下3篇最有影响力的论文的产出时间,发现它们全都随机分布于诺贝尔奖得主的整个职业生涯中[见图5-4(b)]。这表明,除了获奖论文以外,诺贝尔奖获得者在其职业生涯中的其他所有重要论文也都遵循随机影响规则。这一选择偏差表明,存在“遗失的获奖者”:某些科学家发现了足以获得诺奖的重要研究成果,但是由于这些成果在其职业生涯中出现得较晚,从而未能获得诺贝尔奖委员会的认可。

图5-4 诺贝尔奖得主的职业生涯模式

(a)在授予诺贝尔奖之前,所有论文序列中获奖论文和引用量最高的论文相关位置的累积分布(Ni/N)。虚线表示随机影响规则的预测。

(b)为了消除获奖论文发表时间上潜在的选择偏差,我们去掉了获奖论文,计算获奖之前所有发表的论文中,其余三篇引用量最高的论文所在的位置,发现这些论文仍然遵循随机影响规则122

随机影响规则改变了人们对职业生涯何时出现重大发现这一问题的看法。的确,数十年的研究证实,重大发现通常发生在科学家职业生涯的早期。这也导致了一种根植于大众文化的神秘观点,即创造性属于年轻人。随机影响规则将年龄和创造力分离开来。它告诉我们,在职业生涯中产生的所有成果中,某项成果成为重大突破的概率完全是随机的。准确地说,我们所做的每一个项目成为个人最优秀成果的概率是一样的。不具有随机性的是产出率:年轻的研究人员总是热切地不断尝试,论文一篇篇地发表。如果影响力在个人从事的所有项目中随机存在,那么从统计学上讲,具有影响力的成果总会在职业生涯早期的某个时候产生,因为那时的产出率更高。

随机影响规则为我们认识产出率的作用提供了一个新视角:它告诉我们,要想获得期待已久的科研突破,反复尝试是极其重要的。确实,对于那些持之以恒的人来说,重大科研突破并不是那么难以实现的。约翰·芬恩就是一个很好的例子。在他被耶鲁大学强制退休,正式的学术生涯就要结束时,他发现了一个新的电喷雾离子源。他没有放弃,离开耶鲁后,在弗吉尼亚联邦大学得到一个新的教授职位,继续他的研究,最终发现了电喷雾离子化技术。正是这一发现使他在15年之后获得了诺贝尔奖(见图5-5)。总之,他的例子以及随机影响规则都表明,那些在职业生涯后期产出率没有下降的科学家,他们的影响力可能也不会衰减。

图5-5 2002年诺贝尔化学奖获得者约翰·芬恩的学术生涯

虽然随机影响规则加深了我们对科学家职业生涯规律的认识,但它也提出了一个新的问题:如果重大成果产生的时间是随机的,那有没有什么因素不是随机的呢?

科学的真相

The Science of Science

年轻企业家的古老神话

“年轻等同于创造性”这一信条并不限于科学界,它在企业界同样根深蒂固。事实上,硅谷科技博客奖的获奖者平均年龄为31岁,荣登《公司》(Inc.)和《企业家》(Entrepreneur)杂志“顶尖企业家”榜单的人,平均年龄为29岁。红杉资本是一家著名的风险资金管理公司,他们支持的创业者平均年龄为33岁,经纬创投的受资助者平均年龄为36岁。在硅谷,难道年轻是成功的代名词吗?

通过整合报税表、美国人口普查信息以及其他联邦数据,研究人员编制了一份包含270万名公司创始人的名册123。分析显示,与大众的认知不同,最优秀的企业家往往是中年人。在发展迅速的高新企业中,企业家在创建公司时的平均年龄为45岁。另外,50岁获得巨大成功的可能性是30岁同行的2倍。

这些结果表明,创业绩效随着年龄而激增。如果从两位企业家中选择,在除了年龄其他信息一无所知的情况下,与主流的观点相反,你通常最好把宝押在年长一点的人身上(见图5-6)。

图5-6 年长的企业家更有可能成功

初创公司成功的概率随创业者的年龄而增加,至少持续到50岁后期。Y轴代表年龄变量的回归系数,代表相对于20岁的创业者,极端成功概率上的变化。这里的“极端成功的初创公司”是指5年内,雇员增长位于前0.1%的新公司123,124