第3章 研究方法
3.1 数据资料的来源与处理
3.1.1 编委数据的收集与处理
本研究选取科睿唯安2011年JCR数据库中“chemistry science”开头的7个学科chemistry,analytical; chemistry,applied; chemistry,inorganic & nuclear; chemistry,medicinal; chemistry,multidisciplinary; chemistry,organic; chemistry,physical中的514本期刊,“computer science”开头的7个学科computer science,artificial intelligence; computer science,cybernetics; computer science,hardware & architecture; computer science,information systems; computer science,interdisciplinary applications; computer science,software engineering; computer science,theory & method中的463本期刊以及“economics”学科的321本期刊作为本研究编委数据的样本源期刊。选择JCR数据库作为本研究的期刊样本来源主要基于以下两点。第一,JCR数据库是目前国际上公认的权威期刊评价工具。它包括以SCI为基础编制的自然科学版(Science Edition)以及以SSCI为基础编制的社会科学版(Social Science Edition),涵盖了世界上最具影响力的学术期刊,有着很好的代表性。自1975年首次出版以来,每年进行更新,目前该报告包括提供期刊影响因子、总被引频次、即年指标、论文总数、被引半衰期、引用半衰期等重要的期刊评价指标,目前在国际科学计量学界、信息计量学界有着较为广泛的应用。第二,JCR是基于SCI、SSCI等国际权威数据库编制,而本研究中的科研产出数据也来源于SCI、SSCI两个数据库,使用JCR数据库作为期刊样本源,可以与科研产出数据有着很好的对应。
运用Google搜索引擎搜索上述每本期刊的名称,查找并确认每本期刊的官方网站后,在每本期刊的官方网站上找到标有诸如“Editorial Board”字样的编委名单信息列表,然后将编委名单列表中所列出的编委姓名、隶属院校、编委职务等信息手工采集到Excel表格中。其中编委职务为诸如“editor-in-chief,chief editor,co-editor,coordinating editor,executive editor,associate editor,associate editor-in-chief,deputy editor,area editor,regional editor,senior editor,editorial advisory board member,editorial board member”的为我们采集信息的对象。而对于诸如“technical editors,administrative staff”等技术性辅助人员,由于他们并不直接参与文章的遴选,因此不在我们采集的对象范围之内。
由于少数期刊的官方网站上没有公布编委隶属机构的信息且获取这些期刊的编委数据较为困难,因此将这些期刊剔除出样本,最终我们获取化学学科的396本期刊,计算机学科的447本期刊,经济学学科的296本期刊构成本研究编委样本的来源数据库。计算机学科编委数据收集的时间为2013年1-3月,化学与经济学学科编委数据收集的时间为2013年2-7月。
在所有编委信息采集到Excel表格中后,通过Excel中的“分类汇总功能”按编委所隶属的机构进行汇总统计计数。对于隶属于多个大学的编委人员,我们遵循Gibbos和Fish的统计方法,把他所在的多个大学分别计1,例如一名编委分别隶属于耶鲁大学和哈佛大学,则耶鲁大学和哈佛大学的编委人员各计1人次。对机构所拥有的编委数量进行汇总计数后,再剔除大学以外的机构。最终,我们分别在化学学科、计算机学科、经济学学科中得到了拥有编委的大学1387所、1573所、984所以及他们各自所拥有的编委数量。这些大学构成了本研究中大学编委数量与科研产出相关性研究的分析样本。
3.1.2 科研产出数据的收集与处理
本研究选取科睿唯安的Web of Science数据库作为获取上述大学科研产出数据的数据源。Web of Science收录了12000多种世界权威的、高影响力的学术期刊,其选刊标准严格,内容涵盖自然科学、工程技术、生物医学、社会科学、艺术与人文等领域,核心集包括前述SCI以及SSCI引文数据库,涵盖了世界上最重要、最具影响力的科研成果,是目前世界上非常重要的引文索引数据库及科研评价工具,选择Web of Science作为本研究科研产出的数据源有着很好的代表性。我们由Web of Science检索平台分别在化学、计算机、经济学三个学科中获取了上述大学科研产出的数据。
这里以获取耶鲁大学化学学科的科研产出数据为例进行说明。在该数据库的高级检索栏中首先构建下述检索式:WC=(CHEMISTRY ANALYTICAL OR CHEMISTRY APPLIED OR CHEMISTRY INORGANIC NUCLEAR OR CHEMISTRY MEDICINAL OR CHEMISTRY MULTIDISCIPLINARY OR CHEMISTRY ORGANIC OR CHEMISTRY PHYSICAL) AND OG=(Yale University)。其中WC表示学科,OG表示机构名称,该检索式表示检索耶鲁大学在上述七个化学学科领域的所有文章,然后文献类型选择Article,之所以选择Article的文章在于其为学术性较强的同行评议文章且占文献类型的绝大多数。时间跨度选择2008-2012年这一5年时间观测窗口。由于编委的信息较为稳定,人员变动并不频繁,编委与科研产出的数据能够较好地对应。检索后通过数据库中的“创建引文报告”这一功能,即可获取耶鲁大学的论文数量、总被引频次、篇均被引、h指数这四项科研产出数据。化学学科中的其他1386所大学以及计算机学科、经济学学科中大学的科研产出数据也由此方法获得。
此外,为了减少一些学校由于发文数量较少从而带来篇均被引指标的较大波动、获取更加可靠的统计分析,我们在做大学编委数量与篇均被引的回归分析时,分别在化学、计算机、经济学三个学科中人为主观地设定441篇、140篇、89篇的阀值(也即每个学科中发文数量最多5所大学的论文数量平均值的10%),将低于上述这些发文篇数的大学剔除,最终化学学科中的531所大学、计算机学科中的502所大学、经济学学科中的318所大学构成了本研究大学编委数量与篇均被引回归分析的样本。
计算机学科中各大学科研产出数据的获取时间为2013年5月,化学学科与经济学学科中各大学科研产出数据的获取时间为2013年10月。
3.1.3 学科水平数据的收集与处理
尽管学界对于学科水平在概念理解上可能会存在一定差异,但是不可否认的是,一所大学的学科水平可借由学科排名中的各个计量学指标来反映,那些拥有世界一流学科的大学也都在世界主流的学科排行榜中有着很好的体现。遵循此思路,同时从实证操作的角度出发,我们以在国际上有着较大影响力的ARWU学科排名的部分指标作为计量学科水平的依据,将2013年ARWU化学、计算机、经济学学科排名前200强的大学作为本研究大学SCI期刊编委数量与学科水平相关性研究的样本对象,分析这些大学所拥有的SCI期刊编委数量与代表着这些大学学科水平的各个排名指标的相关性。
ARWU自2003年首次发布排名结果以来,在国际上产生了较大影响,因其排名的合理性、透明性、客观性而得到了国际社会的广泛关注及认可,该排行榜自2009年起也开始发布单学科的排名,是目前非常有代表性、在世界上有着较大影响力的世界大学学科排名。ARWU的学科排名由5项指标构成:获奖校友数(化学与经济学学科为诺贝尔奖,计算机学科为图灵奖)占权重的10%、获奖教师数(化学与经济学学科为诺贝尔奖,计算机学科为图灵奖)占15%、高被引学者数(Highly Cited Researchers,以下简称HiCi)占25%、SCI论文数占25%、高质量论文比(一所大学论文发表在影响因子前20%期刊上的比例)占25%。ARWU的学科排名公布了排名前50强大学的综合得分数据以及前200强大学在上述5个单项指标上的得分数据。由于200强大学中,50名以后的大学在获奖校友数以及获奖教师数两个指标上多为0值,因而我们没有选择这两个指标与编委数量进行相关分析,我们将2013年ARWU学科排名前200强大学的其他3项指标的得分数据以及前50强大学的综合得分数据采集到Excel表格中。数据采集的时间为2013年10月。
对于51-200名的大学,我们按照该排名网站公布的方法计算出它们的综合得分,下面以化学学科为例进行说明:将化学学科51-200名的这些大学以及排名第一的哈佛大学的5项单项指标得分按权重进行加权得到原始总分,然后将哈佛大学的总分设为100分,其他大学按照与哈佛大学的比例得分。按此方法,最终我们得到了ARWU化学学科、计算机学科、经济学学科中各自前200强大学的综合得分数据。
本研究以上述这些大学作为大学编委数量与学科水平相关性分析的样本对象,分析这些大学拥有的编委数量与代表着这些大学学科水平的ARWU学科排名综合得分、HiCi学者数、高质量论文比例、论文数量、总被引频次、篇均被引、h指数等单项指标的相关性。
3.1.4 基于时间序列的格兰杰因果检验所需数据的收集与处理
本研究在获取上述大学的编委数量、科研产出、学科水平各指标的截面数据后,由于还需进一步分析大学编委数量与科研产出的因果关系,因此还需获取基于时间序列的数据以便能够进行格兰杰因果检验等更为深入的分析。我们这里以一所大学所拥有的编委数量以及论文数量作为格兰杰因果检验的两个变量。
历年编委数量数据的获取。由于获取前述所有样本期刊、所有学校的历年编委数据较为困难。我们这里聚焦于化学学科,参照Brown、Bornmann和Daniel以及Neuhaus等人的研究,选取了化学学科领域最为著名的两本综合类期刊Journal of the American Chemical Society(以下简称JACS)和Angewandte Chemie International Edition(以下简称AC-IE),美国化学会旗下两本化学综合评述类的期刊Chemical Reviews和Accounts of Chemical Research以及美国化学会旗下其他化学分支领域的5本顶尖期刊Analytical Chemistry、Biochemistry、Chemistry of Materials、Inorganic Chemistry、Journal of Organic Chemistry等共计9本期刊作为获取历年编委数量数据的样本源期刊。之所以选择这9本期刊也是综合考虑了编委数据的可获取性这一重要因素:由于期刊在官方网站上通常只公布当年的编委人员信息,想要获取历年的编委信息只能从历年的纸本期刊中获取,这些编委信息通常会印在纸本期刊的封面或封二页;在高校大面积停订纸本期刊的今天,想要获取历年的编委信息较为困难,而上述这9本期刊的纸质版可以从中国科学院文献情报中心获取,且这9本纸质期刊中的大多数都是从1998年开始印有编委隶属机构的信息,相比其他如从2004年才开始印编委信息的期刊来说能够有更充足的年份数据,因此综合上述考虑,我们选取了这9本期刊作为样本源期刊。相应地,样本区间也选择1998-2017年。
考虑到9本期刊的数量相对较少,每所大学每年在9本期刊中的编委数量不会太多,为了避免编委数量较少带来的统计误差,获得更加可靠的统计分析,我们以2014年ARWU化学学科排名前20强这些历年编委数量相对较多的大学作为格兰杰因果检验的数据收集对象。我们在中科院文献情报中心获取了上述9本纸本期刊后,每年以出版的第1期封面或封二上的编委信息为准,手工将这20所大学在1998-2017年中每年的编委信息(包括编委的姓名、院校等)录入到Excel表格中并手工统计这20所大学每年的编委人数。
历年论文数量数据的获取。我们在Web of Science数据库中构建高级检索式获取了这20所大学1998-2017年间在上述9本期刊中历年论文数量的数据。以耶鲁大学为例,我们构建如下检索式:SO=((Accounts of Chemical Research) or (Analytical Chemistry) or (Angewandte Chemie International Edition) or (Biochemistry) or (Chemical Reviews) or (Chemistry of Materials) or (Inorganic Chemistry) or (Journal of Organic Chemistry) or (Journal of the American Chemical Society)) and OG=(Yale University)。其中,SO、OG分别表示期刊名称和机构名称。上述检索式表示获取耶鲁大学在上述9本期刊中的所有文章。论文类型选择Article和Review,时间段选择1998-2017年。检索后,检索结果中“出版年”一栏会显示耶鲁大学在1998-2017年中历年的论文数量,我们把耶鲁大学历年论文数量的数据采集到Excel表格中。其他19所大学历年论文数量的数据也按此方法获取。历年编委数量数据和历年论文数量数据获取的时间均为2018年4-5月。
3.1.5 访谈资料的收集
基于时间序列数据的格兰杰因果检验虽然能从定量研究的角度对大学编委数量与论文数量的因果关系进行一定程度的探究,但是定量研究也往往会使复杂的社会科学问题简单化,如能定量与定性研究相结合,则分析的结果可能会更加信服可靠。作为定性研究资料收集方法之一的访谈法可以“进入受访者内心,深入了解他们的心理活动和思想观念”,且“具有更大的灵活性以及对意义进行解释的空间”。因此,为了能更加深入地理解大学的编委数量与科研产出之间的因果关系以及与此相关的编委制度,我们仍然以上述9本化学顶尖期刊作为样本,对这9本期刊中在大学工作的部分编委以电子邮件的形式进行半结构式访谈。因为考虑到绝大多数编委都远在海外,所以我们选择了电子邮件这一较为便捷的访谈方式。
访谈为半结构式的,访谈问题涵盖大学编委数量与科研产出形成因果关系可能的作用机理以及编委遴选的条件、编委是否参与稿件的评审等编委制度方面的问题。编委制度这些问题与大学编委数量与科研产出能否形成因果关系有着紧密的联系,比如编委是否参与稿件的评审等也是编委控制话语权影响科研产出的前提条件,而编委的遴选条件也和编委自身的科研产出水平相关。因此我们也对这些编委制度进行了访谈。具体的问题详见附录1,我们在第8章第8.4节因果关系的讨论部分对这些问题的设计安排进行了解读。
由于主编、副主编他们在整个编委会中的作用较大,肩负着期刊更大的权力和责任,尤其主编更是一本期刊的灵魂人物,他们对于编委制度以及相关的科研产出与编委之间的因果机制有着比一般人更为深刻的体会。因此,9本期刊中所有的主编与副主编都是我们这次访谈所要发放邮件的对象,另外,除主编、副主编外,由于普通编委人数较多,我们借助网页www.random.org/nform.html上的随机数生成器在每本期刊中随机选择了3位普通编委,和主编、副主编一起作为这次访谈的潜在对象。我们通过Google检索这些主编、副主编以及普通编委所在大学的主页,在这些主页上获取他们的电子邮箱。然后一对一地给这些编委们发送访谈邮件。共发放130封邮件。我们设定一个月的回收期限。最终有16位编委回答了访谈问题。邮件发放的时间为2015年7月。各期刊接受访谈的人数统计见表3-1。
表3-1 化学9本期刊中受访编委人数统计