人文社会科学领域文献计量学研究
上QQ阅读APP看书,第一时间看更新

第三章 人文社会科学文献计量分析的数据基础

第一节 文献计量学数据源概况

文献计量学是用数学和统计学方法对文献进行定量研究的科学。全面、翔实、可靠的数据是进行文献计量学分析研究的基础。在此基础上,选用合适的方法和工具进行研究,结合学科背景进行分析,才能得出可靠的结论。

文献计量学数据源的发展过程可按数据存储和管理方式划分,大体经历了卡片、计算机文档、单机数据库和网络数据库等几个阶段。

在卡片阶段,研究者使用卡片来记录每一条基础数据,并通过卡片进行手工排序和统计。这时,所能处理的数据量较小,计算手段也相对简单,数据加工和处理时间很长,图形绘制基本由手工完成。

随着计算机的应用,研究者可以将数据以计算机文档的形式保存起来,通过建立倒排档完成数据的排序和索引,研究者需要编制专门的程序进行数据统计和检索,并利用电脑绘制简单的图形。

到了单机数据库阶段,数据的处理能力得到很大提高,数据的组织形式从计算机文档发展到数据库,可以利用计算机建立各种复杂的模型,绘制较为形象的图形。与此同时,SCI和SSCI光盘数据库的出现为研究者提供了很好的数据源,极大地刺激了文献计量学的发展。

20世纪90年代,进入网络数据库阶段。除了引文数据库之外,各种网络数据库越来越多,出现了大规模的文摘数据库、搜索引擎以及自动索引的引文数据库。数据收录的范围越来越广,不但包括传统纸本文献的书目信息,也包38括大量的全文内容、各种网络信息及其网络链接;数据处理越来越简单、方便,出现了多种辅助工具,可以在短时间内构建复杂模型,绘制各式精美的图像,甚至进行动态图形模拟。

目前数据源的发展趋势是:可用于文献计量学分析的数据源越来越多,收录范围越来越广,数据量越来越大,数据类型越来越丰富;计算机的数据运算及处理能力越来越强,用于数据加工、清洗、统计、分析及可视化的相关软件的专业化程度越来越高。

虽然数据源日益丰富,但是很多新型数据库也存在收录范围不明、数据质量不高的情况。每种数据源都有其使用范围和适用条件,同一个问题,利用不同的数据源去分析,有时会得到差异很大甚至相互矛盾的结果,因此数据源的选择非常重要。这就需要我们对可以作为分析基础的数据和研究对象有清晰的了解,选用合适的数据去分析问题,才能得到科学的结论。同时,随着数据处理手段的日益先进和软件的“黑箱化”(即不必关心数据的处理过程,输入一些数据后,系统就可以提供分析结果),文献计量学分析的门槛也越来越低,容易导致滥用和误用。对人文社会科学领域的文献计量学分析而言,现有数据源在语种、文献类型方面的覆盖面尚有很大不足,此时对数据源的深入了解就显得更为必要。

一 数据源的基本类型及特点

近十几年来,可用于文献计量学分析的数据源得到了长足的发展,总体发展态势呈现多样化趋势。除了传统的引文数据库之外,还出现了很多新型的数据源,一些原有的数据源在数据范围和功能上也有了拓展。目前主要的数据源类型及特点如下:

(1)在各种数据源中,文献计量学最重要和最常用的是引文数据库。引文揭示了文献之间的相互引证关系,利用引文库可以挖掘科学文献之间的内在联系。引文库的数据来源经过严格筛选,收录内容少而精,数据质量较高,引文分析功能强,一些引文库还有很强的拓展功能。作为最常用的统计源,当前引文库的建设方兴未艾。全球多个地区都在建设本地区特色的引文数据库,最具全球影响力的人文社会科学引文数据库是SSCI和A&HCI,中国大陆和台湾地区也建设了若干中文引文数据库。一些具有引文功能的文献数据库也可以用来进行引文检索和分析,如爱思唯尔公司的Scopus数据库和中国学术期刊(光盘版)电子杂志社开发的中国引文数据库(Chinese Citation Database),这些数据库已经得到较为广泛的利用,有些甚至已经成为传统引文数据库的替代品和有力竞争者。

(2)文摘/全文型数据库迅速发展,为计量分析提供了丰富的数据来源。很多普通的文摘/全文数据库也可以作为文献计量分析的基础数据。这些数据库收录范围比引文库更广、数据量更大、数据的时间范围更长,同时具有较高的标引质量,很多文献库都进行了叙词标引或提供了较为规范的关键词。虽然不能用来进行引文分析,但是可以统计发表论著的相关情况,进行深度的主题分析。由于部分数据库还收录了图书、报告等文献类型,可以弥补引文库仅收录期刊的不足,全面反映人文社会科学研究的现状。

一些文摘/全文数据库对于收录的论文是有选择的,如国内的“人大复印报刊资料”数据库。一般认为进入这些数据库的文献质量较高,可以将期刊论文被这些数据库摘转的数量作为定量评价分析的指标之一。

(3)搜索引擎功能强大,可以免费使用,成为网络计量学和引文分析的数据来源。同时,随着与内容提供商的合作,学术性搜索引擎不断加入出版商和数据库商提供的元数据,大大改善了搜索引擎的数据质量。

一些搜索引擎提供了文献的引用信息,如Google Scholar。由于它界面简单,可以免费使用,而且检索出的被引数量还比较高,所以也被作为引文分析的一种数据来源。但是由于Google Scholar缺少对引文的细致加工,没有公开数据的收录范围、时间跨度和更新频率,因此还不能作为一种严格意义上的数据源。另外一些搜索引擎,如Altavista等,提供了检索网页链接数量的功能,经常被用作网络计量分析的数据搜集工具。

(4)自动引文系统的迅速发展为进行网络资源的计量分析打下良好基础。一些自动引文标引系统具备了类似的引文功能,如CiteSeer、RePEc、Citebase等。其中RePEc是一个规模较大的经济学数据库系统,它的一个服务平台CitEc具有引文分析功能。截至2011年9月,已收录267万条引文。但是该系统建设引文数据的目的不是直接为读者提供引文服务,而是通过引用关系增加整个系统的可用性。因此,可以利用它来进行试验性计量分析,但不宜用于学术评价。

此外,还有图书馆的书目数据库、图书流通数据、电子资源使用统计、搜索引擎的检索日志,甚至有关文献利用的专门调查数据等,都可以作为人文社会科学领域文献计量分析的基础。

但是,由于多数数据来源并不是专门为文献计量学分析目的建立的,所以在来源数据的选择、数据质量控制、引文功能的揭示等方面与引文索引相比还有一定的差距,很多数据来源本身明确提示不宜用于文献计量学评价。

二 文献计量分析对数据源的基本要求

1.具备统计项目

从理论上讲,利用计量方法可以对数据库中的所有项目及项目之间的关系进行统计。在实际的分析过程中,一般仅对有意义的项目进行分析。王崇德先生总结了常用的文献计量学计量元素(表3-1)。

表3-1 文献计量学的计量元素

资料来源:王崇德,《文献计量学引论》,广西师范大学出版社,1997,第24页。

表3-1所列出的统计项目中,多数是对某一字段的统计,少数是字段之间关系的复杂计量,如自引、同被引、引文偶等。近年新出现的h指数、特征因子及SJR等也来自于统计项目之间的关系计量,但计算方法更为复杂。

在网络计量学中,还有顶级域名、二级域名、网站、子网站、网页、目录、文件等统计项(详见第六章)。

一般来说,具有相关统计项目并能反映出项目之间关联的数据库就可以用来做统计源。但是,并不是所有满足这个条件的都适合做统计源,一个良好的文献计量学统计源还需要具备其他一些要素。

2.数据覆盖面与完备性较好

这一点要求数据库在文献类型、时间范围、内容范围,以及国别和语种等方面有足够的覆盖面,能够代表总体状况。数据源要具有一定的数据规模,文献收录的时间范围需要有一定的跨度,太小的规模和太短的时间都不能够很好地满足文献计量学分析的需要。文献类型应能包括学科的主要出版物类型,收录的内容在相关学科、主题中具有代表性,对相关学科研究的主要国家和语言的文献尽量收录完整。此外,引文库中是否将文中出现的所有引文都进行了标引也是一个重要的条件,这直接影响到分析结果的可信度。

在实际分析的过程中,数据覆盖面和完备性很难达到十分理想的程度,但应保证分析对象所在学科的文献类型、时间范围、内容范围、国家及语言方面的覆盖面和完备性能够代表学科的主要情况。

3.具有较高的数据质量

文献计量学以数据统计为基础,特别是经常研究文献之间的关系,如引用关系、网络链接关系等,因此对数据的正确性和规范性要求很高。

数据质量包括数据的正确性和规范性两方面。正确性指数据能够准确反映文献的特征,字段内容正确。规范性指从统计结果上看,各字段内容应按一定规则进行规范,如机构名称是否用全称,标注到哪一级单位,外文文献中作者姓和名的顺序等。引文库在建设过程中,对各种可统计字段通常都进行了规范,使用起来可信度较高。但即便如此,也还需要进行适当的数据清洗和整理。而像搜索引擎这样未经规范的数据,一般不能用于涉及资源分配的学术评价中。

4.数据库的可获得性会影响使用

数据库的可获得性也直接影响到使用,当不能访问质量较好的收费数据库时,倘若有满足分析要求的免费数据也是一种折中的解决方法。

此外,数据库的检索及统计功能也很重要,强大的附加功能会有利于文献计量学的统计工作,如能否下载并存档为可以处理的数据格式、是否有分析功能、是否提供相应的数据统计结果,是否具有可参照和对比的标杆数据等。

总之,在进行文献计量分析之前,我们应当详细了解每一种数据源的特点,了解它收录的文献类型、时间跨度、语种范围、数据质量、适用范围,以及数据源的缺点和限制条件等,以便决定选择哪个数据库进行分析。有时为了弥补彼此的缺陷,需要同时使用几种数据源,必要时还需结合问卷调查或其他方法来补充数据。