档案修复与历史资料的数字化:第六届东亚史料研究编纂机构联席会议论文集
上QQ阅读APP看书,第一时间看更新

“数据”与史学研究

——抗日战争与近代中日关系文献数据平台介绍

中国社会科学院近代史研究所 罗敏 姜涛

历史学是一门高度依赖材料(sources)的学问。著名近代中国学者胡适就曾说过“有几分证据,说几分话”,扼要地道出了“史学”与“史料”的关系。不过,胡适此言针对的是史学研究中缺乏直接证据的空谈,并非为束缚住史家的手脚,使研究者为史料所困;相反,正因为材料的极端重要性,要求研究者尽可能地去扩充材料,甚至要有“上穷碧落下黄泉”的穷尽可获取史料的精神。

不可否认的是,随着近十几年电子计算机、信息化技术的高速发展与全面普及,史料的载体不再拘泥于纸本与实物,各类形态不一的电子资源与数据库日渐成为学者们著书立说的材料基础。“找材料”这一过程也相应发生了改变。相较十多年前,研究者现如今更多的是在电脑前动动鼠标,在自己的硬盘或是在各类商业、公益数据库中找寻相关材料,而花大部分时间在图书馆的某个角落里扒拾积灰发霉纸书的学者已经变得越来越少。可以说,专业数据库俨然已成为研究者的“第二图书馆”。

本文拟通过介绍“抗日战争与近代中日关系文献数据平台”(以下简称“数据平台”)的缘起、宗旨与特色,探讨大数据时代史学研究与“数据”之间的关系。

“数据平台”之缘起与宗旨

最初提出建设数据平台设想的是中国社会科学院近代史研究所已故前任所长步平先生。与一般商业数据库不同的是,步先生构想的“数据平台”不是由出版社或数据库公司创建,而是由研究机构直接主持,旨在尝试突破既有的数据库商业模式,更好地为研究人员提供数据资源服务。除了由研究机构直接策划、建设大型专业数据库这一新兴模式外,步先生还反复强调这一新数据平台须秉持“公益”“共享”的理念,从而使史料数据真正成为“学术之公器”,进一步推动整个近代史学科的发展。自“数据平台”线上推出以来,步先生提出的由专业研究机构主导,走“共享”“公益”路线一直是其两大突出特点。

2016年5月,步所长在与病魔斗争期间亲自修订了“数据平台”的相关申报材料,在生命最后阶段还为史学研究的未来贡献力量。2016年6月,“数据平台”的建设作为国家社科基金课题“抗日战争研究专项工程”正式立项。在全国哲学社会科学规划办公室领导下,平台由中国社会科学院、国家图书馆和国家档案局合作筹建,中国社会科学院副院长李培林研究员主持项目。近代史研究所则具体负责平台建设,百度公司提供技术支持和维护(见图1)。

图1 “抗日战争与近代中日关系文献数据平台”首页

(http://www.modernhistory.org.cn)

由“抗日战争与近代中日关系文献数据平台”这一命名可知,“数据平台”是以抗日战争相关文献为核心。以抗战与近代中日关系资料为平台的一个亮点,主要有如下考虑。

首先,近代以来,中日关系错综复杂又极为重要,甲午战争、抗日战争等标志性事件深刻地影响了中日两国的发展,挖掘保存抗日战争与中日关系史料的意义也就尤为重大。

其次,从学术层面而言,抗日战争史与近代中日关系史又是中国史学科中的重要组成部分,能够衍生出不可胜数的研究课题。抗日战争作为中华民族的宝贵历史记忆,越来越得到国人的重视。无论是政府层面还是研究机构,抑或民间团体,都在努力抢救、保有这份重要的民族记忆。而这段历史更亟待让全世界各国人民了解与熟知,因而更需要一个整合性的公益开放的资源平台,而不单单是一个受众面较窄的纯学术数据库。

再次,相对而言,国内近代史研究中,抗日战争史、近代中日关系史的研究尚属薄弱,其中一个主要原因就是研究资料的获取与使用非常不便。抗战时期的图书、期刊、报纸、档案等分散于全世界各地。而战时生成的文献史料由于纸张和印刷质量往往较差,现在的保存状态也十分堪忧。多种主客观因素导致史料传播与挖掘的滞后。目前,作为当时侵略国的日本,实际上早已推出了免费开放近3000万页档案图像的亚洲历史资料中心(アジア歴史资料センター,网址:https://www.jacar.go.jp),而作为战胜国的中国还难有与之相匹敌的抗战文献数据库,实为憾事。因此,打造一个能够涵盖海内外有关抗战与近代中日关系的综合性文献共享平台与学术交流平台,具有巨大的学术价值与现实意义。

不过,需要强调的是,抗战与中日关系文献只是平台的特色资源,整个数据平台从推出伊始便是旨在全力囊括19世纪末至1949年中国的文献史料,并不限于抗战或中日研究本身。因此,它并不局限于抗战与中日关系,整个晚清民国时期的重要文献资料“数据平台”都尽力搜集、整合、上传,呈现给海内外的读者。

就文献类型而言,“数据平台”除搜集整合晚清民国时期的公开出版品(图书、期刊、报纸三大类)外,还着力于汇集1949年以后整理产生的各类档案、研究文献、影像资料、史料集等。

“数据平台”将搜集到的材料进行分类、整理、编目、数字化的转制与修复,整个过程由有历史学、信息技术等相关专业背景的研究生负责处理,以更有效地降低错误率,提高数据质量。尔后,团队再与百度公司对接,将所有处理完成的史料文献以“数据平台”的形式呈现在互联网上,免费向全球开放。使用数据平台的用户,不用注册便可轻松浏览全部公开的高清图像(150dpi),如需下载300dpi图像,则只要注册一个免费账号即可,每个账号每月可下载2000页图像。

与目前世界上几个较大的在线数字典藏库相比,“抗日战争与近代中日关系文献数据平台”虽然仍在起步阶段,但优势与特色十分明显。为方便比较,此处需要简要介绍一下海内外若干与近代中国历史相关的数据库。

目前,无论在体量还是在开放程度上,最出类拔萃的在线数据平台之一,仍是前文提及的日本亚洲历史资料中心。亚洲历史资料中心于20世纪末开始筹划,2001年作为日本国立公文书馆的一个部门正式成立。该中心在线免费开放国立公文书馆、外务省外交史料馆、防卫省防卫研究所图书馆收藏的部分电子化资料。这些档案史料的时间跨度是从明治初期到太平洋战争结束,内容主要与亚洲有关。据该中心推测,现有资料以图像数据计算,已超2800万个图像,并且还在陆续更新上传新近扫描的档案。亚洲历史资料中心不仅涵盖几个机构的档案资料,在线免费开放阅览、下载,而且做到了档案卷宗的细化,每卷档案拆分为若干个文件,且每个文件都有摘要说明,摘要内容在搜索时亦可命中,用户使用体验十分好。美中不足的是,该在线资料中心仅整合了公文档案,同时期相关图书、期刊、报纸、影像等则付之阙如。

另一个与中国近代史密切相关的,以档案免费开放为目标的大型数据平台,是台湾地区的“国史馆档案史料文物查询系统”(https://ahonline.drnh.gov.tw/index.php?act=Archive)。该史料系统自2017年改版以来,正式向全世界免费开放在线浏览,2018年伊始又开放下载,尤为便利研究者。“国史馆”主要典藏中华民国“总统”“副总统”史料、各行政院部档案等,囊括了大陆时期以及迁台后国民党政权的各类公文档案。不过,该在线数据库同样是单一档案类而非综合性的平台,且目前公开档案约在300万页,相较亚洲历史资料中心,在体量上仍略显单薄。

以上两个在线数据平台都是由官方主导的公益、免费的数据资料库,“抗日战争与近代中日关系文献数据平台”同样旨在将没有版权限制与纠纷的史料、档案无偿免费地开放给全世界读者,但是“数据平台”的资源更具多样性,并不限于档案,特别是在晚清民国书籍、期刊、报纸方面颇具特色。

提及晚清民国期刊,上海图书馆推出的“晚清民国期刊数据库(1833—1949)”(http://www.cnbksy.com/)是目前全世界范围内中国近现代期刊数据库中的领头羊。自2009年正式上线以来,基于上海图书馆馆藏文献,“晚清期刊数据库(1833—1911)”已收录期刊520余种,53万余篇文章,“民国时期期刊数据库(1911—1949)”则收录了25000余种期刊,1000余万篇文章,涵盖了晚清民国时期出版的绝大部分期刊。其收录文献数据堪称巨量。不过,首先,该数据库是商业开发的收费数据库,目前仅部分经济条件许可的大型研究机构与高校图书馆购买了此库,而且绝大部分只是部分购买,这就大大限制了受众。数据库将期刊文献按上线先后顺序分为若干辑,据笔者有限的观察,绝大部分用户机构可能仅从中挑选几辑购买使用,很难做到全部收录。其次,“晚清民国期刊数据库(1833—1949)”隶属上海图书馆“全国报刊索引”,除期刊外,上海图书馆确在致力于近代报纸的数据库开发,但目前规模似不如期刊类,晚清民国时期图书的数字化也较为滞后。与“抗日战争与近代中日关系文献数据平台”相较,文献多样性上存在劣势。

近期,国家图书馆出版社也推出了整合性较高的“中国历史文献总库”(http://mg.nlcpress.com/library/publish/default/Login.jsp),虽然目前可供阅览的文献以民国时期图书为主,但在数量上具有绝对优势,目前该数据库中已有18万种民国图书,总计页数3200万余页。其中,不少还是平孤本与珍稀文献。遗憾的是,“中国历史文献总库”同样是收费数据库,且目前只供研究机构购买使用,绝大部分研究者短期内恐难以受惠。

综上言之,“数据平台”因刚刚推出试用一年,在数据体量上与海内外大型数据库相较,目前可能不占绝对优势,但是作为一个多类型文献的整合型数据库,如果稳步发展,其未来前景必定优于单一类型的数据库,可称得上是“大数据”运用在文科研究型数据库中的先声。此外,“数据平台”有别于商业收费数据库,始终秉持互联网时代“公益”“共享”的宗旨,向全世界读者承诺永久免费浏览与下载;不仅现在如此,即便将来数据量日益提升,网页不断改进,“数据平台”“公益”“共享”的追求也是不变的。

“数据平台”的优势与现状

上节笔者从宏观角度重点介绍了“数据平台”的缘起与宗旨,本节则从相对微观的层面来呈现平台的优势与现状(见图2)。

图2 “抗日战争与近代中日关系文献数据平台”优势要素

截至2018年6月,“数据平台”已经上线的晚清民国时期报纸近400种,期刊突破800种,图书8000余册,此外还包括图片等资源,如以图像数据计算,总数已超过800万页。近期“数据平台”建设团队主要重心放在近代报纸的数字化与线上公开,力求先在报纸上突出亮点。

“数据平台”目前公开的报纸文献,兼具著名大报与地方小报特色。从报纸内容与类别而言,近代中国的四种“大报”——《申报》《大公报》《益世报》《民国日报》均已上线,近代上海出版的各类小报、画报,包括《福尔摩斯》《金刚钻》等也已经可以在线阅览下载。此外,“数据平台”目前还推出了中国共产党发行的《红色中华》《解放日报》《晋绥日报》等20余种重要党史文献,而国民党及其他党派的重要报纸,如《中央日报》《民吁日报》等也能在“数据平台”中找到。伪满洲国与华北、华中、华东沦陷区的各种日伪报纸,平台也努力收集、整合、上线了近30种。

从报纸地域分布而言,目前上线的近代报纸的出版地基本涵盖了中国的主要省份和地区,包括北京、上海、天津、安徽、福建、广东、河南、黑龙江、湖北、湖南、吉林、江苏、江西、辽宁、山东、山西、陕西、四川、云南、重庆、香港等。“数据平台”还收录了几份海外的华文报纸与国内出版的西文报刊,如《大汉公报》《诚报》《北华捷报》《字林西报星期周刊》等。地方报纸的大量上线,是“数据平台”报纸库的一大特色。这些地方报纸分布在中国许多中小城市,而非省会城市,更能体现出地域性与市民生活的面相,例如《徽州日报》(安徽屯溪)、《嘉陵江日报》(四川巴县)、《新民日报》(河南许昌)、《新民日报》(安徽贵池)等。这些地方报纸的上线,为深化近代中国地域史、社会史研究提供了极具价值的史料来源。另外,平台尚有诸多贴近社会、日常生活与专门技术的报纸,涵盖电影、戏曲、儿童、妇女、经济、军事、文教、宗教、科学、无线电、航空、医疗卫生等方面,类型繁多。

平台在开放试用的第一年中,亦上传了多种期刊,至今上线期刊已突破800种。期刊的数字化制作与上传,不仅在数量,而且在种类与地域分布上亦可与平台上线的报纸相媲美,甚或在个别点有所超越。例如,“数据平台”在上传期刊时,将期刊篇目完整录入,以便于更细致的搜索。这一点看似与上海图书馆“晚清民国期刊数据库(1833—1949)”相比无甚亮点,但是上海图书馆处理期刊时,是将篇目与刊物的关联打破,在关键词搜索时,仅显示命中的篇目,如若进行二次筛选,进入某个特定刊物,其卷期同样是散乱的,无意中隐去了不少潜在的关联性与时间性,成为一个纯粹关键词检索导向(key word search oriented)的篇目数据库。“数据平台”则是将篇目与刊物关联,保留其中的历史感。

此外,平台近期上传的书籍、稿本中,最突出的是中国近代藏书家刘承干的《求恕斋日记》。《求恕斋日记》起于1900年,止于1962年,跨越半个多世纪,详细地记录了一个近代中国士绅对辛亥革命、北伐、抗日战争与新中国建立的观察与思考,并为研究近代中国的学术、思想、文化、经济、政治与社会提供了许多鲜活的细节性资料。值得一提的是,所有晚清民国图书的著录都录入了完整目录,并导入“数据平台”的关键词检索库中。

总之,“数据平台”的所有图书、期刊目前支持文献基本信息与完整目录的关键词检索。因规模巨大,全文检索在短期内可能难以实现,但上述内容全字段检索已突破现有大多数历史学数据库的检索“粗放”的局限性。目前,中国社会科学院、北京大学、中共中央党校、南京大学、武汉大学、山东大学、复旦大学、东北师范大学、南加州大学、乔治·华盛顿大学等20余所海内外院校及地方公共图书馆网站陆续收录了“数据平台”,提供访问链接。

此外,“数据平台”有一个有待未来进一步开发的特色:发展以研究专题为核心的用户导向的(researcher-oriented)“研究型”数据库。现在我们在这一思路指导下,正在开发并初具规模的是“红色文献”专题版块。该专题集中展示了从1919年到1949年有关中国共产党的各种文献资料。“红色文献”不是一个独立版块,而是在一个主题下汇聚不同种类文献的总和,是我们向“研究型”数据库探索的初步尝试,给史料文献进行简单的标注。预计将来能有更多诸如南京大屠杀、平型关战役、滇缅战场等不同专题。并且,平台努力的方向是让每一个使用者都能定制自己感兴趣的专题库,成为真正互动性的个性化研究数据库。

“数据平台”建设至今略有遗憾的是,版权问题一直是困扰其进一步壮大发展的因素。虽然“数据平台”绝大部分文献是过了版权保护年限的公版文献,但是取得国家图书馆、社会科学院图书馆、各档案馆等单位授权的文献占比仍然不少,目前仍有大量未能公开上线,只在平台内部暂做著录整理工作。如近代史所档案馆典藏的胡适档案、顾维钧档案,美国哥伦比亚大学藏卡尔逊档案、李顿调查团档案等,档案史料价值极高,但由于版权与相关协议限制,目前暂不能公开发布。因而,“数据平台”公开档案类文献目前仍是空白。此外,随着项目的开展,今后需要大规模购买各类已出版的档案文献、资料汇编等成果。这部分文献基本都是由各级政府财政资金资助出版的,但是编者、出版社拥有出版权。所有这些文献史料的开放只能有待时日。

大数据时代下的史学研究与“数据”

2015年12月,《中国史研究》编辑部与上海大学历史学系联合主办的“传承与开启:大数据时代下的历史研究”国际学术研究会在上海召开。[1]2016年11月4—6日,南开大学历史学院与《史学月刊》编辑部联合主办了“首届新史学青年论坛:大数据时代的史料与史学”。[2]两次主题类似、关怀一致的会议颇具迎接新兴互联网时代的热情与主动性。两次会议提交的论文基本都涉及了“大数据与历史学问题的具体结合”“数据库、电子资源建设”“大数据在史学研究领域的优势与缺陷”等多个命题。

首先,令人惊喜的是,近几年已涌现出多个历史学相关的研究型数据库,不仅数据体量颇大,有个别数据库还突破了单纯为学者提供储存与检索的功用,朝着提供问题主导的结构化数据方向发展。[3]当然,会上介绍的绝大多数数据库是单一类型史料库,或者是纯粹问题导向的个性化数据库,真正与大数据时代意义相吻合的整合性数据库仍有待来者。不过,数据的结构化处理,以及与研究问题意识相关联,这些做法本身便在史学领域具有跨时代的意义,也是大数据理念的部分反映。

其次,作为近年来国内讨论大数据对史学研究影响的大型会议,其基调实际上仍是一种平衡的中间路线。一方面,多数与会学者认可大数据对史学研究有一定促进作用,但仍有“警惕”的声音,对大数据的意义持“谨慎的乐观”(cautiously optimistic)态度。部分研究者提交论文的字里行间流露出担忧“大数据时代”可能使史学研究者过度依赖“数据”,堕入数据的陷阱之中。[4]必须承认,从某种程度上说,人文学者谈论的“大数据”与数据技术领域中的“大数据”仍有较大的差距。大数据最初的定义是“传统数据处理应用软件无法有效处理的巨量而繁杂的数据集”,而现如今更意指“趋势分析”、“用户行为分析”或是“其他高级数据分析方法”。[5]技术领域中的“大数据”强调的是先进的分析手段,而人文学科争论实质大多仍是聚焦“资料的收集”方式。乐观者倾心于便利的资料索取,谨慎者担忧各类“数据库”搜索结果的有效性与代表性,担心过度依赖数据检索使人文学者疏于文本分析。无论乐观者与谨慎者,实际上似乎都误判了大数据在人文研究领域的趋势前景与未来性的意义,未能着眼于对数据本身的分析、结构化处理等具有的潜在研究范式转换的意义。

毋庸置疑,数字技术对人文学科的渗透已有相当之程度,不仅技术上改变了资料找寻与研究写作的模式,而且已经悄然改变人文学者的思考方式与思维模式,[6]单纯为人文学科的纯粹性与数据的有效性而拒斥数字技术与信息科学在史学领域的运用,似已无必要,而仅将数字技术视作便捷的储存方式与检索技巧也只是其中最为基础的一步。

事实上,在史学领域,中国古代史学科在追赶“大数据时代”潮流中已领先一步。中国历代人物传记资料库(CBDB)即是代表。中国古代史学者借助GIS、SQL等基本技术,已经从史料单纯的“电子化”向结构性的“数据化”——对数据特殊性、研究性的分析——迈进。在中国近代史领域,由于史料的几何数量增加,基础性的电子化似仍“前路漫漫”。对“大数据”的隐忧不能让我们因噎废食,恰恰是“数据”(电子化的史料)积累得不够才使人文学者产生对“数据”的不信任感。

中国近代史领域为迎接大数据时代的到来,首要的是史料的巨量收集与电子化,使之构成值得分析的“数据集”。也有学者认为大数据时代,第一步是形成混杂的大规模数据集(messy big data),第二步便是努力由问题意识出发,向小而精的数据集(clean small data)推进。[7]由第一步向第二步推进并不是某些论调认为的抛弃人文传统,弱化辨析思维,研究者通过必要的技术辅助与研究型数据库的支持,使数据形成某些内在的逻辑联系与结构,这一过程本身与传统的人文思维是并行不悖的。

抗日战争与近代中日关系文献数据平台便是朝着最初的一步努力前行。尽管史料的大量汇集与电子化仍是本平台当前阶段的重点,但是“大数据”与“大数据”技术在史学领域的应用与融合,是本平台的最终关怀。目前阶段是数据检索细化到目录,加上时间与关键词等筛选。以后,“数据平台”借助日益先进的光学识别技术(OCR)与平台合作方百度的先进计算能力,在不远的将来真正实现“电子化”向“数据化”的跨越并非不可能。届时,“数据平台”也许能进一步为史学研究带来新视角与新生命。


[1] 舒健主编《大数据时代的历史研究》,上海译文出版社,2018。

[2] 《史学月刊》编辑部主编《大数据时代的史料与史学》,人民出版社,2017。

[3] 赵思渊:《地方历史文献的数字化、数据化与文本挖掘——以中国地方历史文献数据库为例》,舒健主编《大数据时代的历史研究》,第66—79页。

[4] 从论文集总体把握,《大数据时代的历史研究》相较《大数据时代的史料与史学》更为积极地看待数据在史学研究中的意义。

[5] 引自维基百科,https://en.wikipedia.org/wiki/Big_data。

[6] Katherine Hayles,“How We Think:Transformation Power and Digital Technologies,” Daivd Berry ed.,Understanding Digital Humanities,Palgrave Macmillan,2012,pp.42-66.

[7] Christof Schöch,“Big?Smart?Clean?Messy?Data in the Humanity,” Journal of the Digital Humanities,Vol.2,No.3(2013),pp.1-13.