一 “清代自然灾害信息集成数据库”的结构
(一)数据库概述
“清代自然灾害信息集成数据库”是“清代灾荒纪年暨信息集成数据库建设”项目的三项主要研究内容之一,另两项分别是编纂《清代灾赈史料长编》和撰写《清代灾荒纪年》。其中,《清代灾赈史料长编》是从清代的海量史料中挖掘和整理有关灾害的记载,以年代为经,以省区为纬,按正史、实录(含《宣统政纪》《东华录》等)、政书、档案、方志、报刊、诗文集、日记以及其他文献等类别,依序排列史料,并按统一规范注明资料来源,以便查考。“清代自然灾害信息集成数据库”是以《清代灾赈史料长编》为基础建立的,是一个包括自然变动与社会响应等各方面信息在内的综合性的大型灾害信息集成系统,它与《清代灾赈史料长编》一起,构成一个动态的、与时俱进的灾害信息累积式扩展系统,任何在史料和研究上的新发现、新进展以及项目在有限时间内难以收罗的其他史料,均可随时输入其中。[12]
“清代自然灾害信息集成数据库”基于全要素(涵括灾害在自然和社会层面的所有要素)、全灾种(收录所有记录的灾害)、全过程(关注灾前、灾时、灾后,以及时人的灾害认知等多方面情况)、全文献(实现与清代灾害有关的文献和实物资料的全面收录)、全功能(涵盖目前技术能够开发的各类功能)、全历史(创造条件将时段从清代扩展到整个历史时期)、全地域(按照历史时期的疆界处理史料和讨论问题)的原则建设,所收录的灾害信息,突破以往以单一地区、单一灾种为主要内容的资料汇编形式,力求将历年各省区市各类自然灾害包含其中,便于揭示各灾种之间的关联,从整体上反映灾害演变大势。在文献资料方面,最大限度地涵括正史、实录、政书、档案、方志、报刊、诗文集、日记以及其他各类相关文献中的灾害信息;在灾害类型方面,不仅包括水灾、旱灾、地震,也包括蝗灾、雹灾、潮灾、山崩、滑坡、泥石流、雪灾、火灾等各类灾害,还涵盖农作物异常丰收等特殊气候、物候现象;在灾害内容方面,兼顾自然与社会两个方面,不仅包括自然灾害过程,也包括由此引起的社会变动和反应。
作为一个完整的清代自然灾害信息集成系统,“清代自然灾害信息集成数据库”由数据库和网页平台两部分组成(见图1),是一个融资料的采集整理、存储更新、查询检索、校核比勘,以及数据统计分析、制表绘图、动态演示等多种信息处理功能为一体的巨大系统。整个数据库设计为一个开放式的公共交流平台,供相关研究者使用,同时希望相关研究者能够通过此平台之各个环节、各个层级,对数据库建设做出反馈,从而以一种互动的方式推动数据库的建设、维护和发展。
图1 “清代自然灾害信息集成数据库”的结构及功能设计
(二)数据库总体结构
“清代自然灾害信息集成数据库”的数据库是利用MySQL搭建的数据库,主体是原始记录库模块,预留可扩展的原始文献库和专题数据库等数据库模块。
原始记录库用于存储从各类原始文献中摘录提取的有关灾害的信息,由原始记录表和原始校核表两部分组成。其中,原始记录表是最主要的部分,它以每一条记录为单位,将提取出的灾害记录数字化,并将有关信息分解为不同字段进行存储,从而可以通过灾害的类型、时间等信息进行检索查询、统计分析等。原始记录表中的每一条记录都可与原始文献库中储存的原始灾害文献相链接,以便必要时与原始文献进行对比、校核。原始校核表用于存储校核过的信息,每条校核过的记录与原始记录库中的对应记录建立链接。
原始文献库用于存储原始记录库中所摘录的有关灾害记录的原始文献,包括图片、PDF等数据类型,作为底层的资料库与原始记录库相互链接。其中对于收录的一些数据量十分庞大的史料,如某人日记、某灾害纪略等文献,可单独形成一个子数据库,作为原始文献库的一部分。
专题数据库是依据不同的研究主题,对原始记录库进行筛选、拆分、集成而派生出的数据库。其主题、时空范围都视研究者的目的而定,可以某个灾种为主题建立专题库,如台风专题数据库、洪涝专题数据库、干旱专题数据库等;也可以针对某一次重大灾荒建立专题案例库,如“丁戊奇荒”专题库等;还可以某一政区单元或某一朝代建立专题数据库,如山西省专题数据库、乾隆朝专题数据库等。专题数据库的建立一般经过从原始记录表到派生数据表再到合成数据表三个步骤。原始记录表是从原始记录库中,按照一定的标准筛选、整理而成的;派生数据表是由原始记录表生成的中间层,分别与原始记录表和合成数据表相链接,将原始记录表中的每条记录进行拆分、量化,还可依据研究目的增减字段,具有较高的灵活性和较大的操作空间;合成数据表是由派生数据表生成的,为了实现定量指标序列提取、空间分析等功能,需要在属性数据和空间数据间建立一一对应的关系,因此对同一时间、同一地点的多条记录,要从记录内容、资料出处、时空关联等方面进行比较、拆补与剔除,最终将其合成一条记录。
(三)原始记录表的结构
原始记录表存储原始记录库中所摘录的灾害记录,是数据库的核心所在。将从灾害史料中所提取的原始记录中的文本信息尽可能准确、完整地转换成现代信息技术所需的数量指标,既是数据库正常运转的前提,也是用户通过数据库顺利获知有关信息的保证。
原始记录表将所提取的每条原始灾害记录所展示的信息划分为原始信息、基础信息、灾害信息、文献信息和辅助信息五类,每类又可进一步细分为若干字段,一共有29个字段(见表1)。
1.原始信息
原始信息共包括5个字段。“原始记录内容”是整个数据库的记录核心,它将原始文献中涉及灾情、救灾、备灾等的记录均完整抄录存储,若原文缺具体的时间、地点等信息,但可借助其他证据进行推断,则予以补充;若原文中确有明显的错、漏、衍字,则予以校正。经过考证进行补充、修改的信息也一并记录其中,并在“考证备注”栏内说明。“题名”记录档案、报刊、文集、笔记、方志、碑刻等史料中有关文献的具体篇名等。“作者”指各条记录明确提及或通过考证确认的作者,包括相关奏疏的奏报人,报刊通讯、时评及论文的作者,方志艺文志收录的诗文作者等。“提要”是对原文主要信息的概括和分类,分灾害类型、灾情、救灾备灾三大类。针对“关键词”字段已建立了《原始记录主题词表》,可对应填写,不局限于灾害类型和灾害过程。
表1 原始记录表结构
续表
“原始记录内容”摘录于清代涉及灾害发生、影响及应对等方面的各类原始文献,包括清代已刊或后世整理的纸质出版或数字化的文献等,主要包括九大类。
(1)正史类,如《清史稿》。
(2)实录类,包括顺治至光绪朝历代帝王实录、《宣统政纪》以及《东华录》等。
(3)政书类,包括记载清代典章制度和政务活动的各类政书,如《清朝通典》《清朝通志》《清会典》等,以及以灾荒为中心内容的荒政书——《中国荒政书集成》等。
(4)档案类,包括各种综合或专题、清宫或地方的档案资料,如《上谕档》(乾隆至宣统朝)、《清代干旱档案史料》、《西藏地震史料汇编》以及“国家清史工程数字资源总库”中的档案资料。
(5)地方志类,包括各地县、府、省级的方志资料,其“灾异”“祥异”“恤政”“河渠”“人物志”“艺文志”等部分都可能有灾害相关记载。主要来源于《中国方志丛书》《中国地方志集成》中收录的方志,以及各种网络资源,如“中国数字方志库”、“中国方志库”(爱如生数据库)等。
(6)报刊类,主要包括近代各类中英文报刊,除价值最高、信息最丰富、时间连续性最长的《申报》外,还包括《万国公报》《东方杂志》《中国丛报》等,以及网络资源如“晚清期刊全文数据库(1833~1911)”。
(7)诗文集类,包括各类清人文集,如《清代诗文集汇编》《皇朝经世文编》《曾国荃全集》等。
(8)日记类,主要来源于已出版的《历代日记丛钞》及网络资源“近现代日记全文检索数据库”。
(9)其他类,内容庞杂但同样是重要的资料来源,包括各地碑刻、清人传记、谱牒、外文史料等。
2.灾害信息
灾害信息提取了与灾害直接相关的信息,包括“灾害类型”、“灾害过程”和“灾害级别”3个字段。前两者采用数字编码,存储原始记录中记载的所有灾害类型及过程。
图2 灾害类型划分及编码示意
灾害类型按照现行自然灾害划分的国家标准(GB/T 28921—2012)进行划分,包括气象水文灾害、地质地震灾害、海洋灾害、生物灾害、生态环境灾害、人为灾害、其他等;此外,还根据中国史料记载的内容,增加了“异常现象”、“不明原因的灾、荒、歉”以及非灾害年份中的“大有年”(农业丰收年)3种特殊类型,一共可分为9类38种,每种灾种规定了对应的数字编码(见图2)。其中,“异常现象”包括天文、气象、水文、地貌等方面,例如太阳黑子、日食、气温异常(冬暖春热)等与灾害并不直接相关的现象。“不明原因的灾、荒、歉”和“大有年”均属于对收成情况有异于平常年份的记录,且从原始记录中不能判断收成异常的原因。将灾害发生的自然过程、影响以及响应等过程共划分为异常现象、致灾过程、灾害影响、灾害防备、灾害应对、灾害认知及其他七个环节(见表2)。“灾害级别”字段为预留字段,在原始记录表中暂未填写。
表2 灾害过程编码规则及示例
3.文献信息
文献信息部分共包括5个字段,其中“史料类型”与数据来源中的九大类史料相对应,以数字编码的形式存储,分别是:01-正史、02-实录、03-政书、04-档案、05-方志、06-报刊、07-诗文集、08-日记及09-其他。“直接来源”和“原始出处”分别以一定的标准格式标注了原始记录的出处。“直接来源”系后人整理或影印的涉及清代原始史料的文献,如《清史稿》《清实录》《中国地方志集成》《中国方志丛书》《中国荒政书集成》《中国三千年气象记录总集》,以及已出版的清代各类档案汇编等,并标明纂修者、文献名、卷册、出版社、出版时间及页码。“原始出处”为直接载有著录信息的原始文献,如某地方志、某文集、某报刊等的原件或目前可见的最早版本,均标明该文献的修撰者、文献名、卷册、原始页码、版本。“考证备注”用于标注历史记录录入及处理过程中的增减、修改、补充、校核等过程,以便查验。“原始文献链接”为与原始记录库(文件夹)链接地址,它的功能是可在原始记录库和原始文献库之间建立链接,使每一条原始记录都能找到相对应的原始文献文件。
4.辅助信息
辅助信息部分共包括4个字段。ID1为系统自动生成的ID,具有唯一性,用于在原始记录表和原始校核表之间建立链接。KeyID是由成灾年份和史料类型组成的6位数字,作为每条记录的特征码。“预留字段”是为功能扩展预留的空间,“责任人”则记录参与处理该条数据的所有工作人员。
(四)网页平台
“清代自然灾害信息集成数据库”的网页平台主要用于将数据库所收录数据通过互联网技术实现在不同用户群体中的交流共享。该平台以PHP作为脚本语言搭建,具备简单便捷的操作界面、不同尺度的共享权限、直观的数据输出方式等特点和功能,还针对用户需求对数据库的运行环境、开发平台进行升级和调整,开发出可实现多尺度共享的网页界面。网页平台也可以随着版本升级更新变化,其界面也可随之发生改变,以实时实际的界面为准。
1.用户登录
“清代自然灾害信息集成数据库”的使用者可通过服务平台主页面的“用户名”和“密码”远程登录系统。服务平台对管理员账户和用户账户设置了不同的权限。管理员账户享有数据库全部信息,可对数据库进行增删维护;用户账户享有包括文献记录原文、简单的时间地点信息、文献所记录的灾害信息和文献本身的版本、来源信息在内的数据库信息。
用户登录成功后,根据权限的不同,选择进入“检索”界面或“管理”界面,以实现对灾害记录的查询检索、统计分析、留言纠错、数据维护。此外,平台在“帮助”界面提供了数据库的使用说明,供用户参考使用。用户使用结束后,可点击“注销”按钮注销账号(见图3)。
图3 “清代自然灾害信息集成数据库”界面
2.检索界面
用户可选择进入基础检索或高级检索界面进行检索。在基础检索界面,在“检索类别”中下拉选择“时间”、“地点”和“关键词”中任意一项进行检索,在“检索内容”框中输入相应的检索内容,点击“检索”按钮,即可得到满足相应条件的检索结果。在高级检索界面,可以在多项检索字段下框内输入相应的检索内容(见图4),得出同时满足多个检索条件的交集结果。
检索到的记录生成一个临时性的数据表,在每条记录的末尾,有报错选项,用户可以点击反馈该条记录中的错误。
检索得到的记录可以直接进行复制粘贴,统计分析后的图表结果也可储存为p######ng、j######pg等格式保存到本地文件夹。
图4 “清代自然灾害信息集成数据库”高级检索界面
3.管理界面
管理界面主要用于平台管理人员添加和修改数据,并对用户反映情况进行反馈。管理者可通过此界面添加数据,既可逐条添加或批量添加,亦可对发现的错误数据进行修改完善,还可以创建并分享专题数据库,不断丰富和拓展专题数据库的数量和内容。