第一章 档案检索的一般问题
第一节 档案检索的内容和意义
一 档案检索的含义
档案是社会轨迹的原始记录。伴随着我国政务公开和档案开放的进程,越来越多的机关工作人员、科技人员乃至普通公民,开始了解和利用档案这种具有特殊价值的信息资源。我国档案数量庞大,内容丰富,时间跨度大,分布面广。据国家档案局2011年的统计,到“十一五”末全国共有各级各类档案馆4077个,馆藏档案39264万卷(件),内容涉及政治、经济、文化等社会生活的方方面面。要想从这些浩如烟海的档案中获得特定的档案,除了掌握档案的分布情况外,还必须借助科学、高效的检索手段或方法。
丰富的档案资源和档案利用者特定需求之间的矛盾,决定了档案检索工作的产生和发展。所谓档案检索(广义上的),是指档案馆(室)将所藏档案的线索编制成各种档案检索工具,建立档案检索系统(包括手工档案检索工具体系和档案计算机检索系统),并由此查找出所需档案的整个过程。对于专门从事档案检索及其系统的研究、开发和设计的专业人士来说,“档案检索”的完整含义是“档案信息存贮与检索”。也就是说,将“档案检索”当作“档案信息存贮与检索”的简称。这里所说的档案检索,包括信息的存贮和信息的检索两个过程。本书采用档案检索的广义用法,即要求不仅要知道如何进行信息的检索,也要知道如何开展信息的存贮。
二 档案检索的内容
如上所述,广义的档案检索的内容包括档案信息存贮与档案信息检索两个方面。档案信息存贮所面对的是档案文献群,源源而来的档案文献群构成了存贮阶段周而复始的运动过程。档案信息检索所面对的则是档案利用者群,档案利用者通过使用档案检索系统,才能满足其检索需求。
(一)档案信息存贮
所谓档案信息存贮,是指档案馆(室)通过著录与标引等手段,将档案压缩成一条条的条目档案信息,再按便于检索的顺序系统地排列起来,或进行客观描述,形成一种有别于档案实体的特殊文献——档案检索工具,进而建立档案检索系统的过程。如果说档案属一次文献的话,那么将其压缩处理的成果就是二、三次文献。存贮过程就是把一次文献转化为二、三次文献,使档案信息由分散到集中、由无序到系统化的过程。档案信息存贮,是档案馆(室)的一项长期而艰巨的任务,不能一蹴而就。从宏观上看,它是分阶段循序渐进,并不断循环往复完成的:
首先,在档案整理过程中,档案人员必须依次编制出卷内文件目录和案卷目录两种典藏性检索工具,在此基础上再进一步将二者合二为一,形成案卷文件目录,或不编以上三种目录,而只编归档文件目录,以固定和反映全宗内档案的分类排放体系,并提供相应的检索途径。这一阶段的工作,通常称为基本编目。
其次,在基本编目的基础上,再编制其他各种目录和索引,如全宗目录、分类目录、主题目录、专题目录、全宗文件目录、责任者目录、地名索引、人名索引、文号索引等,以进一步完善典藏性检索工具,形成查找性检索工具。
最后,作为编研工作的重要内容之一,编写介绍性检索工具,如全宗指南、档案馆指南、专题指南等。
从微观上看,档案检索系统内的各种目录和索引的编制,与指南的编写存在较大差别。一般说来,目录和索引的编制都是由著录和目录组织两道前后衔接的工序所组成的。著录的目的,在于编制出目录和索引的组成单元——条目,赋予档案一定的检索标识。而目录组织的目的,则是把众多著录好的条目编排起来,成为一个严密的整体,同样的条目,按照不同的标目和方法组织,就形成不同的档案检索工具。传统的目录组织方法按条目标目的不同,大体可分为号码组织法、分类组织法、字顺组织法三种类型。在计算机编目系统中,机读目录数据库通常由一个顺排文档与多个倒排文档组成,而且传统目录组织方法中用到的各种目录组织规则,在机读目录组织中仍然要使用,只是这些规则含于编目软件中,目录组织工作由计算机自动完成而已;至于指南的编写,通常采用文字叙述形式而非条目排列形式,采取编撰方法而不采取上述方法。
经过上述三个阶段,档案馆(室)便逐步形成了各自的手工档案检索工具体系和档案计算机检索系统,从而为今后开展档案检索奠定了基础。
(二)档案信息检索
所谓档案信息检索,是指普通档案利用者借助档案馆(室)业已建立的档案检索系统,将所需的包含在档案中的原始有用信息查找出来的过程,即狭义上的档案检索。这一过程就是通过二、三次文献找到一次文献的过程。档案信息检索的基本步骤大致是:
第一,明确检索要求,确定所要查找的档案在时间、类型、内容等方面的限定范围。
第二,根据所选档案机构档案检索工具和档案检索系统的设置情况,选择有效的检索途径,确定需查找的档案检索工具或档案数据库。
第三,对检索课题进行主题分析,并依据档案分类表或词表将检索课题的主题概念转换成档案检索标识。
第四,从档案检索工具或档案检索系统中进行查检,将档案检索标识与表达档案主题概念的档案文献标识进行匹配(相符性比较),检出相关档案。或直接利用关键词进行检索获得相关档案,或通过其他检索途径如题名、责任者、文号、档号等查找符合检索要求的档案。
第五,对检索结果进行分析,若与检索要求不符,则根据需要扩大、缩小或改变检索范围,直到获得满意的检索结果为止。
总之,档案检索包括档案信息存贮和档案信息检索两个方面。档案信息存贮是档案信息检索的基础,其目的是使档案信息达到高度的组织化;档案信息检索是档案信息存贮的逆过程,其目的在于满足档案利用者的档案信息需求。其中,在档案信息存贮过程中主要有著录与标引的因素,在档案信息检索过程中主要有制定检索策略和检索手段的因素,而档案检索语言、档案检索工具体系或机读数据库则是两个方面共同涉及的因素。
第二节 档案检索的途径
检索途径是指可以作为档案检索系统入口进行检索的角度。检索途径在档案检索工具中是以检索标识的形式表现出来的。档案检索的途径可分为形式检索途径和内容检索途径两大类。
一 形式检索途径
形式检索途径是以档案的形式特征作为检索入口的检索途径。具体可细分为责任者途径、文件编号途径、人名途径、地名途径和机构名途径。
(一)责任者途径。责任者即档案的形成者,包括机关和个人等。同一责任者形成的档案,在内容上反映某一特定职能活动,具有一定阶段性,在内容和时间上互有联系。责任者途径在已知档案的责任者和大致形成时间的情况下是比较方便的检索途径,而且通过这一途径可以检索到同一责任者形成的全部档案材料。
(二)文件编号途径。文件编号(如文书档案中的发文字号等)是一份特定文件固有的并具有唯一性的特征信息。在已知一份文件编号的情况下,采用文件编号途径检索档案是最为简便的。
(三)人名途径。这是从档案中涉及的人物入手检索档案信息的一种检索途径。人名途径对于检索有关某一特定人物的档案材料比较方便和有效。
(四)地名途径。这是从档案中所涉及的地名入手检索档案信息的一种检索途径。地名途径对于检索有关某一特定地区的档案材料比较方便。
(五)机构名途径。这是从档案中所涉及的机构入手检索档案信息的一种检索途径。机构名途径对于检索有关某一特定机构的档案材料比较方便。
提供形式检索途径的档案检索工具有责任者目录、文号索引、人名索引、地名索引、机构名索引等。
二 内容检索途径
内容检索途径是用直接表达档案主题内容的档案特征信息作为检索入口的检索途径。具体可细分为分类途径、主题途径和专题途径。
(一)分类途径。即将分类号作为检索入口检索档案信息的一种检索途径。从分类途径入手,可以系统、全面地查到有关档案材料,是档案检索中最重要的途径。
(二)主题途径。主题即档案所阐述的中心问题。主题途径是指从主题词或关键词入手检索档案信息的一种检索途径。从主题途径入手,可以直接查找到涉及某一问题、某一对象和某一事物的档案材料。主题途径也是档案检索中的一种重要途径。
(三)专题途径。即从某一专题入手检索档案信息的一种检索途径。
提供内容检索途径的档案检索工具有分类目录、主题目录、专题目录、案卷目录、案卷文件目录和全宗文件目录等。
以上两类检索途径都是十分有价值的。前一类途径可以通过已知的档案形式特征获得明确的检索结果,后一类途径则可根据使用需要,从主题内容出发对档案进行检索。比较而言,前一种途径的特点是可以迅速、准确地检索到特定档案,但前提是必须预先掌握档案确切的形式特征,否则就无法进行,而且也很难在此基础上扩大检索相关档案。后一种途径不必事先了解档案相应的形式特征,不仅可以根据使用需要直接检索特定主题内容的档案,而且还可以通过档案检索系统中主题内容之间的联系,扩大或缩小检索范围,进行相关档案的检索,但在检索确定的对象时,不如前一种方法直接和准确。因此,形式检索途径和内容检索途径应该是互补的。
第三节 档案检索的效率
检索效率是指在档案检索过程中满足利用者的全面性和准确性程度,它是衡量档案检索系统性能的一个最基本的指标。就每一个检索过程而言,理想的检索结果当然是无遗漏无误差地检索出利用者所需档案,但由于各方面的因素,实际上很少有可能达到这样的结果。检索效率通常采用查全率和查准率两个指标来衡量。
一 查全率和查准率
查全率和查准率这两个指标是美国情报专家J.W.佩里(J.W.Pery)和A.肯特(A.Kent)于1955年提出来的,后经不断改进和完善,至今已成为衡量检索效率的两项关键指标。
所谓查全率,是指满足利用者要求的全面性程度,即根据利用者的需求检出的相关档案与全部相关档案的百分比。与之相对应的是漏检率,即未检出的相关档案与全部相关档案的百分比。查全率和漏检率是两个相对应的指标,其公式为:
例如,某一利用者要求查找有关廉政建设方面的档案,档案馆保存的有关专题档案是80件,检索时检出其中64件,有16件漏检,那么查全率是×100%=80%;漏检率为×100%=20%。查全率越高,说明检索出的相关档案越多,漏检率越低。
查全率表明档案检索系统避免相关档案漏检的能力,是评价档案检索系统效率的一个重要参数。保持较高的查全率是档案检索系统的一个基本目标。
所谓查准率,是指满足利用者要求的准确性程度,即根据利用者的需求检出的相关档案与检出的全部档案的百分比。与之相对应的是误检率,即检出的不相关档案与检出的全部档案的百分比。查准率和误检率也是一对相对应的指标,其公式是:
例如某利用者查找有关知识分子政策的档案,共检出30份,经判定其中20份是相关的,10份是不相关的,那么查准率是×100%≈67%;误检率是×100%≈33%。
查准率表示档案检索系统排除与检索提问无关档案的能力。提高查准率可以节省利用者分离无关档案所花的时间,对提高档案检索系统的实际使用效果具有重要作用。因此,档案检索系统一般均采取各种措施,保持适用的查准率。将查全率与查准率结合使用,就可以比较客观地显示档案检索系统的检索效率。
任何一次检索结果都可以用图1—1表示。
图1—1 一般性检索结果
图1—1中整个大方框是纳入档案检索系统的全部信息集合(a+b+c+d);虚线圆是关于某一主题的相关档案(a+c);虚线圆以外是不相关的档案(b+d);实线圆是在检索这一主题过程中检出的档案(a+b)。此图显示的是一次检索过程。按照图1—1中的描绘,该检索过程检出了大部分的相关档案(a),排除了存贮于信息集合中大多数的不相关档案(d),也遗漏了一些相关档案(c),检出了一些无关档案(b)。如果从档案检索系统和利用者两个方面对图1—1所示检索结果加以分析,便可用表1—1描述出各个因素之间的相互关系。
表1—1 检索结果2×2表
由表1—1可知:
表1—1从档案机构和利用者两个方面描述了检索情况,通常被称为检索结果2×2表。从档案机构方面来看,在检索时其档案信息集合总是被分为两个部分:已检出档案(a+b)和未检出档案(c+d)。从利用者方面来看,已检出的档案,可分为两种情况:相关档案(a)和不相关档案(b);未检出的档案也分为两种情况:利用者需要但遗漏的档案(c)和利用者不需要也未检出的档案(d)。从表1—1中可以看出,理想的检索效果应该是只检出利用者需要的全部档案,即a+c=a。在这种情况下,b=0,即不相关的档案未被检出;c=0,即没有遗漏的相关档案,此时的查全率和查准率都达到100%。
a值(检出的相关档案)对于查全率的高低具有决定性影响。因为相关档案的总数(a+c)是固定的,a值越大,c值必然越小,查全率就越高。例如,某一主题的相关档案总数是80件,检出60件(a),查全率为75%;当a值提高,检出70件时,查全率上升为87.5%。b值(检出的不相关档案)对于查准率有决定性的影响,b值越小,查准率越高,而a值不起关键作用。因为查准率与相关档案总数没有关系,仅仅测定在每一次检索过程中检出的相关档案在检出全部档案中所占的百分比,如果不控制b值,即使a值提高,查准率也不会提高。例如,有关某一主题的档案是80件,在一次检索过程中检出40件相关档案,这时的查准率是百分之百(40/40×100%=100%)。之所以达到百分之百,关键是因为b=0。如果检出100件,其中有60件是相关的,这时a值明显大了,但b值也大了,查准率仅达到60%(60/100×100%=60%)。可见查准率是测定系统阻止不相关档案的能力。
二 查全率和查准率的关系
英国情报学家C.克里维顿(C.Cleverdon)根据1963年美国情报专家对7万篇文献的研究结果得出了查全率和查准率这两个指标之间存在互逆关系的结论。即查全率高,必然会检出一些内容关联程度较低的档案,从而影响档案检索系统的查准率;反之,提高查准率,要求排除与检索提问相关程度较低的档案,从而影响查全率。
图1—2所表示的检索结果是以四种不同方式检索得到的。从图中可以看出,如果进行范围宽泛的检索时(点A),查全率很高,可以达到90%左右,而这时查准率则很低;相反,当检索范围小,很有针对性时(点D),则查准率较高,查全率较低。点B和点C的查全率和查准率都比较平均。这条曲线是美国情报学家F.W.兰卡斯特(F.W.Lancaster)根据50次检索的调查结果绘制的,所以称它为经验曲线。
这条经验曲线实际上是一条平均曲线,也就说它是根据若干次检索结果的平均情况绘制而成的。因此不能以此理解为每一个检索过程均如此。在实际工作中,经常会遇到这种情况,有时查全率和查准率都可能达到百分之百。而有时,查全率和查准率都可能是0,检出一大堆材料,均属无关文献。如果把每次检索的结果具体标出来,就形成了如图1—3的散点图。
在图1—3中,每个“●”代表一次检索结果。实际上每次检索结果的查全率和查准率不一定都是互逆的。有时检索效率很好,查全率和查准率均很高(右上角);有时查全率和查准率又都很低(左下角);某些结果是查全率高,查准率低;某些结果是查全率低,而查准率高。这些结果平均起来,就获得检索效率的经验曲线,显示出查全率和查准率之间的互逆关系。
图1—2 检索结果经验曲线
图1—3 检索结果散点图
三 影响档案检索效率的因素
影响档案检索效率的因素有很多,主要包括以下几个方面:
(一)档案检索系统的信息存贮率
档案馆(室)只有对所保管的全部档案都编制档案检索工具,存贮到档案检索系统中,档案的查全率和查准率才会提高。但应当指出的是,限于人力、物力等各方面因素,不可能对所藏档案都编制档案检索工具,而且任何一种档案检索工具的信息存贮率都是有限的,不可能把档案的全部信息都转附在一种档案检索工具之上。提高档案检索工具的信息存贮率,要从整个档案检索系统来考虑。档案馆(室)应根据实际,编制各种实用的档案检索工具,达到档案检索工具配套齐全,检索途径多样化。
(二)档案检索语言的性能
档案检索包括档案信息存贮和档案信息检索两个方面,而这两个方面都离不开档案检索语言。档案检索语言是档案检索系统的语言保障,采用性能好的档案检索语言,可以使档案检索系统具有较理想的检索效率。
(三)档案检索途径的数量
从理论上说,档案在存入档案检索系统之后,该系统向利用者提供的检索途径越多,它被查到的概率也就越高。如果某一档案在档案检索系统中只向人们提供一条途径,那么人们只有找到这唯一途径,才有可能获得这一档案。如果有六条检索途径可供查检,那么只要找到其中任一条途径便可获得,这样查全率、查准率自然都会相对提高。检索途径的多少,就使用单一的档案检索工具而言,取决于档案标引的深度,就使用整个档案检索系统而言,除标引深度外,还取决于档案检索工具的种类或数据库内部的数据结构。适当地增加检索途径有利于提高系统的查全率,但检索途径过多,也会加重系统的负担,有时还会造成检出档案的相关程度不高,降低查全率。
(四)档案著录与标引的质量
著录与标引是对档案的特征进行分析、选择、记录,并赋予其检索标识的过程,而检索标识是组织档案检索工具、进行档案检索的依据,因此,著录与标引的质量对于检索效率也是一个重要的因素。
(五)检索策略的优劣
如果说,档案著录与标引的结果对于档案存贮的质量至关重要,那么,检索策略在查找过程中则具有决定性的作用。检索途径选择得是否正确,检索标识之间的逻辑关系表达得是否科学,能否针对需求的变化和检索的误差灵活地调整检索表达式,是实现需求信息与系统内信息集合中相关信息成功匹配的关键。每一个不同的检索策略都会导致不同的检索结果。
(六)检索人员的素质
不论是手工档案检索系统还是档案计算机检索系统,都要由检索人员来参与和控制检索过程,上述因素中除档案检索语言之外,均与检索人员的素质有关,因此检索人员的素质对于检索效率有直接的影响。