1.2 知识标引
1.2.1 知识标引的定义
标引(indexing),简单说是一种标识和引导,是对文献是什么信息的描述;具体是指在分析文献内容或情报问题的基础上,用某种索引语言或标识符号把文献的主题概念及其他有检索意义的特征标识出来,作为情报存储和检索的依据的处理过程。
传统标引是以文献为单位的标引,它依据文献的外部特征,如文献的标题、作者、出版时间、出版社或刊物名称等来进行标引,或者依据文献的学科分类进行标引,或者依据文献的主题词进行标引。传统标引虽可以为用户提供检索的依据,但并不能提供准确的知识信息。如何实现传统的信息服务向知识服务的转变,是我们下一步研究的重点。
知识标引是实现知识组织、知识检索的核心,是实现信息服务向知识服务转型的关键技术。实现知识标引,知识才可能被人类有效检索、利用和再创造,起到知识增值的作用,信息服务才可能真正转变成知识服务。知识标引是以知识元为单位的标引,它依据文献本身的内容,即知识本身来进行标引,对文本内容进行知识挖掘,最终为用户提供更加准确的知识信息。
知识标引的基础是知识元。知识元是构成知识的最小单位,是文献中的概念、数据、公式、图表、定理、模型、结论等,是构造知识系统的基础。知识元的不同排列组合可以组成不同的知识单元,不同的知识单元按照不同的逻辑关系可组成不同的知识元链接,这是一个知识学习的过程,同时也是一个信息转换为知识的过程。另外,知识标引过程既可以体现出知识结构的背景,又可以体现出知识的创新点,这是一个知识增值的过程。因此,利用知识标引进行知识检索时,用户不仅可以通过知识单元间接获取知识,而且可以通过知识元直接获取知识,这就大大地提高了知识的利用率,从而实现了为用户提供知识服务的目标。
1.2.2 知识标引的分类
标引按照使用的标引语言或标识符号的类型,可分为分类标引和主题标引;按照使用的标引设备,可分为手工标引和自动标引。
1.2.2.1 分类标引
分类标引,又称文献分类或信息分类,是依据特定的分类规则,对文献进行分类标识的过程。分类标引的过程,就是根据已经选定的分类规则,对标引对象的特征进行分析,在确定标引对象所属的类目后,将所要表达的相关信息,用对应分类法中规定的符号代码表示出来的过程。简单来说,就是按照规则把某些具有共同特征的信息聚类在一起,并依据信息间的关联关系把它们组成一个条理清晰、层次分明的整体的过程。经过分类标引,可以将大量的文献分门别类,纳入特定的分类体系,使得对于原本无序的文献,可按照特定的分类体系对其进行分类标识,使其组成一个有序的学科体系。分类标引还能较好地体现出知识的系统性,把同一领域的知识集中在一起,将不同的区分开来,从而满足了用户按专业领域进行检索的需要。
1.2.2.2 主题标引
主题标引,是依据特定的主题语言,赋予文献主题标识的过程。主题标引所依据的主题语言可以是标题词语言、叙词语言、关键词语言等。因此,主题标引赋予文献的主题标识可能是标题词、叙词、关键词等。通过主题标引,人们可以把同一主题的相关信息聚类在一起,并按照规定的顺序排列起来。主题标引是对标引对象进行主题分析,在确定标引对象的主题概念后,按照一定的词汇控制方式,对标引对象赋予恰当的语词标识的过程。与分类标引相比,主题标引可以集中有关一个主题的各种信息,有较强的直观性、专指性和适应性。主题标引一般有两类标引方式,一种是自由标引方式,这种标引方式是标引人员直接从已有的描述标引对象信息特征的语句中选取主题词作为标识,这种方式对标引人员的专业化程度要求较高;另一种是词表标引方式,这种标引方式是从已制定好的各类主题词表中选择相关的语词作为标识,这种方式对主题词表的维护要求较高。
用主题标引文献确实可取得不错的效果,但也存在问题:一是主题词存在不连贯性,使得使用者很难直接从主题词中较准确地获得文献的主题;二是当主题词数量偏少时,标引效果就会受到影响。在这种情况下,情报界提出了主题概念标引,它对文献的主题概括能力较强,可以使标引的效果增强。
目前,获得概念主题词的方法主要有三类:一是在某个主题词在概念层次中没有直接的同义词或准同义词的情况下,直接选取上位词作为主题概念;二是在某个主题词在层次概念词典中有若干直接同义词且这些同义词在文章中也出现的时候,通过聚类产生上位词作为主题概念;三是在若干主题词同时出现在文章的标题或正文的某些字段中的情况下,将两个(或以上)主题词合成生成主题概念。
1.2.2.3 手工标引
手工标引的基本流程为:①阅读文献;②分析文献内容;③提取主题概念;④表达主题概念;⑤使表达规范化;⑥编制索引目录;⑦编辑为索引和文档。
与自动标引相比,手工标引存在很多的弊端,概括起来有以下几方面:
(1)一致性差。人具有主观性,所以不同的标引人员在标引同样的文献时也可能会有不同的结果,这使得手工标引在标引一致性方面存在较大的缺陷。
(2)技术性强。手工标引属于一项技术性较强的工作,对标引人员的专业要求较高,标引人员不仅要具有图书情报理论基础,而且要具备较强的专业素质。
(3)效率较低。手工标引需要标引人员在浏览全文后,才能找出文献的主题信息,并对其进行标引,因此手工标引的速度很难大幅度提高,效率较低。
1.2.2.4 自动标引
与手工标引相比,自动标引具备较好的优势。自动标引是指利用计算机从文献中自动提取相关知识引导的过程。
自动标引的基本流程为:①获得文献文本,以准备标引,此文本须转化为机读式文献;②语句分析;③词语加权;④确定标引词的权值;⑤选出标引词;⑥把标引词转换为受控词;⑦文档生成与索引编辑输出;⑧根据反馈信息,再进行词相关加权计算,以提高标引质量。
按照标引词来源的不同,自动标引可以分为自动抽词标引和自动赋词标引。
自动抽词标引指的是由计算机直接从原文中自动抽取词或者词语作为标引来描述文献的主题内容。它涉及如何从文献中抽取出可以表达其实质意义的词语,并根据这些词汇确定标引词。后文所讲到的知识抽取就属于此类标引。
自动赋词标引指的是使用预先编制好的受控词表,先取词语对文献进行标引。它涉及如何编制受控词表来反映文献内容中的关键词。后文所讲到的学科文献学术水平等级切分就属于此类标引。