第五节 检索语言的发展
一、网络环境下的分类语言
分类法比较全面和客观地反映了知识全貌及其内在的逻辑联系,它体系结构的系统性、标识符号的通用性以及族性检索功能,是其他信息检索语言所不具备的,也是无法取代的。而且,分类方法符合人类认识事物的逻辑思维方式。因此,在网络环境下,分类法依然有着强大的生命力,只是由于分类语言描述对象(信息资源)和利用对象(标引者和检索者)都发生了变化,分类语言也在悄然地发生着变化。
(一)更新分类法内容,适应网络环境
对纸质文献而言,分类法主要应用于图书情报和档案机构,分类法处理的对象主要是正式出版物。而网络信息的发布突破了传统的出版程序的局限,无需经过任何权威机构的审核和认可,信息内容更加丰富,数量更加庞大,信息的分类更加复杂。
在新的网络环境下,分类语言沿着两个方向继续得到发展。一个方向是积极地调整传统分类法自身,满足信息资源的日益膨胀。2003年6月最新推出的《杜威十进分类法》22版的电子版增加了大量印刷版中没有的类目,对004-006数据处理计算机科学、301-307社会学与人类学、340法律、510数学、540化学、610医药与健康、900历史与地理等作了重大修订和补充。同时,一些网站采用了《杜威十进分类法》(DDC)、《国际十进分类法》(UDC)、《美国国会图书馆分类法》(LCC)以及其他的综合性分类法、专业分类法来对因特网资源进行组织和整理,为用户提供服务。但这些分类法为适应网络资源对原来的类目进行了必要的调整,对类目级别的深度进行了适当控制。分类语言发展的另一个方向是抛开传统的分类法,重新建立新的分类体系,即网络分类目录。它继承了传统分类法层层划分、从总到分逐级展开的基本思路,但不遵循以学科分类为基础的分类原则,不再使用分类号作为信息分类标识和依据,直接使用语词来形成网络分类目录。类目的设置是采用主题与学科相结合的方式,类目体系在体现科学性的同时,更注重追求实用、易用、通用和灵活。如著名的Yahoo分类目录和蓝帆中文目录等。
(二)超文本技术的应用带来了分类体系的多维化
传统分类法的体系是以一种典型的线性结构来揭示类目之间的内在关系,表现出明显的单维特征。尽管传统的分类法也试图采用组配方式或其他方式以改善类目之间简单的单维联系,但结果并不是特别理想。超文本技术在分类语言中的应用,彻底改变了类目之间的线性关系,为分类语言的发展带来了新的生机。超文本技术允许我们在浏览文本信息的同时,随时可以选中其中的“热字”。热字往往是上下文关联的词汇或句子,通过选择热字可以跳转到其他的文本信息。超文本技术为多角度、多途径浏览与检索提供了技术支持,使分类法实现体系多维化有了可能。这样一来,就可以充分利用超文本技术,更好地揭示类目之间的多维关系。
新型的网络分类目录在类目划分标准、横向关系揭示和类目设置方面表现出明显的多维化趋势。网络分类目录打破了传统分类法划分标准唯一的限制,在同一个类目下集中了依照主题对象、学科属性或资源类型划分的所有下属类目。同时,随着超文本技术的利用,对于多属性主题、交叉学科、边缘学科、总论与专论、地区与主题、资源形式与主题等横向关系的揭示会变得十分轻松。而传统的分类法由于技术条件的限制,不利于充分地、客观地揭示和反映多维性的知识空间。技术的进步使得多维揭示、多角度设类成为现实,较好地解决了文献信息的集中和分散问题。
(三)面向用户,分类语言更加简便易用
传统的分类法是一种极其专业的语言,主要应用于信息机构,这些机构的用户比较明确。而网络打破了信息获取与传递的地理障碍,使任何一个连入网络的人都有可能成为分类语言的使用者,用户的成分变得复杂多样,他们有着不同的教育背景、不同的知识结构和不同的年龄,从事着不同的职业。在传统信息环境下,人们往往依赖图书情报和档案机构工作人员的帮助来利用分类法,或者直接由信息工作人员来代替完成信息检索。网络让人们跨越了图书情报和档案机构这个中介,使终端用户成为分类法的直接使用者。这就对分类语言的易用性提出了挑战。因而,网络环境下的分类法要从用户的角度出发,关注普通用户的一般思维方式、检索习惯和需求特点,按照通用的思维方式、检索特点来调整分类法的知识体系、分类标准等,在强调类表的科学性和专业性的同时,也考虑它的实用性和包容性,关心用户使用的感受,提升分类语言的易用性,使其更易于为用户掌握和利用。
二、网络环境下的主题语言
主题法使用语词对信息进行揭示和组织,直接用语词标识信息内容,可以较好地满足用户的特性检索需求,主题语言在网络环境下仍然是一种重要的检索语言。因特网的普及和网络信息资源的迅猛增长对主题语言的发展产生了较大的影响,随着数字化信息资源的增多,数据库成为一种非常重要的信息组织与存储方式,主题语言作为一种语词标识系统,在数据库检索中将得到广泛的使用,主题检索是数据库检索的一个重要途径。许多数据库都提供有词表,包括各种主题词表、关键词表或禁用词表等,用主题语言进行检索具有较高的查准率和查全率。例如,中国人民大学图书馆的联机目录的主题检索,该系统依据《汉语主题词表》和《美国国会图书馆主题词表》分别对收录的中西文文献进行了主题标引,对每一种文献都给予了相应的主题词,通过主题检索途径,可以检索到与该主题相关的文献。
主题语言在网络信息资源的检索中表现为两个方面:一是传统词表在网络信息资源组织与检索中的应用,如一些网络信息检索系统采用了《美国国会图书馆主题词表》、《医学主题表》等,但这种情况并不多;另一方面主要表现为关键词语言在网络搜索引擎的广泛使用。关键词语言在组织网络信息资源时具有一定的优势,关键词基本上是自然语言,造词灵活、广泛、适应性强,能够适应不同层次用户进行网络信息资源的检索,最大限度地保证网络信息标引和检索的一致性。
三、自然语言的应用
随着计算机技术的发展、计算机信息检索系统的广泛使用,自然语言在信息检索领域的应用开始流行起来。传统的采用受控语言(人工语言)的信息检索系统要求检索者必须具备一定的检索理论和实践技能,熟悉系统的检索功能与操作命令、检索语言的特点及有关的检索策略与检索技巧等方面的知识。随着信息资源的海量化、信息需求的不断扩大,越来越多的非专业人士开始涉及信息检索领域,人们开始不满意传统受控语言的严格规范性,渴望信息检索更加简洁和易用。自然语言处理技术在信息检索领域的应用带来了一场大变革,促进了新的自然语言检索方式的产生和发展。
(一)概述
自然语言指不经加工和规范的语言,自然语言直接取自文献本身,词、词组或句子,没有烦琐规则的约束,不添加任何人工的色彩。
自然语言具有许多人工语言所没有的优点,它包含:
第一,自然语言检索方便,不受人工语言的种种限制,不需要复杂的检索规则,使用者能够较快适应,易用性突出。
第二,自然语言采用从文献中直接抽词的方式,避免了人工标引过程中的失真现象。全文检索技术的发展在很大程度上推进了自然语言检索的发展。目前,一些数据库和搜索引擎采用了自然语言检索,允许用户直接采用自然语言进行检索,用户可以输入类似What is Jamestown? When did Web searching start?等问题。
第三,自然语言非常容易吸纳新的词语、新的概念。采用自然语言检索新出现的事物可以获得较好的检索效果,可直接使用这一新词作为检索入口,不必像传统的人工语言那样,必须将该词冥思苦想地转换成另一规范词,再进行检索。
自然语言信息检索系统与受控语言信息检索系统相比有明显的不同。受控语言信息检索系统是在文献信息和用户信息需求输入系统之前进行控制,控制的工具是人工编制的词表或分类表,而且需要对检索的课题进行主观的思考和分析,检索结果的优劣在很大程度上取决于用户对规范化词表或分类表的掌握程度及经验技巧。文献信息的输入(前控)和检索提问的输入(后控)都采用同一词表,前控和后控的程度相等。但自然语言检索系统主要是在输入系统之后,在系统内部进行控制,文献信息输入时基本上不做处理,而主要依赖后控,即将自然语言转换为系统的提问,并对有同义、近义、相关等关系的词进行组织。同时,自然语言检索系统与计算机自动标引和自动分词等技术紧密地联系在一起。
虽然自然语言的使用增进了信息检索系统与用户的友好程度,但它还是存在着一定的不足,自然语言的表达具有不可避免的词义模糊性,易造成主题相关的信息分散,也难以表现词与词之间的关系,进而影响检索系统的检索效率。因而,如果要想获得满意的检索结果,就应该对自然语言实施一定的控制,建立后控词表则不失为一种比较有效的解决方案。
(二)后控词表
后控词表专门用于自然语言检索系统,主要是在检索输出时对同义词以及语义句法上的相关词进行控制,以实现自动扩检和转换的功能,也有人称之为只供检索的词表。后控词表主要是对自然语言中的等同关系、等级关系和大部分相关关系进行控制和提示,它是一个动态词表,可及时将新概念和新术语加入词表中。
后控词表只对系统的输出阶段进行控制,它的控制处理相对受控语言检索系统比较简单,无须标引人员花费很长时间去分析文献的主题概念,选用合适的检索词进行标引、归类;检索者也不必花太大的精力分析检索要求,考虑用符合标准的检索语言来表达自己的信息需求。
后控词表展现了比较完整的语义关系,用户通过浏览词表选用检索词,大大减轻了构造检索策略的负担,提高了检索速度,节省了检索时间。后控词表作为自然语言与受控语言相结合的产物,对于提高自然语言检索系统的查全率和查准率具有重要的意义,为用户准确选词、精确检索、扩检和缩检、改变检索范围、进行相关检索提供了捷径。
后控词表直接面对用户,完全采用自然语言,用户不需要经过专门的训练就可以很方便地利用,非常便于用户与系统的交流。
目前,对后控词表展开了一系列的研究,并取得了一定的成果,比较有代表性的有美国国防技术信息中心(DTIC)科技报告全文检索系统(http://www.dtic.mil)、美国教育资源信息中心(ERIC)数据库全文检索系统(http://www.ericae.net)等检索系统的后控词表。