2.2 知识组织
2.2.1 知识组织的定义
知识组织这个概念最早由美国图书馆学家布里斯(Henry Evelyn Bliss)于1929年在他的著作《知识组织与科学系统》中提出。随后,1989年,国际知识组织学会(International Society for Knowledge Organization, ISKO)成立,该组织的使命和目标是促进知识组织系统在各领域的研究、发展和应用。知识组织的研究是在图书馆学、情报学的分类系统和叙词表研究的基础上发展起来的,图书情报工作是研究知识组织的传统领域。
目前,国内外对知识组织都没有明确统一的定义。学者们对知识组织一直处于理论探讨阶段,产生了许多知识组织定义。大部分学者从广义和狭义两个角度对其进行了探讨,如国内的学者蒋永福与付小红从广义上将知识组织定义为一种揭示事物的本质及它们间关系的有序结构,也就是知识的序化。换而言之,整理、揭示、加工、控制知识客体的一系列组织化过程与方法即为知识组织。王子舟与王碧漠两位学者则分别从广义与狭义两个角度对知识组织的含义进行了界定。他们认为,从广义的角度看,人们对知识(无论显性知识还是隐性知识)所进行的整理、加工、控制、揭示等一系列组织活动与过程即为知识组织;从狭义的角度看,就图书馆学而言,对客观知识进行分类并整序的过程即为知识组织。学者盛小平、汤姗红、范宇中、胡生林、吴锡云、姚慧君等也分别从广义或狭义的角度对定义做了类似的界定。李秀云通过总结上述定义指出,“知识组织就是与知识组织有关的方法与理论”。此外,还有一部分学者从另一些角度对知识组织进行了定义,如学者顾乐进从文献揭示这一角度对知识组织进行了定义,图书馆学界所指的知识组织,是指关于文献检索量和文献阅读量与知识获取量的最佳比值。学者苏丽则从知识组织的目标这一角度,认为知识组织是通过提供文献、评价科学文献并进行系统表述以便生成新的有利于运用与获取有序知识单元的处理系统。而学者陈景增则根据图书馆知识组织的主要方式、功用与特点,将图书馆的特色知识组织划分为三个层次:一是知识系列组织层,指各知识单元经过分类、编目、标引及加工处理后的归类与排序,这一层次是通常意义上所说的知识组织;二是知识宏观布控组织层,即图书馆知识组织中的典藏布局;三是知识本体调配组织层,即知识重组。再从国外来看,Birger Hj rland指出,就狭义而言,知识组织不仅包括知识组织系统,如书目记录、分类系统(DDC、LCC及UDC)、叙词表、语义网,还包括知识组织的过程(knowledge organizing processes, KOP)。换言之,知识组织系统可以涵盖所有知识,也可能仅限于某一领域或某种文件类型。Gail Hodge指出知识组织系统包括所有组织信息类型的系统及推动知识管理的系统,还指出知识组织系统用来组织馆藏资料以达到检索及管理的目的,它在馆藏资料与信息需求和使用者之间搭建了一座桥梁。
尽管各位学者对知识组织的定义由于研究角度的不同而不尽相同,但总结以上叙述可以得出,整序、控制、提供是知识组织的核心点。
2.2.2 知识组织的方式方法
关于知识组织的方式,国内的研究主要有以下两种方式:第一种是基于知识单元的知识组织,即抽出知识单元或者知识单元集合中的知识因子,并对知识单元或因子进行形式上的组织。这主要从两个方向展开:一是向用户提供“纯信息”,即向用户提供他们所需的知识、信息;二是从人类创造过程利用知识的特点出发来组织知识,建立知识系统。第二种是以知识关联为基础的知识组织方式。以知识关联为基础的知识组织是指在相关领域中提取大量知识因子,并对其进行分析与综合,形成新的知识关联,从而产生更高层次上的综合知识产品。由于改变了知识因子间的原有联系,因此其结果可以提供新知识,也可以提供关于原知识的评价性或解释性知识。
关于知识组织的方法,蒋永福做了系统的研究,认为根据知识存在形态的不同,可以将知识组织方法划分为客观知识的组织方法与主观知识的组织方法;根据知识内部的不同结构特征,可以将知识组织方法划分为知识关联组织方法与知识因子组织方法;根据知识组织所包含的语言学原理,可以将知识组织方法划分为语义组织方法、语法组织方法以及语用组织方法三种。胡亚军与刘鲁红两位学者在研究中总结认为:从信息描述角度来看,主要有对数字对象、元数据等的相关研究;从信息分类角度来看,主要有对主题法、分类法、主题分类一体化的相关研究;从自然语言理解角度来看,主要有对自动分类技术、自动标引等的相关研究和试验,并指出近年来,在概念层次上,众人关注的焦点主要集中在语义网、主题地图以及本体三种方法上。卢晓惠与陈丽两位学者通过对蒋永福的理论研究进行拓展,从技术角度指出知识组织的研究方法有数据仓库法、面向对象法和知识发现法。
2.2.3 知识组织体系的类型
Gail Hodge在System of Knowledge Organization for Digital Libraries:Beyond Traditional Authority Files一文中指出,根据知识组织体系的结构和复杂性、术语之间的关系以及历史性功能来划分,可以将知识组织体系划分为三种类型:术语列表(term lists),强调经常被定义的术语词表;分类和编目体系(classification and categories),强调创建一个学科(主题)体系;关系列表(relationship lists),强调术语和概念之间的联系。术语列表又进一步细分为规范文档(authority files)、术语表(glossaries)、词典(dictionaries)以及地名辞典(gazetteers)。分类和编目体系进一步细分为主题标目表(subj ect headings)和分类表(classification schemes, taxonomies, categorization schemes)。关系列表进一步划分为叙词表(thesauri)、语义网(semantic networks)以及本体(ontology)。
2.2.3.1 术语列表
(1)规范文档。规范文档是指用于控制同一人或事物的不同名称,或者为某个特别领域中专用名词的词汇单。把正式采用的标目形式与个人或团体责任者、题名、主题等其他未被采用的名称形式,通过参照方法集中起来所做的全面记录和说明,如国家的名称、个人或组织。这类型的知识组织工具一般不包括复杂结构或深度组织,可以按照字母的顺序或按照一个简单的分类体系进行组织,非指示术语也可以连接到正式术语。
(2)术语表。术语表通常是一个具有定义说明的术语列表,其中的术语一般被界定在特定的环境中,这个环境可以是专业的学科领域,也可以是特定的工作。
(3)词典。词典是指一个按照词汇字母顺序组织的具有定义说明的术语列表。它比术语表的范围更广,能够解释词语的不同意思,还可以提供该词语的原始信息、不同的拼写、形态等内容。
(4)地名辞典。地名辞典是指专门的地名的术语列表。传统的地名辞典一般作为地图集或图书的索引,列表中的每个实体都按照其特征进行定义,如河流、城市或者学校等。
2.2.3.2 分类和编目体系
(1)主题标目表。它提供一系列受控术语来表达馆藏的主题款目。虽然主题标目表的结构很浅显,并且具有结构上的限制,但是它能够扩展并覆盖学科领域,在使用的时候,通常要和其他专业词表相结合以增强其专业性。
(2)分类表。这类术语表有很多种,如《杜威十进分类法》(DDC)、《国际十进分类法》(UDC)、《国会图书分类法》(LCC)等,这些术语表通常可以交替使用。
3)关系列表。关系列表进一步划分为叙词表、语义网以及本体,这些术语表将在下一节中详细阐述。
Broughton V, Hansson J, Hjørland B等认为Gail Hodge的知识组织体系划分的类型不够全面,于是列举出了狭义上图书情报界的知识组织体系类型:列举式分类法(DDC, UDC及LCC)、分面分类法(如Bliss 2nd ed.等)、主题标目表(如LCSH)、以全文检索为基础的系统、以叙词表为基础的系统、文献计量(bibliometric maps)、搜索引擎算法、档案系统(以来源原则为基础)、本体或实用分类法(ontology)、语义网(semantic networks)、主题地图(topic maps)。
2.2.4 新型的知识组织工具
知识组织工具也称为知识组织系统或知识组织体系,是用于进行知识组织的各类规范和方法的统称,是获取、利用知识的重要手段。知识组织工具是在文献资源数量激增,用户对资源的需求愈来愈迫切的情况下出现的。为了满足这种需求,学者们对知识组织工具进行了细致的研究。传统的知识组织工具主要可以分为两大类:一类简称为分类法,如图书分类表;另一类简称为主题法,其代表主要有主题词表和叙词表。分类法主要着重于建立知识的结构,而主题法主要着重于词汇的控制。随着网络信息资源呈几何级数的增长,分类法和主题法愈来愈难以满足人们将大量杂乱无序的信息和知识进行序化的需求。于是,新型的知识组织工具就出现了。网络环境下新出现的知识组织工具主要有Taxonomy, Semantic Web, Ontology和Topic Maps。这些新型的知识组织工具沿用了传统的词汇控制和知识分类的原理与方法,同时结合当前网络环境发展的需要和特征,并对某些方法进行了增强或结合,从而显示出了新型知识组织工具的新用途和新特征。
2.2.4.1 Taxonomy
Taxonomy一词来源于生物科学领域,主要是指动植物有机体的分类体系。在知识组织领域,taxonomy是近几年才出现和发展起来的,很大一部分原因是来自于商业界对网络信息分类组织的需求。从广义上来看, taxonomy泛指一切具有分类功能或登记结构的知识组织工具,如万维网指南、图书分类法、企业实用信息分类系统以及支持自动标引的分类表等,都可以归类到taxonomy的范畴。从狭义上来看,在知识管理的框架下,taxonomy则特指企业信息分类系统(corporate taxonomy)。虽然目前对taxonomy的概念还没能够达成共识,但它与传统的知识组织相比,有其独有的特征。首先,在使用范围方面,taxonomy主要用于某一特定机构(主要指企业)。这一特征明显将taxonomy与传统的知识组织工具区分了开来。传统知识组织工具如分类法、叙词表等主要用于图书馆与情报中心,在组织企业资源方面显得力不从心。其次,taxonomy类表简单、灵活,易于理解和使用。它由等级结构和主题词两个部分组成,其各种应用功能均由这两个部分组合实现,taxonomy的这两个构成元素与分类法和叙词表的组成元素有着相似性,但它们在属性和功能上是有区别的。从属性上来看,taxonomy的分类结构更简单、灵活、实用,并不局限于学科分类,更着重于采用普通用户可以理解的分类结构;它的类表类型不局限于等级列举式,更为广泛地采用分面分类和多重列类;类目划分也更为灵活。而从功能上看,taxonomy可应用于各种环境和支持各种用途,如源信息自动分类、检索提问处理、检索结果优化等。不过相对来说,taxonomy更常用于企业等某一特定机构的知识分类和网站浏览、导航,也是企业知识管理、知识库建设的重要组成部分。最后,Taxonomy具有两个基本功能,分别是浏览和辅助检索,而浏览则是其最主要的功能。
2.2.4.2 Semantic Web
拥有万维网之父之称的伯纳斯·李(Berners Lee)于2001年对下一代互联网的前景进行了描绘,并称下一代互联网为“语义网”。伯纳斯认为,语义网是对目前网络的一个延伸,在其中信息具有明确的语义,所以能够实现计算机和人更好地协作。和万维网不同的是,语义网为智能网络的一种,其目标是扩展现行的互联网,从而使得全部内容更容易使用,整个互联网可以自动处理,最终构建一个计算机可理解的全球平台。换言之,语义网是数据网,是机器可理解的信息,更是一个世界性的数据库,在该数据库中,所有能够确定的内容,诸如人、事件、时间、物体等,都能够以实体的形式分布在语义网当中,并且每一个实体都具有一个统一资源标志。语义网是下一阶段信息革命的代表,可以将它看成一个巨型大脑,各个数据库作为其组成部分,协调能力极其强大,智能化程度也非常高,能够解决各种类型的难题。因此,也有学者称语义网为“数据库协调好、智能化的巨型大脑”。另外,元数据是语义网的核心,语义网通过基于现有Web增加标准的、共用的,且机器能够理解的元数据,使原来很多在Web环境下无法实现或难以实现的应用成为可能或变得更有成效,如信息过滤、信息获取、Web自动服务等。
目前,语义网有两种形式:一种形式为可扩展的标识语言(extensible markup language, XML)+实用分类系统(ontology)+资源描述框架(resource description framework, RDF)。架构语义网需要提供一种语言,该语言可以同时对数据和根据数据进行推理的规则进行表达,还准许任一现存知识表现系统中的规则能反映到网络上。RDF与XML满足这个要求,它们与实用分类系统一起构成了语义网的三个组成要件。另一种形式为通用资源标识符(uniform resource ldentifier, URI),它是标识概念或资源的一种文本字串,也叫作URL,如在互联网上常看到的以“Ftp”或“Http:”开头的字符串。它具有多种形式,能够标志的东西也多。其最大特点为准许任何人通过在网络上定义一个URI,以此定义很多新的概念或名称。它能够标识定位全部的互联网资源,是构成语义网的一个基石。
2.2.4.3 Ontology
本体是知识组织的工具之一,知识组织的本体论是近年来学者们关注的热点问题之一。它早期为哲学领域的一个概念,从20世纪90年代开始,转变为计算机人工智能领域研究的本体,并成为图书情报界的一个热点研究领域。有学者认为本体是通过描述、捕获领域知识,确定领域内共同认可的概念和概念间的关系,以用于领域内的不同主体之间交流与知识共享的形式化规范说明。李景对本体技术标准化问题进行了研究,认为本体技术的标准化包括:叙词表、分类法、本体表示语言、本体设计基本技术路线、本体系统的开发、顶级本体的逻辑结构、领域本体的构建、本体在语义网中的应用等多方面。李弘伟和王惠临从主要元素和推理机制出发对8种常用本体表示语言进行了分析研究,探讨其语法、语义转换技术、转换模型和转换工具。当前在图书情报这一领域当中,大部分学者认为“本体是给出构成相关领域词汇的基本关系与术语,并利用这部分基本关系与术语的构成规定这部分词汇外延的规则”、“本体是对概念化的精确描述”或者“本体是对某个概念集的一个规范说明”。
2.2.4.4 Topic Maps
主题地图(topic maps)是一种用来描述知识以及知识与信息资源联系的方法。它是一种知识网络,该知识网络中不同的网络节点代表不同主题的知识,而节点间的连线则代表着主题之间的联系,任意两个主题之间的距离能够根据节点间的连线数量来计算,而这部分连线则代表着从某一主题到达另一主题的路径。通过这种主题地图,人们能够把抽象的知识内容连接成具有概念坐标的一个知识地图,在海量的信息之中,可以借助寻址与链接技术形成知识结构。用户能够根据自己对某领域的认识和了解程度,从自己有兴趣或者熟悉的主题方向出发,获得自己所需要的相关知识。主题地图可以描述并管理无限复杂的信息世界,但它的基本构成却很简单,由主题(topic, T)、事件(occurrence, O)以及关系(association, A)三要素共同构成。主题地图的基础理论研究主要包括主题地图标准体系的建立与研究、主题地图与其他知识表现技术的比较和互操作研究、主题地图结构及特征要素的研究等。
2.2.5 知识组织工具的发展趋势
2.2.5.1 数字化和网络化
知识组织工具的发展应以当前的网络环境为前提和基础,所以数字化和网络化是当前知识组织工具发展的主要趋势。这主要表现在:
第一,传统的知识组织工具纷纷基于Web窗口推出了网络版。例如,随着Internet的普及,联机计算机图书馆中心(online computer library center, OCLC)及时推出了《杜威十进分类法》(DDC)网络版,建立了专门的网站,并基于DDC的研究项目开发了多个版本,实现在线更新和发布等。由于网络信息组织的需求,我国的《中图法》近年来同样开发了电子版,可以在网络上直接检索和浏览类目名称与周围类目,如上位类、下位类和同位类。分类法在网络时代的编制和改造工作,还包括适合网络信息分类的分面分类法的编制和应用研究,以及用户参与的大众分类法的编制。叙词表在网络环境下的改造也非常明显,大致能够划分为以下两类:一类为把叙词表嵌入检索系统,作为检索系统的后控词表,用户进行浏览和检索后,能够直接选用检索词链接到相关的资源,如AGROVOC叙词表、CAB叙词表等。另一类为联机叙词表。这是和检索系统相互独立而存在的一种网络信息检索工具,主要是不直接链接到资源,而通过词汇进行选择,如UNESCO叙词表和医学主题词表(medical subj ect headings, mesh)。网络化的叙词表能够增强网络检索系统的性能,通过在词表当中实现超文本导航,再根据其语义关系帮助用户建立检索提问,并对检索范围进行控制,最终提高检索的效率。
第二,新型的知识组织工具也是基于网络环境提出的。Taxonomy、Semantic Web、Ontology、Topic Maps等新型知识组织工具都是以互联网为支撑的,并且,由于知识资源的数字化和网络技术的应用,知识组织工具组织文献资源的功能在淡化,揭示信息资源内容特征的功能在强化。新型知识组织工具主要是基于概念,而不是馆藏文献,从而强化了知识组织工具的应用潜力。
2.2.5.2 标准化
知识组织系统标准化是实现知识组织系统之间交流与互换的基础,它能够加速知识组织工具的发展,方便知识组织的使用,避免许多不必要的重复探索。国际和国内的相关机构都非常重视标准化,为此做出了不懈的努力,顺应网络化与数字化的趋势制定了不少新的标准,如叙词表编制标准、图书分类表、主题标目表等相关标准,这些都体现了标准化是知识组织工具发展的趋势之一。
2.2.5.3 互操作
互操作是指两个或两个以上系统相互使用已被交换的信息的能力,它能够解决异构系统、多语言映射的问题。国外学术界一直比较重视知识组织体系间的互操作研究,实施了许多积极而有成效的研究计划。这主要表现在以下三个方面:一是基于不同叙词表转换以及叙词表和本体之间转换的研究,如OCLC的LCSH/ERIC的映射计划,将ERIC叙词表转换为MARC格式;二是基于全局分类体系和局部分类体系之间转换的研究,如欧盟的Renardus项目,利用分类法映射技术,通过DDC与不同局部分类体系之间的转换,实现不同信息系统资源的统一浏览和检索;三是基于超级词表、语义网络和专家词典的集成式互操作研究,如美国国立医学图书馆的统一医学语言系统(unified medical language system, UMLS)。国内学术界虽然对知识组织系统的互操作还没有足够的重视,但在主题法与分类法的互操作方面,还是有一定的研究成果,如戴剑波、侯汉清的《图书分类法映射系统设计原理——以<中国图书馆分类法>和<杜威十进分类法>为例》,是对等级体系分类法相互映射的可行性、映射实现模式、自动映射实现原理的研究;又如张雪英、侯汉清的《分类表叙词表转换系统的设计》以文献数据库标引数据(《汉语主题词表》与《中图法》)为实验对象,以金融银行学科为例建立了标引词(串)与分类号的对应模型,这是对分类表与叙词表转换系统设计的研究。综上所知,在互操作这一领域当前关注的焦点及发展趋势是将多类型多语种的知识组织体系通过相互映射集成整合,并可被用于多个不同系统,实现异地跨系统的浏览与检索。
2.2.5.4 可视化
可视化是指将数据信息和知识转化为一种视觉表达形式,是用图形等可视化工具显示知识组织体系结构的。随着社会信息的日益丰富,可视化已经成为知识组织工具发展的一项不可逆转的潮流。可视化技术的研究和应用已从根本上改变了我们表示和理解大型复杂数据的方式,给知识组织与管理带来了深远的影响。目前,可视化的知识组织工具主要有概念图(concept map)、思维导图(mind map)、认知地图(cognitive maps)、语义网络(semantic networks)、思维地图(thinking maps)等,通过图形可视化的方式展现本体中网状结构的知识。
2.2.6 小结
综上所述,国内近年对知识组织的研究呈迅速发展、不断深化和拓展的趋势,主要表现在知识组织与服务工具的多元化及可视化的研究方面,除分类法、叙词表等传统工具外,还涉及本体、主题图、主题网关、分众分类法等新型工具。其研究主题大多仍然集中在知识组织系统的基础理论、构建方法与软件技术、应用方法等领域,但研究的具体内容开始细化,与语义网、搜索引擎、数据挖掘等新技术更紧密地结合,知识组织系统在网络信息资源、数字图书馆等领域的应用研究得到了重视。
从知识组织的方式方法来看,当前很多研究者对方式方法的研究多为理论上的介绍,对某些先进的知识组织系统与知识组织方法技术也大部分是试验性的探索和研究,却很少研究具体的应用实践,所以对知识组织方法技术的研究需要进一步加强。
主题图、知识地图、主题网关等新型知识组织工具仍是研究的热点,包括理论研究和构建实践、应用等方面。一些学者尝试在特定领域构建主题图、知识地图、主题网关等试验模型,旨在更有效地组织和管理知识资源。
本体是近年来的一大研究热点,在本体理论、领域本体的构建实践、基于本体的应用研究等方面比较突出。本体理论的研究包括本体概念、语言、工具、标准化等方面,基本上没有新的突破,只是对以往概念的进一步阐述。关于本体构建,很多学者都在研究将自动化或者半自动化的方式运用到本体建设中,如自动聚类、自动抽词、相似度计算等技术,从而提高本体构建的效率。
网络知识组织系统是近年研究的热点和重点,它是为解决目前基于一般检索系统进行网络信息资源组织和检索的弊端而出现的,尤其是分众分类法、术语注册、术语服务、词表间的互操作、以用户为中心的设计和网络化词表等,作为开展知识检索等知识服务项目的基础,在近年来各种相关机构组织的项目和会议中都占据了重要位置。网络知识组织系统的发展、完善和实际应用,作为一个发展迅速的方向,将会成为知识组织系统产生重大突破的重要分支。