第二节 信息组织
一、信息组织概念
信息资源组织是为了方便人们检索、获取信息而将庞杂、无序的信息进行系统化和有序化的过程。也就是利用一定的科学规则和方法对信息进行收集、加工、整合、存储,再通过对信息外在特征和内容特征的表征和排序,实现无序信息流向有序信息流的转换,从而使信息集合达到科学组合实现有效流通,促进用户对信息的有效获取和利用。作为社会活动的重要组成部分,信息组织是与人类社会同时产生并同步发展的。从广义上说,信息资源组织的内容包括信息收集与选择、信息分析与揭示、信息描述与加工、信息整理与存储。对信息的描述、揭示,以及有序化是信息组织的中心内容。而当代社会信息数量猛增、流速加快、分布散乱、优劣混杂等现象日趋突出使得信息组织尤其重要。信息组织是信息管理的重要环节和基础工作。信息组织具有:类聚性,系统性,动态性,多重性,综合性。
图书馆、情报所、文献中心、档案馆、专利局等是人们长期进行组织信息和提供信息的场所。例如,图书馆资源建设部,采访人员是收集图书报刊信息;编目人员对收集来的图书报刊信息进行编目加工,形成图书馆书目信息系统;流通部的工作人员再根据资源建设部标定的图书组织方法,将图书有序组织在库架上以供读者借阅;而技术部则将本馆各种信息及数据库进行分类整理进行网络发布。随着电子信息的急速扩张,数据库、Internet、通信产业成了新的信息组织空间。
二、信息组织内容
(1)信息选择:从采集到的、处于无序状态的信息流中甄别出有用的信息,剔除无用的信息,是信息组织过程的第一步。
(2)信息分析:按照一定的逻辑关系从语法、语义和语用上对选择过的信息内、外特征进行细化、挖掘、加工整理并归类的信息活动。
(3)信息描述与揭示:也称为信息资源描述,根据信息组织和检索的需要,对信息资源的主题内容、形式特征、物质形态等进行分析、选择、记录的活动。
(4)信息存贮:将经过加工整理序化后的信息按照一定的格式和顺序存贮在特定的载体中的一种信息活动。
三、信息组织原则
(1)客观性原则
信息组织中进行描述和揭示的基本依据就是信息本身,因此,我们描述和揭示信息的外在特征和内容特征必须客观而准确,要根据信息本身所反映的各种特征加以科学地反映和序化,形成相应的信息组织的成果。
(2)系统性原则
系统性原则要求在信息组织中把握好以下四个关系。
①宏观信息组织与微观信息组织的关系;
②信息组织部门与其他部门的关系;
③信息组织工作各个环节之间的关系;
④不同信息处理方法之间的关系。
(3)目的性原则
信息组织具有鲜明的目的性,必须围绕用户的信息需求开展工作,注意信息机构的目标市场需求状态及其变化特征,满足成本收益对称的原则。
(4)现代化原则
信息组织现代化原则包括思想观念现代化和技术手段现代化两个方面。
信息组织的思想观念现代化集中体现在信息组织的标准化上,即信息组织工作的一致性、信息组织方法的规范性、信息组织系统的兼容性和信息组织成果的通用性。
四、信息组织要求
(1)信息内容有序化
一是要将内容或外在特征相同或者相关的信息集中在一起,把无关的信息区别开来;二是集中在一起的信息要有系统、有条理,按一定标识呈现某种秩序,并能表达某种意义;三是相关信息单元之间的关系要明确化,并能产生某种关联性,或者能给人某种新的启示。
(2)信息流向明确化
现代管理科学的基本原理表明,信息作用力的大小取决于信息流动的方向。信息整序要做到信息流向明确化。首先,要认真研究用户的信息需求和信息行为,按照不同用户的信息活动特征确定信息的传递方向;其次,要注意根据信息环境的发展变化不断调整信息流动的方向,尽量形成信息合力。
(3)信息流速适度化
信息流速的不断加快使人们感受到巨大的信息压力,眼花缭乱的信息流可能会降低决策的效率。同时,人们面对的决策问题在不断地发展变化,信息需要也在不断地更新。为此必须适当控制信息流动速度,把握信息传递时机,即用户在决策活动中遇到某种问题时而产生了与解决该问题有关的信息需要这一时机,提高信息的效用。
(4)信息数量精约化
现代社会信息数量浩如烟海,垃圾信息日益严重,从信息源中采集来的信息通常是新旧并存、真假混杂、优劣兼有,以至于超过了人们的吸收能力。必须对信息进行鉴别、分析和评价,剔除陈旧过时、错误无用甚至自相矛盾的信息,筛选出最精约化的信息,提高信息系统的可靠性和先进性。使人们能吸收利用。
五、信息组织目的
信息组织的目的可以概括为“实现无序信息向有序信息的转换”。具体地说,信息组织的目的应包括:
(1)便于检索信息、利用信息;
(2)减少社会信息流的混乱程度;
(3)提高信息产品的质量和价值;
(4)建立信息产品与用户的联系;
(5)节省社会信息活动的总成本。
六、信息组织的基本方法
(1)基于传统印刷型载体信息的组织方法
长期以来,以纸张为记录载体的文献组织方法是以分类组织法和主题组织法为主要形式。除此之外,传统信息组织方法包括字顺组织法、时间组织法、地域组织法等。
①分类组织法。这是语法信息组织和语义信息组织的综合,它把信息按学科内容、事物性质分门别类加以组织排序的方法,它把性质相同的内容集中在一起,以反映学科知识的系统性、完整性,便于族性检索,符合人类的认知习惯。比如图书馆的馆藏图书,就是采用分类组织法进行文献分类,再组织上架便于读者进行族性检索。
②主题组织法。这是以信息的主题特征来组织排列信息的方法,给人们提供了一种直接面向具体对象、事实或概念的信息检索途径。即首先分析标引对象,从中抽取能够代表主题特征的语词,然后再按照一定的排序规则,把标引过的每件信息按照主题的异同组织起来。具有直观性和易用性。由于它不像分类法那样受到严格的等级限制,从事物角度集约信息,便于特性检索。因此表达灵活,专指性强。
③字顺组织法。大致可分为形序法和音序法,操作简单。形序法是根据汉字的形体结构中的某些共同之处加以排序,比较适合汉字的特点,并符合人们从汉字的形体结构出发求音求义的检索要求。其中较常用的有部首法如《辞海》、号码法如《四角号码字典》等。音序法是按照汉字的读音及表示读音符号的顺序组织信息的方法。如《新华字典》等。
④时间组织法。按照信息发生、发展的时间顺序进行组织的一种方法。如《中国历史纪年表》等是严格按照年、月、日的顺序组织的。《中华人民共和国大事记》等则是按照事件发生、发展的时间顺序编年组织的。
⑤地域组织法。这是按照地域、区划等地理顺序组织的一种方法。它能把同一地区的不同学科的各种信息全部集中起来,便于人们按照信息所在的地理位置、行政区划准确地检索某一地域的信息,如《世界名胜速查手册》《中国省情》等。
在实际应用中,这些方法往往交替使用,当独立使用各种组织方法时,可以采用并列的方式,将同样的信息概念、信息记录和信息实体制作出多个副本,进行多种方式的组织排列,形成不同序列的信息集合,以增加信息的检索途径。如《现代汉语词典》,它采用音序组织法,但音序排列对不认识的字和语音不准确的人是不易查到的,所以又附了部首和四角号码二种辅助索引。这样,这本词典实际就有了三种检索的方法。
(2)网络环境下信息资源的组织方法
①网络一次信息资源的组织方法。目前,网络一次信息资源的组织方法主要有如下三种:
超文本方法。W W W发明人在1984年提出了W W W所依存的超文本数据结构。利用WWW系统查询信息时,用户面对的是“浏览器”,查询信息采用一种“一点即得”的方法。它是一种基于知识单位的新型信息组织方法,是网络信息组织的基础。超文本实际上就是一些和其他数据具有链接关系的数据,这种把全球范围内的信息组织在一起的超文本方法,采用由指针链接的超网状结构。通过指针链接方式,可以使任何地方之间的信息产生联系。它以节点为基本单位,将文本信息存储在无数节点上,一个节点就是一个相对独立的“信息块”,节点之间用“链”连接,组成信息网络。用户可以从任一节点开始,根据网络中信息间的链接,从不同角度浏览和查询信息。超文本组织方法所提供的非顺序性的浏览功能,比传统的信息组织方式更加灵活方便,且符合人们的联想思维方式。另一大特征是其信息表达形式的多样性。超文本信息可以是文字、图形、图像、声音、动画等多种媒体形式,因此也可称之为“超媒体”。它能在类目与类目之间进行超链,也可以对主题词进行超链,这种联系可以是直接的或间接的,也可以是单向或双向的。因此检索数据时十分灵活,信息的再组织也十分便捷,可任意增加数据或删除和合并已有数据。使用户所需的信息像蜘蛛网一样扩大。
自由文本方法。主要用于全文数据库的组织,是对非结构化的文本信息进行组织和处理的一种方式。它不同于二次文献数据库的组织,无须前控,不需用规范化语言对信息进行复杂的前处理。它不是对文献特征的格式化描述,而是用自然语言深入揭示文献的知识单元,根据文献全文的自然状况直接设置检索点。以一个未知的自然语言文档作为输入,产生固定格式、无歧义的输出数据的过程。这些数据可以直接向用户显示,也可作为原文信息检索的索引,或存储到数据库、电子表格中,以便于以后的进一步分析。它能够完整地反映出一次文献的全貌,是通过计算机自动进行文献信息处理和组织的。基于全文数据库的全文检索可以将任意字符作为检索标识,这样,用户用自然语言即可直接检索未经标引的一次文献。
主页方式。网站往往用主页方式通过各种频道栏目,根据网站定位的用户对象需求的动态,将有关单位、部门或个人的各种信息集中组织在一起进行全面的编辑、翻译、报道、组织、提供信息服务。
②网络二次信息的组织方式。一次信息是原始的信息资源,将一次信息资源进行描述、揭示、分析和存储后,形成了有序化、系统化的二次信息。目前,网络二次信息的组织方法主要有以下两种:
搜索引擎方法。它是对互联网上的信息资源进行搜集整理,然后供你查询的系统,它包括信息搜集、信息整理和用户查询三部分。搜索引擎是一个为你提供信息“检索”服务的网站,它使用某些自动代理软件如Robot、Spider、Worm等,不间断地在网上“爬行”,通过访问网络中公开区域的每一个站点,对网络信息资源进行收集,然后利用索引软件对收集的信息进行自动标引,创建一个详尽的可供用户进一步按关键词查询的Web页索引数据库。搜索引擎方法是目前Internet上对二次信息进行组织的主要方式之一,网上有成百上千种这类搜索引擎,较著名的有Google、Baidu等。此种方式所搜集的信息虽然丰富广博,但优劣并存,查准率低。例如,搜索“足球”这个词汇,就可能有数百万页的结果。这是由于搜索引擎通过对网站的相关性来优化搜索结果,这种相关性又是由关键字在网站的位置、网站的名称、标签等公式来决定的。这就是使搜索引擎搜索结果多而杂的原因。而搜索引擎中的数据库因为因特网的发展变化也必然包含了死链接。
主题树方法。这是将信息资源按照某种事先确定的概念体系结构,分门别类地逐层加以组织,用户先通过浏览的方式逐层加以选择,层层遍历,直到找到所需要的信息线索(即相关站点链接),并通过信息线索直接找到相应的网络信息资源。网上许多著名的网络检索工具如Yahoo、Sohu等,都采用这种方式组织信息资源。这种组织方式的优点在于:简单易用、目的性强,查准率高、良好的可扩充性和严密的系统性。其缺陷在于:为保证主题树的结构清晰性和资源可用性,主题范畴体系的结构不能过于复杂,每一类目下的信息索引条目也不宜过多,这就降低了其所能容纳的网络信息资源的数量。
鉴于主题树组织方式的优缺点,该方式适合组建专业性或示范性的网络信息资源体系,如专题导航等。并不适合用来建立大型的、综合性的网络信息系统。