网络信息资源检索与科技论文写作
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.4 计算机信息检索系统

计算机信息检索(computer information retrieval)是指利用计算机系统有效存储和快速查找能力发展起来的一种计算机应用技术。它与信息的构造、分析、组织、存储和传播有关。计算机信息检索系统包括信息检索所用的硬件资源、系统软件和检索软件。它能存储大量的信息,并对信息条目(有特定逻辑含义的基本信息单位)进行分类、编目或编制索引。它可以根据用户要求从已存储的信息集合中抽取出特定的信息,并提供插入、修改和删除某些信息的能力。

1.4.1 计算机信息检索系统的类型

1.按照物理构成划分

按照物理构成来划分,可以将电子信息检索系统划分为硬件、软件和数据库三部分。

(1)硬件(hardware):与计算机检索有关的各种硬件设备的总称。

(2)软件(software):与计算机检索相关的数据库系统软件及相关的应用软件。

(3)数据库(database):根据ISO/DIS 5127标准,数据库的定义是,“至少由一种文档组成,并能满足某一特定目的或某一特定数据处理系统需要的一种数据集合。”通俗地说,数据库就是在计算机存储设备上按一定方式存储的相互关联的数据集合。

按国际上通用的分类方法,数据库可以划分为以下类型。

①参考数据库

参考数据库(reference database)是指引用户到另一信息源以获得原文或其他细节的一类数据库。它包括书目数据库(bibliographic database)和指南数据库(referral database或directory database)两种。

书目数据库是指存储某个领域的二次文献(如文摘、题录、目录等书目数据)的一类数据库,有时又称为二次文献数据库,或简称为文献数据库。例如,美国《工程索引》数据库就属于此类型数据库。

指南数据库也称指示性数据库,是指存储关于某些机构、人物、出版物、项目、程序、活动等对象的简要描述,指引用户从其他有关信息源获取更详细的信息的一类数据库。例如,产品目录、机构名录、研发项目、基金项目等数据库均属于此类型。

②源数据库

源数据库(source database)是指能直接提供原始资料或具体数据的数据库,用户不必再查阅其他信息源。它又可以分为以下类型。

数值数据库(numeric database):一种专门提供以数值方式表示的数据的源数据库,如统计数据库、财务数据库等。

文本-数值数据库:一种能同时提供文本信息和数值数据的源数据库,如企业信息数据库、产品数据库等。

全文数据库(full-text database):一种存储文献全文或其中主要部分的源数据库,如法律法规全文库、期刊全文库等。

术语数据库:一种专门存储名词术语信息、词语信息及术语工作和语言规范工作成果的源数据库,如名词术语信息库、各种电子化辞书等。

图像数据库:一种用来存储各种图像或图形信息及有关文字说明资料的源数据库,主要应用于建筑、设计、广告、产品、图片或照片等资料类型的计算机存储与检索。

2.按照存储设备和用户检索方式划分

按照存储设备和用户检索方式,可以将电子信息检索系统划分为联机数据库检索系统、光盘数据库检索系统和网络数据库检索系统三种。

(1)联机数据库检索系统

联机检索(online retrieval)是指用户利用计算机终端设备,通过通信线路或网络,将信息需求按系统规定的检索命令和查询方式发送到联机检索中心的数据库中,系统将用户的请求与数据库中的数据进行匹配运算,再将检索结果送回到用户检索终端。

联机数据库检索系统由联机检索中心、通信设施和检索终端三部分组成。其中,联机检索中心是该系统的中枢部分。

联机检索具有数据库数量多、信息量大、内容丰富、数据库更新快、数据库和系统集中式管理、安全性好等优点,但是联机检索的费用高,检索界面单一。目前世界上最著名的联机数据库检索系统是美国的Dialog系统。

Dialog系统是目前世界上规模最大、检索功能完善的国际性联机检索系统,也是目前运作最成功的联机商业数据库系统之一。Dialog系统目前拥有80多个国家约10万多个终端用户,近600个联机数据库,内容涉及40多个语种和占世界发行总量60%的6万多种期刊,记录总量超过3亿条。和Internet相连,提供远程登录收费服务。

Dialog系统学科覆盖面广,几乎涉及全部学科范围,包括综合性科学、自然科学、应用科学和工艺学、社会科学和人文科学、时事报道和商业经济等。其数据来源于各种不同的图书、报纸、杂志期刊、技术报告、会议论文、专著、专利、标准、报表、目录、手册等。其数据形式包括文献型、数值型、名录字典型、全文型等。例如,著名的CA(化学文摘)、SCI(科学引文索引)等在Dialog系统中都有收录。

(2)光盘数据库检索系统

光盘数据库通常是指CD-ROM(Compact Disc Read-Only Memory)数据库,即只读光盘数据库。光盘数据库由最初的单机光盘数据库发展到现在的联机光盘数据库。联机光盘数据库是多用户的局域网系统,即通过网络连接多个用户终端,用服务器管理多组光盘数据库及其检索系统。联机光盘数据库检索系统具有用户检索界面直观、友好、检索环境宽松、检索功能强、检索效率高等优点,但是信息量没有联机检索数据库多,数据更新慢。

(3)网络数据库检索系统

网络数据库检索系统是指用户在自己的客户终端上,通过Internet和浏览界面对数据库进行检索。网络信息检索是最能够体现Internet特色的新型信息检索工具,也是目前网络环境下水平最高的信息服务方式。网络数据库的内容不仅包括文本,还包括大量的图像、动画、声音等,数据库一般每日更新,检索功能强大,索引多,检索环境更加宽松。用户不需要具备专业的情报检索能力,就可以很方便地使用。但是,由于访问是通过网络进行的,因此,安全性较差。另外,由于数据库的开发费用较高,因此,网络数据库的总体费用一般高于光盘数据库。

在网络发达地区,很多光盘数据库检索系统都升级为网络数据库检索系统。

1.4.2 数据库的构成

对于计算机信息检索数据库来说,一般由字段、记录、文档和辅助部分4项组成。下面以美国Ei Compendex数据库中的一个记录为例来说明计算机检索系统的结构。

1.文档

文档(file)是书目数据库和文献检索系统中数据组成的基本形式,是由若干个逻辑记录构成的信息集合。从数据库的内部结构来看,通常一个数据库至少包括一个“顺排文档”和一个“倒排文档”。

(1)顺排文档(linear file):全部同类型文献记录的集合形成数据库。如果数据库的每一篇文献记录都是顺序地按线性结构排列的,则构成“线性文档”。线性文档中的文献记录是按其存取号大小的顺序排列的,故又称为“顺排文档”。

如果没有索引文档配合,要对顺排文档进行机检,计算机就要逐一扫描数据库中的每条记录。这样逐篇查阅这些顺排文档进行检索是很费时间的,检索效率太低。为了提高检索效率,就要建立索引文档,也称为“倒排文档”。

(2)倒排文档(inverted file):对数据库重新组织,将每个可检索字段中一切有意义的检索词(或代码)按一定顺序排列,即构成倒排文档。倒排文档又可分为基本索引倒排文档和辅助索引倒排文档。

基本索引倒排文档:从数据库全部记录的基本索引字段中,提取出所有的检索词,按字顺排列构成的集合,称为基本索引倒排文档,例如,主题词索引、分类号码索引等均是基本索引倒排文档。

辅助索引倒排文档:从数据库全部记录的辅助索引字段中,提出所有的检索词、数字,加上相应的前缀代码,按字母或数字顺序排列构成的集合,称为辅助索引倒排文档,例如,著者索引、号码索引等均是辅助倒排索引文档。

2.记录

记录(record)是数据库文档的基本单元,是对某一实体属性进行描述的结果。一个数据库可能包含几千条甚至几十万条记录。在全文数据库中,一条记录相当于一篇完整的文献;在书目数据库中,一条记录相当于一条文摘或题录。

3.字段

字段(field)是构成记录的最小信息单元。一条记录包含若干个字段。例如,原始文献的篇名、著者、文献出处、出版时间、文摘、主题词、语种等。数据库记录的著录项目(字段)往往比手工检索多得多,这就决定了计算机检索能够提供比手工检索更丰富的检索途径。字段可以分为3种类型。

①存取号(Accession number,AN):是计算机为数据库的每篇记录给定的登记号。

②基本索引字段(basic index):是记录中主要用来表达文献内容特征的字段。常见的有篇名、文摘、叙词、受控词、自由标引词、非控词等。

③辅助索引字段(additional index):主要是一些表达文献外表特征的字段。常见的有著者、期刊名称、出版年份、语种、出版物识别代码、国际标准刊号、文献类型、分类代码、机构名称等。

为了方便计算和检索,每个字段都有自己特定的标识符,如TI(Title,篇名)字段、AB(Abstract,文摘)字段、DE(Descriptor,叙词或者主题词表中的词)字段、ID(Identifier,自由标引词,非受控词表中的词,由标引人员根据文献内容确定)字段、AU(Author,著者)字段、CS(Corporate Source,著者所在单位)字段、SO(Source,文献出处,对于期刊文献包括期刊名称、卷、期、页等;对于会议文献包括会议名称、届次、时间、地点等)字段、PY(Publication Year,出版年代)字段、CO(CODEN,期刊代码)字段、SN(ISSN,国际连续出版物标准号)字段、LA(Language,原文语种)字段、DT(Document Type,文献类型)字段、TC(Treatment Code,处理码,表示论文研究的性质,A表示应用,X表示实验,T表示理论等)字段、CC(Classification Code,分类代码)字段等。

4.Help或F1功能键(辅助部分)

在计算机信息检索数据库中,帮助、指南及说明等信息大多可通过Help命令获得,或者单击F1功能键来显示。例如,美国Ei Compendex数据库记录格式如下:

Accession number:04498700490
Title:An anti-lock braking control system for a hybrid electromagnetic/electrohydraulic brake-by-wire system
Authors:Anwar,Sohel
First author affiliation:Chassis Advanced Technology Dept.,Visteon Corporation,Dearborn,MI 48126,United States
Serial title:Proceedings of the American Control Conference
Abbreviated serial title:Proc Am Control Conf
Volume:v 3
Monograph title:Proceedings of the 2004 American Control Conference(AAC)
Publication year:2004
Pages:p 2699-2704
Language:English
ISSN:0743-1619
CODEN:PRACEO
Document type:Conference article(CA)
Conference name:Proceedings of the 2004 American Control Conference(AAC)
Conference date:Jun 30-Jul 2 2004
Conference location:Boston,MA,United States
Conference code:63912
Sponsor:American Automatic Control Council;International Federation of Automation Control,IFAC
Publisher:Institute of Electrical and Electronics Engineers Inc.,Piscataway,NJ 08855-1331,United States
Abstract:This paper presents a nonlinear sliding mode type controller for slip regulation in a braking event for a hybrid electromagnetic-…
Number of references:13
Ei main heading:Brakes
Ei controlled terms:Electromagnetism | Sliding mode control | Eddy currents | Torque | Closed loop control systems | Actuators | Sensors | Algorithms
Uncontrolled terms:Electrohydraulic brake(EHB)systems | Eddy current brake(ECB)systems | Anti-lock brake systems(ABS)| Brake pedal sensors
Ei classification codes:602 Mechanical Drives and Transmissions | 701 Electricity and Magnetism | 731.1 Control Systems | 701.1 Electricity:Basic Concepts & Phenomena | 931.2 Physical Properties of Gases,Liquids & Solids | 732.1 Control Equipment | 732.2 Control Instrumentation | 723 Computer Software,Data Handling and Applications
Treatment:Theoretical(THR)

1.4.3 计算机信息检索技术

1.布尔逻辑(Boolean logical)运算

布尔逻辑检索就是采用布尔代数中的逻辑与、逻辑或、逻辑非等逻辑运算符,将情报提问转换成逻辑表达式。

①逻辑“与”(AND或*):用来表示其所连接的两个检索项的交叉部分,即交集部分。它可以缩小检索范围,有利于提高查准率。“A AND B”表示让系统检索同时包含检索词A和检索词B的信息集合。

②逻辑“或”(OR或+):一种用于并列概念的关系组配。它可以扩大检索范围,有利于提高查全率。“A OR B”表示让系统查找含有检索词A、B之一,或同时包括检索词A和检索词B的信息。

③逻辑“非”(NOT或ˉ):一种用于排除某种概念的关系组配。它同样可以缩小检索范围。“A NOT B”表示检索含有检索词A而不含检索词B的信息,即将包含检索词B的信息集合排除掉。

在不同的检索系统中,布尔逻辑的运算顺序是不同的,因此会导致检索结果的不同。通常的运算顺序是NOT、AND、OR,但是可以根据需要,用括号来规定或改变执行顺序。一般,在检索系统的帮助文件中都会有这类说明。

2.位置(position)运算

文献记录中词语的相对次序或位置不同,所表达的意思可能不同,而同样一个检索表达式中词语的相对次序不同,其表达的检索意图也不一样。布尔逻辑运算符有时难以表达某些检索课题确切的提问要求。字段限制检索虽能使检索结果在一定程度上进一步满足提问要求,但无法对检索词之间的相对位置进行限制。位置运算符又称邻接运算符(adjacent operator),是用一些特定的运算符(位置运算符)来表达检索词与检索词之间的临近关系,并且可以不依赖主题词表而直接使用自由词进行检索的技术方法。位置运算符是调整检索策略的一种重要手段。

按照两个检索出现的顺序和距离,可以有多种位置运算符。而且对同一位置运算符,检索系统不同,规定的位置运算符也不同。以美国Dialog检索系统使用的位置运算符为例,介绍如下。

①(W)运算符:W的含义为with,表示运算符两侧的检索词必须紧密相连,除空格和标点符号外,不得插入其他词或字母,两词的词序不可以颠倒。(W)运算符还可以使用其简略形式“()”。例如,检索式为communication(W)satellite时,系统只检索含有communication satellite词组的记录。

②(nW)运算符:nW的含义为nWord,表示运算符两侧的检索词必须按此前后邻接的顺序排列,顺序不可颠倒,而且检索词之间不允许有其他的词或字母,但允许有空格或连字符。例如,laster(1W)print可检索出包含laser printer、laser color printer和laser and printer的记录。

③(N)运算符:N的含义为near,表示运算符两侧的检索词必须紧密相连,除空格和标点符号外,不得插入其他词或字母,两词的词序可以颠倒。

④(nN)运算符:(nN)表示允许两词间插入最多n个其他词,包括实词和系统禁用词。

⑤(F)运算符:F的含义为field,表示运算符两侧的检索词必须在同一字段(例如同在题目字段或文摘字段)中出现,词序不限,中间可以插任意检索词项。

⑥(S)运算符:S是Sub-field/sentence的缩写,表示运算符两侧的检索词只要出现在记录的同一个子字段内(例如,在文摘中的一个句子就是一个子字段),此信息即被命中。要求被连接的检索词必须同时出现在记录的同一句子(同一子字段)中,不限制它们在此子字段中的相对次序,中间插入词的数量也不限。例如,high(W)strength(S)steel表示只要在同一句子中检索出含有high strength和steel形式的均为命中记录。

3.截词(truncation)运算

截词就是利用检索词(关键词、主题词)的词干或不完整词形进行查找,它可以起到扩大检索范围、提高查全率、减少检索词(关键词、主题词)的输入量、节省检索时间的作用。尤其在英文检索系统中检索时,若遇到名词的单复数形式,词的不同拼写法,词的后缀变化,均可采用此方法。截词运算的方式有多种,可以分为有限截词、无限截词和中间截词。

其他的检索技术还有限制检索、大小写敏感检索及禁用词表检索等技术,在后面具体的数据库中再详细说明。