1.3 自动标引方法
近几年来,随着信息技术的快速发展,用户所面向的知识源越来越庞大,对信息的需要也越来越个性化,要充分挖掘文献中所含的知识内容,手工标引技术已远远不能满足用户的需要了。自动标引技术以它的快速性、准确性以及再创造性,愈发得到学界的重视。一种好的自动标引方法的出现,可以大大地提高标引的准确率,为用户提供更优更好的服务。以下着重介绍自动标引方法。
1.3.1 自动标引方法研究状况
自动标引的研究至今大致经历了三个阶段:
第一阶段是20世纪50年代至90年代初。这个阶段主要是关于关键字提取方法的研究。
第二阶段是20世纪90年代至90年代末。这个阶段传统的自动标引方法的效率已达到极限,因此自动标引方法的研究进入低谷。
第三阶段是20世纪90年代末至今。这个阶段计算机及网络技术迅速发展,用户需求不断提高,因此自动标引方法的研究进入了繁荣期。
1.3.1.1 国外自动标引方法研究状况
国外对自动标引的研究最早始于20世纪50年代,经过了60多年的发展,取得了较多的成果。
1957年,卢恩(Hans P.Luhn)开始了自动标引研究,他最早将计算机技术应用到了文献标引领域,开创了计算机自动标引的先河。卢恩以Zipf定律为其理论基础,采用了以词频为特征的统计标引方法。该方法的优点是简单易行,且具有一定的客观性和合理性,因此在自动标引中占据重要地位。
1958年,卢恩提出了基于绝对频率加权法的自动标引方法。
1958年,巴克森代尔(Phyllis B.Baxendale)提出了从论题句和介词短语中自动提取关键词的方法。
1959年,埃德蒙森(Harold P.Edmundson)等提出了基于相对频率加权法的自动标引方法。
1960年,马龙(Melvin E.Maron)与库恩斯(Jennafer L.Kuhns)提出了基于相关概率的自动标引方法。
1969年,埃德蒙森提出了提示词加权法、题名加权法、位置加权法等新的加权方法,并对不同加权法如何形成最优的组合进行了探讨。
1970年,厄尔(Lois L.Earl)提出了采用词频统计方法和语言学方法相结合提取关键词的方法。
1973年,索尔顿(Gerard Salton)和杨(Chun S.Yang)提出了基于词区分值的自动标引方法。
1975年,索尔顿(Gerard Salton)等提出了基于VSM模型的自动标引方法。
1983年,迪伦(Martin Dillon)和格雷(Ann S.Gray)研制出了FASIT系统,该系统是一种基于概念的自动标引方法,由概念选择和概念归类两个标引过程组成。
1988年,西门子公司推出了文本处理项目TINA(Text INhalts Analyse),该项目中的一个组成部分是COPSY(Context Operator SYntax)系统,该系统可对名词短语进行自动识别、选择、规范、匹配等。
1990年,迪尔韦斯特(Scott Deerwester)等提出了潜在语义分析的自动标引方法。
1993年,席尔瓦(Wagner Teixeira da Silva)与鲁伊(Ruy Luiz Milidiu)提出了基于相信函数模型的自动标引方法。
1995年,科恩(Jonathan D.Cohen)提出了基于N-Gram分析法的自动标引方法。
1999年,弗兰克(Eibe Frank)等提出了基于朴素贝叶斯的关键词提取方法。
2001年,安霍(Anjo Anjewierden)与卡贝尔(Suzanne Kabel)提出了基于本体的自动标引方法。
2003年,隆友清(Takashi Tomokiyo)与赫斯特(Matthew Hurst)提出了基于语言模型的关键词提取方法。
2003年,胡尔特(Anette Hulth)利用Bagging算法提出了基于集成学习的关键词抽取方法。
2007年,埃尔詹(Gonenc Ercan)与伊利亚斯(Ilyas Cicekli)提出了基于词汇链的自动标引方法。
2008年,布罗内(Sarah de Bruyne)等提出了基于H.264/AVC视频标准的视频信息自动标引方法。
2009年,格里(Gowri Allampalli-Nagaraj)与伊莎贝尔(Isabelle Bichindaritz)提出了基于本体语言的自动标引方法。
2010年,斯米顿(Alan F.Smeaton)等提出了基于TRECVid镜头边界检测的视频信息自动标引方法。
2011年,帕拉尼韦尔(Sengottayan Palanivel)等提出了基于LPCC特征和K-means聚类算法的音频信息自动标引方法。
2012年,埃塞尔(Daniel Esser)利用文档的位置和结构,提出了面向归档类文档的自动标引方法。
2013年,彼得(Piotr Wrzeciono)与卡沃斯基(Waldemar Karwowski)针对波兰语的农业科学论文,结合波兰语词典,提出了一个基于文本分析的自动标引系统。
2014年,马尔瓦(Marwa Hendez)与阿舒尔(Hadhemi Achour)基于TF-IDF,利用领域词典,提出了一个针对教育资源的半自动化标引方法。
2015年,亚当斯(Joel R.Adams)与贝德里克(Steven Bedrick)针对生物医学领域的文献,利用文献摘要之间的相似性,结合MeSH词典,提出了基于潜在语义分析的自动标引方法。
2017年,帕伊(Tayfun Pay)等利用名词性短语和修饰名词性短语的若干个形容词,结合基于位置的启发式过滤方法,提出了一种无监督的全自动关键字抽取方法。
1.3.1.2 国内自动标引方法研究状况
国内自1980年以后开始涉足自动标引领域,也取得了很多成果。
1980年前后,陈培久提出了基于词典切分词标引法的汉语科技文献标题自动标引方法,并用该方法展开了“汉语科技文献标题自动标引试验”。
1984年,王永成与肖玮瑛提出了基于部件词典的自动标引方法。
1985年,朱纳克博士等利用语义结构分析法进行全文自动标引试验,实验结果证明其可以媲美手工标引。
1985年,毛玉姣等展开了对关键词标引的试验,并最终开发了汉语文献自动标引检索系统。
1987年,北京大学图书馆学情报学系开发了汉语科技文献自动标引系统。
1987年,邓钦和与龙泽云开发了基于词典分词、词频统计、位置加权三者结合起来的自动标引方法——微机中文情报检索系统。
1991年,赵宗仁开发了语词结构类比自动标引系统。
1997年,简立峰提出了基于PAT树的关键词提取方法。
2004年,李素建提出了基于最大熵模型的关键词提取方法。
2006年,张阔提出了基于SVM的自动标引方法。
2006年,田苗苗等提出了基于遗传算法的Web信息自动标引方法。
2007年,原小玲提出了基于知识元的知识标引。
2007年,沈静、周金治等提出了基于UCL的文化网格标引方案。
2008年,沈静、周金治等提出了基于ADO技术的网页信息自动标引方法。
2008年,张美娜等提出了基于篇章结构的自动标引算法。
2009年,章成志提出了基于集成学习的自动标引方法。
2012年,高影繁、徐红姣等提出了基于多重过滤策略的自动标引方法。
2012年,杜冉冉提出了基于DOM的Web信息自动抽取技术。
2014年,高影繁等提出了一种基于过滤和权重平滑策略的标引词自动抽取方法。
2014年,王星等利用文献之间的引用关系,提出了基于引文的中文学术文献自动标引方法。
2015年,许德山等基于本体管理平台,实现了科技文献领域词和未登录词的自动标引。
2016年,李千驹等提出了一种基于知识组织的关键词自动标引方法。
2017年,李军莲等通过多维特征概念通用度计算算法,结合STKOS超级科技词表和专家审核,构建了面向文献主题自动标引的英文通用概念表。
1.3.2 自动标引方法介绍
自动标引方法主要包括统计标引法、语言分析标引法、人工智能标引法、网页标引法、概率标引法、词典标引法等。下面对这些方法做一详细介绍。
1.3.2.1 统计标引法
在各类自动标引的方法中,出现最早且被广泛持续使用的是统计标引法。统计标引法的基本原理在于术语具有一些显著的统计特征,如共现、逆文档词频、熵、互信息等。统计标引法包括词频统计法、加权统计法、N-Gram标引法、统计学习法和分类判别统计法。
1.词频统计法
词频统计法是指通过对文献中词的出现频率、共现频率等统计指标进行统计排序,找出处于临界域内、能真正表达文献主题内容的词,再根据情况选取适当数量的词作为标引词。
2.加权统计法
加权统计法是在词频统计法的基础上引入了加权的概念,因为词频统计法虽然原理简单且使用方便,但标引词的选择范围较大,难以获得较理想的标引结果。由此,人们在词频统计标引的过程中,加入了不同的加权概念,由此形成了位置加权法、相对加权法等加权统计方法。
位置加权法是根据词在文献中所在的位置来对词取不同的权值后,再进行统计。例如,出现在文献标题中的词比出现在文献正文中的词更能代表文献的主题,所以出现在文献标题中的词的加权系数就比出现在正文中的大。
相对加权法主要建立在相对频率这一概念的基础之上。相对频率主要包括文内相对频率和文外相对频率两种类型,其中,文内相对频率是指某词的绝对频数与文献中所有词的绝对总频数之比,文外相对频率是指某词在一篇文献中的绝对频数与其在所有文献中的绝对总频数之比。文内相对频率和文外相对频率都可看作是权值,以此加权即可获得自动标引的抽词依据。
3.N-Gram标引法
N-Gram标引法是指n(n>=1)个相邻字符序列,对文本进行N-Gram处理即可得到该文本所包括的长度为n的字符串的集合。因为一种语言的N-Gram是有限的且较稳定,所以这种标引方法几乎不受学科术语发展变化的影响。但是这种方法仅从形式上对N-Gram进行统计,会出现一定程度的标引词不准、标引短语中缺词等问题。
4.统计学习法
统计学习法由学习和标引两个过程组成,通过一个学习过程建立标引与促进词和削弱词的关系,并在此基础上确定标引词的标引值。
5.分类判别统计法
分类判别统计法的主要特点是以词的频数或权值为基点,然后利用统计学中的数值分类法(如聚类分析、因子分析、多维排列或判别分析法)确定词在含义上的相近和疏远关系,同时也从统计的角度解决近义词、同形异义词、异形同义词等问题。这类方法在自动赋词标引中用得较多,在对标引文献进行语义分析时也有所应用。
统计标引法不依赖标引词的领域特征,能够比较方便地在不同领域使用,有一定的使用效果,因而使用较普遍。但该方法只是对词频进行统计,忽略了词语的语义信息,所以要取得更高的标引质量,还需同其他方法结合起来使用。
1.3.2.2 语言分析标引法
文献是由自然语言构成的,标引对象自然也是语言,因而从语言学的角度去研究自动标引也是一种重要的方法。文献可分为词、句、语义、篇章等四个层次,语言分析标引法是对被标引的对象从这四个层次上来进行语法分析,以达到标引的目的。由此,语言分析标引法可以分为词法分析标引法、句法分析标引法、语义分析标引法和篇章分析标引法。
1.词法分析标引法
词法分析标引法是对自然语言进行切分,即自动分词,并对切分后的词标注上词性标记,然后从中提取出有意义的词作为关键词进行标引。此方法虽比较简单易行,但在词法分析过程中,会遇到未登录词的识别、切分出现歧义、兼类词词性的区分等问题,因此对词表的维护非常重要。
2.句法分析标引法
句法分析标引法是从语法角度来确定每个词在句子中的作用(如主语还是谓语),并通过找出词之间的相互关系(如是修饰还是被修饰)来实现标引。它一般通过与事先准备好的解析规则或语法相比较来实现。
句法分析标引法又分为浅层句法分析标引法和深层句法分析标引法。浅层句法分析标引法只是将句子分解成词语,但并不揭示这些词之间的句法关系。深层句法分析标引法在把句子解析成词语后,还要分析整个句子的语法,从而能够最大限度地揭示出句子所包含的主题。
基于深层句法分析标引法主要有三种:
(1)DSIS系统。DSIS系统是由印度学者Devadason在1985年提出的基于深层结构的标引系统。它主要是以文献标题作为分析对象,从中归纳出可能反映主题内容的范围,再根据句法规则对标题进行语法分析,通过词表进行处理,最后实现标引。
(2)FASIT标引法。FASIT标引法是由Dillon及其同事于1983年提出的基于概念层次的标引方法。它通过选择出的概念来描述句子,提高了句法分析的准确性;通过概念归类有效地解决了相同概念的多种不同形式词语的聚类问题,减少了单纯由词语标引造成的查检的准确率高但全面率低的情况。
(3)COPSY标引法。COPSY标引法是由西门子公司在1988年提出的基于名词词语句法分析的标引方法。它将名词短语的中心词-限定语结构,构造为名词词语的从属树结构。这种从属树具有结构严谨、表现能力强、容易组织等特点,既可描述文献主题,也可描述提问要求,更便于进行检索匹配。
通过实验,我们发现各类句法分析标引法在准确率上仍然不是很高。造成这一现象的原因是标引词的词义具有模糊性,而句法分析本身很难消除词义的模糊性,影响到了关键词的识别结果。Salon曾指出,所有的句法分析必须辅以语义分析,才能保证标引效果的准确性。
3.语义分析标引法
语义分析标引法是分析词在特定的上下文中的确切含义,并在此基础上选择出与主题含义相同的标引词。
常见的语义分析标引法主要有以下三种:
(1)潜在语义分析法。潜在语义分析法是由Deerwester等于1990年提出的基于单值分解方法的标引方法。它通过单值分解,把分散在不同文献中语义相关的词,以及主题语义接近的文献放置在相邻的位置,使得即使提问检索词与文献不匹配,也可以得到较准确的检索结果。
(2)相信函数模型。相信函数模型是由Silva和Milidiu于1993年提出的基于叙词在标引叙词表中出现频率的基本概率数为标准的标引方法。
(3)语义矢量空间模型。语义矢量空间模型是基于句法分析和格式语义结构的一种自动标引方法。它在矢量空间模型的基础上,加入了格式语义结构,通过标引词的语义矢量构造描述文献的语义矩阵,使文献的标引得以在语言的深层结构——语义层上实现。
同句法分析相比,语义分析在自动标引中的使用范围和效果都强于前者。
4.篇章分析标引法
篇章分析标引法是通过计算机找出篇章中内容相关的片断(词、句、句群、段、篇等),并在它们之间建立各种索引,如超媒体和超文本结构中链接索引,以便用户能快速检索出所需要的内容,或者跳段浏览最感兴趣的部分。
篇章分析标引法的方法有框架(frame)理论、基于规划的方法等。
总的来说,语言分析标引法都需要设定相应的关键词模式,而模式的建立都需要依赖人来完成,如果模式建立不健全,就会影响到识别的效率,同时在词间关系的识别上尚缺有力试验的验证。
1.3.2.3 人工智能标引法
人工智能是计算机科学的一个分支,它专门研究怎样用机器理解和模拟人类特有的智能系统的活动,探索人们如何运用已有的知识、经验和技能去解决问题。
人工智能标引法是指通过计算机模拟标引员来完成文献的标引。人工智能标引法运用于自动标引,可分为一般机器学习法、集成学习法和专家系统。
1.一般机器学习法
一般机器学习法是采用数值建模的方法,通过对训练数据进行训练获得参数,进行样本的自动标引。
2.集成学习法
集成学习法是通过构建多分类器来进行自动标引。
3.专家系统
专家系统是人工智能法应用于自动标引的具体体现。它将特定领域专家们的知识和经验等通过编程建成知识库,供他人在解决相应问题时借鉴和利用。也就是说,专家系统是一个具有大量标引专门知识与经验的程序系统,它应用人工智能技术和计算机技术,根据标引专家提供的知识和经验进行推理与判断,模拟人类标引员的决策过程,以进行标引。
专家系统的标引方法主要有以下三种:
(1)MedIndEx系统。MedIndEx系统是由美国国家图书馆在1987年建立起来的医学标引专家系统。在此系统中,对文献的描述,框架比关键词更加准确,适合于表示典型的概念和事件。
(2)JAKS系统。JAKS系统是由美国参谋长联席会议开发的自动抽取关键词专家系统。它模拟人工抽取关键词,用来自动检索、自动分类和自动存储数据。
(3)WordViews系统。WordViews系统是由美国AT&T公司的贝尔实验室在1993年建立的基于语义网络表示法的人工智能标引系统。
人工智能法进行标引的效果取决于人工智能研究自身进展。人工智能法实施的前提是建立数据量足够大的训练库或知识库,其效果的提升有赖于机器学习的能力与速度的提高。尽管人工智能法进行自动标引比其他方法要困难,但它能从标引员的角度去了解标引过程,模拟标引员的行为。因此,可以预见,随着技术的进步,人工智能标引法会有长足的发展空间。
1.3.2.4 网页标引法
网页自动标引是指计算机自动从网页中提取出具有检索价值的信息,该方法以词频统计为基础。目前,几乎所有重要的搜索引擎都采用全文索引方式,分析网页的所有词汇,并依据词频、词汇在网页中出现的位置等确认词汇的权重,选择标引词。
网页自动标引方法可分为三种,分别为基于知识库的网页自动标引、基于统一内容定位(uniform content locator, UCL)的网页自动标引和基于遗传算法的网页自动标引。
1.基于知识库的网页自动标引
基于知识库的网页自动标引是中文网页自动标引和分类的主要思想,是根据情报语言学的原理,用分类号控制主题词,用主题词控制关键词,构建以概念语义网络——《中图法》为基础的知识库,在知识库的基础上,能实现分类语言、主题语言和自然语言三者的标引与检索一体化,实现自动标引和自动分类。
2.基于UCL的网页自动标引
基于UCL的网页自动标引主要是应用基于信息内容理解和智能实现的URL技术,提取网页中的标引信息。UCL是在信息源制作阶段对资源内容按照预先设定的标准进行自动归类并贴上标签,通过内容筛选机制,主动递交有用网页。它根据用户访问某类信息的频度或用户的定制,自动向用户提供相关的信息,从而改变用户对网页信息的获取方式,实现个性化服务,并极大地节省用户用于查找网页内容的时间。UCL通常是对资源内容的类别、主题、出处、作者、关键词等做出多维度的标引。
3.基于遗传算法的网页自动标引
基于遗传算法的网页自动标引从标引词应反映文献主题内容这一原则出发,改进了加权词频统计法的标引源权值的设置,利用遗传算法在文档集上寻优得到网页标引源的最优权值设置,再将最优权值设置的模型应用于网页信息自动标引。对于网页信息自动标引的标引源,主要考虑词语的频率(term frequency-inverse document frequency, TF-IDF)、词串的长度、词语首次出现的位置以及词语是否出现在HTML控制标识符<TITLE>中。基于遗传算法的网页信息自动标引能达到较好的自动标引效果,有效地提高了标引源的权值设置的合理性、准确性。
1.3.2.5 概率标引法
概率标引法是基于出现概率、相关概率和决策概率来标引文献的标引方法。出现概率论的应用是基于标引词在文献中出现频数的概率有规律可循,常用的有二值独立性标引模型;相关概率论的应用是基于标引词反映的文献主题内容在检索中可以通过概率表示,常用的有RPI模型;决策概率论的应用是基于某标引词赋予某文献这一决策事件正确的概率,常用的有DIA标引方法。
1.3.2.6 词典标引法
词典标引法的实现原理:文献根据设计的算法,匹配事先构造好的词典(如主题词词典、关键词词典、部件词典等),若匹配成功,则该词就被表示为标引词。
以上介绍的各种自动标引方法各有所长,但也都存在着不够完善的地方,因此我们在建立自动标引系统的时候,应根据实现情况,混合各种方法,取各方所长,综合运用,以期获得最准确的标引效果。
1.3.3 自动标引方法研究的不足与发展方向
1.3.3.1 自动标引方法研究的不足
自动标引通过近几十年的发展,已取得了长足的进步,但国内自动标引的研究仍存在不足,主要表现在以下几个方面。
1.中文分词算法存在缺陷
找出各知识单元,是进行标引的第一步,但由于中文的特殊性,使得中文分词一直存在问题。中文在基本文法上的特点是词语之间没有间隔,同时又有大量歧义词的存在,这些都造成词的边界模糊,不易区分,从而降低了中文自动分词的准确性,进而影响了以此为基础的自动标引的质量。
2.词表、知识库更新率低
现代社会,各学科发展迅速,词汇的更新速度也非常快。但现在词表的编制依然较慢,新词汇不能及时更新到抽词词表中。同时,知识学习的问题,现阶段也未能得到有效解决,使得知识库更新慢,赶不上学科发展的速度。这些都影响到了自动标引的准确性。
3.多媒体信息的自动标引研究不成熟
国内对自动标引的研究侧重于文本信息,而对于多媒体信息的自动标引研究较少。对于图像、音频、视频等多媒体信息,国内仍采用基于文本的传统标引方法。这样的方法耗时长、成本高,且主观性强,不能满足标引的要求。随着计算机、图像处理、人工智能等技术的发展,人们转而研究多媒体信息的基于内容的自动标引方法。目前,在国外,这方面的研究已经成了新热点。但现有的理论研究与系统大都集中于多媒体信息内容的底层特征,标引的精度和深度都不够,离实际应用还有相当长的一段距离。
4.标引结果评价
标引工作完成,需要有一个判别、修正的过程。传统的自动标引评价是对照人工标引结果或由专家打分,该方法主观性大、一致性差、成本高。因此,应建立一个自动标引的通用评价模型,以减少自动标引评价的主观性,节省评价成本。
1.3.3.2 自动标引方法研究的发展方向
针对以上所提出的自动标引方法研究的不足,自动标引方法研究的发展方向将围绕其提出解决的办法。
1.发展语言分析技术
语言分析技术是对词法、句法、语义、篇章等进行分析的方法,是自动分词的基础。语言分析技术的提高,有助于标引效果的提升。中文文法的特殊性,造成了分词的困难,同时在现阶段计算机技术水平下,要把具有不确定性和模糊性的知识用规则形式表达出来,也具有一定的难度,但语言分析是取得良好标引效果的必要条件。因此,探求更高端的语言分析方法,是今后自动标引研究的发展方向之一。
2.发展专家系统的智能学习能力
要提高词表和知识库的更新率,使其能跟上学科发展的速度,就需要提高专家系统的智能学习能力。如何提高专家系统的智能学习能力,也就成了自动标引研究的发展方向之一。
3.发展多媒体信息自动标引方法
随着多媒体技术的不断发展,多媒体信息也成了一个重要的信息源,但现在对其自动标引的研究还处于起步阶段。因此,今后我们要把探索基于多媒体信息内容的高层次特征的自动标引方法作为自动标引研究的发展方向之一。
4.发展自动标引效果评价系统
自动标引效果的评价是衡量标引系统或方法功效的重要手段,客观、准确的评价能够促进自动标引技术的发展。自动标引效果的评价主要依据关键词语义相似度进行,要求评价客观,各阶段中各参与者的判断标准一致,并且运营成本较低。因此,构建自动标引的通用评价模型,提高关键词语义相似度计算的可靠度,整合更多方法提高评价模型的准确度,减少评价的主观性,节省评价成本,也是自动标引研究的发展方向之一。
5.发展多种标引方法的集成学习
不同的标引方法都有其优劣势,单一一种标引方法的使用,不能表现出最优的标引效果,因此把多种标引方法集成起来,进行互补学习,可有效地提高标引的质量。如何进行集成学习,便于各种标引方法的优劣势互补,也是自动标引研究的发展方向之一。