2.3.3 构建过程
科研主体的关联关系构建流程如图2-2所示,主要包括科研主体识别、特征提取、特征表示、文献与关键词同现、科研主体与关键词同现、关联度计算等六个步骤。
图2-2 基于文本的科研主体的关联关系构建流程
(1)科研主体识别。
首先,对文献集合中的科研主体进行识别抽取,如机构、作者、地区等,识别后的科研主体进行规范化处理,合并相同主体,建立科研主体与文献的隶属关系矩阵A。假设,文献集合中有n个科研主体,m篇文献,构建矩阵如下:
其中,bij=1或bij=0,分别表示文献j是否隶属于主体i。
(2)文献特征提取。
文献特征提取是指以一定特征项来代表文档,如文献关键词或主题词。在文本挖掘时只需对这些特征项进行处理,从而实现对非结构化的文本处理。这是一个由非结构化向结构化转换的处理过程。
对于科技论文等含有关键词的文献资料,可以直接采用关键词进行文献特征的表示。对于专利、科技报告等不包含关键词的文献资源,先要对文献进行分词预处理。对英文而言,分词即进行词性还原;对中文而言,由于中文词与词之间没有固定的分隔符(英文以空格分),使分词更为复杂。目前主要有基于词库的分词算法和无词典的分词技术两种。基于词库的分词算法包括正向最大匹配、正向最小匹配、逆向匹配及逐词遍历匹配法等[82]。这类算法的特点是易于实现,设计简单;但分词的正确性很大程度上取决于所建的词库,而且对于歧义和未登录词的切分具有很大的困难。基于无词典的分词技术的基本思想是:基于词频的统计,将原文中任意前后紧邻的两个字作为一个词进行出现频率的统计,出现的频率越高,成为一个词的可能性也就越大,在频率超过某个预先设定的阈值时,就将其视为一个词。这种方法能够有效地提取出未登录词[83][84]。本书研究科研主体关联关系构建过程中,综合两种方式进行文献特征词的提取,以文献关键词或分词结果为基础,利用中信所中英文叙词表进行同义词合并、概念提取,从而,提取出更为精确的文献特征。
(3)文献特征表示。
提取特征后的文献集合,应用向量空间模型进行文献的特征表示。将文献看作由一组正交词条所组成的向量,每个文献表示为其中的一个范化特征向量V(D)=(t1,w1;t2,w2…tn,wn),其中ti为词条项,wi为ti在文献D中的权值。这样所有的文献就构成了一个向量空间。当文献集合固定时,ti值固定不变,故可看作特征向量的下标,从而特征向量简化为V(D)=(w1,w2…wn)。wi一般定义为ti在D中出现频率的函数ϕ=(tfi(D)),常见的有布尔函数ϕ=平方根函数对数函数ϕ=log (fi(D) +1)和tfidf函数N为所有文档的数目,ni为含有词条ti的文档数目。
(4)构建文献与关键词同现矩阵。
以向量空间模型进行文献特征表示后,构建文献与关键词的同现频率矩阵。假设,文献集合中有m篇文献,l个关键词,构建矩阵如下:
其中,bjk=1或bjk=0,分别表示文献j是否使用了关键词k。
例如:假定我们有6篇文献,这6篇文献共包含有5个技术关键词,则我们就建立了{6篇文献*5技术关键词}的关联矩阵X。
其中,1代表Keywordj在Di中出现,0代表Keywordj不在Di中出现。
(5)构建科研主体与关键词同现矩阵。
利用科研主体与文献的隶属关系矩阵、文献与关键词的同现矩阵构建科研主体与关键词同现矩阵。
l主体Ai的关键词Keywordk的权值,用eik表示,eik的取值为Keywordk在Ai发表的文献中出现的频数。
ln是科研主体的总数。
ll是文献组内所有关键词总数。
(6)计算科研主体间的关联度,构建科研主体关联矩阵。
向量空间模型常采用相似度来度量两个文档D1、D2之间的相关程度,而相似度定义为文档向量之间的距离,以夹角余弦公式居多:
其中,D1=(w11,w12…w1n),D2=(w21,w22…w2n)。
在计算科研主体的关联度上,采用夹角余弦作为关联度结果。将每个科研主体的文献集合作为一篇文献,采用tfidf函数进行特征表示,ϕ=(tfi(D))为词ti在文献D中出现频率的函数,N为所有文献的数目,ni为含有词ti的文献数目。