2.5.2 HITS算法
HITS是英文Hyperlink-Induced Topic Search的缩写,意译为“超链诱导主题搜索”。HITS算法由Jon Kleinberg于1997年首先提出,并申请了专利,查看地址如下:
http://patft.uspto.gov/netacgi/nph-Parser?patentnumber=6,112,202
按照HITS算法,用户输入查询词后,算法会对返回的匹配页面计算两种值:一种是枢纽值(Hub Scores),另一种是权威值(Authority Scores),这两个值是互相依存、互相影响的。所谓枢纽值,指的是页面上所有导出链接指向页面的权威值之和。权威值指的是所有导入链接所在页面的枢纽值之和。
上面的定义比较拗口,可以简单地总结为,HITS算法会提炼出两种比较重要的页面,也就是枢纽页面和权威页面。枢纽页面本身可能没有多少导入链接,但是有很多导出链接指向权威页面。权威页面可能本身的导出链接不多,但是有很多来自枢纽页面的导入链接。
典型的枢纽页面就是如Yahoo!目录、开放目录或hao 123这样的网站目录。这种高质量的网站目录的作用就在于指向其他权威网站,所以被称为枢纽。而权威页面有很多导入链接,其中包含很多来自枢纽页面的链接。权威页面通常是提供真正相关内容的页面。
HITS算法是针对特定查询词的,所以称为主题搜索。
HITS算法的最大缺点是,它在查询阶段进行计算,而不是在抓取或预处理阶段进行。所以HITS算法是以牺牲查询排名响应时间为代价的。也正因为如此,原始HITS算法在搜索引擎中并不常用。不过HITS算法的思想很可能融入到搜索引擎的索引阶段,也就是根据链接关系找出具有枢纽特征或权威特征的页面。
成为权威页面是第一优先,不过难度比较大,唯一的方法就是获得高质量链接。若你的网站不能成为权威页面,就让它成为枢纽页面。所以导出链接也是影响搜索引擎排名因素之一。绝不链接到其他网站并不是好的SEO方法。