信息内容安全管理及应用
上QQ阅读APP看书,第一时间看更新

3.2.2 网络媒体信息获取的分类

按照信息获取行为所涉及的网络范围划分,网络媒体信息获取可以分为面向整个互联网的全网信息获取,以及针对某些具体网络区域的定点信息获取。另一方面,按照信息获取行为在工作范围内所关注的对象划分,网络媒体信息获取还可以分为针对工作范围内所有发布信息的、面向全部内容的信息获取,以及只是关注工作网络范围内某些热门话题的基于具体主题的信息获取。本小节重点介绍全网信息获取与定点信息获取在技术要求与实现方法方面的区别,并进一步讲解基于主题的信息获取方法,以及该领域的代表性技术——元搜索。

1.全网信息获取

全网信息获取的工作范围涉及整个互联网内所有网络媒体发布的信息,主要应用于搜索引擎(Search Engine),如Google、Baidu、Yahoo等,以及大型内容服务提供商(Content Service Provider)的信息获取。随着网络新型媒体的不断出现以及网络信息发布形式的更新换代,纯粹通过跟随网络链接已经很难达到遍历整个互联网的效果。全网信息获取发起方在不断更新、扩展用于信息获取的初始URL集合的同时,还建议新接入互联网的网络媒体主动向信息获取方提交自身网站地图(Sitemap)。这有利于全网信息获取机制面向新网络媒体实现发布内容采集,从而保证其尽可能全面地覆盖整个互联网。

正如前文所述,整个互联网信息总量非常庞大,考虑到本地用于信息采集的存储空间有限,全网信息获取发起方实际上并没有把所有网络媒体信息都采集到本地。搜索引擎或大型内容服务提供商在进行全网信息获取时,通常基于特定的计算方法(如Google的PageRank算法)对于每条网络信息进行评判,只是获取或长时间保存在信息评判系统中排名靠前的网络信息,如链接引用率较高的网络媒体发布内容。另一方面,由于工作对象遍布整个互联网,单次的全网信息获取一般就需要数周乃至数月的时间。因此,在面对信息更新相对频繁的网络媒体(如论坛或博客等)时,全网信息获取机制的内容失效率相对较高,其对于每个网络媒体发布内容获取的时效性无法实现统一的保证。尽管如此,全网信息获取作为搜索引擎与内容服务提供商不可或缺的信息获取机制,依然在网络信息应用中起到极为关键的作用。

2.定点信息获取

由于全网信息获取不仅对内容存储空间要求过高,而且无法保证网络媒体发布内容获取的时效性,因此在网络媒体信息获取只是重点关注某些特定的网络区域,并且向信息获取机制相对于媒体内容发布的网络时延提出较高要求时,定点信息获取的概念应运而生。

定点信息获取的工作范围限制在服务于信息获取的初始URL集合中每个URL所属的网络目录内,深入获取每个初始URL所属网络目录,及其下属子目录中包含的网络发布内容,不再向初始URL所属网络目录的上级目录,乃至整个互联网扩散信息获取行为。如果说全网信息获取关注的是信息获取操作的全面性,即信息获取在整个互联网的覆盖情况,定点信息获取机制更加重视在限定的网域范围内,进行深入的网络媒体发布内容的获取,同时保证获取信息的时效性。

定点信息获取正是通过周期性地遍历每个初始URL所属的网络目录,达到在初始URL设定的网域范围内深入获取网络发布内容这一技术需求。与此同时,周期性遍历初始URL所属网络目录的时间间隔,是定点信息获取用于确保内容采集时效性的关键参数。合理设定周期轮询、查新获取初始URL所属网络目录的时间间隔,可以确保定点信息获取机制不至于错失目标网络媒体不断更新的发布内容,同时防止信息获取机制过分增加目标媒体的工作负载。

3.基于主题的信息获取与元搜索

由于在整个互联网或限定的网域范围内,全面获取所有网络媒体发布内容可能会造成本地存储信息泛滥,因此在所关注的网络范围内只面向某些特定话题进行基于主题的信息获取,是在面向全部内容的信息获取以外另一个行之有效的信息获取机制。顾名思义,基于主题的信息获取只把与预设主题相符的内容采集到本地,其在信息获取过程中增加了内容识别环节,可以只是简单的主题词汇匹配,也可以面向发布内容进行基于主题的模式识别,从而在关注的网络范围内有选择地获取网络媒体发布的内容。相对于面向全部内容的信息获取,基于主题的信息获取机制正是通过有效减少需要采集的内容总量,进一步降低已采集内容的失效率,同时显著减少服务于信息采集的内容存储空间。

伴随搜索引擎应用的不断深入,在搜索引擎的协助下,进行基于主题的信息获取技术——元搜索技术得到越来越多的应用。元搜索属于特殊的基于主题的信息获取,它将主题描述词传递给搜索引擎进行信息检索,并把搜索引擎针对主题描述词的信息检索结果作为基于主题信息获取的返回内容。

元搜索技术得以实现的关键原因是,每个搜索引擎在为输入词目构造信息检索URL时是有规律可循的。以中/英文信息检索词目为例,常用搜索引擎是把英文词目原本内容,或中文词目所对应的汉字编码作为信息检索URL的参数来输入。例如,Google是将中文词目的UTF编码作为信息检索URL参数,而Baidu则选择中文词目的GB编码作为信息检索URL参数。除输入参数不同以外,用于相同搜索引擎的信息检索URL的其余部分完全相同,如图3-7所示。

图3-7 搜索引擎信息检索URL构造范例

元搜索技术正是通过在与不同搜索引擎的网络交互过程中,根据每个搜索引擎的具体要求构造主题描述词信息检索URL,向搜索引擎发起信息检索请求。元搜索技术利用搜索引擎进行基于主题的信息获取操作,它把搜索引擎关于主题描述词的信息检索结果作为信息获取对象,实现面向特定主题的网络信息获取。