信息内容安全管理及应用
上QQ阅读APP看书,第一时间看更新

3.2.3 网络媒体信息获取的技术难点

在网络媒体信息获取功能实现过程中,无论是全网信息获取或是定点信息获取,都存在相当程度的技术难度。另外,元搜索作为特殊的基于主题的信息获取,其在信息获取结果排序方面仍然存在尚未完全解决的技术难点。

首先,网络媒体信息获取的工作对象是信息形态各异、信息类型多样的互联网媒体。在信息总量迅速膨胀的互联网信息面前,网络媒体信息获取机制通常需要在获取内容的全面性和时效性间做出取舍。与此同时,在面对完全异构的网络媒体发布信息时,信息获取技术需要在各类不同的网络媒体间普遍适用,这又对网络媒体信息获取功能提出了更高的技术要求。当前网络媒体信息获取机制在保留传统的基于网络交互过程重构机制实现信息获取的基础上,逐步转向在信息获取过程中集成开源浏览器部分组件,甚至整体,用以提高技术功能能级,降低技术实现难度,相关内容本章后续部分将会详细介绍。

其次,由于部分网络媒体选择屏蔽过于频繁的、来自相同客户端的信息获取操作,因此定点信息获取技术实现的难点还包括在周期性地遍历设定网域发布内容,确保定点信息获取的深入性与时效性的基础上,如何有效回避目标媒体对于所谓“恶意”信息获取行为的封禁。要解决这一技术难点,一方面可以通过适当选择周期遍历时间间隔,防止信息获取行为造成网络媒体负载过重;另一方面则涉及定期修改用于内容获取的网络客户端信息请求内容(内容协商行为),避免遭遇目标网络媒体的拒绝服务。

最后,元搜索在通过搜索引擎实现基于主题的信息获取过程中,可以选择向多个搜索引擎串/并行发送信息检索请求,扩大元搜索技术的网络覆盖面。正是由于这一应用需求,对于不同主题选择恰当的搜索引擎,同时基于合适的主题相关度判断法则,对于来自不同搜索引擎的信息检索结果实现基于主题的相关度排序,正是当前元搜索技术研究的难点所在。