上QQ阅读APP看书,第一时间看更新
3.2 网络媒体信息的获取原理
与面向特定点的网络通信信息获取不同,网络媒体信息获取环节的工作范围理论上可以是整个互联网。传统的网络媒体信息获取环节从预先设定的、包含一定数量URL的初始网络地址集合出发,首先获取初始集合中每个网络地址对应的发布内容。网络媒体信息获取环节一方面将初始网络地址发布信息的主体内容按照系列内容判重机制,有选择地存入互联网信息库。另一方面,网络媒体信息获取环节还进一步提取已获取信息内嵌的超链接网络地址,并将所有超链接网络地址置入待获取地址队列,以“先入先出”方式逐一提取队列中的每个网络地址发布信息。网络媒体信息获取环节循环开展待获取队列中的网络地址发布信息获取、已获取信息主体内容提取、判重与信息存储,以及已获取信息内嵌网络地址提取并存入待获取地址队列操作,直至遍历所需的互联网网络范围。