上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
第2章 网络信息采集技术
2.1 引言
网络舆情分析的对象是来源于互联网中各种信息交流平台发布的网页信息,因此网络舆情分析的首要条件是搜集互联网中网页信息。在搜集网络信息时,需要借助于专用的网络工具,如搜索引擎等,著名的搜索引擎有谷歌(Google)、百度(Baidu)等,也是网民最常用的网络信息搜索工具。
搜索引擎采用某种搜索策略在互联网上搜集网页信息,然后对信息进行提取、整理、组织和处理,建立索引数据库,为用户提供信息检索服务,起到信息导航的作用。搜索引擎的出现在很大程度上缓解了人们在互联网上查找信息的困难。经过多年的发展,搜索引擎的功能越来越强大,提供的服务也越来越丰富,成为广大网民不可缺少的网络工具。
网络舆情分析的数据来源是互联网中各种网络媒体、信息交流平台发布的网页信息,尤其是互动式信息交流平台或网站,如论坛、微博等,成为网络舆论的主要来源地。因此,在网络舆情分析中,首先需要使用网络信息采集工具自动搜集主要新闻网站、信息交流平台发布的信息,为网络舆情分析提供数据资源。网络舆情分析的效果在很大程度上取决于网络信息搜集的质量。
本章主要介绍与网络信息采集技术相关的搜索引擎、网络蜘蛛、网页搜索算法、相似度计算、主题蜘蛛组成等内容。