搜索引擎技术与发展
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

前言

目前,搜索引擎技术逐渐成熟,而开源项目Lucene/Solr一直处于发展之中。本书主要介绍使用Java语言和Solr开发搜索引擎的应用。

第1章主要介绍各种类型的搜索引擎和开发搜索引擎可以借助的软件工具;第2章主要介绍网络爬虫开发和数据存储;第3章主要介绍从HTML文件中提取文本,以及从PDF、Word等非HTML文件中提取文本;第4章主要介绍Lucene中的中文分析器的原理与实现;第5章主要介绍Solr索引库的创建与维护,以及Solr的查询解析器;第6章主要介绍Web方式搜索结果界面的实现;第7章主要介绍如何使用SolrCloud实现分布式搜索。

本书相关的参考软件和代码在读者QQ群(166015123)的共享文件中可以找到。本书介绍的一些专门技术可以在与本书相关的QQ群中交流讨论,这些技术群包括Solr技术群(301075975)、Selenium技术群(316527581)、POI Word开发技术群(592272003)、PDFBox技术群(435512716)、SpringBoot技术群(587682878)。

在此对早期合著者、合作伙伴、员工、学员、读者,以及开源项目Lucene/Solr的开发者表示感谢。

本书可作为具体实现搜索引擎的程序员的参考用书,同时对机器学习等相关领域的研究人员也有一定的参考价值。另外,猎兔搜索技术团队已经开发出与本书相关的培训课程和商业软件。