第3章提取文档中的文本内容

搜索引擎经常要处理的文档格式包括HTML、Word、PDF等，这些文档格式中的Word和PDF是专有与非公开的格式，HTML虽然是公开的，但是格式复杂。另外，这些文档格式往往存在不同的版本，如Word包括doc和docx格式，PDF具有从1.0到1.7及其扩展版等9种不同的格式。对于中文来说，可能还需要识别字符的编码。

本周热推：

计算机辅助设计 SOLIDWORKS（慕课版）大计算概论与应用玩转3D视界：3D机器视觉及其应用计算机应用基础实训教程（Windows 7+Office 2010）计算机应用基础教学参考书（Windows XP+Office 2007）

第3章 提取文档中的文本内容

第3章提取文档中的文本内容