上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
第3章 提取文档中的文本内容
搜索引擎经常要处理的文档格式包括HTML、Word、PDF等,这些文档格式中的Word和PDF是专有与非公开的格式,HTML虽然是公开的,但是格式复杂。另外,这些文档格式往往存在不同的版本,如Word包括doc和docx格式,PDF具有从1.0到1.7及其扩展版等9种不同的格式。对于中文来说,可能还需要识别字符的编码。
搜索引擎经常要处理的文档格式包括HTML、Word、PDF等,这些文档格式中的Word和PDF是专有与非公开的格式,HTML虽然是公开的,但是格式复杂。另外,这些文档格式往往存在不同的版本,如Word包括doc和docx格式,PDF具有从1.0到1.7及其扩展版等9种不同的格式。对于中文来说,可能还需要识别字符的编码。