1.8.3 基于内容的XML深度标引
(1)内容深加工为满足未来阅读商业模式需求
在CRM系统中有重用、再生价值的出版资源,就不能仅仅停留在非结构化加工阶段,而是需要根据其性质、特点、类型,对内容对象进行碎片化,建立相应拆分后的内容对象资源库,提高内容的利用率、重用率、再生率,以满足新的数字产品和商业模式的需要。CRM系统中的出版资源可能会有多种类型,例如,根据图书资源的不同性质、特点,可分类为论著类、教材教辅类、辞书类、其他类等。针对不同性质的图书资源采用不同的反解方式,并对应CRM系统中的不同资源库类型,如按结构拆分的论著库、按篇章节拆分的教材教辅库、按条目拆分的辞书语料库等。尽管对应的内容对象不同,但是进行拆分的规则和结构化方式是一样的,都需要进行基于内容的XML标引,甚至是深度标引。
(2)内容深加工需要直观的标引过程学习
基于内容的XML标引是国外出版社开展数字出版已经走过和已经实现的工作,有很多成熟的经验,但是通过文献和国外考察,只能了解到通过XML标引的具体数字出版产品所具有的强大功能,快速的市场用户需求响应能力,成熟的数字出版商业模式,很难见到具体的基于内容的XML标引加工过程的讲述,也鲜有实际的加工界面的展示。国内也有出版社进行基于内容的XML标引,尤其在专业出版、教育出版中,已有成功盈利的典型,但是目前还没有见到基于内容的XML标引生产过程的描述。在此,以知识产权出版社建设的中国药物专利数据库数字出版产品为例,分析基于内容的XML标引的特点和加工过程。
(3)基于XML深度标引的中国药物专利数据库加工示例
中国药物专利数据库(简称药物专利库)是目前全球唯一深度加工标引的中国药物专利数据库。其中,中药、西药专利题录数据库能够提供药物专利发明的主题信息检索和显示;辅助检索文档的中药材辞典、西药辞典和确定化学结构数据库,是进行中药、西药名称和结构检索的工具;方剂数据库和化学物质信息数据库收录专利中的化学物质信息和中药方剂信息,提供专业化的检索功能。同时,建成了中药材名称数据库、化学物质登记文档数据库等两个辅助数据库系统。长期以来,药物专利库的服务对象为专利审查人员,现已经面向社会提供服务,适用于大专院校、科研机构及制药企业等。中国药物专利数据库体系如图1-25所示。
图1-25 中国药物专利数据库体系结构
基于XML标引的药物专利库,加工内容包括:①专利发明主题标引,②医疗应用标引,③范畴分类,④文摘重新撰写,⑤化学物质信息标引,⑥中药方剂信息标引等。以一份西药发明专利的申请文件进行深度加工以及在网页展示的界面形式为例,说明基于XML深度标引的内容拆分加工过程。一份中药或者西药发明专利申请,包括了专利申请书和专利说明书两大部分,专利申请文件有规范的结构条目要求。图1-26显示一份西药专利申请书首页信息;图1-27显示的是该专利的申请说明书中的一页,这是进行基于XML标引的原始对象信息。
图1-26 一份西药专利申请书首页信息
图1-27 西药专利申请书信息
在知识产权出版社自主开发的标引编辑器中,有三个窗口同时展开。左端窗口以层级式结构显示标引加工文件的结构位置,被标志的即为正在进行的拆分标引文件编号。右下窗口显示了需要被标引的申请书页面信息;右上方窗口是标引工作窗口,标引单中是进行了DTD的结构表单,需要将右下窗口中相应的信息人工添加到相关的栏目。在进行提要标引工作中,主题中被定义的核心词以绿色显示,其标引加工过程界面如图1-28、图1-29、图1-30所示。
图1-28 西药专利申请书标引界面
图1-29 西药专利申请书标引界面
图1-30 西药专利申请书标引界面
通过上述标引加工,对专利申请和说明书的信息进行拆分标引,药物专利库已经收录了自1985年以来公开的全部医药发明专利文献,共计近18万条数据,其中包括化学药物近11万条,中药突破7万条。标引记录的内容涉及具有治疗、预防、保健、诊断作用的药物化合物、药物组合物及其制备方法、使用方法的专利文献。还收录了新的药物中间体,洗发精或牙膏等生活用品及保健用品、食品中有实质性疗效的药物成分的专利文献,所收录的专利涉及31个IPC国际专利分类号。
图1-31至图1-34分别是药物专利库中经过深度标引加工,在知识产权网站上供浏览的两份药物专利信息界面。其中,图1-31和图1-32为一份西药专利信息,图1-33和图1-34为一份中药专利信息。
图1-31 一份西药专利具体信息
图1-32 一份西药专利具体信息
图1-33 一份中药专利具体信息
图1-34 一份中药专利具体信息