1.1.2 XML成为跨媒体出版的重要标准
20世纪80年代后期,全文数据库出版解决了电子版格式与打印版格式的统一问题,即检索结果显示格式与排版印刷格式的一致性。解决的方法是,每篇文档每一页同时有两种版本:扫描图像版本和用SGML标记语言的文字版本。标记是隐形的,最终在网页浏览或者阅读器上浏览,看不到标记本身,而只有标记的结果。扫描图像使用与印刷版相同的图案和布局,能够保证每页的打印和显示与印刷版一致。由于扫描图像没有电子版所需要的属性标识,文档中的各种排版符号依然保留,因而不能直接在计算机上浏览。采用SGML标记语言将文档的内容与样式分开,正文则用于建立全文索引,以便信息检索和在屏幕上的快速显示。
在美国,早期的SGML使用者是科技期刊出版商,由于科技期刊内容含有大量复杂的公式、表格和图片,版面复杂,无论是印刷版还是电子版,都是最难制作的出版物。学术期刊比其他出版领域更多地使用SGML,芝加哥大学出版社的《天体物理学期刊》从1994年开始采用基于SGML工作流程,1995年开展网络出版时,所有的SGML文件转换成HTML文件,在很短时间里几乎没有增加额外成本就在互联网上出版这本大型复杂的期刊,实现了双轨出版。现在,学术期刊及其他出版则采用SGML的后续技术XML(Extensible Markup Language),即可扩展标记语言。
出版信息的XML结构化,为实现自动的跨媒体出版打下良好的数据基础。XML数据配上用于显示XSLT的样式数据,解决了出版信息在互联网上的发布。但是,XML数据解决出版信息到印刷和光盘的发布还存在障碍,特别是在RIP不支持XML输出的情况下,出版信息到印刷和光盘的跨媒体还难以实现。解决这个瓶颈的一种方法是,通过软插件技术将XML数据直接嵌入到排版软件的版面上,由排版软件实现XML数据到PS数据的转移。纸介质的出版信息发布问题解决后,将PS数据转换为PDF格式,光盘发布的问题也迎刃而解。
21世纪伊始,在出版领域,为一种出版物同时制作电子版与印刷版的文档处理软件使跨媒体出版开始流行。运用XML标记语言规定的元数据结构,实现了新闻信息的内容描述、交换和再利用,电子文件能按照不同的方式呈现内容,既可在屏幕上显示,也可用于印刷。在报业,出版纸质报纸、网页新闻及2005年以后广泛流行的手机报,形成“纸网互动、滚动报道”的立体报群传播态势,技术上都要归功于XML成为中文新闻信息置标语言在报业的应用。
目前,一些中文处理软件能够直接利用排版软件产生电子文本,加工成计算机可读的电子书,其加工过程不是在排版文本产生之后而是融合在排版过程之中。也有出版社开发出利用数字化加工的PDF文件,自动生成图书的XML元数据信息的转换软件,在跨媒体出版方面有了自主开发的信息处理技术。