本地化与翻译导论
上QQ阅读APP看书,第一时间看更新

第一节 桌面出版的基础知识

1985年,三家迅速崛起的公司——Adobe、Aldus和Apple公司联合开创了桌面出版业。苹果公司的Macintosh个人电脑,Aldus公司的PageMaker和Adobe公司的PostScript技术结合在一起,让出版从排字车间和印刷厂进入普通人的生活,从而带来了出版业的革命。在相当长的时间里,Mac机都是桌面出版,特别是设计界的主流平台。

与整个桌面出版行业不同的是,在本地化中,更多的桌面出版工作是在Windows系统和PC平台上完成的。基于Windows的FrameMaker是本地化桌面出版中最主要的应用软件。随着Windows的不断升级及PC性能的不断提高,更多的桌面出版软件可以运行在基于Windows的PC平台上,很多的文档都可以实现跨平台转换。苹果电脑则主要应用于图形图像处理以及QuarkXPress和PageMaker等软件的排版工作。

Mac OS X和Windows 7/Vista/XP都在操作系统层面提供了对多语言及Unicode的支持,这使得本地化的桌面出版更加容易实现。但要真正在多语言环境下实现无障碍桌面出版,还取决于各种应用软件对多语言及Unicode的支持。

一、语言编码

在本地化桌面出版中,经常要处理各种不同的语言。在操作系统中,不同语言的识别是通过语言编码来完成的。不同语言的文字通过各自编码的字体来显示。如简体中文采用的字体GB2312或GB18030编码,而繁体中文采用Big5编码。如果文字编码与系统预设编码不同,就不能正确地打印及显示,需要在系统语言设置里选定恰当的区域设置,应用程序才能使用这个语言的代码页和字体设置,转换成可以识辨的字符。

对于桌面出版来说,除了要求操作系统支持所要处理的语言外,也要求应用软件具备对相应语言文字的处理能力,同时还需要有相应编码的字体。比如,某软件的英文版可能只适用于处理各种西欧语言,而处理各种中欧语言如捷克语、波兰语等,就需要采用CE(中欧版),同时选用CE字体;就InDesign来说,对于中东地区语言如阿拉伯语、波斯语等,就需要使用具有处理从右向左文字能力的ME版(中东版),而系统中也必须有相应的字体。

新的操作系统(Windows 7/Vista/XP、Mac OS X)已全面支持Unicode编码,使得不同语言的交换更加容易实现。但目前支持Unicode编码的应用程序还不多,在实际的桌面出版工作中,还需要处理大量涉及编码的问题。

1.语言

以下是有关语言的分类,了解这些信息有助于在桌面出版工作中选择适当的软件版本及字体。

*Central European(中欧语言):Croatian(克罗地亚语)、Czech(捷克语)、Hungarian(匈牙利语)、Polish(波兰语)、Romanian(罗马尼亚语)、Slovak(斯洛伐克语)、Slovenian(斯洛文尼亚语)、Serbian(塞尔维亚语);

*Cyrillic(西里尔语):Belorussian(白俄罗斯语)、Bulgarian(保加利亚语)、Kazakh(哈萨克语)、Macedonian(马其顿语)、Russian(俄语)、Tabassaran(塔巴萨兰语)、Ukranian(乌克兰语);

*West European(西欧语言):Afrikaans(布尔语,南非荷兰语)、Basque(巴斯克语)、Breton (布列塔尼语)、Catalan(加泰罗尼亚语)、Danish(丹麦语)、Dutch(荷兰语)、English (英语)、Finnish(芬兰语)、French(法语)、Faroese(法罗语)、Galician(加利西亚语)、German(德语)、Icelandic(冰岛语)、Indonesian(印度尼西亚语)、Irish(爱尔兰语)、Italian (意大利语)、Malay(马来语)、Norwegian(挪威语)、Occitan(欧西坦语)、Portuguese(葡萄牙语)、Romansh(罗曼什语)、Scottish Gaelic(苏格兰盖尔语)、Sesotho(塞索托语)、Spanish(西班牙语)、Swahili(斯瓦希里语)、Swedish(瑞典语)、Tamazight(卡比尔语)、Walloon(瓦龙语)、Zulu(祖鲁语)、Albanian(阿尔巴尼亚语)、Azerbaijani(阿塞拜疆语)、Hausa(豪萨语)、Igbo(伊博语)、Yoruba(约鲁巴语);

*Greek(希腊语);

*Baltic:Estonian(爱沙尼亚语)、Latvian(拉脱维亚语)、Lithuanian(立陶宛语);

*Devanagari(梵文字母,或天城文字):Hindi(北印度语)、Marathi(马拉地语)、Nepali(尼泊尔语)、Sanskrit(梵语)、Sindhi(信德语);

*Turkish(土耳其语);

*Hebrew(希伯来语)、Yiddish(意地绪语);

*Arabic(阿拉伯语)、Farsi(波斯语)、Pashto(普什图语)、Urdu(乌尔都语);

*Thai(泰语);

*Vietnamese(越南语);

*Armenian(亚美尼亚语);

*东亚:汉语(简体中文、繁体中文)、Japanese(日语)、Korean(朝鲜语);

语言繁多,未能一一列出,且由于时代演变,语言书写系统也多有改变,请随时搜寻网上最新资料。这里提供两个参考网址:

http://www.omniglot.com/writing/http://en.wikipedia.org/wiki/

2.亚洲语言桌面出版中常用的语言编码

ANSI:对于单字节文字,早期的操作系统多采用ANSI编码。ANSI(American National Standards Institute)码是单一字节(8-bit)的编码集,最多只能表示256个字符,适用于亚洲语言中的各种单字节语言,如菲律宾语、印度尼西亚语等,但不能表示数目众多的中、日、韩文字。因而在ANSI码的基础上又设计了各种不同的双字节编码集(例如:Big5、GBK),使之能够处理大量的中、日、韩文字。这些编码使用单字节来表示ANSI的英文字符(即兼容ANSI码),使用双字节来表示汉字字符。

Unicode:Unicode码是较新的国际标准编码,采用16位编码方式,将各种语言文字进行统一编码,适用于各种语言的操作平台。Unicode Little Endian主要用于x86系统(如Intel),而Unicode Big Endian普遍用于RISC系统(如Alpha、Mac)。在支持Unicode的软件中,采用Unicode编码的字体,有可能同时完成多种语言的排版工作。

UTF-8:Unicode的变体,用8位编码,每个字符由一至四个字节组成。在支持Unicode的软件中,常作为交换各种编码文字的通用编码标准。

GB2312:GB码是1980年中国公布的简体汉字编码方案,在中国大陆、新加坡得到广泛的使用,也称国标码。国标码对6763个汉字集进行了编码,涵盖了大多数正在使用的汉字。

GBK:GBK码是GB2312码的扩展字符编码,对多达2万多的简繁汉字进行了编码,向下与GB2312码兼容,简体版Windows使用GBK作为系统内码。

GB18030-2005:GB18030是新的汉字编码标准,采用单字节、双字节、四字节三种方式对字符编码,在字汇上支持中、日、韩(CJK)统一字符。向下与GB2312及GBK码兼容。目前Windows 7/Vista/XP已可直接或通过安装额外的支持包支持GB18030 编码标准,而Mac OS X已直接支持GB18030。

BIG-5:BIG-5码是针对繁体汉字的汉字编码,由五种主要编码集成改编而成,目前在中国台湾、香港的计算机系统中得到普遍应用,繁体版Windows用Big5作为系统内码。

Shift-JIS/EUC-JP:常用的日文编码标准。

Unified Hangul Code/EUC-KR:常用的韩文编码。

VNI/CP1258/VISCII/Unicode:常用的越南文编码。

TIS620/Unicode:常用的泰文编码。

二、字体

字体是桌面出版中的重要因素。与一般用于系统显示或网页浏览的字体不同,出版中需要更多的字体来表现内容,体现设计思想或加强视觉效果。在桌面出版中,关于字体需要了解以下几方面的知识:

1.字体编码

不同语言的文字会采用不同的编码。而特定编码的文本内容需要相应编码的字体才可以正确显示。比如GB码的文字内容需要采用GB码的字体才可以正确显示,换为其他编码的字体,则会显示为乱码。字体厂商会根据不同语言编码的需要造出不同编码的字体。如Arial用于西欧语言;Arial CE用于中欧语言;Arial CYR用于西里尔语言;Arial Greek用于希腊语;Arial TUR用于土耳其语;Arial Baltic用于波罗的海国家的语言。

如果采用Unicode编码,则可将不同编码的字形纳入同一个字体文件中。

2、字体格式

字体格式是指字体的数据格式。常见的字体格式有以下几种:

PostScript

PostScript是Adobe公司于1983年发明的页面描述语言。它可以精确地描述平面上任意的文字及图形。Adobe通过这一技术创造了PostScript标准的字体,并以此改变了整个印刷工业。现今PostScript技术已经普遍应用在出版和印刷的各个领域,包括操作系统、应用软件及各种输出设备,如激光打印机、照排机、电脑直接制版机、数字印刷机等。

PostScript使用外框(outline)方式记录字的形状,以四个控制点来描述一个曲线,利用贝塞尔(Bezier)曲线做数学计算,产生字体的外框形状。

PostScript字还包含几种不同的规格:

Type1:目前最普及的PostScript字体格式之一,大部分的英文、中文、日文、韩文等PostScript字体都采用这种格式。

Type3:是早期Adobe的字体格式之一,早期所有字体厂商都只能制作Type3字体。

Type4:Adobe公司用于日文的字体格式。Adobe公司根据日本字体市场需求,将Type1字体加以修正而成。

CID:CID是Character ID的简称,Adobe公司在1994年公开发表。CID字体分为可安装于计算机系统中的CID ATM,及安装于PostScript输出设备的CID PostScript字体。CID字体格式的设计主要针对中、日、韩文等双字节文字,其结构比Type1字体简单,直接由CMap文档去对应字体外框数据,所以能快速取得并解释字体的外框数据,加快打印速度,并节省内存的使用。

TrueType

TrueType字体格式是苹果及微软所共同制订的字体规格,用于Macintosh操作系统及微软的Windows系统。TrueType和PostScript一样,都是使用贝塞尔曲线来描述的外框字,字体可以做任意尺寸的放大缩小,或做其他属性的变化。

OpenType

OpenType是Adobe与微软在1995年合作发展的新一代字体规格。OpenType以Unicode为基础,纳入TrueType与Adobe Type1字体。其原理是将字体所需要的外框、点阵、TrueType以及Type1字体,全都放在一个字体文件中,是一套跨平台的单一字体数据结构。同一款OpenType字体,可以同时在Mac OS X以及Windows上使用。

在OpenType字体框架下,可以增加对于字符的各种处理,如西文字符之间的花式连字、装饰性变体等。另外OpenType允许同一个字符有不同的字形(glyph),也就是容许字符有多重的写法,比方说西欧与东欧、土耳其、俄国等地所使用的字母有所不同,便可以使用这个功能;而在中、日、韩文字中,也存在相当多的异体字,也可以通过OpenType中同一字符多个字形的功能实现。另外OpenType因为采用Unicode编码,在同一套字体内可以容纳多种文字编码,因此对于多语言的文字可以有更好的支持。

OpenType字体比其他格式的字体有非常多的优点。但要充分利用OpenType的优势,还需要操作系统及应用软件的全面支持。目前Adobe Create Suite产品已经全面支持OpenType字体。各个造字厂商也在陆续推出OpenType格式的字库。随着更多的应用软件对OpenType的支持,相信未来OpenType将会成为桌面出版业所使用的重要字体格式。

3、字体分类

无论西文还是中文,从字体的风格上来看,可以分为两大类:有衬线类(Serif)和无衬线类(Sans Serif)。有衬线类是指在字体笔划的收尾处有明显的装饰衬线,且不同的笔划方向的粗细不同,又称罗马体(Roman Type);无衬线类(等线类)字体的笔划粗细基本一致,且没有额外的衬线,亦称歌德体(Gothic Type)。

如果进行更细的分类,还可以分出书法用字和设计用字等类型。

4、字体家族

在西文中,同一款字体在笔划或字宽方面往往会有从较细到较粗的一系列变体。这样一系列字体被称为一个字体家族(Font Family),如图所示的Myriad字体家族。

图2.1 字体示例

中文由于字数庞大,很难像西文一样有很多的字体家族,但对于基本的黑体和宋体,各个造字厂商都有相应的系列字体。

图2.2 英文字体家族示例

图2.3 中文字体家族示例

5、复合字体

在本地化桌面出版中,为尽量保持原始文件的设计风格,对于翻译后文字中的西文字符及数字等,通常会保留原有的字体,而对中文或其他目标语言的文字,采用风格相近的字体。

图2.4 复合字体示例

三、常见文件格式

在Mac操作系统下,大多数文件都没有特定的后缀,文件的类型可以从桌面的文件图符中识别。而在Windows操作系统下,各种文件均带有相应的后缀。由于桌面出版中的文件常常会通过网络或是跨平台传送,给各种类型的文件添加后缀有助于避免出现不必要的问题。

1.压缩类文件

表2.1 压缩类文件类型列表

2.排版类文件

表2.2 排版类文件类型列表

3.图形图像类文件

表2.3 图形图像类文件类型列表

4.字体类文件

表2.4 字体类文件类型列表

5. PDF与桌面出版

PDF是Adobe公司创立的一种通用文件格式,能够完整保留任何源文件的外貌和风格,包括版面格式、字体、颜色和图形等,无论创建该文件所使用的是何种应用程序、操作系统及语言环境。

PDF采用压缩格式,便于通过互联网进行传递或分发。PDF文件可以通过Acrobat Reader进行查看和打印,或通过Adobe Acrobat软件进行批注、加密或其他后期处理,如用于专业印刷的分色处理等。

本地化桌面出版需要处理各种不同的语言,并且经常会在全球不同地区之间交换文件,因此,符合跨媒体出版要求的PDF无疑是最佳选择。

总之,本地化桌面出版的任务是:在各种原始语言文件的基础上,完成不同目标语言的排版及图形图像处理工作。

本地化桌面出版的基本原则是:保持与源文件在版式、设计风格等方面的一致性。但由于不同的语言有各自的特点,在一致性的基础上,要充分考虑符合各自语言的排版习惯和专业要求。