2.5 语料的平行对齐
如前所述,英汉戏剧均以人物对话作为段落单位,我们故而运用ParaConc软件,实现英语原著和汉译本在人物对话层面的对齐,即段落对齐,之后在此基础上进一步实现英汉语料句级层面的对齐。
首先,点击ParaConc的“File”(文件)选项中的“Load Corpus Files”(加载语料库文件),便会弹出语料库文件加载对话框(见图2.3)。
在“Parallel Texts”(平行文本)选项处选择需要对齐的文本数目。本语料库旨在实现一个英语文本与3个汉译文本的对齐,故需要对齐的文本数应为4。然后分别点击“Add”(添加文本)选项,加载需要对齐的英汉语料,并将“align format”(对齐格式)设定为“start/stop tags”。ParaConc内设“start/stop tags”(标记对齐)和“delimited segment”(定界符对齐)。前者支持句与句之间的对齐,后者支持段落之间的对齐。
其次,点击“options”(选项)将段落标注的格式设定为“seg”和“/seg”,并单击“OK”。这样,ParaConc自动对英汉语料进行段落对齐处理。之后,点击“Files”(文件)菜单下的“View Corpus Alignment”,选择需要查看对齐状态的英汉语料,并点击“alignment”,便弹出语料平行对齐浏览窗口(见图2.4)。
图2.3 ParaConc语料库文件加载对话框
图2.4 ParaConc语料平行对齐浏览窗口
图2.4显示的是英汉语料段落之间的对齐,其中不同颜色表明语句之间的界限,即语句的开头和结尾。在句子的开头或结束,单击鼠标右键,便会弹出语料句级对齐处理窗口。
图2.5 ParaConc语料句级对齐处理窗口
选中“split segment”(分割对齐单位),或“merge with next/previous segment”(向下或向上合并对齐单位),对英汉语句进行拆解或合并处理,通过手工对齐的方式实现英汉语料之间句级对齐。
最后,在file(文件)菜单中选择“Save Workspace”,保存实现英汉句级对齐的英汉语料。