旧版网站入口

站内搜索

中国英汉平行语料库的设计与研制

王克非2013年04月23日09:03

北京外国语大学 中国外语教育研究中心 

提要:本文论述超大型双语平行语料库的设计与研制问题。在综合述介国内外双语语料库建设情况之后,作者着重论述了中国英汉平行语料库这一超大型双语平行语料库的设计特点(主要有分类架构、历时处理、语料平衡以及通用的和各种专门语料的采集)和研制方法(主要讲述语料的加工标注、检索平台以及各个专门语料库、历时语料库和口译语料库的构建)。其设计与研制对于其他大型语料库的建设具有借鉴意义。

关键词:中国英汉平行语料库;设计;研制

Abstract: The paper deals with the design and construction of a super-large-scale bilingual parallel corpus. After an overview of parallel corpora constructions and applications both in China and abroad, the design features (including classification and composition, diachronical arrangement, balance of textual materials, and collection of texts for general or specific purposes) and the construction methods (including tagging, concordance platform, and the construction of specialized corpora, diachronical corpora and interpreting corpora) of the super-large-scale China English-Chinese Parallel Corpus (CECPC) are focused on. The design and construction discussed are applicable to the compiling of other large-scale corpora.

Keywords: China English-Chinese Parallel Corpus (CECPC); design; construction

1、中国英汉平行语料库的研制意义

在全球化、信息化的当今世界,翻译已成为了解全球信息、扩大对外宣传、获取国际资源的重要手段。同计算机技术结合而兴起的双语平行语料库建设,则为语言研究、翻译研究、外语教学、词典编纂和跨语言信息检索等提供了最好的平台,同时还可用来考察和验证基于单语语料库或者基于直觉提出的假设,具有广阔的应用前景。

平行语料库承载着相互对应的两种语言,与语言对比研究有着天然的联系,成为语言对比研究中的默认数据源;平行语料库中的两种语言互为对应,记载着两种语言中的对应词和对应单位,成为词典编纂者最可靠的数据来源;平行语料库中的源语言和目标语言互为对应,在翻译教学和外语学习中的用途更是不言而喻。

除此之外,平行语料库对机器翻译和自然语言处理也极为重要。对齐的平行语料能为基于例句和统计的机器翻译系统提供实证模型,同时也可以为基于规则的机器翻译提供验证规则,为机助翻译提供大量翻译记忆。正如欧赫(Och 2002)所言,“只要给我足够的双语对应数据,几个小时内我可以给你一个机器翻译系统”。然而现有的英汉平行语料库规模有限,且大多是利用现有同质翻译资源建立的,并非平衡语料库,常常不能较好地代表广泛含义上的源语—译语关系,依此生成的语言模型常常不能够有效地解释翻译语言,这极大地阻碍了翻译和词典编纂等学科研究的深入,已成为提高机器翻译译文质量的瓶颈。

鉴于此,我们提出设计和研制更大规模、更多功能的超大型平行语料库,即一亿词以上的“中国英汉平行语料库”,以满足各方面研究的需求和语料库事业的发展。

中国英汉平行语料库的研制意义可从以下两方面体现出来。

第一,理论价值:

1)由于大型双语平行语料库规模超大、采样严格,能够较好地代表源语—译语关系,因此能为翻译研究、语言对比研究、语言演化研究、口笔译比较研究等提供可靠的翻译实例和量化数据,从而提高上述研究的可信度。

2)在超大型双语平行语料库建设的基础上,我们还将展开多项具有理论意义的语言和翻译研究。这些研究主要包括历时研究、类比动态描写。研究分析时间跨度大,涉及层面多。

第二,应用价值:

1)在研究方法上,我们将据此探索基于语料库的翻译语言动态类比和描述,为语言的共时与历时比较研究提供有效的、可操作性强的分析模式和研究平台。

2)在大型双语平行语料库的采样和加工方面,将提出更有借鉴价值的模板和方法。

总之,“中国英汉平行语料库”这一超大规模的英汉/汉英平衡语料库,为今后其他语对的双语平行语料库或多语平行语料库的研制、双语对比与研究、英汉语言接触与现代汉语历时变化研究等,提供共同的大型的实证研究基础,为中国的语料库研究走向世界前沿作出贡献。

2、国内外双语平行语料库研制现状

平行语料库的研制历史并不长,从世界上第一个初步的平行语料库The Canadian Hansard Corpus (包括英法语版本的加拿大议会辩论语料)到目前仅二十年左右。但由于平行语料库对于语言对比研究、翻译研究、翻译教学、翻译技术开发(如机器翻译系统、机辅翻译工具)、双语词典编纂等语言学和自然语言处理研究具有巨大的潜在应用价值,平行语料库的建设在世界上得到迅速发展(参见王克非等2004,McEnery & Xiao 2007)。目前,平行语料库研究大多集中在欧洲,涉及语言也主要与欧洲语言有关,特别是欧共体/欧盟等机构的文件。

如兰卡斯特大学早期创建的ITU/Crater平行库包含欧洲委员会有关电信的英法双语文件各一百万词,在句级对齐。

欧洲委员会联合研究中心的JRC-ACQUIS多语种平行语料库包括成员国的22种欧洲语言,目前的3.0版包括五十年代至2006年的欧洲法律文件463,792个,共计十亿词。

欧洲人类语言技术研究网络(ELSNET)1994年发布的欧洲语料库规范多语种语料库1期 (ECI/MCI)包括27种语言(主要是欧洲语言,也包括汉语、日语和马来语),以官方文件为主,但也包括少量的报纸、小说、技术报告、词典和词表;该库共48部分,共计9,800万词,其中12个部分包含有平行语料。

MULTEXT语料库是由欧洲语言资源协会资助的项目,其目的是开发多语种工具和语料库;该语料库包括采样于欧洲委员会官方杂志(JOC)的五种语言各40个文档,句级对齐,其中10个文档还作了词性标注。

PAROLE语料库包括欧洲14种语言,采样年代为1997-1998,文本来源包括书籍(20%),报纸(65%),杂志(5%),以及杂类文本(10%),共计2,000万词,每个子库中25万词按照统一标准作了词性标注。

多语种语料库合作(MLCC)项目建立了一个多语种平行语料库,包括九种欧洲语言,语料来源为上述提到的欧洲委员会官方杂志1992-1994年的文本。

爱丁堡大学的Europarl Parallel Corpus收集了1996-2009年间欧洲议会会议记录,涉及11种语言,以双语平行的形式发布,句级对齐,丹麦语、德语、希腊语、西班牙语、芬兰语、法语、意大利语、荷兰语、葡萄牙语、瑞典语分别与英语对应,共约5千万词(以英语计)(Koehn 2005)。

上述这些语料库基本上都是文本来源单一、标注也简单的欧洲语言专用语料库,主要用于语言识别、文档级对齐、术语提取等自然语言处理研究,而非从语言学角度研究语言(参见Xiao 2008)。

除此之外,也有少数几个精心设计的平行语料库,如由挪威奥斯陆大学研制的最早的英语—挪威语平行语料库,包含英语和挪威语各100个1-1.5万词的英-挪对应母语文本及其挪-英翻译文本,共260万词,语料采样考虑到平衡性而非局限于少数几个语域或语体,涉及小说(儿童小说、侦探小说、一般小说)和非小说(宗教、社会科学、法律、自然科学、医学、艺术、历史地理)。该语料库不仅在句子层面对齐,而且对英挪语料均作了词性标注和词形还原(lemmatisation)处理。

英语—瑞典语平行语料库则是采用英语-挪威语平行语料库的建库标准、由隆德大学(Lund University)和哥特堡大学联合研制的平衡语料库,包括64个英语原文文本及其瑞典语译文和72个瑞典语原文文本及其英语译文,共计280万词。

在这两个语料库的基础上,近年来奥斯陆大学又以同样标准开发了奥斯陆多语种语料库(OMC),除了英语、挪威语、瑞典语外还涉及到了德语、法语、荷兰语、芬兰语、和葡萄牙语。这些精心设计的平行语料库适合于翻译与跨语言对比等研究,但局限于欧洲语言。

欧洲语言之外的平行语料库,包括汉语在内,还不多见,精心设计的大型平衡语料库则更少。主要有兰卡斯特大学研制的英国少数民族语料库EMILLE,包含了十五种南亚语言口语及书面语料近一亿词,其中平行语料库部分包含20万词的英语文本及印地语、孟加拉语、旁遮普语、古吉拉特语及乌尔都语平行对应文本。语言数据联盟(LDC)于2004年发行了香港平行文本库(Hong Kong Parallel Text),包括590万词的英语文本和980万字的汉语文本,英汉文本句级对齐;该库由2000年所发行的三个英汉平行语料库组成:香港法律辩论语料库、香港法律语料库、香港新闻语料库。英国兰卡斯特大学创建的Babel英汉平行语料库由从《英语世界》等刊物采样的327篇英汉双语时文构成,采样年代为2000-2001年,共计54万词;该库实现句级对齐,并对英汉语文本都进行了分词和词性标注。台湾辅仁大学初步建立了范本财经英日汉平行语料库,收集语料约10万句对。最近,香港理工大学和北京外国语大学的学者联合研制了英汉旅游文本语料库,约100万字词(参见李德超、王克非 2010)。

在我国内地,双语平行语料库的建设近十年来也取得了重大进展,已有多个英汉及日汉等双语平行语料库建成。如北京大学计算语言学研究所的汉英平行语料库(5万多句对)及其所承担的863项目所建的英汉平行语料库(20万句对),哈尔滨工业大学的英汉双语语料库(40-50万句对)。不过这些语料库有一个共同之处,即建库目的主要是自然语言处理而非语言学研究,因此所谓的句对通常是脱离上下文、打乱次序的孤立的句子,英译汉与汉译英语料夹杂,用户不易识别翻译方向。另外,国内近年来也建成了一些专门用途语料库,如上海交通大学的莎士比亚戏剧英汉平行语料库,燕山大学的红楼梦译本平行语料库,绍兴学院的鲁迅小说汉英平行语料库等。这些语料库因为是专门性的,语料来源单一,规模比较小,适合专门研究而不适合通用语言研究。

国内学界平行语料库研制方面最值得一提的是,2002年以来,北京外国语大学中国外语教育研究中心先后在教育部人文社科重点研究基地重大项目基金和国家社科基金的支持下,建成了规模约三千万字词的大型通用汉英平行语料库,是目前最大规模的平衡语料库,包括英译汉和汉译英双向翻译语料,而且采样均衡,语体、语域及采样年代覆盖面广,全库实现句级对齐及词性标注。其中部分语料(200余万字词)已提供在线检索,为全社会服务。在该语料库基础上开展了一系列课题研究,如语料库研制方面的研究(王克非等2004,常宝宝2004,等)、基于语料库的翻译学研究(秦洪武、王克非2004,王克非、黄立波2006,2008,王克非、胡显耀2008,2010等)、基于语料库的对比语言研究(秦洪武2009,王克非、秦洪武 2009,何文忠、王克非2009,秦洪武、王克非 2010)等。总之,该语料库为超大型的中国英汉平行语料库的建设提供了重要的语料库基础和相关研究基础,积累了研制大型平行语料库的经验。

上面对国内外研究现状的简述表明,平行语料库研究目前主要涉及欧洲语言,而且欧盟机构和欧洲国家的研究基金愿意在该领域投入大量研究经费。现有涉及英语和汉语的双语语料资源现状与这一“大语种”语对的地位还不相称,与研究的需要也不相适应,亟需一个大型、平衡的英汉双向平行语料库,使之成为既适用于自然语言处理与语言工程,又能应用于英汉语言对比研究(包括共时与历时对比)和翻译研究、翻译教学与实践、双语词典编纂的共同研究平台,以便从不同角度展开的研究能真正揭示语言的本质,避免由于不同研究使用不同数据而造成的差异。我们希望通过研制这个中国英汉平行语料库,并在此基础上开展上述各项研究,使中国的双语平行语料库研制与加工走在世界前列。

3、中国英汉平行语料库设计架构

我们在十年前创建汉英对应语料库的基础上(参见王克非 2004),开始研制超大型英汉平行语料库——“中国英汉平行语料库”,包括历时性的平衡语料库和若干专门语料库以及口译语料库。在此基础上我们将进一步开展1)平行语料库深加工与标注研究、对齐检索等工具研究,2)英汉语言对比、英汉互译、语言接触与汉语历时发展等方面的研究,3)专门语料库和口译语料库的建库类型与特点研究,4)建库过程中的语料采样标准,数据源标示等标准类研究。

3.1 总体框架

本项目设计的超大型英汉平行语料库,是研制与加工并重、语言研究与翻译研究并重的语料库,是兼顾笔译和口译文本、兼顾文本共时和历时研究的语料库,力求设计科学,分类合理,加工到位。注重以下特点和要点:超大规模、深度加工、多项检索、软件兼容、语料平衡、双语双向、共时历时、通用专门、笔译口译。

3.2 主要内容

1)提出科学的语料采集方法,使双语语料的采集既符合随机、真实的原则,又比较对应、完整和具有一定代表性,便于今后语言、翻译、教学等研究工作的开展。

2)进一步优化双语语料的对齐、标注问题,研制过程中开发和改进相关软件,探讨适合汉语词语切分和标注的理论与方法,尝试英汉专门语料和英汉口译语料等特殊语料的标注和检索,为有深度的语料检索打好基础。

3)探讨优化双语平行语料库的分类和架构,拟分文学、新闻、政论、科技、应用文等五大类和若干子类,使之更适合建成后的语言与翻译研究。

4)研制适用基于语料库的语言与翻译历时研究的检索平台,充分发掘双语语料库的研究潜力。

5)合理架构英汉/汉英双向语料,大致按英汉2/3、汉英1/3的原则收集。

6)注意语料的时代标志,拟将整个20世纪的对应语料的一部分做历时处理,在收集整理和标注加工方面,注意每20年为一阶段,重点收集各阶段后五年或某五年的相关语料,以便开展历时的语言变化研究及语言与翻译的关系研究。

就待建语料库的构架设计而言,为了兼顾语言研究和自然语言处理等语言工程的不同需要,并考虑到对一般语言和专门用途语言的研究需要,该库将由通用型的平衡语料库和专用型的特定语域的专门语料库构成,两者大致各占一半。其中通用平衡库约5000万字词,兼顾共时与历时及翻译方向的平衡性。

语料的共时平衡是指从语言实际应用的角度,按一定比例包括尽可能多的语体和语域。“中国英汉平行语料库”拟采用国际语料库语言学界研制Lancaster-Olso-Bergen (LOB)等经典语料库的方法,按文本类别采样后整合。但考虑到那些经典英语语料库在实际应用过程中常常将建库时分类过细的语体按大类合并检索分析,我们将直接按五大类体裁采样:文学、新闻、政论、科技、应用文。各大类采样时再兼顾小类的均衡性,如文学类中的小说、戏曲等;新闻中的报道、综述等,科技类的书籍与期刊等介质、以及文理工农医等特定语域,等等。

语料的历时平衡是指从现代汉语发展的实际情况出发,分段采样以便所建语料库能反映出现代汉语的发展轨迹,并在英汉平行语料库的基础上探究英汉语语言接触及英语通过翻译对汉语发展产生的影响。我们将克服英国国家语料库(BNC)由于历时连续采样而造成的各阶段差异模糊的缺陷,拟将二十世纪的平衡语料的一部分,大致分五个阶段,重点收集各阶段某五年的语料,各100-300百万字词,计1000万字词以上,总的平衡语料库为5000万字词以上。

就翻译方向而言,考虑到我国翻译界的实际情况是英译汉多于汉译英,并且前者质量高于后者,“中国英汉平行语料库”将包括三分之二的英译汉语料和三分之一的汉译英语料。英汉对比部分主要指在所建平衡语料库的基础上研究英语和汉语这两个不同语系的国际大语种之间在总体上的相同和相异之处,同时考虑两种语言在不同语体之间的异同;语言对比的另一个方面是比较对应的汉(英)语母语文本和汉(英)语译文文本,以检验目前国际上翻译共性研究领域基于小型对应语料库所做出的假设,在理论上做出新的探索。

4、中国英汉平行语料库的研制

研制工作主要涉及语料库设计、语料收集、语料加工、语料库检索工具的设计、基于语料库的研究、语料库在线检索六个部分。

4.1 研制上的简要描述

语料库设计

语库规模:1亿字/词以上

语库架构:1)通用英汉平行语料库5000万字词;2)专门英汉平行语料库5000多万字词,分交通英汉平行语料库,时政新闻英汉平行语料库,财经英汉平行语料库和口译语料库)

语库性质:双语库,平行库;通用和专门,共时和历时,笔译和口译

语料类型:书面语料为主,口译语料为辅

语料分类:分文学、新闻、政论、科技、应用文等五大类体裁

翻译语向:英汉(2/3)和汉英(1/3)双语双向

语料收集

语料收集的原则:按照年代收集,跨度为一个世纪的英汉双语语料,并注意各阶段语料在数量和质量上的大体均等。

语料的体裁:通用语料库考虑平衡性,借鉴国外平衡语料库的建构方法,按照五大体裁分类收集语料。

语料加工

元信息的设计:按照语料的来源、年代、语域、题材等设计多维元信息标签,包括语料库中英文名称、所采集样本的发生年代、语体、翻译方向、原始数据篇名、作者、译者、责任方(数据采样人等信息)

对齐方式:句对齐

标注:实施词性标注,根据研究需要尝试对部分语料实施中英文句法标注;视研究条件尝试翻译技巧信息的人工识别和标注;人工识别翻译对等语块。

存贮方式:采用tmx格式的xml标记语言,统一码UTF-8编码,以便于存储与交换;便于读入数据库,也便于检索和机器翻译系统的直接利用。

语料库检索工具的设计

检索工具拟综合利用Perl和C等语言的优势,充分利用元信息,针对不同用户,提供简单检索、复杂检索和有条件检索,包括实施较精确的词汇、语块检索,实现搭配信息的呈现。

基于语料库的研究:

主要包括:a)基于语料库的英汉语对比研究;b)基于语料库的历时翻译研究;c)基于语料库的翻译共性研究;d)基于语料库的汉语历时变化研究;e)基于平行语料库的词典研编问题。

语料库在线检索:

在线平台实现单机平台相似的功能,同时实现语料库的翻译辅助功能:系统可将析出语料保存为tmx等格式,为现有的翻译辅助软件如Trados、Dejavu或者雅信等软件所用。

4.2 具体研制思路

4.2.1 关于语料库的加工标注和语料检索

1)对语料库中的各类文本进行合理的元信息标注,以便按照用户设定的条件,从语料库中抽取不同类型的双语对齐文本。拟将元信息与文本分别独立保存,即元信息脱离文本本身,便于对文本内语言信息的快速检索。

2)对语料库中的语言信息进行标注,以方便从语料库中抽取用户所需的多种语言信息。语言信息的标注主要包括词性标注和部分文本的句法标注。

3)建立大规模机器翻译记忆库。研究中拟采用兼容性较好的通用标记语言存储文本,建立大规模机器翻译记忆库(translation memory),使语料库可以为机器翻译系统所直接使用。

4)研制功能强大的配套软件系统。软件系统主要包括:a)元信息检索系统,用于根据用户设定从语料库中抽取文本;b)标注文本还原系统,用于析出便于用户阅读的检索词及语境;c)翻译记忆交换文件(tmx)生成和解析系统,用于自动生成和解析翻译记忆交换文件;d)单机和基于网络的平行语料库检索系统,用于准确、高效地对语料库进行检索。

4.2.2 专门英汉平行语料库的研制

根据经济社会发展的现实需求,研制多个专门用途平行语料库。

1)专门英汉平行语料库的研制:分别建立时政新闻英汉平行语料库(2000万字/词),交通英汉平行语料库(1500万字/词),财经英汉平行语料库(1500万字/词),英汉口译语料库(>100万字/词)。分别收集处理各专门语料库,制定此类语料库文本的选取和抽样细则,并设计和研制适合此类文本标注和检索的应用平台。

2)专门英汉平行语料库的应用研究。课题组拟应用专门英汉平行语料库,深入分析汉英语言词汇之间的对应关系和转换规律,研究当代英汉翻译规范、汉语文本英译语言特征和英语文本汉译语言特征,克服目前语料库翻译学研究过多依赖于文学语料的缺陷,从而提高语料库翻译学研究的可信度和说服力。

3)基于语料库的汉英口译研究。课题组拟应用汉英口译语料库,分析汉英口译语言的具体特征、口译过程中的语言转换规律以及口译策略和方法等,研究口译认知过程的本质及口译活动的制衡因素,为构建实证、科学的口译理论框架提供重要的物质基础。

4.2.3平衡语料的收集整理与历时语言/翻译研究

在语料库创建阶段,按照子课题1制定的平衡语料收集和抽样原则将选取的语料处理成机读语料,完成语料处理的前期工作,主要包括双语语料的校对、段对齐和片头元数据标注,为后期的语料处理打好基础。

除了前面说过的历时语料处理外,在语料库建设后期,我们将使用该语料库开展汉语的历时语言演化研究,重点研究翻译在现代汉语发展过程中的作用;开展基于大型语料库的语言与翻译研究,探讨翻译共性、翻译技巧的历时变化、汉语翻译语言的特性、不同语域翻译文本的特征等。

在处理历时研究和共时研究的关系时,我们采用历时研究方法对翻译规范和目的语语言规范的发展变化进行类比研究,将共时研究渗透于各微观研究层面,将静态的整体性描述和动态的连续性分析有机结合起来。

在处理定性研究和定量研究的关系时,拟将定性分析与定量分析相结合。定量分析描述语言成分的使用频率、语言特征的相关性和语言变化的趋势;定性分析用于归纳、推理和解释,即运用合适的理论来阐释语言变异。

参考文献

1. Anderman, G. and M. Rogers (eds.) Incorporating Corpora: The linguist and the Translator[C]. Clevedon: Multilingual Matters Ltd. 2007.

2. Koehn, P. Europarl: A Parallel Corpus for Statistical Machine Translation[A]. MT Summit 2005.

3. Lüdeling, A. and M. Kyt? (eds.) Corpus Linguistics: An International Handbook[C]. New York: Walter de Gruyter, 2008.

4. McEnery, T. & Xiao,Z. Parallel and comparable corpora: What is happening[A]? In M. Rogers and G. Anderman (eds) Incorporating Corpora. The Linguist and the Translator[C]. Clevedon: Multilingual Matters, 2007:18-31.

5. Xiao, Z. Well-known and influential corpora[A]. In A. Lüdeling & M. Kyto (eds) Corpus Linguistics: An International Handbook [Volume 1][C]. Berlin: Mouton de Gruyter, 2008: 383-457.

6. 常宝宝,2004,英汉对应词的自动提取[A]。载王克非等《双语对应语料库:研制与应用》。北京:外语教学与研究出版社,80-96。

7. 冯志伟,2012,《统计机器翻译》序[A]。载《统计机器翻译》(Statistical Machine Translation)[M]。北京:电子工业出版社。

8. 何文忠、王克非,2009,英语中动结构修饰语的语料库研究[J],《外语教学与研究》(4):250-257。

9. 李德超、王克非,2010,新型双语旅游语料库的研制和运用[J],《现代外语》(1):46-54。

10. 秦洪武、王克非,2004,基于语料的翻译语言考察[J],《现代外语》(1):44-52

11. 秦洪武、王克非,2009,基于对应语料库的英译汉语言特征分析[J],《外语教学与研究》(2):131-136。

12. 秦洪武、王克非,2010,论元实现的词汇化解释:英汉语中的位移动词[J],《当代语言学》(2):115-125。

13. 王克非,2004,新型双语语料库的设计与构建[J],《中国翻译》(6):73-75。

14. 王克非、胡显耀,2008,基于语料库的翻译汉语词汇特征研究[J],《中国翻译》(6):16-21。

15. 王克非、胡显耀,2010,汉译文学作品中人称代词的显化和变异[J],《中国外语》(4):16-21。

16. 王克非、黄立波,2006,关于翻译共性研究[J],《外语教学与研究》(5):36-40。

17. 王克非、秦洪武,2009,英译汉语言特征探讨——基于对应语料库的宏观分析[J],《外语学刊》(1):102-105。

18. 王克非等,2004,《双语对应语料库:研制与应用》[C]。北京:外语教学与研究出版社。 

(责编:秦华)