旧版网站入口

站内搜索

中日对译语料库的研制与应用研究

2011年05月15日16:51

  北京外国语大学北京日本学研究中心徐一平教授主持的国家社会科学基金项目《中日对译语料库的研制与应用研究》,于1999年立项,2003年7月结项,其最终成果为《中日对译语料库》(CDROM)和《中日对译语料库的研制与应用研究论文集》。课题组主要成员有:曹大峰、施建军、戴宝玉、李强、潘寿君、杨诎人。现将该成果的基本内容及其研究、应用情况介绍如下:

  随着信息时代的到来,大规模真实文本的处理给自然语言处理研究提出了紧迫的要求。同时,语言学界也发现,单纯依靠语言学家的内省和造句对语言所作的定性研究越来越难以全面、系统地描写语言的真实全貌。因此,基于语料库的经验主义研究方法也就越来越受到语言学界和自然语言处理学界的青睐。在计算机不断普及和自然语言处理研究不断深入的过程中,基于单语语言的语料库建设如雨后春笋,迅速发展。但是,作为基于中日两种语言的大型双语平行语料库,目前在世界上还没有得到开发和建立。因此可以说这一项目的完成,具有世界首创和填补空白的重要意义。

  一、内容丰富、加工到位、检索功能齐全的中日对译语料库

  本项目完成的《中日对译语料库》(CDROM),共收入中日双语各种文本语料2013万余字。在语料的收集上,考虑到语言研究和自然语言处理研究应用的实际需要,在注重规模和原文、译文质量的同时,还充分考虑到各种体裁、年代语料的平衡,经过对原文文本和译文文本的调查和专家筛选,最终收入了中日文各类文章原文文本和译文文本共80余篇。其中不但收录了中日对译文章中最常见的小说文本,还包括了如诗歌、散文、传记、政论、法律法规、政府工作报告等各种体裁的语料文本,其跨越的时代也涉及到了近现代的各个时期,从而充分保证了语料的实用效果。在语料的录入方面,经过了多次反复的校对,使错误率控制在了万分之五以下,充分保证了所收语料的可信度。

  为了适应自然语言研究中知识提取的需要,对中日对译语料库中所收语料进行了原文译文对齐、词性标注、句法标注等三个方面的深加工处理。

  首先,原文译文对齐是双语平行语料库的基本条件。但是,由于中日双语语料自动对齐的计算机工具尚未问世,利用计算机对语料进行机器自动对齐加工,目前还不现实。因此,课题组成员利用人工方法对全部语料进行了对齐加工,制定了详细的对齐原则,最终实现了本语料库的双语语料在段落层面上的100%对齐。在确保语料对齐加工质量的同时,为今后实现中日双语语料计算机自动对齐和进一步细化至句对齐,摸索出了一套成功的经验。

  其次,利用中日两国自然语言处理研究中已经开发出来的先进的分词、词性标注技术和句法分析系统,对整个语料库的中日语料文本分别进行了整体的分词、词性标注和尝试性的句法标注。目前,由于自然语言处理技术的日益进步,中日两国单语语言的基于统计模型的分词技术和词性标注技术均已日臻成熟。在中文方面,如北京大学计算语言学所开发的汉语分词标注系统SLEX;在日文方面,如日本奈良尖端科学技术大学院大学建立的日语分词标注系统CHASEN等,其计算机自动加工分词和词性标注的准确率均可以达到95%以上。在利用这些先进技术对本项目研制的中日对译语料库的语料进行分词和词性标注加工时,考虑到这些系统的统计模型都是基于纯母语语料建立的这一特点,针对“对译语料库”的语料特殊性,特别是译文语料中所存在的一些原文留下的烙印,如人名、地名等专有名词,是基于母语语料的现有系统处理不了的问题,课题组在开发研制过程中,分别在这些系统中建立了对译语言的中日文人名、地名等的专有名词词典。同时,采取了机器自动分词、标注和人工校对相结合的方法,使中日双语语料的分词和词性标注的准确率均达到了98%以上。另外,对10%的双语语料进行了尝试性的句法标注,其标注准确率,中文在60%—75%,日文在70%—80%之间。由于本项目的深加工处理,是在中日双语语料中进行的,其中所遇到的问题和解决的办法是现有基于母语语料的系统中所不曾遇到过的,特别是加工完以后的语料再反馈给单语语料加工系统作为习题库进行学习,对进一步提高单语语料加工系统的准确率起到了积极的作用。

  一个语料库建成以后,是否能得到充分的应用,其关键就在于该语料库是否具备能够满足使用者要求的检索功能。针对这一问题,课题组成员集思广益,并与日本日立公司中央研究所通力合作,开发出了一套适合于中日对译双语平行语料库特点,并能够满足中日语言研究者需要的检索工具。

  为了适应中日双语语料的特点,在检索工具的功能上,要能够做到对中日文语料进行双向检索,并能够提取与检索结果相对应的译文语料,同时在计算机的同一个平台上实现中日文的同屏显示。课题组充分考虑到windows平台的多语言技术特点,将本语料库的主要开发平台选定为windows操作系统。同时,为了使语料库具有广泛的通用性和较强的兼容性,中文语料采用了GB2312内码存储,日文语料采用了SHIFTJIS内码存储。这样既可以适应各种版本的windows平台,并且经过简单转换以后又可以在其他平台(如UNIX、linux等)上使用,充分提高了语料库的应用价值和学术价值,并为最终实现中日文同屏显示和多功能检索奠定了基础。

  本语料库提供的检索工具主要是在windows2000和ie6.0上,利用数据库技术开发研制的。在显示检索结果时针对不同文种使用不同字体,有效地解决了中日文同屏显示的问题。而且,由于分别采用了中日两国的国家工业标准代码存储语料,使得在不同语种检索中出现的内码冲突问题也得到了很好的解决,同时为语料库数据的二次开发利用也创造了有利的条件。针对语料库主要用于语言研究的特点,本语料库提供的检索工具,除具备一般语料库所要求的简单的字符串检索功能以外,还具备了句型检索、特定组合形态词语检索、使用频率检索、正则表达式检索等适应各种语言研究复杂要求的检索功能。其检索速度也完全达到了实用的水平。

  二、边研制、边应用,研究成果始终在应用中验证并提高

  正如课题组在立项报告中阐明的那样,此次开发研制的《中日对译语料库(CDROM)》,其最终目的是为中日两国语言研究服务。因此,对本语料库的应用性提出了很高的要求。为了使完成以后的中日对译语料库能够满足中日两国语言研究者的应用要求,在语料库基本具备一定规模和相应的检索功能以后,课题组成员以及其他一些相关研究人员就开始利用本语料库进行各种语言研究的尝试。并分别于2001年9月和2002年9月举行了两次大型的国际学术研讨会。

  在2001年9月举行的题为《中日对译语料库的研制与应用研究》的国际学术研讨会上,来自中日两国的研究学者交流和研讨了中日对译语料库在汉语语言学研究、日语语言学研究、汉日对比语言学研究、自然语言处理研究等领域中的应用问题,这些研究广泛涉及到了句法、词汇、翻译、词典、历时语言学等诸多方面,为课题组进一步完善中日对译语料库的研制提供了许多宝贵的数据。

  在2002年9月举行的题为《语料库应用研究的深化与拓展》的国际学术研讨会上,来自中日韩三国的研究学者,围绕“语料库在语言学研究中的作用和局限性”、“语言学、信息处理研究所需要的语料库”、“中日对译语料库的构建和现状”、“语料库信息的自动抽取及其在语言研究中的应用”、“口语语料库的建设与应用”等课题,进行了广泛、深入的探讨。

  为了反映这些应用研究成果,课题组将开发过程中发表的阶段性研究成果的论文以及利用中日对译语料库中期成果进行的应用性语言研究成果的论文汇集成册,出版了《中日对译语料库的研制与应用研究论文集》。其中,利用中日对译语料库对中文的语气助词“吧”和日语助动词“だろう”的对比研究、对中文的语气助词“呢”的研究以及对中日文完成时的对比研究等,都得出了未使用对译语料库进行研究所没有得到的新的结论,进一步推动了中日两国语言研究的深入发展,充分显示了中日对译语料库在两国语言研究中所能发挥的重要作用。

  当然,语料库的应用也不仅仅限于单纯的语言研究。如本语料库还在清华大学的日文OCR开发项目,以及日本大学《日中古典文学今译数据库》项目等中日两国的各类开发项目中得到了实际的应用,并收到了良好的社会效益。

  在自然语言处理领域,语料库是构建语言数学模型的基础。许多成功的机器翻译系统的核心模型也都是在语料库的基础上建立起来的。在当今世界国际化进程不断加快的今天,同处亚洲的中日两国的关系越来越密切,一个满足于中日两国人民交往的中日机器翻译系统,越来越成为一种迫切的需要。而中日对译语料库必将成为这种翻译系统的基础。同时,进一步加大各国人民之间的交流,从双边关系进一步发展为多边关系也是世界发展的一个必然趋势。在已经开发出的中日对译双语平行语料库的基础上,进一步研制开发中日韩对译以及中日英对译等三语或多语平行语料库,将是课题组的下一个努力目标。
(责编:陈叶军)