旧版网站入口

站内搜索

“大规模英汉平行语料库的建立与加工”中期检查报告

2014年02月26日18:32来源:全国哲学社会科学工作办公室

一、 研究进展情况

1、 研究计划总体执行情况及各子课题进展情况

本项目分四个子课题,即1)超大型英汉平行语料库的分类架构与语言对比研究,2)超大型英汉平行语料库的加工标注和语料检索平台研究,3)专门英汉平行语料库的研制与应用研究,4)大型英汉平行语料库平衡语料的收集整理与历时语言/翻译研究,分别由英国Lancaster大学肖忠华博士(兼浙江大学教授)、北京外国语大学梁茂成教授、上海交通大学胡开宝教授和曲阜师范大学秦洪武教授具体负责。

第一子课题组在首席专家指导下完成了全库1亿多字词的英汉双语平行语料库的总体设计和分类架构,进行了一系列语言与翻译的比较研究,在国内相关学界处于领先地位,并与国际上开展了较为广泛的学术合作,包括参与国际学术会议的筹办,在国际学刊上组织专栏论文发表。

第二子课题组对大型平行语料库的元信息标注、双语快速准确的对齐等技术加工进行了深入研究,研制了三个先进实用的加工标注软件,即双语文本元信息标注工具(parallel corpus metadata appender)、英汉双语自动句级对齐系统(English-Chinese Sentence Aligner)、双语对齐文本与翻译记忆库(translation memory)文档相互转换技术,并已用于语料的收集、整理和标注等,取得了良好的效果。

第三子课题组分别进行时政新闻平行语料库、财经平行语料库、交通平行语料库和口译语料库的建立,目前除交通语料库完成建库的1/2外,其它三个库已完成建库的2/3左右,并做了初步的校对和文本对齐工作。这几个子库大多是国内尚未大规模创建的,工程巨大,如口译语料库建设,是目前国内最大、设计最好的。在课题组负责人和成员的努力下,研制进度进度在预期之内。

第四个子课题组负责平衡和历时的英汉平行语料库的建立,由于收集和整理语料占全库的一半以上,并兼顾语料的平衡和历时性,工程量极大,收集整理难度很大,特别是80-100年前的语料收集困难,加工标注也很艰难,是国内首次做这样的尝试。目前工程进展正常,已完成4/5的语料库建库工作,做了基本的整理和语料对齐。

2、 调查研究及学术交流情况

项目组收集了全部必要和相关的双语语料库建设、加工和研究的文献,并做了一系列的述评,组织和参加了多次国内外学术会议,进行了上百次专场学术报告会,包括首席专家王克非教授在台湾师范大学、台湾辅仁大学、香港理工大学、香港教育学院等境外大学的语料库研制学术讲演,以及肖忠华、梁茂成、胡开宝、秦洪武等的数十次国内外相关学术讲座。

项目首席专家王克非教授等参加了国际上著名语料库语言学专家Michael Hoey, Tony McEnery, Adam Kilgarriff and Richard Xiao 等教授发起研制的中文语料库语言学项目(a Chinese corpus linguistics project),为其顾问成员(Advisory Board),并于2011年夏赴英国进行学术访问交流。

2011年8月,在中国北京举行了18届世界应用语言学大会,这是该会首次在中国举办,项目首席专家和四个子课题组的负责人以及部分课题组成员参加了这次大会,并主持了两个同语料库相关的分会场,发表了一系列论文,受到国内外同行的高度关注。

项目组同国内的上海交通大学、浙江大学、北京语言大学、曲阜师范大学、燕山大学、绍兴文理学院等机构的相关语料库研究有密切的合作交流。

项目组继2009年由首席专家王克非教授发起主办了首届全国语料库翻译学研讨会之后,又于2012年3月在曲阜师大主持召开了第二届全国语料库翻译学研讨会,广泛地联系了全国双语语料库研制与应用研究的师生们,使这一研究领域发展壮大。第一届研讨会在上海交大召开时为40人左右的代表参加,第二届已有近百名代表参会,包括英国的伦敦大学、艾奇希尔大学以及台湾大学、台湾清华大学、香港理工大学、香港城市大学境内外大学也来了不少代表,进行了充分的有益的学术交流。

除了上述学术会议之外,还主办和参加了其他一些重要的学术会议,如2012年6月28日至30日在西安交通利物浦大学召开的“语料库技术及应用语言学国际会议”;

2013年6月1日至2日在北京外国语大学召开的“2013全国语料库与话语研究专题研讨会”;

2013年7月22日至26日在英国兰卡斯特大学召开的Corpus Linguistics Conference 2013(2013语料库语言学大会)。

项目组成员在各个大会上都分别作了大小会发言,介绍了项目组取得的研究成果,促进了本项目的国际国内学术交流。

此外,项目开展过程中,还培养了多名博士、硕士生,以语料库及相关研究为课题,博士生赵秋荣申请并获得2011年教育部人文社科青年项目和2012年国家社科基金青年项目,博士毕业生张威获得2012年国家社科基金项目,博士后胡显耀获得2011年国家社科基金项目,博士后林正军获得2013年国家社科基金重点项目,体现了本项目既进行前沿研究,又教书育人的多重效益。

3、 成果宣传推介情况

项目组如期在2011年3月19日举行了开题报告会,北外陈雨露校长、金莉副校长等出席并讲话,顾曰国、王厚峰、卫乃兴、易绵竹、江铭虎等9位专家出席研讨,著名学者冯志伟教授先后四次光临本项目组进行指导,全体课题组成员都参加了开题报告会,并签约课题。为了细化课题的研究目标和研究任务,进一步了解课题实施过程中的技术路线,明确各子课题组的分工,分析研究过程中可能出现的各种困难及解决方案,项目组按课题进行了分组讨论,并邀请专家们为各子课题的顺利开展提供建议和意见。讨论在以下几个方面形成了共识:

1)课题的实施方案。经过讨论,专家及课题组所有成员一致认可课题总负责人提出的“建库为主,建研结合”的实施方案,认为在该课题研究的实施过程中,首要目标是建立一个世界上最大、具有权威性和示范作用的英汉平行语料库。在建立这一语料库的前提下,应结合语料库中的各类数据,进行多维的语言和翻译研究。

2)各子课题组的分工。经过讨论,大家一致任务课题总负责人提出的课题总体思路和设计方案可行,即将课题分为“超大型英汉平行语料库的分类架构与语言对比研究”、“超大型英汉平行语料库的加工标注和语料检索平台研究”、“专门英汉平行语料库的研制与应用研究”和“大型英汉平行语料库平衡语料的收集整理与历时语言/翻译研究”四个子课题。其中,子课题一负责确定语料库的分类构架和采样方法,以确保语料库的代表性。此外,子课题一还将进行一些语言研究。子课题二负责课题实施过程中的工具设计和平台建设。工具主要包括建库工具和检索工具,而平台则包括语料库单机检索平台和网络检索平台。子课题三将建立四个专门语料库,即英汉海事语料库、英汉财经语料库、英汉时政语料库和英汉口译语料库。子课题四将主要负责平衡语料库的收集和整理,并进行一些历时语言研究和翻译研究。

3)课题组拟接受专家们提出的意见,对原课题设计做局部调整,主要包括:

A)有关语料库的标注。专家们认为,为了增强语料库的开放性,鉴于目前句法标注技术和语义标注技术尚不成熟,研究中只对语料库进行词性标注,不宜进行句法标注和语义标注,但语料库应采用通用的翻译记忆库格式保存,以方便交流。

口译语料库的规模。口译语料库建设意义重大,但鉴于口译语料收集困难,转写和标注耗时费力,需要投入的资金也很大,专家建议将原设计方案中的3百万词的口译语料库改为1百万词。

项目组还制定了工作进度、流程以及会议研讨、论文发表等方面的规定,确保项目的认真执行和圆满完成。

这些在学校网站和其他相关网站上都有报道。

项目组专家王克非、肖忠华、梁茂成、胡开宝、秦洪武等近三年在国内外做过上百次与本项目相关的学术讲座,王克非、梁茂成等还举办了十多次研修班,并在北京外国语大学开设了研究生课程,所有这些讲授的听讲人数近万,对双语平行语料库的研制、相关研究成果的推介,做了最大规模的宣讲。

项目组按规定向全国哲学社会科学规划办提交过开题报告、《工作简报》、中期检查报告和两份阶段性研究成果:1.双语语料库建设中的元信息添加和段级句级对齐的自动处理,2.历时语料库研制的新路径。

二、研究成果情况

1 代表性成果简介

本项目除了全力建设1亿词的超大型英汉双语平行语料库外,还进行了一系列关于大规模双语平行语料库的研制和技术问题研究,及基于大规模双语平行语料库的语言研究和翻译研究,

这些研究包括三类:

1)系列专著。在上海交通大学出版了国内第一套语料库翻译学研究丛书,影响很大,已出版的有:《语料库翻译学探索》,王克非,上海交通大学出版社,2011;《语料库翻译学概论》,胡开宝,上海交通大学出版社,2011;《英汉翻译中的汉语译文语料库研究》,肖忠华,上海交通大学出版社,2012。

王克非专著是国内第一部系统论述基于语料库的翻译研究各个方面的著作,包括语料库翻译学的基本定义、概念、内容和研究途径,深刻论述了语料库在翻译研究、翻译教学和其他相关问题上的意义与作用等,进一步揭示了翻译的本质和特点。

胡开宝专著全面阐述了语料库在翻译学各分支的研究价值,包括翻译语言特征的研究,翻译风格的研究,翻译规范的研究和口笔译教学等方面的研究,深化了这些问题的认识。

肖忠华专著是第一部专题论述汉译语言问题的著作,书中描述了国际上翻译语言研究的总况,并在建设特定语料库和专门研究工具的基础上,深入探讨了汉译语言的词汇特征和语法特征,并进而探究了该研究对翻译共性研究的意义。

这几本专著可以说都是国内同类研究领域中最具分量的研究成果。

2)国际知名学术期刊专栏论文。本课题的重要成果之一是为国际知名学术期刊《语料库语言学与语言学理论》(Corpus Linguistics and Linguistic Theory)组织撰写了一个专号,由德国知名出版社de Gruyter出版。这组论文由子课题组负责人肖忠华教授与中国语料库语言学研究会会长卫乃兴教授合作主编。该期刊由SSCI和AHCI同时全文索引,在Thomson Reuters期刊引用报告(社科版)的160种语言学期刊中排名第43,2012年影响因子高达0.905。目前该专刊号的论文已全部于2013年6-7月以网络优先版的形式正式在线发表(http://www.degruyter.com/printahead/j/cllt),稍后编入印刷版的特定期号。《英汉翻译与语言对比研究》专号发表六篇论文,共170页,其中包括本重大项目组成员的四篇论文。这四篇论文的要点如下:

王克非、秦洪武的论文“What is peculiar to translational Mandarin Chinese? A corpus-based study of Chinese constructions' load capacity”(DOI: 10.1515/cllt-2013-0020):平均句子长度历来都是翻译共性研究一项重要参数,用来研究翻译体语言的简化假设。然而,不同研究对该项指标得出了截然不同的结果,甚至对相似结果也有不同理解和阐述,因而使平均句子长度和翻译简化假设颇受争议。而且现有的相关研究大都是针对翻译体英语及其相近的欧洲亲属语言。这篇论文根据汉语自身的特点,提出了具有独创性的“句段长度”(sentence segment length)和“结构容量”(construction load capacity)这两个重要概念,来衡量翻译文本的可读性及翻译质量,并在分析英汉双向平行语料库的基础上对文学及非文学两大类文本进行实证研究。结果表明,句段长度和结构容量比基于印欧语言提出的平均句子长度更能真实反映译文的质量与可读性。该研究还通过分析由古代汉语向现代汉语过渡时期的平行语料,揭示了英汉翻译在历史上对现代汉语中结构容量所产生的重大影响。研究表明,针对英语及其相近语言提出的研究方法和参数在汉语等大跨度语对研究中未必有效,语言对比和翻译研究中应采用适合所涉及语言自身特点、而又具有可比性的研究方法。

肖忠华(与卫乃兴合著)的论文“Translation and contrastive linguistic studies at the interface of English and Chinese: Significance and implications”(DOI: 10.1515/cllt-2013-0015):本文首先论述了语料库语言学、对比语言学、及翻译研究之间相辅相成的学科关系,对国际上相关学科的前沿研究现状作了详细的综述,并对本专号中的论文逐一评点,讨论论文集中各项研究对有关语言学理论构建的意义与启示。

肖忠华(与戴光荣合著)的论文“Lexical and grammatical properties of Translational Chinese: Translation universal hypotheses reevaluated from the Chinese perspective”(DOI: 10.1515/cllt-2013-0016):本文首先介绍了语料库翻译学文献中一些基于翻译体英语所提出了翻译共性的关键概念,并对汉语母语、翻译体汉语、及英语母语可比语料库进行对比分析,从不同角度、在不同层面对翻译体汉语的词汇语法特征进行了全面的阐述,并在此基础上从英汉翻译中翻译体汉语的角度对描写翻译研究中现有的翻译共性假设进行了重新评估,发现其中有些翻译共性假设(如显化)能充分得到翻译体汉语的支持,有些翻译共性假设(如简化)需作修订,而另一些(如范化)则完全没有得到汉语的支持。英汉两种语言之间语言类型学差异也表明,目前对相近欧洲语言的研究,由于研究语言具有相似性而忽略了另一项潜在的翻译共性,即目标语独特项目呈现不足。这项研究表明,基于相近语言所提出的语言学理论和假设可能并不适用于其他大跨度的非亲属语言,而研究英汉语等大跨度语言在语言共性研究中意义重大,能够提供更有说服力的实证依据。

许家金(与李潇晨合著)“Structural and semantic non-correspondences between Chinese splittable compounds and their English translations: A Chinese-English parallel corpus-based study”(DOI: 10.1515/cllt-2013-0019):本文采用形式与意义想结合的方法研究汉语中的离合词及其英译,为目前唯一一项对离合词及其英译之间结构和意义对应与非对应进行系统阐述的语料库研究。该研究在分析大型英汉平行语料库的基础上,从词汇语法和论元结构角度对英汉翻译中的离合词进行了语言对比和翻译研究。该研究侧重于翻译研究,但对英汉翻译中离合词及其英译详细而系统的分析,也揭示了英汉两种语言在构词及句法方面的跨语言差异。文中所首倡的语料分析方法在一定程度上也会对其他语言(如德语、荷兰语)中类似结构的研究起到引导作用。

3)国内外学术期刊论文。迄今,本重大项目组在国内外学术期刊上发表著作和论文34部/篇,从各个方面和角度充分论述了双语平行语料库的研制及其应用研究,在国内外产生了广泛的影响,详情见成果清单。

阶段性研究成果清单

序号

成果名称

作者

成果形式

刊物名或出版社、刊发或出版时间

字数

转载、引用、获奖等情况

1

《语料库翻译学探索》

王克非

专著

上海交通大学出版社,2011

31万

 

2

《语料库翻译学概论》

胡开宝

专著

上海交通大学出版社,2011

29万

 

3

《英汉翻译中的汉语译文语料库研究》

肖忠华

专著

上海交通大学出版社,2012

21.3万

 

4

What is peculiar to Translational Mandarin Chinese?

--A Corpus-based Study of Chinese Constructions’ load capacity,

WANG Kefei & QIN Hongwu(王克非、秦洪武)

国际学术期刊论文

第18届世界应用语言学大会(2011-8)主旨发言,国际A&HCI学术期刊Corpus Linguistics and Linguistic Theory, 2013

英文7000词

 

5

Translation and contrastive linguistic studies at the interface of English and Chinese: Significance and implications

肖忠华、卫乃兴

国际学术期刊论文

国际A&HCI学术期刊Corpus Linguistics and Linguistic Theory, 2013

英文7500词

 

6

Lexical and grammatical properties of Translational Chinese: Translation universal hypotheses reevaluated from the Chinese perspective

肖忠华、戴光荣

国际学术期刊论文

国际A&HCI学术期刊Corpus Linguistics and Linguistic Theory, 2013

英文6800词

 

7

Structural and semantic non-correspondences between Chinese splittable compounds and their English translations: A Chinese-English parallel corpus-based study

许家金、李潇晨

国际学术期刊论文

国际A&HCI学术期刊Corpus Linguistics and Linguistic Theory, 2013

英文6500词

 

8

A Critical Review of Corpus-based Translation Studies in China

HU Kaibao

(胡开宝)

国际学术会议论文

4th Conference of the International Association for Translation and Intercultural Studies, 24 -28 July, 2012,Belfast, UK

英文6200词

 

9

The Chinese-English Conference Interpreting Corpus: Uses and Limitations

Hu Kaibao(胡开宝)

国际学术期刊论文

Meta(接受,待发)

英文7000词

 

10

Looking for translator's fingerprints: a corpus-based study on Chinese translations of Ulysses

Wang Qing (王青)

国际学术期刊论文

Literary and Linguistic Computing,2013,4

英文7000词

 

11

Normalization in Translating Personal Collocations: A Corpus-based Study of Chinese Translation of Ulysses Empirical Translation Studies: Interdisciplinary Approaches Explored.

Wang Qing (王青)

国际学术专集论文

Equinox Publishing Ltd. 已录用,待发

英文7200词

 

12

跨语言语法隐喻探讨

林正军,王克非

论文

外语学刊,2012年1期

11000

 

13

中国英汉平行语料库的设计与研制

王克非

论文

中国外语,2012年6期

10500

 

14

双语语料库建设中的元信息添加和段级句级对齐的自动处理

梁茂成

论文

中国外语,2012年5期

12000

 

15

英汉翻译语料库和现代汉语历时参照库的研制

 

王克非、秦洪武

论文

外语教学与研究,2012年6期

11000

 

16

近十年来口译语料库研究现状及发展趋势

张  威

论文

浙江大学学报(人文社科版),2012年2期

13000

 

17

国外双语语料库的研制与应用评析

黄立波、王克非

论文

外语电化教学,2012年6期

9300

 

18

语料库翻译学:内涵与意义

胡开宝

论文

外国语, 2011年5期

10000

 

19

基于类比语料库的翻译文本的搭配特征研究

武光军、王克非

论文

中国外语, 2011年5期

11500

 

20

双语对应语料库的翻译辅助功能探讨

王克非、秦洪武

论文

中国英语教育, 2011年4期

13500

 

21

工作记忆与口译技能对同声传译质量的复合影响

张  威

论文

外语教学与研究,2012年5期

12000

 

22

认知记忆训练与口译学习效果的相关性研究

张  威

论文

中国翻译,2012年4期

11000

 

23

语料库语言学研究的两种范式:渊源、分歧及前景

梁茂成

论文

外语教学与研究,2012年3期

11000

 

24

基于词语信息度的翻译对应句检索

秦  颖

论文

外语教学与研究,2012年2期

9800

 

25

汉英对应语料库的检索及应用

王克非、熊文新

论文

外语电化教学,2011年6期

10000

 

26

语料库翻译学:课题与进展

王克非、黄立波

论文

外语教学与研究,2011年6期

11000

 

27

基于语料库的记者招待会汉英口译句法操作规范研究

胡开宝、陶庆

论文

外语教学与研究,2012年5期

12000

 

28

双语语料库建设中元信息的添加和段落与句子的两级对齐

梁茂成、许家金

论文

中国外语,2012年6期

10500

 

29

线性时间对齐转写:口译语料库建设与研究中的应用分析

张威

论文

外国语,2013年3期

11000

 

30

《尤利西斯》汉译本简化特征研究

王青

论文

山东外语教学,2013年2期

9200

 

31

基于平行语料库的“大家”的对应研究

易焱、王克非,

论文

外语与外语教学,2013年3期

11000

 

32

基于语料库的译者风格研究——词汇型式化在《尤利西斯》汉译本中的体现

王青

论文

外语与外语教学,2013.6待发

9600

 

33

“被”字句的语义趋向与语义韵,基于翻译与原创新闻语料库的对比研究

朱一凡、胡开宝

论文

外国语,2013.6待发

11000

 

34

十年来基于语料库的汉语翻译语言研究

秦洪武

论文

燕山大学学报,2013.6待发

10000

 

(课题组供稿)

(责编:赵晶)