舊版網站入口

站內搜索

“大規模英漢平行語料庫的建立與加工”中期檢查報告

2014年02月26日18:32來源:全國哲學社會科學工作辦公室

一、 研究進展情況

1、 研究計劃總體執行情況及各子課題進展情況

本項目分四個子課題,即1)超大型英漢平行語料庫的分類架構與語言對比研究,2)超大型英漢平行語料庫的加工標注和語料檢索平台研究,3)專門英漢平行語料庫的研制與應用研究,4)大型英漢平行語料庫平衡語料的收集整理與歷時語言/翻譯研究,分別由英國Lancaster大學肖忠華博士(兼浙江大學教授)、北京外國語大學梁茂成教授、上海交通大學胡開寶教授和曲阜師范大學秦洪武教授具體負責。

第一子課題組在首席專家指導下完成了全庫1億多字詞的英漢雙語平行語料庫的總體設計和分類架構,進行了一系列語言與翻譯的比較研究,在國內相關學界處於領先地位,並與國際上開展了較為廣泛的學術合作,包括參與國際學術會議的籌辦,在國際學刊上組織專欄論文發表。

第二子課題組對大型平行語料庫的元信息標注、雙語快速准確的對齊等技術加工進行了深入研究,研制了三個先進實用的加工標注軟件,即雙語文本元信息標注工具(parallel corpus metadata appender)、英漢雙語自動句級對齊系統(English-Chinese Sentence Aligner)、雙語對齊文本與翻譯記憶庫(translation memory)文檔相互轉換技術,並已用於語料的收集、整理和標注等,取得了良好的效果。

第三子課題組分別進行時政新聞平行語料庫、財經平行語料庫、交通平行語料庫和口譯語料庫的建立,目前除交通語料庫完成建庫的1/2外,其它三個庫已完成建庫的2/3左右,並做了初步的校對和文本對齊工作。這幾個子庫大多是國內尚未大規模創建的,工程巨大,如口譯語料庫建設,是目前國內最大、設計最好的。在課題組負責人和成員的努力下,研制進度進度在預期之內。

第四個子課題組負責平衡和歷時的英漢平行語料庫的建立,由於收集和整理語料佔全庫的一半以上,並兼顧語料的平衡和歷時性,工程量極大,收集整理難度很大,特別是80-100年前的語料收集困難,加工標注也很艱難,是國內首次做這樣的嘗試。目前工程進展正常,已完成4/5的語料庫建庫工作,做了基本的整理和語料對齊。

2、 調查研究及學術交流情況

項目組收集了全部必要和相關的雙語語料庫建設、加工和研究的文獻,並做了一系列的述評,組織和參加了多次國內外學術會議,進行了上百次專場學術報告會,包括首席專家王克非教授在台灣師范大學、台灣輔仁大學、香港理工大學、香港教育學院等境外大學的語料庫研制學術講演,以及肖忠華、梁茂成、胡開寶、秦洪武等的數十次國內外相關學術講座。

項目首席專家王克非教授等參加了國際上著名語料庫語言學專家Michael Hoey, Tony McEnery, Adam Kilgarriff and Richard Xiao 等教授發起研制的中文語料庫語言學項目(a Chinese corpus linguistics project),為其顧問成員(Advisory Board),並於2011年夏赴英國進行學術訪問交流。

2011年8月,在中國北京舉行了18屆世界應用語言學大會,這是該會首次在中國舉辦,項目首席專家和四個子課題組的負責人以及部分課題組成員參加了這次大會,並主持了兩個同語料庫相關的分會場,發表了一系列論文,受到國內外同行的高度關注。

項目組同國內的上海交通大學、浙江大學、北京語言大學、曲阜師范大學、燕山大學、紹興文理學院等機構的相關語料庫研究有密切的合作交流。

項目組繼2009年由首席專家王克非教授發起主辦了首屆全國語料庫翻譯學研討會之后,又於2012年3月在曲阜師大主持召開了第二屆全國語料庫翻譯學研討會,廣泛地聯系了全國雙語語料庫研制與應用研究的師生們,使這一研究領域發展壯大。第一屆研討會在上海交大召開時為40人左右的代表參加,第二屆已有近百名代表參會,包括英國的倫敦大學、艾奇希爾大學以及台灣大學、台灣清華大學、香港理工大學、香港城市大學境內外大學也來了不少代表,進行了充分的有益的學術交流。

除了上述學術會議之外,還主辦和參加了其他一些重要的學術會議,如2012年6月28日至30日在西安交通利物浦大學召開的“語料庫技術及應用語言學國際會議”﹔

2013年6月1日至2日在北京外國語大學召開的“2013全國語料庫與話語研究專題研討會”﹔

2013年7月22日至26日在英國蘭卡斯特大學召開的Corpus Linguistics Conference 2013(2013語料庫語言學大會)。

項目組成員在各個大會上都分別作了大小會發言,介紹了項目組取得的研究成果,促進了本項目的國際國內學術交流。

此外,項目開展過程中,還培養了多名博士、碩士生,以語料庫及相關研究為課題,博士生趙秋榮申請並獲得2011年教育部人文社科青年項目和2012年國家社科基金青年項目,博士畢業生張威獲得2012年國家社科基金項目,博士后胡顯耀獲得2011年國家社科基金項目,博士后林正軍獲得2013年國家社科基金重點項目,體現了本項目既進行前沿研究,又教書育人的多重效益。

3、 成果宣傳推介情況

項目組如期在2011年3月19日舉行了開題報告會,北外陳雨露校長、金莉副校長等出席並講話,顧曰國、王厚峰、衛乃興、易綿竹、江銘虎等9位專家出席研討,著名學者馮志偉教授先后四次光臨本項目組進行指導,全體課題組成員都參加了開題報告會,並簽約課題。為了細化課題的研究目標和研究任務,進一步了解課題實施過程中的技術路線,明確各子課題組的分工,分析研究過程中可能出現的各種困難及解決方案,項目組按課題進行了分組討論,並邀請專家們為各子課題的順利開展提供建議和意見。討論在以下幾個方面形成了共識:

1)課題的實施方案。經過討論,專家及課題組所有成員一致認可課題總負責人提出的“建庫為主,建研結合”的實施方案,認為在該課題研究的實施過程中,首要目標是建立一個世界上最大、具有權威性和示范作用的英漢平行語料庫。在建立這一語料庫的前提下,應結合語料庫中的各類數據,進行多維的語言和翻譯研究。

2)各子課題組的分工。經過討論,大家一致任務課題總負責人提出的課題總體思路和設計方案可行,即將課題分為“超大型英漢平行語料庫的分類架構與語言對比研究”、“超大型英漢平行語料庫的加工標注和語料檢索平台研究”、“專門英漢平行語料庫的研制與應用研究”和“大型英漢平行語料庫平衡語料的收集整理與歷時語言/翻譯研究”四個子課題。其中,子課題一負責確定語料庫的分類構架和採樣方法,以確保語料庫的代表性。此外,子課題一還將進行一些語言研究。子課題二負責課題實施過程中的工具設計和平台建設。工具主要包括建庫工具和檢索工具,而平台則包括語料庫單機檢索平台和網絡檢索平台。子課題三將建立四個專門語料庫,即英漢海事語料庫、英漢財經語料庫、英漢時政語料庫和英漢口譯語料庫。子課題四將主要負責平衡語料庫的收集和整理,並進行一些歷時語言研究和翻譯研究。

3)課題組擬接受專家們提出的意見,對原課題設計做局部調整,主要包括:

A)有關語料庫的標注。專家們認為,為了增強語料庫的開放性,鑒於目前句法標注技術和語義標注技術尚不成熟,研究中隻對語料庫進行詞性標注,不宜進行句法標注和語義標注,但語料庫應採用通用的翻譯記憶庫格式保存,以方便交流。

口譯語料庫的規模。口譯語料庫建設意義重大,但鑒於口譯語料收集困難,轉寫和標注耗時費力,需要投入的資金也很大,專家建議將原設計方案中的3百萬詞的口譯語料庫改為1百萬詞。

項目組還制定了工作進度、流程以及會議研討、論文發表等方面的規定,確保項目的認真執行和圓滿完成。

這些在學校網站和其他相關網站上都有報道。

項目組專家王克非、肖忠華、梁茂成、胡開寶、秦洪武等近三年在國內外做過上百次與本項目相關的學術講座,王克非、梁茂成等還舉辦了十多次研修班,並在北京外國語大學開設了研究生課程,所有這些講授的聽講人數近萬,對雙語平行語料庫的研制、相關研究成果的推介,做了最大規模的宣講。

項目組按規定向全國哲學社會科學規劃辦提交過開題報告、《工作簡報》、中期檢查報告和兩份階段性研究成果:1.雙語語料庫建設中的元信息添加和段級句級對齊的自動處理,2.歷時語料庫研制的新路徑。

二、研究成果情況

1 代表性成果簡介

本項目除了全力建設1億詞的超大型英漢雙語平行語料庫外,還進行了一系列關於大規模雙語平行語料庫的研制和技術問題研究,及基於大規模雙語平行語料庫的語言研究和翻譯研究,

這些研究包括三類:

1)系列專著。在上海交通大學出版了國內第一套語料庫翻譯學研究叢書,影響很大,已出版的有:《語料庫翻譯學探索》,王克非,上海交通大學出版社,2011﹔《語料庫翻譯學概論》,胡開寶,上海交通大學出版社,2011﹔《英漢翻譯中的漢語譯文語料庫研究》,肖忠華,上海交通大學出版社,2012。

王克非專著是國內第一部系統論述基於語料庫的翻譯研究各個方面的著作,包括語料庫翻譯學的基本定義、概念、內容和研究途徑,深刻論述了語料庫在翻譯研究、翻譯教學和其他相關問題上的意義與作用等,進一步揭示了翻譯的本質和特點。

胡開寶專著全面闡述了語料庫在翻譯學各分支的研究價值,包括翻譯語言特征的研究,翻譯風格的研究,翻譯規范的研究和口筆譯教學等方面的研究,深化了這些問題的認識。

肖忠華專著是第一部專題論述漢譯語言問題的著作,書中描述了國際上翻譯語言研究的總況,並在建設特定語料庫和專門研究工具的基礎上,深入探討了漢譯語言的詞匯特征和語法特征,並進而探究了該研究對翻譯共性研究的意義。

這幾本專著可以說都是國內同類研究領域中最具分量的研究成果。

2)國際知名學術期刊專欄論文。本課題的重要成果之一是為國際知名學術期刊《語料庫語言學與語言學理論》(Corpus Linguistics and Linguistic Theory)組織撰寫了一個專號,由德國知名出版社de Gruyter出版。這組論文由子課題組負責人肖忠華教授與中國語料庫語言學研究會會長衛乃興教授合作主編。該期刊由SSCI和AHCI同時全文索引,在Thomson Reuters期刊引用報告(社科版)的160種語言學期刊中排名第43,2012年影響因子高達0.905。目前該專刊號的論文已全部於2013年6-7月以網絡優先版的形式正式在線發表(http://www.degruyter.com/printahead/j/cllt),稍后編入印刷版的特定期號。《英漢翻譯與語言對比研究》專號發表六篇論文,共170頁,其中包括本重大項目組成員的四篇論文。這四篇論文的要點如下:

王克非、秦洪武的論文“What is peculiar to translational Mandarin Chinese? A corpus-based study of Chinese constructions' load capacity”(DOI: 10.1515/cllt-2013-0020):平均句子長度歷來都是翻譯共性研究一項重要參數,用來研究翻譯體語言的簡化假設。然而,不同研究對該項指標得出了截然不同的結果,甚至對相似結果也有不同理解和闡述,因而使平均句子長度和翻譯簡化假設頗受爭議。而且現有的相關研究大都是針對翻譯體英語及其相近的歐洲親屬語言。這篇論文根據漢語自身的特點,提出了具有獨創性的“句段長度”(sentence segment length)和“結構容量”(construction load capacity)這兩個重要概念,來衡量翻譯文本的可讀性及翻譯質量,並在分析英漢雙向平行語料庫的基礎上對文學及非文學兩大類文本進行實証研究。結果表明,句段長度和結構容量比基於印歐語言提出的平均句子長度更能真實反映譯文的質量與可讀性。該研究還通過分析由古代漢語向現代漢語過渡時期的平行語料,揭示了英漢翻譯在歷史上對現代漢語中結構容量所產生的重大影響。研究表明,針對英語及其相近語言提出的研究方法和參數在漢語等大跨度語對研究中未必有效,語言對比和翻譯研究中應採用適合所涉及語言自身特點、而又具有可比性的研究方法。

肖忠華(與衛乃興合著)的論文“Translation and contrastive linguistic studies at the interface of English and Chinese: Significance and implications”(DOI: 10.1515/cllt-2013-0015):本文首先論述了語料庫語言學、對比語言學、及翻譯研究之間相輔相成的學科關系,對國際上相關學科的前沿研究現狀作了詳細的綜述,並對本專號中的論文逐一評點,討論論文集中各項研究對有關語言學理論構建的意義與啟示。

肖忠華(與戴光榮合著)的論文“Lexical and grammatical properties of Translational Chinese: Translation universal hypotheses reevaluated from the Chinese perspective”(DOI: 10.1515/cllt-2013-0016):本文首先介紹了語料庫翻譯學文獻中一些基於翻譯體英語所提出了翻譯共性的關鍵概念,並對漢語母語、翻譯體漢語、及英語母語可比語料庫進行對比分析,從不同角度、在不同層面對翻譯體漢語的詞匯語法特征進行了全面的闡述,並在此基礎上從英漢翻譯中翻譯體漢語的角度對描寫翻譯研究中現有的翻譯共性假設進行了重新評估,發現其中有些翻譯共性假設(如顯化)能充分得到翻譯體漢語的支持,有些翻譯共性假設(如簡化)需作修訂,而另一些(如范化)則完全沒有得到漢語的支持。英漢兩種語言之間語言類型學差異也表明,目前對相近歐洲語言的研究,由於研究語言具有相似性而忽略了另一項潛在的翻譯共性,即目標語獨特項目呈現不足。這項研究表明,基於相近語言所提出的語言學理論和假設可能並不適用於其他大跨度的非親屬語言,而研究英漢語等大跨度語言在語言共性研究中意義重大,能夠提供更有說服力的實証依據。

許家金(與李瀟晨合著)“Structural and semantic non-correspondences between Chinese splittable compounds and their English translations: A Chinese-English parallel corpus-based study”(DOI: 10.1515/cllt-2013-0019):本文採用形式與意義想結合的方法研究漢語中的離合詞及其英譯,為目前唯一一項對離合詞及其英譯之間結構和意義對應與非對應進行系統闡述的語料庫研究。該研究在分析大型英漢平行語料庫的基礎上,從詞匯語法和論元結構角度對英漢翻譯中的離合詞進行了語言對比和翻譯研究。該研究側重於翻譯研究,但對英漢翻譯中離合詞及其英譯詳細而系統的分析,也揭示了英漢兩種語言在構詞及句法方面的跨語言差異。文中所首倡的語料分析方法在一定程度上也會對其他語言(如德語、荷蘭語)中類似結構的研究起到引導作用。

3)國內外學術期刊論文。迄今,本重大項目組在國內外學術期刊上發表著作和論文34部/篇,從各個方面和角度充分論述了雙語平行語料庫的研制及其應用研究,在國內外產生了廣泛的影響,詳情見成果清單。

階段性研究成果清單

序號

成果名稱

作者

成果形式

刊物名或出版社、刊發或出版時間

字數

轉載、引用、獲獎等情況

1

《語料庫翻譯學探索》

王克非

專著

上海交通大學出版社,2011

31萬

 

2

《語料庫翻譯學概論》

胡開寶

專著

上海交通大學出版社,2011

29萬

 

3

《英漢翻譯中的漢語譯文語料庫研究》

肖忠華

專著

上海交通大學出版社,2012

21.3萬

 

4

What is peculiar to Translational Mandarin Chinese?

--A Corpus-based Study of Chinese Constructions’ load capacity,

WANG Kefei & QIN Hongwu(王克非、秦洪武)

國際學術期刊論文

第18屆世界應用語言學大會(2011-8)主旨發言,國際A&HCI學術期刊Corpus Linguistics and Linguistic Theory, 2013

英文7000詞

 

5

Translation and contrastive linguistic studies at the interface of English and Chinese: Significance and implications

肖忠華、衛乃興

國際學術期刊論文

國際A&HCI學術期刊Corpus Linguistics and Linguistic Theory, 2013

英文7500詞

 

6

Lexical and grammatical properties of Translational Chinese: Translation universal hypotheses reevaluated from the Chinese perspective

肖忠華、戴光榮

國際學術期刊論文

國際A&HCI學術期刊Corpus Linguistics and Linguistic Theory, 2013

英文6800詞

 

7

Structural and semantic non-correspondences between Chinese splittable compounds and their English translations: A Chinese-English parallel corpus-based study

許家金、李瀟晨

國際學術期刊論文

國際A&HCI學術期刊Corpus Linguistics and Linguistic Theory, 2013

英文6500詞

 

8

A Critical Review of Corpus-based Translation Studies in China

HU Kaibao

(胡開寶)

國際學術會議論文

4th Conference of the International Association for Translation and Intercultural Studies, 24 -28 July, 2012,Belfast, UK

英文6200詞

 

9

The Chinese-English Conference Interpreting Corpus: Uses and Limitations

Hu Kaibao(胡開寶)

國際學術期刊論文

Meta(接受,待發)

英文7000詞

 

10

Looking for translator's fingerprints: a corpus-based study on Chinese translations of Ulysses

Wang Qing (王青)

國際學術期刊論文

Literary and Linguistic Computing,2013,4

英文7000詞

 

11

Normalization in Translating Personal Collocations: A Corpus-based Study of Chinese Translation of Ulysses Empirical Translation Studies: Interdisciplinary Approaches Explored.

Wang Qing (王青)

國際學術專集論文

Equinox Publishing Ltd. 已錄用,待發

英文7200詞

 

12

跨語言語法隱喻探討

林正軍,王克非

論文

外語學刊,2012年1期

11000

 

13

中國英漢平行語料庫的設計與研制

王克非

論文

中國外語,2012年6期

10500

 

14

雙語語料庫建設中的元信息添加和段級句級對齊的自動處理

梁茂成

論文

中國外語,2012年5期

12000

 

15

英漢翻譯語料庫和現代漢語歷時參照庫的研制

 

王克非、秦洪武

論文

外語教學與研究,2012年6期

11000

 

16

近十年來口譯語料庫研究現狀及發展趨勢

張  威

論文

浙江大學學報(人文社科版),2012年2期

13000

 

17

國外雙語語料庫的研制與應用評析

黃立波、王克非

論文

外語電化教學,2012年6期

9300

 

18

語料庫翻譯學:內涵與意義

胡開寶

論文

外國語, 2011年5期

10000

 

19

基於類比語料庫的翻譯文本的搭配特征研究

武光軍、王克非

論文

中國外語, 2011年5期

11500

 

20

雙語對應語料庫的翻譯輔助功能探討

王克非、秦洪武

論文

中國英語教育, 2011年4期

13500

 

21

工作記憶與口譯技能對同聲傳譯質量的復合影響

張  威

論文

外語教學與研究,2012年5期

12000

 

22

認知記憶訓練與口譯學習效果的相關性研究

張  威

論文

中國翻譯,2012年4期

11000

 

23

語料庫語言學研究的兩種范式:淵源、分歧及前景

梁茂成

論文

外語教學與研究,2012年3期

11000

 

24

基於詞語信息度的翻譯對應句檢索

秦  穎

論文

外語教學與研究,2012年2期

9800

 

25

漢英對應語料庫的檢索及應用

王克非、熊文新

論文

外語電化教學,2011年6期

10000

 

26

語料庫翻譯學:課題與進展

王克非、黃立波

論文

外語教學與研究,2011年6期

11000

 

27

基於語料庫的記者招待會漢英口譯句法操作規范研究

胡開寶、陶慶

論文

外語教學與研究,2012年5期

12000

 

28

雙語語料庫建設中元信息的添加和段落與句子的兩級對齊

梁茂成、許家金

論文

中國外語,2012年6期

10500

 

29

線性時間對齊轉寫:口譯語料庫建設與研究中的應用分析

張威

論文

外國語,2013年3期

11000

 

30

《尤利西斯》漢譯本簡化特征研究

王青

論文

山東外語教學,2013年2期

9200

 

31

基於平行語料庫的“大家”的對應研究

易焱、王克非,

論文

外語與外語教學,2013年3期

11000

 

32

基於語料庫的譯者風格研究——詞匯型式化在《尤利西斯》漢譯本中的體現

王青

論文

外語與外語教學,2013.6待發

9600

 

33

“被”字句的語義趨向與語義韻,基於翻譯與原創新聞語料庫的對比研究

朱一凡、胡開寶

論文

外國語,2013.6待發

11000

 

34

十年來基於語料庫的漢語翻譯語言研究

秦洪武

論文

燕山大學學報,2013.6待發

10000

 

(課題組供稿)

(責編:趙晶)