國外雙語庫研制與應用評析

王克非黃立波2013年04月23日09:11

摘要：本文綜合評介了國外八大雙語平行語料庫的構建和應用，說明了各個語料庫的優勢與不足。作者認為，國外雙語語料庫研究起步較早，在語料庫技術和研究方法上有相當積累，但也顯示出一些局限性：1）語料庫規模較小，語料代表性有限﹔2）研究的切入點不夠，基於雙語庫的語言類歷時研究闕如﹔3）專門語料庫的研制與應用滯后﹔4）雙語庫基礎上的應用研究和相關技術開發不足。文章指出，上述問題正是今后研究之課題，為超大型、多用途的雙語平行語料庫的構建與應用提供了思路。

關鍵詞：雙語平行語料庫﹔研制與應用

Construction and Application of Parallel Corpora: Issues and comments

Abstract: The paper makes a comprehensive review on the construction and application of 8 major bilingual parallel corpora in the world. Some pitfalls in the corpus-based researches are revealed despite their rich experiences in technology and research method. The issues are manifested as follow: 1) the size of the corpora is not big enough to be representative; 2) research topics are not as varied, especially in respects of language and translation research from a historical perspective; 3) corpora for special purposes are less developed; 4) researches in application and technology based on a parallel corpus still wait to be done. The questions above turned to be the topics to discuss, the authors think, and are conducive to researches on the construction of a large-scale and multipurpose corpus.

Keywords: parallel corpus, construction and application

1 引言

20世紀90年代初，世界上第一個雙語庫在加拿大建成。1998 年，哈爾濱工業大學建成容量3萬句對的英漢雙語語料庫。可見國內外雙語庫構建時間相差不遠。但雙語庫應用於語言和翻譯研究在國外起步較早，建庫的同時許多相關的研究已經展開。經過20年左右的發展，國外雙語庫在技術和研究方法有了相當多的積累，建立了一批有代表性的雙語平行語料庫，產生了一大批基於語料庫的研究成果，形成了多個研究團隊，相互間對相同課題展開了深入的討論，推動了語料庫翻譯學作為一個新型研究的發生和發展。同時，我們也發現國外在雙語語料庫研制與應用方面還存在諸多不足之處。本文在概述國外八大雙語庫的構建和應用的基礎上，點評國外這方面研究的得與失。所概述的問題既可能是將來研究的課題，也可為我們構建超大型、多用途的雙語平行語料庫提供一些思路。

2 國外八大雙語語料庫概況

2.1 加拿大議會會議錄英-法平行語料庫

加拿大議會會議錄英-法平行語料庫（the Canadian Hansard Corpus）被認為是世界上第一個雙語平行語料庫，建成於上世紀90年代初，語料主要為加拿大議會的辯論記錄，是一個英-法平行語料庫。此語料庫也是世界上第一個非限制性（unconstrained）語料庫，語料規模不斷增加，建成初期規模約為1百萬詞，內容為70年代中期的加拿大議會會議日程的官方記錄。之后很快擴展到2千6百萬詞，時間跨度從70年代中期至1987 年，語料內容主要限於立法方面的話語，但議題涉及較廣，除立法建議和事先有准備的演講外，還包括即席討論、書面函電、聽証會等（參見Roukos et al. 1995﹔McEnery & Wilson 2001：168）。該語料庫的語料來源主要為兩個途徑的二手文本，一個是IBM的托馬斯•J•沃森研究中心（IBM T. J. Watson Research Center），另一個則是Bell通訊研究有限公司（Bell Communications Research Inc./Bellcore）。到90年代初，該語料庫庫容進一步擴大到法英雙語共9千萬詞（Kenny 2001：114）。

加拿大議會會議錄英法平行語料庫已被應用於對齊算法（alignment algorithm）（如Church et.al. 1993）、“假朋友”（faux amis）考察，以及機讀雙語詞典詞匯信息研究（如Klavans & Tzoukermann 1995）等方面。

此雙語庫主要是以會議錄音轉寫的書面文本，這樣的文本已經大為范化（normalised），一些口語語料庫中較為常見的停頓、中斷和張口出錯（false starts）等現象在此語料庫中被去掉了，因此更像是一個筆譯語料庫（McEnery & Wilson 2001：168）。也就是說，此語料庫是一個口、筆語混雜的語料庫，就語料而言，無論作為口譯還是筆譯語料庫都缺乏一定的代表性。此語料庫主要被應用於計算機語言處理方面，在語言對比和翻譯研究方面的應用較少。

2.2 克姆尼茨英-德翻譯語料庫

克姆尼茨英-德翻譯語料庫（Chemnitz E-G Translation Corpus）項目開始於1993年，是一個分別以英語和德語為源文本及對應目標文本的雙語雙向平行語料庫，也就是說包括英語原文與對應的德語譯文、德語原文與對應的英語譯文四類語料。目標庫容150萬詞，但到2001年為止僅達到50萬（Kenny 2001：114）。語料包括從當代英美文學到科學教科書，類型多樣。此項目旨在創建一個機讀並經過對齊的語料庫，來發現介詞、功能動詞、指示成分、隱喻或文化局限結構等一系列語言項的翻譯對應項，並做出歸類。在此基礎上探究影響每一類語言現象各類因素配置的規律性。除了語言結構對比和翻譯過程認知方面的理論探討外，研究結果還應用於雙語詞典編纂、語言教學和翻譯輔助工具研發。現有源於此項目的一個教學工具就是一套基於語料庫的克姆尼茨因特網對比語法（Chemnitz Internet Grammar）。此項目是在與其它幾個類似的翻譯語料庫項目合作基礎上進行的，有利於促進相近語言之間在翻譯研究、語料庫語言學和對比分析方面的進展。合作項目包括倫敦-隆德語料庫（the London-Lund corpus）中的英語-瑞典語和蘭卡斯特-奧斯陸-卑爾根語料庫（The Lancaster-Oslo-Bergen Corpus ）中的英語-挪威語語言結構分析，於是英語與德語、瑞典語和挪威語這三種日爾曼語之間的對比研究就可以在同一模式下進行。

以此語料庫為基礎的研究主要涉及翻譯與認知結構、翻譯共性、文化局限語項、搭配詞、對比語法等方面（詳見Schmied 1994，1998，1999﹔Schmied & Schaffler 1996﹔Schaffler 1997﹔Smitterberg et al. 2000等﹔The English/German Translation Corpus: The project http://www.tu-chemnitz.de/phil/english/chairs/linguist/real/independent/transcorpus/index.htm）。

此平行語料庫研制初期的主要目的是用於語言對比研究和應用研究，主要是從詞匯對比入手，進而關注修辭和搭配。基於此語料庫的研究成果表明，他們對翻譯的關注只是作為一種研究手段，最終目的是語言研究，研究結果也主要應用於雙語詞典編纂、語言教學和翻譯輔助工具的研制與開發。

2.3 德英文學文本平行語料庫

德語-英語文學文本平行語料庫（German-English Parallel Corpus of Literary Translation，GEPCOLT）是一個德譯英單向雙語平行的文學文本語料庫。建庫的初衷是為了進行翻譯文本中詞匯范化（lexical normalisation）和詞匯創造性（lexical creativity）的考察。語料限制在敘事小說文本方面，主要出於兩個方面的考慮：第一，有現成的德英小說翻譯的抽樣模式﹔第二，前人對於翻譯小說文本的研究已經關注到對范化問題，說明翻譯小說文本是這類研究的一個理想文類。語料主要是20世紀80至90年代出版的當代德國文學作品的英譯，當時（到2001年）的庫容為，源文本與譯文本共約2百萬詞（其中德語文本970,270形符，英語譯文1,055,021形符）（Kenny 2001：114）。

該語料庫借鑒翻譯英語語料庫（TEC）中篇頭文件（header files）的做法，標注了有關文本出版和翻譯過程等文本外信息（參見Olohan，2004：58-59）。

此語料庫主要應用於翻譯共性問題的考察。例如，Kenny（2000）以GEPCOLT為基礎對德文原語文本中特定創造性復合詞及搭配（creative compounds and collocations）在德英翻譯中范化情況進行探討，結果表明在七個個案中有兩個的確發生了范化，只是尚不能根據有限的個案做出籠統的歸納。

Kenny（2001）以GEPCOLT為基礎對翻譯中的范化和譯者創造性進行考察，她發現翻譯中的確存在詞匯范化現象，而原語文本中的創造性詞匯在大多數情況下卻沒有發生范化（2001：187、210）。這說明對范化現象的研究還是不能完全脫離源語語篇的因素。針對Olohan & Baker（2000）採用的類比語料庫方法，Kenny（2005）以德英文學文本平行語料庫對其非強制性that研究結果進行重新驗証后指出：英語譯者在say之后使用非強制性that的大多數情況並非為了去對應德語中的daβ，乍看起來屬於語法上的顯化，但還需要確認原語文本中是否使用了除daβ以外的其它連接詞形式來明示從句的敘述性質，如果有的話，就很難斷定英語譯文中包含that的做法全都屬於顯化的現象 (Kenny 2005：161)。

GEPCOLT的語料僅限於小說文本，從內容上既屬於一般語言語料庫，也屬於專門文體語料庫。此語料庫最大的特點是：研究目標決定建庫類型。在此語料庫基礎上的研究主要限於翻譯共性，尤其是范化方面的研究。GEPCOLT語料單一，而且為單向平行，語料規模較小，僅約2百萬詞。目前的研究還僅限於詞匯方面，對搭配、句法等問題的研究尚未開展。

2.4 英語-挪威語平行語料庫

英語-挪威語平行語料庫（English-Norweigian Parallel Corpus，ENPC））是一個雙向平行語料庫，由挪威奧斯陸大學（University of Oslo）文學院和英美研究系研制，研究團隊的主要成員包括：奧斯陸大學的Stig Johansson，卑爾根（Bergen）挪威人文學科計算中心（Norwegian Computing Centre for the Humanities）的Knut Hofland，以及奧斯陸大學的研究助理 Jarle Ebeling和Signe Oksefjell。語料包括英語原文及其對應挪威語譯文，和挪威語原文及其對應英語譯文四類文本，這一點與克姆尼茨英-德翻譯語料庫相似。研制的目標是以對應語料庫為核心，結合類比的非翻譯語料庫進行語言對比研究和翻譯研究。文本採用抽樣的方式，每一個完整文本節選1-1.5萬詞的篇幅，包括文學和非文學文本兩大類，文學文本以小說文本為主，全庫共100個源文本和100個對應的譯文本，總庫容為260萬詞（見表-1）。源文本與對應譯文本實現句子層級對齊，由Knut Hofland 所開發的程序自動對齊，之后經過人工校對，貯存在數據庫中，使用Jarle Ebeling 開發的翻譯語料庫瀏覽器（Translation Corpus Explorer）進行檢索。

該語料庫為開放語料庫，在資源允許的條件下庫容會繼續擴大。研究者對源文本和譯文本都做了詞匯標注。

表-1 ENPC的語料構成（參見Johansson 1999/2002: 3）

ENPC項目開始於1994年，完成於1997年。1997-2001年期間，該語料庫的語料收集擴展到德語、荷蘭語和葡萄牙語。ENPC的標注系統採用《電子文本編碼語轉換指南》（Guidelines for Electronic Text Encoding and Interchange）所提出的TEI（Text Encoding Initiative）格式，即XML格式（Sperberg-McQueen & Burnard, 1994）。各層次文本開始與結束分別用<..>和</..>標出，最常用的就是段落標記（<p>...</p>）和句子標記（<s>...</s>）。

該語料庫基礎上的研究內容包括：英語與挪威語中的顯現結構（presentative constructions）對比、英語與挪威語中的語序和信息結構、英語與挪威語詞匯對比、同文類文本跨語言對比、翻譯文本與目標語中非翻譯文本的對比、翻譯語言共性等方面。以翻譯文本作為研究對象，目的不在於揭示翻譯錯誤，而是將翻譯產品作為語言對比研究和翻譯研究的資源。Ǿveras（1998）以英語-挪威語平行語料庫為基礎，以Blum-Kulka（1986）的顯化假設為出發點，對詞匯和語法兩方面的顯化進行了考察，重點放在詞匯銜接上，以揭示拋開語言差異的翻譯語言的具體特征，最終目標是試圖得出關於目標語語言社團中所盛行的文學翻譯規范。

ENPC的建庫理念比較成熟，英語、挪威語文本實現雙向對應，英語原文與對應挪威語譯文、挪威語原文與對應英語譯文這四類文本可以提供語言對比研究和翻譯研究所需要的語料。文本實現了句對齊，所採用的XML標注適用於多類檢索。其局限性在於語料收集採用抽樣的方法，對語言的銜接性有一定的影響，語料范圍也不夠廣泛。此外，其研究目標較多而語料庫相對較小，有力不從心之感。

2.5 英語-瑞典語雙向平行語料庫

英語-瑞典語雙向平行語料庫（The English-Swedish Parallel Corpus，ESPC）的構建開始於1993年，在隆德大學（Lund University）展開，得到瑞典人文與社會科學研究委員會（Swedish Council for Research in Humanities and Social Sciences）的資助。自1997年起，哥德堡大學（Göteborg University）加入該項目。主要成員有和隆德大學的Bengt Altenberg、Mats Johansson、Mikael Svensson教授和哥德堡大學的Karin Aijmer教授。該項目與英語-挪威語平行語料庫（ENPC）和翻譯芬蘭語語料庫（Corpus of Translated Finnish）項目都有溝通與合作。該語料庫同ENPC一樣包括英語原文及其對應瑞典語譯文，和瑞典語原文及其對應英語譯文四類文本語料，可以開展多類型語言對比與翻譯研究。該語料庫2001年的規模為2千8百萬詞，包括64個英文文本抽樣及其對應瑞典語譯文和72個瑞典語文本抽樣及對應英語翻譯文本。每個文本抽樣通常為10,000-15,000 詞，部分篇幅較短的非小說文本採取全文收錄。

該語料庫文本選擇遵循如下原則：1）以當代語言為主，不局限於特定地區語言變體﹔2）包含多種文本類型、多位作家和譯者﹔3）雙語文本在文類、主題、讀者對象、語域等方面具備類比關系﹔4）節選文本選擇作品開頭或結尾部分的連貫章節﹔5）盡可能保証所選英語文本除有對應瑞典語翻譯文本外，還有挪威語和芬蘭語譯本。最后一點主要考慮將來與ENPC之間開展兩種關系密切的語言在語言類型學上的對比研究，以及與不同族的芬蘭語的對比研究。ESPC包含的文本類型比較豐富（如表-2所示），分為小說和非小說兩大類，

表-2 ESPC語料的文本類型構成（參見Altenberg et al. 2001）

小說文本又分為兒童小說、犯罪與懸疑小說和一般小說三類，非小說類又包括回憶錄與傳記等8類，若干子類，幾乎涵蓋了各個領域的文本，有利於開展特定文本或專門用途文本的語言與翻譯研究。ESPC基礎上的研究，除大量的語言對比分析外，與翻譯相關的研究涉及翻譯體、附加疑問句、被動語態、動詞熟語、分裂句、定式與非定式結構等的語際轉換考察（如Aijmer 2001﹔Axelsson 2006﹔Fredriksson 2006﹔Gustawsson 2006﹔Johansson 2001，2002﹔Ruin 2001等）。

ESPC語料規模較大，文本類型比較豐富，有利於開展多文類的語言對比與翻譯研究。其最突出的一點，就是在建庫時就已經考慮到與其它語對語料庫之間的交叉研究，更大地發揮了語料庫的作用。其局限性表現在，盡管文類比較豐富，但語料以抽樣為主，而且從表-2可以看出，具體的子文類文本數量較小，缺乏一定的代表性。

2.6 英語-意大利語雙向平行語料庫

英語-意大利語雙向平行語料庫（Corpus of English-Italian translation，CEXI）1990年代后期由意大利博洛尼亞大學弗利校區（University of Bologna（Forlì））負責研制，是一個雙向對應的平行語料庫，語料中一半為英語源文本及其對應的意大利語譯文本，另一半為意大利語源文本及其對應的英語譯文本。該語料庫為翻譯驅動的語料庫，即語料選取以目標文本為導向。此語料庫作為一個學習語言、文化和翻譯的資源，其建庫目的主要是從描寫和應用視角出發的語言學習和譯員培訓，使學生和研究者能更多地了解翻譯過程和翻譯產品。

CEXI的設計以英語-挪威語平行語料庫（ENPC）為基礎模式，實現句子層面的對齊，不僅用於平行檢索，還應用於同一語言內翻譯文本與非翻譯文本的對比、跨語言對比、跨語言翻譯研究。語料包括文學（或虛構文本）與非文學（信息性文本）兩大類，主要為散文（prose），不包括詩歌、戲劇等，也不包括自譯文本、兒童文學文本、教科書和簡寫本，時間跨度主要集中在1976-2000年間。語料採用抽樣的方法，上述四類文本每個部分80個文本抽樣。原計劃庫容為4百萬詞。實際收錄92個文本（其中文學文本40個，非文學文本52個）的368個抽樣（每個文本1-1.5萬詞），共計460萬詞，研制者計劃從文本范圍、數量和類型等幾方面繼續擴大語料庫的容量（參見Zanettin 2002）。

Bernardini & Zanettin（2004）以英語-意大利語雙向平行語料庫（CEXI）為例指出，目前大多數基於語料庫的描寫翻譯研究主要是在單語類比語料庫的模式下進行，由於社會文化等因素的制約，保証語料的類比性是一個很棘手的問題，比如兩種語言在對方文化中的社會地位不盡平等、原文與譯文的年代相差過於久遠等，在此類語料基礎上的研究結果必然會受到一定影響。

CEXI的設計以英語-挪威語平行語料庫（ENPC）為基礎模式，雙語雙向平行，句級對應。語料同樣採用抽樣，規模較小。其中最突出的一個問題就語料的不平衡。如Zanettin（2000）的研究表明，以意大利語出版的圖書中，翻譯作品的數量遠遠大於原創作品，其中一半是譯自英語，而以英語出版的圖書中翻譯作品所佔的比例卻要小得多，其中譯自意大利語的作品還不足5%。而且兩種翻譯作品在各自的目標語文學系統中所享有的地位也不相同，譯自英語的意大利語作品是意大利流行小說的主宰形式，而譯自意大利語的英語作品在英語世界並沒有同樣的地位。因此，倘若從翻譯作品中選擇意-英雙向平行語料庫的語料，它們就缺乏一定的可比性。

2.7 葡萄牙語-英語雙向平行語料庫（English-Portugese Parallel Corpus（Compara））

葡萄牙語-英語雙向平行語料庫也是以英語-挪威語平行語料庫（ENPC）為藍本設計的一個雙向對應的平行語料庫。包括英語源文本及其對應葡萄牙語譯文本，以及葡萄牙語源文本及其對應英語譯文本四類語料，對應文本實現句子層面對齊。建成初期僅包括文學文本，但其它文類陸續收錄。文本按照德國斯圖加特大學（University of Stuttgart）研發的IMS語料庫工作平台系統（IMS Corpus Workbench system）進行編碼，並且可以通過“葡萄牙語語言計算處理”項目所設計的“葡萄牙語計算機處理工程”（Computational processing of Portugese project）的DISPARA界面進行在線檢索。

Frankenberg-Gacia（2004）以葡-英雙向平行語料庫（Compara）為基礎，從譯文與原文文本長度角度探討了非強制顯化問題。通常認為非強制性顯化往往表現為添加額外詞匯，Frankenberg-Gacia的研究以定量分析的方法証明了翻譯文本中詞匯數量的整體增加表明譯文往往比原文更為明晰，而且這並不受制於兩種語言之間的差異。此語料庫規模也不太大，目前開展的相關研究不多。

2.8 歐洲議會口譯語料庫

歐洲議會口譯語料庫（The European Parliament Interpreting Corpus，EPIC）是由意大利博洛尼亞大學翻譯語言和文化研究小組負責研制的一個開放的包括英語、意大利語和西班牙語的三語平行語料庫。語料庫建成於2004年，包含英語、意大利語和西班牙語以及每種語言同聲傳譯的其它兩種翻譯語言，這樣就構成了一個復合的平行或類比對應關系，研究者可以根據需要任意選取組合，對翻譯現象進行三角考察。語料內容主要為一種語言的議會發言及其對應的另一種語言的翻譯文本，所有語料都經過POS 詞類標注處理。

語料內容來自歐盟議會全體會議的口譯錄音，共有140個4小時的錄影帶，這些音像資料包括全體會議中的源語演講（標識為“Org”）以及英語，意大利語和西班牙語聲道的同聲傳譯（標識為“Int”），亦有歐洲議會的新聞發布會的傳譯內容。語料文本主要參考歐盟在會議后發布的詳盡的官方稿件，完成文字初稿，再經審閱而得。口譯錄音的轉寫採用同傳培訓中經常使用的影子跟讀方法，一邊聽口譯員的錄音，一邊大聲重復他們的譯文，同時利用語言識別軟件將復述的言語自動輸出文字稿。譯文中的副語言特征（paralinguistic features）則由研究者補充完成。語料均帶有篇頭（header）標注，包含與口譯輸出相關的信息，如言語的長度（長、短或中等）、發言模式（即興、帶稿或兩者兼有）和平均速度（快、中等、慢）以及有關講者的名字、國籍、性別和政治背景等，用作檢索的參數之一。EPIC語料庫採用POS標注，意大利語和英語的文本用的是Treetagger軟件，西班牙語文本採用Freeling軟件。建成之后的語料庫共涵蓋三個源語文本（分屬意大利語、英語和西班牙語）的子語料庫和六個譯語文本的子語料庫（參見李婧、李德超 2010：101-102）。

3 國外雙語語料庫研制與應用評述

從以上述評可以看出，國外雙語語料庫在研制與應用方面起步較早，已經在語料庫技術和研究方法上有了相當的積累。但國外雙語語料庫的構建和應用方面也存在諸多問題，主要表現出如下特點：

第一，語料庫規模較小，語料代表性有限。

庫容方面，一些主要的語料庫在建庫初期的規模都較小，千萬詞以上的大庫不多。如，克姆尼茨英-德翻譯語料庫項目開始於1993年，目標庫容150萬詞，但到2001年為止僅達到50萬（Kenny 2001：114）﹔德語-英語文學文本平行語料庫（GEPCOLT）到2001年）的庫容為約2百萬詞﹔英語-挪威語平行語料庫總庫容為260萬詞﹔英語-意大利語雙向平行語料庫到2000年左右庫容為約460萬詞。但許多語料庫都定位為開放式語料庫，在不斷增加文本的收入量。

代表性問題包括模式（mode）、文類（genre）、時間跨度（time span）、語料選材等方面。總體而言，書面語語料庫多於口譯語料庫，主要原因在於口譯語料庫建庫難度相對較大。文類上以文學文本為主的通用型語料庫較多，語料時間跨度小。

以口譯語料庫為例，加拿大議會會議錄英法平行語料庫的語料主要為根據錄音轉寫的書面文本，口語文本中較為常見的停頓、中斷和張口出錯（false starts）等現象在轉寫時被去掉了，文本在很大程度上已經被范化（normalised）（McEnery & Wilson 2001：168）。這樣的語料庫並非完全真實的語料，用於口譯研究，難免會有一些誤差。歐洲議會口譯語料庫（EPIC）語料文本主要參考歐盟在會議后發布的詳盡的官方稿件，完成文字初稿，再經審閱而得。但對口譯錄音的轉寫採用同傳培訓中使用的影子跟讀方法，一邊聽口譯員的錄音，一邊大聲重復他們的譯文，同時利用語言識別軟件將復述的言語自動輸出文字稿，譯文中的副語言特征（paralinguistic features）則由研究者補充完成（參見李婧、李德超 2010：101）。由此看來，這樣的口譯語料依然是從實驗環境下得來，盡管可以在一定程度上描寫口譯過程，但這與真實情景下的口譯過程還存在一定的差異。

文類方面，大多語料庫定位為通用語料庫，但語料來源較為單一。如克姆尼茨英-德翻譯語料庫的語料包括從當代英美文學到科學教科書等類型﹔德語-英語文學文本平行語料庫（GEPCOLT）的語料限制在敘事小說文本方面。英語-挪威語平行語料庫包括文學和非文學文本兩大類，文學文本以小說文本為主﹔英語-意大利語雙向平行語料庫的語料包括文學（或虛構文本）與非文學（信息性文本）兩大類，主要為散文（prose），不包括詩歌、戲劇等，也不包括自譯文本、兒童文學文本、教科書和簡寫本，時間跨度主要集中在1976-2000年間﹔葡萄牙語-英語雙向平行語料庫建成初期僅包括文學文本﹔英語-意大利語雙向平行語料庫時間跨度主要集中在1976-2000年間。而且以上所述大多數語料庫都採用抽樣的方法來採集語料，使語料的代表性收到一定限制。

第二，研究切入點不夠，基於雙語庫的語言類歷時研究闕如。

雙語平行語料庫研制初期，基於雙語庫的研究主要側重於語言對比，盡管也涉及到一些翻譯研究，但主要是與機器翻譯或計算機文字處理的輔助研究。研究的切入點主要在詞匯方面，研究成果的應用主要是詞典編纂、語法研究等。2000年以后，對翻譯語言特征、語言共性等方面的關注越來越多。主要原因在於，為了區別於傳統的源文本-目標文本的語際對比模式，語料庫翻譯學發展初期主要採用目標語中翻譯文本與非翻譯文本比較的語內類比模式。之后一些學者（如Kenny 2001，2005）建議將平行語料庫重新引入語料庫翻譯研究中，作為對類比模式的補充。目前的研究課題依然主要放在翻譯共性和譯者風格方面。隨著語料庫規模的不斷擴大，時間跨度可以作為一個參數來考察翻譯語言或翻譯給原創語言的歷時變化。近年來，除了翻譯共性和譯者風格外，通過語料庫方法探索翻譯對語言的影響開始成為語料庫翻譯研究的一個新課題（參見黃立波、王克非 2011：917-918）。

第三，專門語料庫的研制與應用滯后。

資金、版權、人力、技術等因素對語料庫的規模有一定的限制。各主要雙語庫對專門類型的文本都有一定程度的收錄，但在數量上還遠不能滿足現階段各專門用途類翻譯理論研究與應用研究的需求，語料的文類對研究結果有一定的影響。目前國際上大多語料庫還僅限於文學和非文學兩種，較為籠統。文學文本則以小說、散文為主，非文學作品則以新聞、政論、科技等為主。對文學文本之下的戲劇、詩歌等，以及非文學文本中的財經、法律、歷史、農林、醫藥等文類細化不夠。近年來，對專門文類語料庫的關注開始顯現。一些研究中的語料已不僅限於文學與非文學的劃分，而是涉及商業、旅游、醫學、以及航空等具體文類。

第四，雙語庫基礎上的應用研究和相關技術開發不足。

大型的雙語庫還很少應用於教學研究和譯員培訓等方面，尤其表現在：1）這些雙語平行語料庫大都有在線檢索平台，但以這些雙語庫為基礎建立的教學平台則很少。現有的平台僅能提供詞語、搭配、句對等簡單檢索，利用率不高。隨著今后語料標注與加工技術的發展，更加完善的檢索平台應該能夠提供更多類型的多重檢索服務﹔2）口譯語料庫研究的最終目的，是在對口譯現象進行描寫和解釋的基礎上，達到將研究成果應用於翻譯教學和譯員培訓，開發以雙語口譯語料庫為基礎的教學或培訓平台，目前此類研究在理論上已取得了一定成果，但相關的應用研究尚未大規模展開﹔3）現有的翻譯教學軟件大多為翻譯記憶軟件，適用性和效果還存在不少問題。雙語庫可以作為翻譯教學軟件的豐富資源，但目前以雙語庫為基礎的翻譯教學軟件尚不多見。一個原因是版權的限制，另一個原因則是標注技術的局限，使得有利於課堂教學的翻譯現象的計算機提取還不完善。

4 結語

語料庫翻譯學是語料庫語言學與描寫翻譯研究相結合基礎上發展起來的，前者為這一新研究范式提供理念和技術支持，后者則為其提供研究課題。因此，新型語料庫的開發與研制是今后語料庫翻譯學取得新突破的硬件基礎，雙語庫在翻譯研究中的潛力還有待於進一步開發。上述對國外雙語語料庫的述評和討論，其實也提出了不少今后研究的課題，如何更好的構建超大型、多用途的雙語平行語料庫，是國內外學界的一項新課題。同時，進一步注重方法論也是語料庫翻譯學研究的新趨勢。

參考文獻

Aijmer, K. 2001. Probably in Swedish translations—a case of translationese[A]? In S. Allén, S. Berg, S.-G. Malmgren, K. Norén & B. Ralph (eds.). Gäller stam, suffix och ord[C]. Göteborg: Meijerbergs institut för svensk etymologisk forskning, 1-13.

Altenberg, B., K. Aijmer & M. Svensson. 2001. The English-Swedish Parallel Corpus (ESPC): Manual of enlarged version[OL]. http://www.sol.lu.se/engelska/corpus/corpus/espc.html (acessed on 15/03/2012).

Axelsson, K. 2006. Tag questions in English translations from Swedish and Norwegian—are there differences[A]? In B. Englund-Dimitrova & H. Landqvist (eds.). Svenska som källspråk och målspråk[C]. Göteborg: Översättarutbildningen vid Humanistiska fakulteten, 4–21.

Bernardini, S. & F. Zanettin. 2004. When is a Universal not a Universal? Some limits of current corpus-based methodologies for the investigation of translation universals [A]. In A. Mauranen and P. Kujamäki (eds.). Translation Universals — Do They Exist [C]? Amsterdam: John Benjamins, 51-62.

Blum-Kulka, S. 1986. Shifts of cohesion and coherence in translation[A]. In J. House & S. Blum-Kulka (eds.). Interlingual and Intercultural Communication. Discourse and Cognition in Translation and Second Language Acquisition Studies[C]. Tübingen: Gunter Narr Verlag, 17-35.

Frankenberg-Gacia, A. 2004. Are translations longer than source texts? A corpus-based study of explicitation[A]. Paper presented at the Third International CULT (Corpus Use and Learning to Translate) Conference, Barcelona, 22-24 January 2004[OL]. http://www.linguateca.pt/Repositorio/ Frankenberg-Garcia2004.doc (accessed 04/07/2006).

Fredriksson, A. 2006. On passives and translation strategies in parallel texts[A]. In B. Englund-Dimitrova & H. Landqvist (eds.). Svenska som källspråk och målspråk[C]. Göteborg: Översättarutbildningen vid Humanistiska fakulteten, 75–91.

Gustawsson, E. 2006. Translation of English verbal idioms into Swedish[A]. In B. Englund-Dimitrova & H. Landqvist (eds.). Svenska som källspråk och målspråk[C]. Göteborg: Översättarutbildningen vid Humanistiska fakulteten, 92–108.

Johansson, M. 2001. Clefts in contrast: a contrastive study of it clefts and wh clefts in English and Swedish texts and translations[J]. Linguistics 39: 547-582.

Johansson, M. 2002. Clefts in English and Swedish. A contrastive study of it-clefts and wh-clefts in original texts and translations[M]. unpublished PhD dissertation. Department of English, Lund University.

Johansson, S., J. Ebeling & S. Oksefjell. 1999/2002. English-Norwegian Parallel Corpus: Manual[Z]. Department of British and American Studies, University of Oslo,

Kenny, D. 1999. Translators at play: exploitations of collocational norms in German-English translation[A]. In B. Dodd (ed.). Working with German Corpora[C]. Birmingham: University of Birmingham Press, 143-160.

Kenny, D. 2001. Lexis and Creativity in Translation: A corpus-based study[M]. Manchester: St. Jerome.

Kenny, D. 2005. Parallel corpora and translation studies: old questions, new perspectives? Reporting that in Gepcolt: a case study[A]. In G. Barnbrook, P. Danielsson & M. Mahlberg (eds.). Meaningful Texts: The Extraction of Semantic Information from Monolingual and Multilingual corpora[C]. London: Continuum, 154-165.

Klavans, J. & E. Tzoukermann. 1995. Combining corpus and machine-readable dictionary data for building bilingual lexicons[J]. Machine Translation. 10(3): 185-218.

McEnery, T. & A. Wilson. 2001. Corpus linguistics: An introduction (2nd edition)[M]. Edinburgh: Edinburgh University Press.

Olohan, M. & M. Baker. 2000. Reporting that in Translated English: Evidence for Subconscious Processes of Explicitation[J]. Across Languages and Cultures 1(2): 141-158.

Olohan, M. 2004. Introducing Corpora in Translation Studies[M]. London: Routledge.

Øverås, L. 1998. In search of the third code. An investigation of norms in literary translation[J]. Meta, 43(4): 571-588.

Roukos, S., D. Graff & D. Melamed. 1995. Hansard French/English[Z]. Philadelphia: Linguistic Data Consortium. (http://www.ldc.upenn.edu/Catalog/CatalogEntry. jsp?catalogId=LDC95T20 accessed on 24/03/2012)

Ruin, I. 2001. Nonfinite versus finite constructions—a problem in the translation of Swedish literary texts into English[A]? In W. Vagle & K. Wikberg (eds.). New directions in Nordic text linguistics and discourse analysis: Methodological issues[C]. Oslo: Novus Forlag, 243-253.

Schmied, J. & H. Schaffler. 1996. Explicitness as a universal feature of translation[A]. In M. Ljung (ed.). Corpus-based studies in English: Papers from the seventeenth International Conference on English Language Research on Computerized Corpora (ICAME 17)[C]. Amsterdam: Rodopi, 21-36.

Schmied, J. 1994. Translation and cognitive structures. Hermes[J]. Journal of Linguistics (13): 169-181.

Schmied, J. 1998. Differences and similarities of close cognates: English with and German mit[A]. In S. Johansson & S. Oksefjell (eds.). Corpora and cross-linguistic research: Theory, method and case studies[C]. Amsterdam: Rodopi, 255-176.

Schmied, J. 1999. Applying contrastive corpora in modern contrastive grammars: the Chemnitz Internet Grammar of English[A]. In H. Hasselgard & S. Oksefjell (eds.). Out of corpora. Studies in honour of Stig Johansson[C]. Amsteram: Rodopi, 21-30.

Zanettin, F. 2002. CEXI. Designing and English-Italian Translational Corpus[A]. In B. Ketteman & G. Marko (eds.). Teaching and Learning by Doing Corpus Analysis[C]. Amsterdam: Rodopi, 329-343.

黃立波、王克非，2011，語料庫翻譯學：課題與進展[J]. 外語教學與研究》43(6)：911-923。

李婧、李德超，2010，基於語料庫的口譯研究：回顧與展望[J]，《中國外語》7(5)：100-105。

作者：王克非，北京外國語大學中國外語教育研究中心教授、博士，主要研究語言學和翻譯學，電郵：kfwang@bfsu.edu.cn﹔黃立波，西安外國語大學英語學院副教授、博士，主要研究語料庫翻譯學，電郵：libohuang2003@yahoo.com.cn。

(責編：秦華)

國外雙語庫研制與應用評析

主管主辦：全國哲學社會科學工作辦公室承辦：人民網

©1999-2019 全國哲學社會科學工作辦公室版權所有京ICP備12051030號

國外雙語庫研制與應用評析

主管主辦：全國哲學社會科學工作辦公室 承辦：人民網

©1999-2019 全國哲學社會科學工作辦公室 版權所有 京ICP備12051030號

主管主辦：全國哲學社會科學工作辦公室承辦：人民網

©1999-2019 全國哲學社會科學工作辦公室版權所有京ICP備12051030號