舊版網站入口

站內搜索

中國英漢平行語料庫的設計與研制

王克非2013年04月23日09:03

北京外國語大學 中國外語教育研究中心 

提要:本文論述超大型雙語平行語料庫的設計與研制問題。在綜合述介國內外雙語語料庫建設情況之后,作者著重論述了中國英漢平行語料庫這一超大型雙語平行語料庫的設計特點(主要有分類架構、歷時處理、語料平衡以及通用的和各種專門語料的採集)和研制方法(主要講述語料的加工標注、檢索平台以及各個專門語料庫、歷時語料庫和口譯語料庫的構建)。其設計與研制對於其他大型語料庫的建設具有借鑒意義。

關鍵詞:中國英漢平行語料庫﹔設計﹔研制

Abstract: The paper deals with the design and construction of a super-large-scale bilingual parallel corpus. After an overview of parallel corpora constructions and applications both in China and abroad, the design features (including classification and composition, diachronical arrangement, balance of textual materials, and collection of texts for general or specific purposes) and the construction methods (including tagging, concordance platform, and the construction of specialized corpora, diachronical corpora and interpreting corpora) of the super-large-scale China English-Chinese Parallel Corpus (CECPC) are focused on. The design and construction discussed are applicable to the compiling of other large-scale corpora.

Keywords: China English-Chinese Parallel Corpus (CECPC); design; construction

1、中國英漢平行語料庫的研制意義

在全球化、信息化的當今世界,翻譯已成為了解全球信息、擴大對外宣傳、獲取國際資源的重要手段。同計算機技術結合而興起的雙語平行語料庫建設,則為語言研究、翻譯研究、外語教學、詞典編纂和跨語言信息檢索等提供了最好的平台,同時還可用來考察和驗証基於單語語料庫或者基於直覺提出的假設,具有廣闊的應用前景。

平行語料庫承載著相互對應的兩種語言,與語言對比研究有著天然的聯系,成為語言對比研究中的默認數據源﹔平行語料庫中的兩種語言互為對應,記載著兩種語言中的對應詞和對應單位,成為詞典編纂者最可靠的數據來源﹔平行語料庫中的源語言和目標語言互為對應,在翻譯教學和外語學習中的用途更是不言而喻。

除此之外,平行語料庫對機器翻譯和自然語言處理也極為重要。對齊的平行語料能為基於例句和統計的機器翻譯系統提供實証模型,同時也可以為基於規則的機器翻譯提供驗証規則,為機助翻譯提供大量翻譯記憶。正如歐赫(Och 2002)所言,“隻要給我足夠的雙語對應數據,幾個小時內我可以給你一個機器翻譯系統”。然而現有的英漢平行語料庫規模有限,且大多是利用現有同質翻譯資源建立的,並非平衡語料庫,常常不能較好地代表廣泛含義上的源語—譯語關系,依此生成的語言模型常常不能夠有效地解釋翻譯語言,這極大地阻礙了翻譯和詞典編纂等學科研究的深入,已成為提高機器翻譯譯文質量的瓶頸。

鑒於此,我們提出設計和研制更大規模、更多功能的超大型平行語料庫,即一億詞以上的“中國英漢平行語料庫”,以滿足各方面研究的需求和語料庫事業的發展。

中國英漢平行語料庫的研制意義可從以下兩方面體現出來。

第一,理論價值:

1)由於大型雙語平行語料庫規模超大、採樣嚴格,能夠較好地代表源語—譯語關系,因此能為翻譯研究、語言對比研究、語言演化研究、口筆譯比較研究等提供可靠的翻譯實例和量化數據,從而提高上述研究的可信度。

2)在超大型雙語平行語料庫建設的基礎上,我們還將展開多項具有理論意義的語言和翻譯研究。這些研究主要包括歷時研究、類比動態描寫。研究分析時間跨度大,涉及層面多。

第二,應用價值:

1)在研究方法上,我們將據此探索基於語料庫的翻譯語言動態類比和描述,為語言的共時與歷時比較研究提供有效的、可操作性強的分析模式和研究平台。

2)在大型雙語平行語料庫的採樣和加工方面,將提出更有借鑒價值的模板和方法。

總之,“中國英漢平行語料庫”這一超大規模的英漢/漢英平衡語料庫,為今后其他語對的雙語平行語料庫或多語平行語料庫的研制、雙語對比與研究、英漢語言接觸與現代漢語歷時變化研究等,提供共同的大型的實証研究基礎,為中國的語料庫研究走向世界前沿作出貢獻。

2、國內外雙語平行語料庫研制現狀

平行語料庫的研制歷史並不長,從世界上第一個初步的平行語料庫The Canadian Hansard Corpus (包括英法語版本的加拿大議會辯論語料)到目前僅二十年左右。但由於平行語料庫對於語言對比研究、翻譯研究、翻譯教學、翻譯技術開發(如機器翻譯系統、機輔翻譯工具)、雙語詞典編纂等語言學和自然語言處理研究具有巨大的潛在應用價值,平行語料庫的建設在世界上得到迅速發展(參見王克非等2004,McEnery & Xiao 2007)。目前,平行語料庫研究大多集中在歐洲,涉及語言也主要與歐洲語言有關,特別是歐共體/歐盟等機構的文件。

如蘭卡斯特大學早期創建的ITU/Crater平行庫包含歐洲委員會有關電信的英法雙語文件各一百萬詞,在句級對齊。

歐洲委員會聯合研究中心的JRC-ACQUIS多語種平行語料庫包括成員國的22種歐洲語言,目前的3.0版包括五十年代至2006年的歐洲法律文件463,792個,共計十億詞。

歐洲人類語言技術研究網絡(ELSNET)1994年發布的歐洲語料庫規范多語種語料庫1期 (ECI/MCI)包括27種語言(主要是歐洲語言,也包括漢語、日語和馬來語),以官方文件為主,但也包括少量的報紙、小說、技術報告、詞典和詞表﹔該庫共48部分,共計9,800萬詞,其中12個部分包含有平行語料。

MULTEXT語料庫是由歐洲語言資源協會資助的項目,其目的是開發多語種工具和語料庫﹔該語料庫包括採樣於歐洲委員會官方雜志(JOC)的五種語言各40個文檔,句級對齊,其中10個文檔還作了詞性標注。

PAROLE語料庫包括歐洲14種語言,採樣年代為1997-1998,文本來源包括書籍(20%),報紙(65%),雜志(5%),以及雜類文本(10%),共計2,000萬詞,每個子庫中25萬詞按照統一標准作了詞性標注。

多語種語料庫合作(MLCC)項目建立了一個多語種平行語料庫,包括九種歐洲語言,語料來源為上述提到的歐洲委員會官方雜志1992-1994年的文本。

愛丁堡大學的Europarl Parallel Corpus收集了1996-2009年間歐洲議會會議記錄,涉及11種語言,以雙語平行的形式發布,句級對齊,丹麥語、德語、希臘語、西班牙語、芬蘭語、法語、意大利語、荷蘭語、葡萄牙語、瑞典語分別與英語對應,共約5千萬詞(以英語計)(Koehn 2005)。

上述這些語料庫基本上都是文本來源單一、標注也簡單的歐洲語言專用語料庫,主要用於語言識別、文檔級對齊、術語提取等自然語言處理研究,而非從語言學角度研究語言(參見Xiao 2008)。

除此之外,也有少數幾個精心設計的平行語料庫,如由挪威奧斯陸大學研制的最早的英語—挪威語平行語料庫,包含英語和挪威語各100個1-1.5萬詞的英-挪對應母語文本及其挪-英翻譯文本,共260萬詞,語料採樣考慮到平衡性而非局限於少數幾個語域或語體,涉及小說(兒童小說、偵探小說、一般小說)和非小說(宗教、社會科學、法律、自然科學、醫學、藝術、歷史地理)。該語料庫不僅在句子層面對齊,而且對英挪語料均作了詞性標注和詞形還原(lemmatisation)處理。

英語—瑞典語平行語料庫則是採用英語-挪威語平行語料庫的建庫標准、由隆德大學(Lund University)和哥特堡大學聯合研制的平衡語料庫,包括64個英語原文文本及其瑞典語譯文和72個瑞典語原文文本及其英語譯文,共計280萬詞。

在這兩個語料庫的基礎上,近年來奧斯陸大學又以同樣標准開發了奧斯陸多語種語料庫(OMC),除了英語、挪威語、瑞典語外還涉及到了德語、法語、荷蘭語、芬蘭語、和葡萄牙語。這些精心設計的平行語料庫適合於翻譯與跨語言對比等研究,但局限於歐洲語言。

歐洲語言之外的平行語料庫,包括漢語在內,還不多見,精心設計的大型平衡語料庫則更少。主要有蘭卡斯特大學研制的英國少數民族語料庫EMILLE,包含了十五種南亞語言口語及書面語料近一億詞,其中平行語料庫部分包含20萬詞的英語文本及印地語、孟加拉語、旁遮普語、古吉拉特語及烏爾都語平行對應文本。語言數據聯盟(LDC)於2004年發行了香港平行文本庫(Hong Kong Parallel Text),包括590萬詞的英語文本和980萬字的漢語文本,英漢文本句級對齊﹔該庫由2000年所發行的三個英漢平行語料庫組成:香港法律辯論語料庫、香港法律語料庫、香港新聞語料庫。英國蘭卡斯特大學創建的Babel英漢平行語料庫由從《英語世界》等刊物採樣的327篇英漢雙語時文構成,採樣年代為2000-2001年,共計54萬詞﹔該庫實現句級對齊,並對英漢語文本都進行了分詞和詞性標注。台灣輔仁大學初步建立了范本財經英日漢平行語料庫,收集語料約10萬句對。最近,香港理工大學和北京外國語大學的學者聯合研制了英漢旅游文本語料庫,約100萬字詞(參見李德超、王克非 2010)。

在我國內地,雙語平行語料庫的建設近十年來也取得了重大進展,已有多個英漢及日漢等雙語平行語料庫建成。如北京大學計算語言學研究所的漢英平行語料庫(5萬多句對)及其所承擔的863項目所建的英漢平行語料庫(20萬句對),哈爾濱工業大學的英漢雙語語料庫(40-50萬句對)。不過這些語料庫有一個共同之處,即建庫目的主要是自然語言處理而非語言學研究,因此所謂的句對通常是脫離上下文、打亂次序的孤立的句子,英譯漢與漢譯英語料夾雜,用戶不易識別翻譯方向。另外,國內近年來也建成了一些專門用途語料庫,如上海交通大學的莎士比亞戲劇英漢平行語料庫,燕山大學的紅樓夢譯本平行語料庫,紹興學院的魯迅小說漢英平行語料庫等。這些語料庫因為是專門性的,語料來源單一,規模比較小,適合專門研究而不適合通用語言研究。

國內學界平行語料庫研制方面最值得一提的是,2002年以來,北京外國語大學中國外語教育研究中心先后在教育部人文社科重點研究基地重大項目基金和國家社科基金的支持下,建成了規模約三千萬字詞的大型通用漢英平行語料庫,是目前最大規模的平衡語料庫,包括英譯漢和漢譯英雙向翻譯語料,而且採樣均衡,語體、語域及採樣年代覆蓋面廣,全庫實現句級對齊及詞性標注。其中部分語料(200余萬字詞)已提供在線檢索,為全社會服務。在該語料庫基礎上開展了一系列課題研究,如語料庫研制方面的研究(王克非等2004,常寶寶2004,等)、基於語料庫的翻譯學研究(秦洪武、王克非2004,王克非、黃立波2006,2008,王克非、胡顯耀2008,2010等)、基於語料庫的對比語言研究(秦洪武2009,王克非、秦洪武 2009,何文忠、王克非2009,秦洪武、王克非 2010)等。總之,該語料庫為超大型的中國英漢平行語料庫的建設提供了重要的語料庫基礎和相關研究基礎,積累了研制大型平行語料庫的經驗。

上面對國內外研究現狀的簡述表明,平行語料庫研究目前主要涉及歐洲語言,而且歐盟機構和歐洲國家的研究基金願意在該領域投入大量研究經費。現有涉及英語和漢語的雙語語料資源現狀與這一“大語種”語對的地位還不相稱,與研究的需要也不相適應,亟需一個大型、平衡的英漢雙向平行語料庫,使之成為既適用於自然語言處理與語言工程,又能應用於英漢語言對比研究(包括共時與歷時對比)和翻譯研究、翻譯教學與實踐、雙語詞典編纂的共同研究平台,以便從不同角度展開的研究能真正揭示語言的本質,避免由於不同研究使用不同數據而造成的差異。我們希望通過研制這個中國英漢平行語料庫,並在此基礎上開展上述各項研究,使中國的雙語平行語料庫研制與加工走在世界前列。

3、中國英漢平行語料庫設計架構

我們在十年前創建漢英對應語料庫的基礎上(參見王克非 2004),開始研制超大型英漢平行語料庫——“中國英漢平行語料庫”,包括歷時性的平衡語料庫和若干專門語料庫以及口譯語料庫。在此基礎上我們將進一步開展1)平行語料庫深加工與標注研究、對齊檢索等工具研究,2)英漢語言對比、英漢互譯、語言接觸與漢語歷時發展等方面的研究,3)專門語料庫和口譯語料庫的建庫類型與特點研究,4)建庫過程中的語料採樣標准,數據源標示等標准類研究。

3.1 總體框架

本項目設計的超大型英漢平行語料庫,是研制與加工並重、語言研究與翻譯研究並重的語料庫,是兼顧筆譯和口譯文本、兼顧文本共時和歷時研究的語料庫,力求設計科學,分類合理,加工到位。注重以下特點和要點:超大規模、深度加工、多項檢索、軟件兼容、語料平衡、雙語雙向、共時歷時、通用專門、筆譯口譯。

3.2 主要內容

1)提出科學的語料採集方法,使雙語語料的採集既符合隨機、真實的原則,又比較對應、完整和具有一定代表性,便於今后語言、翻譯、教學等研究工作的開展。

2)進一步優化雙語語料的對齊、標注問題,研制過程中開發和改進相關軟件,探討適合漢語詞語切分和標注的理論與方法,嘗試英漢專門語料和英漢口譯語料等特殊語料的標注和檢索,為有深度的語料檢索打好基礎。

3)探討優化雙語平行語料庫的分類和架構,擬分文學、新聞、政論、科技、應用文等五大類和若干子類,使之更適合建成后的語言與翻譯研究。

4)研制適用基於語料庫的語言與翻譯歷時研究的檢索平台,充分發掘雙語語料庫的研究潛力。

5)合理架構英漢/漢英雙向語料,大致按英漢2/3、漢英1/3的原則收集。

6)注意語料的時代標志,擬將整個20世紀的對應語料的一部分做歷時處理,在收集整理和標注加工方面,注意每20年為一階段,重點收集各階段后五年或某五年的相關語料,以便開展歷時的語言變化研究及語言與翻譯的關系研究。

就待建語料庫的構架設計而言,為了兼顧語言研究和自然語言處理等語言工程的不同需要,並考慮到對一般語言和專門用途語言的研究需要,該庫將由通用型的平衡語料庫和專用型的特定語域的專門語料庫構成,兩者大致各佔一半。其中通用平衡庫約5000萬字詞,兼顧共時與歷時及翻譯方向的平衡性。

語料的共時平衡是指從語言實際應用的角度,按一定比例包括盡可能多的語體和語域。“中國英漢平行語料庫”擬採用國際語料庫語言學界研制Lancaster-Olso-Bergen (LOB)等經典語料庫的方法,按文本類別採樣后整合。但考慮到那些經典英語語料庫在實際應用過程中常常將建庫時分類過細的語體按大類合並檢索分析,我們將直接按五大類體裁採樣:文學、新聞、政論、科技、應用文。各大類採樣時再兼顧小類的均衡性,如文學類中的小說、戲曲等﹔新聞中的報道、綜述等,科技類的書籍與期刊等介質、以及文理工農醫等特定語域,等等。

語料的歷時平衡是指從現代漢語發展的實際情況出發,分段採樣以便所建語料庫能反映出現代漢語的發展軌跡,並在英漢平行語料庫的基礎上探究英漢語語言接觸及英語通過翻譯對漢語發展產生的影響。我們將克服英國國家語料庫(BNC)由於歷時連續採樣而造成的各階段差異模糊的缺陷,擬將二十世紀的平衡語料的一部分,大致分五個階段,重點收集各階段某五年的語料,各100-300百萬字詞,計1000萬字詞以上,總的平衡語料庫為5000萬字詞以上。

就翻譯方向而言,考慮到我國翻譯界的實際情況是英譯漢多於漢譯英,並且前者質量高於后者,“中國英漢平行語料庫”將包括三分之二的英譯漢語料和三分之一的漢譯英語料。英漢對比部分主要指在所建平衡語料庫的基礎上研究英語和漢語這兩個不同語系的國際大語種之間在總體上的相同和相異之處,同時考慮兩種語言在不同語體之間的異同﹔語言對比的另一個方面是比較對應的漢(英)語母語文本和漢(英)語譯文文本,以檢驗目前國際上翻譯共性研究領域基於小型對應語料庫所做出的假設,在理論上做出新的探索。

4、中國英漢平行語料庫的研制

研制工作主要涉及語料庫設計、語料收集、語料加工、語料庫檢索工具的設計、基於語料庫的研究、語料庫在線檢索六個部分。

4.1 研制上的簡要描述

語料庫設計

語庫規模:1億字/詞以上

語庫架構:1)通用英漢平行語料庫5000萬字詞﹔2)專門英漢平行語料庫5000多萬字詞,分交通英漢平行語料庫,時政新聞英漢平行語料庫,財經英漢平行語料庫和口譯語料庫)

語庫性質:雙語庫,平行庫﹔通用和專門,共時和歷時,筆譯和口譯

語料類型:書面語料為主,口譯語料為輔

語料分類:分文學、新聞、政論、科技、應用文等五大類體裁

翻譯語向:英漢(2/3)和漢英(1/3)雙語雙向

語料收集

語料收集的原則:按照年代收集,跨度為一個世紀的英漢雙語語料,並注意各階段語料在數量和質量上的大體均等。

語料的體裁:通用語料庫考慮平衡性,借鑒國外平衡語料庫的建構方法,按照五大體裁分類收集語料。

語料加工

元信息的設計:按照語料的來源、年代、語域、題材等設計多維元信息標簽,包括語料庫中英文名稱、所採集樣本的發生年代、語體、翻譯方向、原始數據篇名、作者、譯者、責任方(數據採樣人等信息)

對齊方式:句對齊

標注:實施詞性標注,根據研究需要嘗試對部分語料實施中英文句法標注﹔視研究條件嘗試翻譯技巧信息的人工識別和標注﹔人工識別翻譯對等語塊。

存貯方式:採用tmx格式的xml標記語言,統一碼UTF-8編碼,以便於存儲與交換﹔便於讀入數據庫,也便於檢索和機器翻譯系統的直接利用。

語料庫檢索工具的設計

檢索工具擬綜合利用Perl和C等語言的優勢,充分利用元信息,針對不同用戶,提供簡單檢索、復雜檢索和有條件檢索,包括實施較精確的詞匯、語塊檢索,實現搭配信息的呈現。

基於語料庫的研究:

主要包括:a)基於語料庫的英漢語對比研究﹔b)基於語料庫的歷時翻譯研究﹔c)基於語料庫的翻譯共性研究﹔d)基於語料庫的漢語歷時變化研究﹔e)基於平行語料庫的詞典研編問題。

語料庫在線檢索:

在線平台實現單機平台相似的功能,同時實現語料庫的翻譯輔助功能:系統可將析出語料保存為tmx等格式,為現有的翻譯輔助軟件如Trados、Dejavu或者雅信等軟件所用。

4.2 具體研制思路

4.2.1 關於語料庫的加工標注和語料檢索

1)對語料庫中的各類文本進行合理的元信息標注,以便按照用戶設定的條件,從語料庫中抽取不同類型的雙語對齊文本。擬將元信息與文本分別獨立保存,即元信息脫離文本本身,便於對文本內語言信息的快速檢索。

2)對語料庫中的語言信息進行標注,以方便從語料庫中抽取用戶所需的多種語言信息。語言信息的標注主要包括詞性標注和部分文本的句法標注。

3)建立大規模機器翻譯記憶庫。研究中擬採用兼容性較好的通用標記語言存儲文本,建立大規模機器翻譯記憶庫(translation memory),使語料庫可以為機器翻譯系統所直接使用。

4)研制功能強大的配套軟件系統。軟件系統主要包括:a)元信息檢索系統,用於根據用戶設定從語料庫中抽取文本﹔b)標注文本還原系統,用於析出便於用戶閱讀的檢索詞及語境﹔c)翻譯記憶交換文件(tmx)生成和解析系統,用於自動生成和解析翻譯記憶交換文件﹔d)單機和基於網絡的平行語料庫檢索系統,用於准確、高效地對語料庫進行檢索。

4.2.2 專門英漢平行語料庫的研制

根據經濟社會發展的現實需求,研制多個專門用途平行語料庫。

1)專門英漢平行語料庫的研制:分別建立時政新聞英漢平行語料庫(2000萬字/詞),交通英漢平行語料庫(1500萬字/詞),財經英漢平行語料庫(1500萬字/詞),英漢口譯語料庫(>100萬字/詞)。分別收集處理各專門語料庫,制定此類語料庫文本的選取和抽樣細則,並設計和研制適合此類文本標注和檢索的應用平台。

2)專門英漢平行語料庫的應用研究。課題組擬應用專門英漢平行語料庫,深入分析漢英語言詞匯之間的對應關系和轉換規律,研究當代英漢翻譯規范、漢語文本英譯語言特征和英語文本漢譯語言特征,克服目前語料庫翻譯學研究過多依賴於文學語料的缺陷,從而提高語料庫翻譯學研究的可信度和說服力。

3)基於語料庫的漢英口譯研究。課題組擬應用漢英口譯語料庫,分析漢英口譯語言的具體特征、口譯過程中的語言轉換規律以及口譯策略和方法等,研究口譯認知過程的本質及口譯活動的制衡因素,為構建實証、科學的口譯理論框架提供重要的物質基礎。

4.2.3平衡語料的收集整理與歷時語言/翻譯研究

在語料庫創建階段,按照子課題1制定的平衡語料收集和抽樣原則將選取的語料處理成機讀語料,完成語料處理的前期工作,主要包括雙語語料的校對、段對齊和片頭元數據標注,為后期的語料處理打好基礎。

除了前面說過的歷時語料處理外,在語料庫建設后期,我們將使用該語料庫開展漢語的歷時語言演化研究,重點研究翻譯在現代漢語發展過程中的作用﹔開展基於大型語料庫的語言與翻譯研究,探討翻譯共性、翻譯技巧的歷時變化、漢語翻譯語言的特性、不同語域翻譯文本的特征等。

在處理歷時研究和共時研究的關系時,我們採用歷時研究方法對翻譯規范和目的語語言規范的發展變化進行類比研究,將共時研究滲透於各微觀研究層面,將靜態的整體性描述和動態的連續性分析有機結合起來。

在處理定性研究和定量研究的關系時,擬將定性分析與定量分析相結合。定量分析描述語言成分的使用頻率、語言特征的相關性和語言變化的趨勢﹔定性分析用於歸納、推理和解釋,即運用合適的理論來闡釋語言變異。

參考文獻

1. Anderman, G. and M. Rogers (eds.) Incorporating Corpora: The linguist and the Translator[C]. Clevedon: Multilingual Matters Ltd. 2007.

2. Koehn, P. Europarl: A Parallel Corpus for Statistical Machine Translation[A]. MT Summit 2005.

3. Lüdeling, A. and M. Kytö (eds.) Corpus Linguistics: An International Handbook[C]. New York: Walter de Gruyter, 2008.

4. McEnery, T. & Xiao,Z. Parallel and comparable corpora: What is happening[A]? In M. Rogers and G. Anderman (eds) Incorporating Corpora. The Linguist and the Translator[C]. Clevedon: Multilingual Matters, 2007:18-31.

5. Xiao, Z. Well-known and influential corpora[A]. In A. Lüdeling & M. Kyto (eds) Corpus Linguistics: An International Handbook [Volume 1][C]. Berlin: Mouton de Gruyter, 2008: 383-457.

6. 常寶寶,2004,英漢對應詞的自動提取[A]。載王克非等《雙語對應語料庫:研制與應用》。北京:外語教學與研究出版社,80-96。

7. 馮志偉,2012,《統計機器翻譯》序[A]。載《統計機器翻譯》(Statistical Machine Translation)[M]。北京:電子工業出版社。

8. 何文忠、王克非,2009,英語中動結構修飾語的語料庫研究[J],《外語教學與研究》(4):250-257。

9. 李德超、王克非,2010,新型雙語旅游語料庫的研制和運用[J],《現代外語》(1):46-54。

10. 秦洪武、王克非,2004,基於語料的翻譯語言考察[J],《現代外語》(1):44-52

11. 秦洪武、王克非,2009,基於對應語料庫的英譯漢語言特征分析[J],《外語教學與研究》(2):131-136。

12. 秦洪武、王克非,2010,論元實現的詞匯化解釋:英漢語中的位移動詞[J],《當代語言學》(2):115-125。

13. 王克非,2004,新型雙語語料庫的設計與構建[J],《中國翻譯》(6):73-75。

14. 王克非、胡顯耀,2008,基於語料庫的翻譯漢語詞匯特征研究[J],《中國翻譯》(6):16-21。

15. 王克非、胡顯耀,2010,漢譯文學作品中人稱代詞的顯化和變異[J],《中國外語》(4):16-21。

16. 王克非、黃立波,2006,關於翻譯共性研究[J],《外語教學與研究》(5):36-40。

17. 王克非、秦洪武,2009,英譯漢語言特征探討——基於對應語料庫的宏觀分析[J],《外語學刊》(1):102-105。

18. 王克非等,2004,《雙語對應語料庫:研制與應用》[C]。北京:外語教學與研究出版社。 

(責編:秦華)