舊版網站入口

站內搜索

中日對譯語料庫的研制與應用研究

2011年05月15日16:51

  北京外國語大學北京日本學研究中心徐一平教授主持的國家社會科學基金項目《中日對譯語料庫的研制與應用研究》,於1999年立項,2003年7月結項,其最終成果為《中日對譯語料庫》(CDROM)和《中日對譯語料庫的研制與應用研究論文集》。課題組主要成員有:曹大峰、施建軍、戴寶玉、李強、潘壽君、楊诎人。現將該成果的基本內容及其研究、應用情況介紹如下:

  隨著信息時代的到來,大規模真實文本的處理給自然語言處理研究提出了緊迫的要求。同時,語言學界也發現,單純依靠語言學家的內省和造句對語言所作的定性研究越來越難以全面、系統地描寫語言的真實全貌。因此,基於語料庫的經驗主義研究方法也就越來越受到語言學界和自然語言處理學界的青睞。在計算機不斷普及和自然語言處理研究不斷深入的過程中,基於單語語言的語料庫建設如雨后春筍,迅速發展。但是,作為基於中日兩種語言的大型雙語平行語料庫,目前在世界上還沒有得到開發和建立。因此可以說這一項目的完成,具有世界首創和填補空白的重要意義。

  一、內容豐富、加工到位、檢索功能齊全的中日對譯語料庫

  本項目完成的《中日對譯語料庫》(CDROM),共收入中日雙語各種文本語料2013萬余字。在語料的收集上,考慮到語言研究和自然語言處理研究應用的實際需要,在注重規模和原文、譯文質量的同時,還充分考慮到各種體裁、年代語料的平衡,經過對原文文本和譯文文本的調查和專家篩選,最終收入了中日文各類文章原文文本和譯文文本共80余篇。其中不但收錄了中日對譯文章中最常見的小說文本,還包括了如詩歌、散文、傳記、政論、法律法規、政府工作報告等各種體裁的語料文本,其跨越的時代也涉及到了近現代的各個時期,從而充分保証了語料的實用效果。在語料的錄入方面,經過了多次反復的校對,使錯誤率控制在了萬分之五以下,充分保証了所收語料的可信度。

  為了適應自然語言研究中知識提取的需要,對中日對譯語料庫中所收語料進行了原文譯文對齊、詞性標注、句法標注等三個方面的深加工處理。

  首先,原文譯文對齊是雙語平行語料庫的基本條件。但是,由於中日雙語語料自動對齊的計算機工具尚未問世,利用計算機對語料進行機器自動對齊加工,目前還不現實。因此,課題組成員利用人工方法對全部語料進行了對齊加工,制定了詳細的對齊原則,最終實現了本語料庫的雙語語料在段落層面上的100%對齊。在確保語料對齊加工質量的同時,為今后實現中日雙語語料計算機自動對齊和進一步細化至句對齊,摸索出了一套成功的經驗。

  其次,利用中日兩國自然語言處理研究中已經開發出來的先進的分詞、詞性標注技術和句法分析系統,對整個語料庫的中日語料文本分別進行了整體的分詞、詞性標注和嘗試性的句法標注。目前,由於自然語言處理技術的日益進步,中日兩國單語語言的基於統計模型的分詞技術和詞性標注技術均已日臻成熟。在中文方面,如北京大學計算語言學所開發的漢語分詞標注系統SLEX﹔在日文方面,如日本奈良尖端科學技術大學院大學建立的日語分詞標注系統CHASEN等,其計算機自動加工分詞和詞性標注的准確率均可以達到95%以上。在利用這些先進技術對本項目研制的中日對譯語料庫的語料進行分詞和詞性標注加工時,考慮到這些系統的統計模型都是基於純母語語料建立的這一特點,針對“對譯語料庫”的語料特殊性,特別是譯文語料中所存在的一些原文留下的烙印,如人名、地名等專有名詞,是基於母語語料的現有系統處理不了的問題,課題組在開發研制過程中,分別在這些系統中建立了對譯語言的中日文人名、地名等的專有名詞詞典。同時,採取了機器自動分詞、標注和人工校對相結合的方法,使中日雙語語料的分詞和詞性標注的准確率均達到了98%以上。另外,對10%的雙語語料進行了嘗試性的句法標注,其標注准確率,中文在60%—75%,日文在70%—80%之間。由於本項目的深加工處理,是在中日雙語語料中進行的,其中所遇到的問題和解決的辦法是現有基於母語語料的系統中所不曾遇到過的,特別是加工完以后的語料再反饋給單語語料加工系統作為習題庫進行學習,對進一步提高單語語料加工系統的准確率起到了積極的作用。

  一個語料庫建成以后,是否能得到充分的應用,其關鍵就在於該語料庫是否具備能夠滿足使用者要求的檢索功能。針對這一問題,課題組成員集思廣益,並與日本日立公司中央研究所通力合作,開發出了一套適合於中日對譯雙語平行語料庫特點,並能夠滿足中日語言研究者需要的檢索工具。

  為了適應中日雙語語料的特點,在檢索工具的功能上,要能夠做到對中日文語料進行雙向檢索,並能夠提取與檢索結果相對應的譯文語料,同時在計算機的同一個平台上實現中日文的同屏顯示。課題組充分考慮到windows平台的多語言技術特點,將本語料庫的主要開發平台選定為windows操作系統。同時,為了使語料庫具有廣泛的通用性和較強的兼容性,中文語料採用了UTF-8內碼存儲,日文語料採用了SHIFTJIS內碼存儲。這樣既可以適應各種版本的windows平台,並且經過簡單轉換以后又可以在其他平台(如UNIX、linux等)上使用,充分提高了語料庫的應用價值和學術價值,並為最終實現中日文同屏顯示和多功能檢索奠定了基礎。

  本語料庫提供的檢索工具主要是在windows2000和ie6.0上,利用數據庫技術開發研制的。在顯示檢索結果時針對不同文種使用不同字體,有效地解決了中日文同屏顯示的問題。而且,由於分別採用了中日兩國的國家工業標准代碼存儲語料,使得在不同語種檢索中出現的內碼沖突問題也得到了很好的解決,同時為語料庫數據的二次開發利用也創造了有利的條件。針對語料庫主要用於語言研究的特點,本語料庫提供的檢索工具,除具備一般語料庫所要求的簡單的字符串檢索功能以外,還具備了句型檢索、特定組合形態詞語檢索、使用頻率檢索、正則表達式檢索等適應各種語言研究復雜要求的檢索功能。其檢索速度也完全達到了實用的水平。

  二、邊研制、邊應用,研究成果始終在應用中驗証並提高

  正如課題組在立項報告中闡明的那樣,此次開發研制的《中日對譯語料庫(CDROM)》,其最終目的是為中日兩國語言研究服務。因此,對本語料庫的應用性提出了很高的要求。為了使完成以后的中日對譯語料庫能夠滿足中日兩國語言研究者的應用要求,在語料庫基本具備一定規模和相應的檢索功能以后,課題組成員以及其他一些相關研究人員就開始利用本語料庫進行各種語言研究的嘗試。並分別於2001年9月和2002年9月舉行了兩次大型的國際學術研討會。

  在2001年9月舉行的題為《中日對譯語料庫的研制與應用研究》的國際學術研討會上,來自中日兩國的研究學者交流和研討了中日對譯語料庫在漢語語言學研究、日語語言學研究、漢日對比語言學研究、自然語言處理研究等領域中的應用問題,這些研究廣泛涉及到了句法、詞匯、翻譯、詞典、歷時語言學等諸多方面,為課題組進一步完善中日對譯語料庫的研制提供了許多寶貴的數據。

  在2002年9月舉行的題為《語料庫應用研究的深化與拓展》的國際學術研討會上,來自中日韓三國的研究學者,圍繞“語料庫在語言學研究中的作用和局限性”、“語言學、信息處理研究所需要的語料庫”、“中日對譯語料庫的構建和現狀”、“語料庫信息的自動抽取及其在語言研究中的應用”、“口語語料庫的建設與應用”等課題,進行了廣泛、深入的探討。

  為了反映這些應用研究成果,課題組將開發過程中發表的階段性研究成果的論文以及利用中日對譯語料庫中期成果進行的應用性語言研究成果的論文匯集成冊,出版了《中日對譯語料庫的研制與應用研究論文集》。其中,利用中日對譯語料庫對中文的語氣助詞“吧”和日語助動詞“だろう”的對比研究、對中文的語氣助詞“呢”的研究以及對中日文完成時的對比研究等,都得出了未使用對譯語料庫進行研究所沒有得到的新的結論,進一步推動了中日兩國語言研究的深入發展,充分顯示了中日對譯語料庫在兩國語言研究中所能發揮的重要作用。

  當然,語料庫的應用也不僅僅限於單純的語言研究。如本語料庫還在清華大學的日文OCR開發項目,以及日本大學《日中古典文學今譯數據庫》項目等中日兩國的各類開發項目中得到了實際的應用,並收到了良好的社會效益。

  在自然語言處理領域,語料庫是構建語言數學模型的基礎。許多成功的機器翻譯系統的核心模型也都是在語料庫的基礎上建立起來的。在當今世界國際化進程不斷加快的今天,同處亞洲的中日兩國的關系越來越密切,一個滿足於中日兩國人民交往的中日機器翻譯系統,越來越成為一種迫切的需要。而中日對譯語料庫必將成為這種翻譯系統的基礎。同時,進一步加大各國人民之間的交流,從雙邊關系進一步發展為多邊關系也是世界發展的一個必然趨勢。在已經開發出的中日對譯雙語平行語料庫的基礎上,進一步研制開發中日韓對譯以及中日英對譯等三語或多語平行語料庫,將是課題組的下一個努力目標。
(責編:陳葉軍)