舊版網站入口

站內搜索

“中國民族語言語法標注文本及軟件平台”中期檢查報告

2014年02月26日18:19來源:全國哲學社會科學工作辦公室

一、研究進展情況

進展情況:本項目嚴格按照申請書中的預定計劃、課題設計進行研究,項目負責人和課題組成員按照規定負責或參加研究工作。在項目負責人和項目管理組的安排下,各個子課題承擔人紛紛到民族地區對所承擔語言進行深入的調查描寫。課題組成員黃行、於金枝、藍利國等到廣西、貴州等地調查了苗語、壯語﹔江荻、龍從軍、燕海雄、馬輝等到四川甘孜州、涼山州、西藏等地調查了藏語甘孜話、藏語拉薩話、彝語涼山話﹔王鋒、楊將領、陳國慶、鐘耀萍等到雲南等地調查了白語、獨龍語、佤語、納西語﹔潘立慧到海南調查了黎語﹔徐世璇到湖南湘西調查了土家語﹔斯欽朝克圖到內蒙等地調查了蒙古語巴林話﹔苗東霞到新疆調查了西部裕固語等。目前,各個子項目進展較為順利,多數已經編輯完成電子詞典,並整理完成了文本語料。已有9種語言(藏語拉薩話、藏語安多話、彝語涼山話、壯語武鳴話、黎語志強話、德昂語、哈尼語、獨龍語、土家語)在Toolbox軟件上完成了文本的語法標注工作。近期,課題組獨立開發的軟件平台也進入試用期,可望為后續語言標注提供軟件平台。其余6種語言(拉塢戎語、滇東北苗語、傈僳語、水語、白語、鄂倫春語)已經完成了前期工作,包括詞典的編輯和部分文本語料的記錄採集,還需要進一步到民族地區補充記錄民間故事等文本語料。

課題組於2011年3月份舉辦開題論証會1次(約50人,邀請了八位學術界權威專家),對本課題的意義、國內外研究狀況以及本課題的重點難點等問題進行了匯報和說明,並咨詢各位專家和參會人員的意見,統一了思路,明確了方法。課題執行過程中,先后舉辦軟件培訓會議7次(前后約37人次)以及課題中期檢查會議1次(約15人)等,各子課題負責人掌握了課題的總體思路,能夠熟練利用語法標注軟件進行工作。此外,課題組成員先后在玉溪師范學院、上海師范大學、復旦大學、中央民族大學、西藏民族學院、青海師范大學、北京大學、雲南民族大學等國內多所高校和研究單位進行學術訪問、交流和軟件培訓,推進了本課題學術創新,提高了課題成果的學術水平和影響力度,達到了技術共享的目的。

本課題從2010年立項以來,各子課題組經過兩年的田野調查和語法標注的實踐,積累了較為豐富的經驗,也發現了存在的問題。為此,課題組於2013年1月份舉辦了中國民族語言語法標注專題會議,專門探討民族語言標注過程中遇到的問題和積累的經驗。該次會議的成果已編纂成專著《中國民族語言語法標注研究》,即將於2013年10月份在民族出版社出版。

課題組支持和鼓勵子課題成員參加國內外相關的學術會議,先后參加的主要學術會議有“四川境內的藏緬語國際學術研討會“、“當代語言科學創新與發展國際研討會”、“第6屆國際彝緬語學術研討會”、“2012演化語言學國際研討會”、“第六界全國青年計算語言學會議”、“第11屆全國計算語言學學術會議”、“第2屆語言進化與遺傳進化國際會議”、“漢語方言類型研討會”等。

成果宣傳方面:課題組每年提交了工作簡報。其中2011年開題論証會內容在社科基金辦網站作為工作簡報發布,2012年向社科基金辦提交了“走向創新:中國語言資源挖掘的新領域和新方法”外宣稿和年度簡報。國家規劃辦(中宣部領導)在2012年社科基金重大招標項目的立項會議上,對本課題特別口頭提出表揚,對本課題的重大價值和意義以及課題的執行情況予以了肯定。《中國社會科學報》2012年9月19日第358期發表了《打造信息時代的學術利器》,著重指出本課題意義重大:“當代語言研究呼喚一種跨語言、跨方言的開放性研究,期待可供學科利用的多語種、多元化的真實文本資源。正是在這個意義上,利用專業軟件平台開展民族語言語法文本標注,不僅將拓展中國語言資源挖掘的新領域,而且將開辟新的研究范式,推進語言研究的深度發展”。在昆明舉辦的“2013國際語言學高級研習班”上,課題組向參會的國內外同行(包括美國少數民族語言研究院多位專家和中國台北靜宜大學專家)全面介紹了本課題的設計思想、研究思路、技術方法以及階段成果,得到了與會者的高度好評,擴大了課題的影響力。

二、研究成果情況

1、已完成9部專著及相應的數據庫(成果形式:專著/數據庫)

本課題截至目前已有9種語言完成了語法標注工作,在標注數據庫的基礎上已經撰寫成相應的書稿。每部書稿的基本內容包括:第一,該語言導論,介紹標注語言的背景和語音、詞匯、語法特征。第二,20余篇約5-10萬字語法標注真實文本(即標注熟語料,形態、語序、句法),並配以句對齊漢語譯文和全文譯文,多行對照總字數達20余萬字,是全書的主體。第三,全書文本詞匯索引和后記。每部專著約30萬字,分別為:

(1)、江 荻:《藏語拉薩話語法標注文本》,專著/數據庫,約30萬﹔

(2)、龍從軍:《藏語安多話語法標注文本》,專著/數據庫,約30萬﹔

(3)、燕海雄:《彝語涼山話語法標注文本》,專著/數據庫,約30萬﹔

(4)、楊將領:《獨龍語獨龍江話語法標注文本》,專著/數據庫,30萬﹔

(5)、尹巧雲:《德昂語語法標注文本》,專著/數據庫,約30萬﹔

(6)、藍利國:《壯語武鳴話語法標注文本》,專著/數據庫,約30萬﹔

(7)、潘立慧:《黎語志強話語法標注文本》,專著/數據庫,約30萬﹔

(8)、白碧波:《哈尼語語法標注文本》,專著/數據庫,約30萬﹔

(9)、徐世璇:《土家語語法標注文本》,專著/數據庫,約30萬﹔

2、中國民族語言語法標注平台(成果形式:軟件)

本項目前期語言採用Toolbox軟件操作。由於SIL的Toolbox有兩方面缺陷:計算機內碼層次太低,是基於DOS系統開發和改造的軟件,對多文字多字體操作缺乏兼容性,例如漢字處理仍然保留單八位底層編碼,造成半個漢字現象﹔同時,該軟件英文版本,功能設置重復,使用困難。為此,課題組開發出漢語版文本語法標注平台軟件,增加必要的輸入和輸出功能。這套軟件還包括分詞功能、詞典與文本互動功能、字體設置(包括英語、漢語、音標和其他民族文字)功能、隔行對照化整體移行功能等。目前,該軟件處於試用階段,正在完善隔行對照化、跳轉插詞、形態分析、深層形式和表層形式交互標注等功能。

我們相信這套文本處理軟件將是一套適合中國少數民族語言或無文字語言全面開展語法-詞典研究的優秀工具軟件,也是一種幫助研究者實現從文本編制語法詞典,又利用詞典自動標注文本的互動分析工具。

3、《中國民族語言語法標注集》(成果形式:數據庫)

《中國民族語言語法標注集》是本項研究的基礎工作。課題組建立三套完整的涵蓋了整個語法系統(詞法或形態、句法)的語法標注集。實際上,由於各語言語法類型差異較大,按照語法差異類別可以分為苗瑤侗台語、藏緬語、阿爾泰語(北方)三種類型,分別建立適合各類語言的標注集。這三套語法標注集由子課題組承擔,要求全部按照國際規范用英語命名和縮略語注解,另外添加中文術語翻譯。具體要求包括詞類標記、語法詞小類標記(如語氣詞、代詞等)、形態標記(如復數詞綴、時態詞綴等)、格標記、體貌標記、名詞化標記、助詞標記等。對於整套叢書,要求語法標記保持一致,每個語言都從子課題語法標注集選取標記,形成標准化和規范化的標注集,為中國民族語言研究奠定堅實的基礎。

4、《中國民族語言語法信息電子詞典》(成果形式:數據庫)

本課題每種語言的文本標注都需要建立交互用電子詞典。因此,詞典是本課題的一項重要研究成果。這些詞典具有以下內容:第一,雙語對照或多語對照(部分語言可以添加傳統文字,例如藏文、彝文、蒙古文等),即要求詞典包含民族語詞條,每個詞條用漢語(和/或英語)注釋,注釋詞條將作為文本自動標注的對照詞條﹔第二,詞典規模在5000條至數萬條。本項研究的語法標注軟件平台能為詞典與文本互動提供了交互功能,即任何時候都可以從文本修改增刪詞典的詞條,擴大詞條規模。第三,所有語言詞典都要添加語法標記,語法標記需要事先植入詞典,其中語法屬性包括每個詞的詞類,所有可能的語法詞(虛詞)的語法標記,人稱代詞等封閉詞類的標記等。

5、《中國民族語言語法標注研究》(成果形式:專著)

課題組於2013年1月份舉辦了中國民族語言語法標注專題會議,探討民族語言語法現象和語法標注過程中遇到的問題,交流經驗。在這次會議的基礎上,課題組成員積極撰寫研究文章。目前,書稿已經提交民族出版社,全書約30萬字,目前正在編輯印刷中。

 

序號

成果名稱

作者

成果形式

刊物名或出版社、刊發或出版時間

字數

轉引

1

中國民族語言語法標注研究

課題組

論著集

民族出版社

2013年10月

30萬

 

2

中國民族語言語法標注軟件平台

課題組

軟件

1.0試用版

1件

 

3

東亞語言語音詞匯數據檢索系統的設計與功能概述

江荻

論文

《雲南師范大學學報》2011年第2期

8000

 

4

國際音標輸入軟件的設計與實現

江荻,劉匯丹,吳兵

論文

《中文信息學報》2011第2期

9000

 

5

重音、重調和聲調

江荻

論文

《語言教學與研究》2011第4期

10000

 

6

藏語不規則動詞的信息標注方法

江荻

論文

《中國計算語言學研究前沿進展》,清華大學出版社,2011年

9000

 

7

藏語la don格標記新分類

龍從軍

論文

《博士論壇論文集》,中央民族大學出版社,2012年

9000

 

8

la don分類標准及識別標注研究

龍從軍

論文

《少數民族青年計算語言學論文集》,青海出版社,2012年

8000

 

9

簡析藏語中的指小后綴

龍從軍

論文

《民族所青年論壇論文集》,社會科學文獻出版社,2012年

7000

 

10

基於Unicode的藏文轉寫拉丁算法

康才畯,江荻

論文

《中國計算語言學研究前沿進展》,清華大學出版社,2011年

8000

 

11

藏文國際編碼的發展與技術應用

吳兵,江荻

論文

西南民族大學學報》2011年第8期

9000

 

12

彝語派生名詞構詞法研究

馬輝,江荻

論文

《民族語文》2012年第3期31-38頁

12000

 

13

有關計算機數據處理的記音規范建議

潘悟雲 江荻 麥耘

論文

民族語文2012年第5期3-7頁

8000

 

14

獨龍語個體量詞的產生和發展

楊將領

論文

《民族語文》 2011年第6期

9000

 

15

內爆音聲母探源

黃行

論文

《民族語文》2012年第2期

8000

 

16

相同語音范疇類型的跨語言比較研究

黃行

論文

《中國語言學報》第15期,商務印書館 2012年

12000

 

17

白語方言否定標記的特征與來源

張軍

論文

《大理學院學報》 2012年第7期

7000

 

18

藏語文本信息處理的幾個關鍵問題

龍從軍

論文

科研信息化技術與應用. 2012, 3(4): 51–58.

11000

 

19

論漢藏語言硬腭塞音的來源

燕海雄

論文

《民族語文》2011年第5期

8000

 

20

藏語判斷、存在動詞識別策略

李琳,龍從軍

論文

中文信息學報(已接受)

9000

 

21

基於詞位的藏文黏寫形式的切分

康才畯,龍從軍,江荻

論文

計算機工程與應用(已接受)

7000

 

22

藏語句法功能組塊的邊界識別

李琳,龍從軍,江荻

論文

第十二屆全國計算語言學會議,2013年10月10-12日,蘇州大學

7000

 

23

基於條件隨機場的藏文人名識別研究

康才俊,龍從軍,江荻

論文

“2013亞洲語言信息處理國際會議”,8月17日-19日,新疆師范大學

8000

 

24

壯語的領屬結構

藍利國

論文

漢語方言類型研討會暨第一屆方言語音與語法論壇,2012年8月7-9日,復旦大學

9000

 

25

藏東南地區藏緬語領屬結構現象

江荻

論文

漢語方言類型研討會暨第一屆方言語音與語法論壇,2012年8月7-9日,復旦大學

 

 

26

藏語拉薩話語法標注文本

江荻

專著

數據庫

專著排版中

30萬

 

27

藏語安多話語法標注文本

龍從軍

專著

數據庫

專著排版中

30萬

 

28

彝語涼山話語法標注文本

燕海雄,馬輝

專著

數據庫

專著排版中

30萬

 

29

獨龍語獨龍江話語法標注文本

楊將領

專著

數據庫

專著排版中

30萬

 

30

德昂語語法標注文本

尹巧雲,劉岩

專著

數據庫

專著排版中

30萬

 

31

壯語武鳴話語法標注文本

藍利國

專著

數據庫

專著排版中

30萬

 

32

黎語志強話語法標注文本

潘立慧

專著

數據庫

專著排版中

30萬

 

33

哈尼語語法標注文本

白碧波,許鮮明

專著

數據庫

專著排版中

30萬

 

34

土家語語法標注文本

徐世璇

專著

數據庫

專著排版中

30萬

 

(課題組供稿)

(責編:趙晶)