旧版网站入口

站内搜索

“中国民族语言语法标注文本及软件平台”中期检查报告

2014年02月26日18:19来源:全国哲学社会科学工作办公室

一、研究进展情况

进展情况:本项目严格按照申请书中的预定计划、课题设计进行研究,项目负责人和课题组成员按照规定负责或参加研究工作。在项目负责人和项目管理组的安排下,各个子课题承担人纷纷到民族地区对所承担语言进行深入的调查描写。课题组成员黄行、于金枝、蓝利国等到广西、贵州等地调查了苗语、壮语;江荻、龙从军、燕海雄、马辉等到四川甘孜州、凉山州、西藏等地调查了藏语甘孜话、藏语拉萨话、彝语凉山话;王锋、杨将领、陈国庆、钟耀萍等到云南等地调查了白语、独龙语、佤语、纳西语;潘立慧到海南调查了黎语;徐世璇到湖南湘西调查了土家语;斯钦朝克图到内蒙等地调查了蒙古语巴林话;苗东霞到新疆调查了西部裕固语等。目前,各个子项目进展较为顺利,多数已经编辑完成电子词典,并整理完成了文本语料。已有9种语言(藏语拉萨话、藏语安多话、彝语凉山话、壮语武鸣话、黎语志强话、德昂语、哈尼语、独龙语、土家语)在Toolbox软件上完成了文本的语法标注工作。近期,课题组独立开发的软件平台也进入试用期,可望为后续语言标注提供软件平台。其余6种语言(拉坞戎语、滇东北苗语、傈僳语、水语、白语、鄂伦春语)已经完成了前期工作,包括词典的编辑和部分文本语料的记录采集,还需要进一步到民族地区补充记录民间故事等文本语料。

课题组于2011年3月份举办开题论证会1次(约50人,邀请了八位学术界权威专家),对本课题的意义、国内外研究状况以及本课题的重点难点等问题进行了汇报和说明,并咨询各位专家和参会人员的意见,统一了思路,明确了方法。课题执行过程中,先后举办软件培训会议7次(前后约37人次)以及课题中期检查会议1次(约15人)等,各子课题负责人掌握了课题的总体思路,能够熟练利用语法标注软件进行工作。此外,课题组成员先后在玉溪师范学院、上海师范大学、复旦大学、中央民族大学、西藏民族学院、青海师范大学、北京大学、云南民族大学等国内多所高校和研究单位进行学术访问、交流和软件培训,推进了本课题学术创新,提高了课题成果的学术水平和影响力度,达到了技术共享的目的。

本课题从2010年立项以来,各子课题组经过两年的田野调查和语法标注的实践,积累了较为丰富的经验,也发现了存在的问题。为此,课题组于2013年1月份举办了中国民族语言语法标注专题会议,专门探讨民族语言标注过程中遇到的问题和积累的经验。该次会议的成果已编纂成专著《中国民族语言语法标注研究》,即将于2013年10月份在民族出版社出版。

课题组支持和鼓励子课题成员参加国内外相关的学术会议,先后参加的主要学术会议有“四川境内的藏缅语国际学术研讨会“、“当代语言科学创新与发展国际研讨会”、“第6届国际彝缅语学术研讨会”、“2012演化语言学国际研讨会”、“第六界全国青年计算语言学会议”、“第11届全国计算语言学学术会议”、“第2届语言进化与遗传进化国际会议”、“汉语方言类型研讨会”等。

成果宣传方面:课题组每年提交了工作简报。其中2011年开题论证会内容在社科基金办网站作为工作简报发布,2012年向社科基金办提交了“走向创新:中国语言资源挖掘的新领域和新方法”外宣稿和年度简报。国家规划办(中宣部领导)在2012年社科基金重大招标项目的立项会议上,对本课题特别口头提出表扬,对本课题的重大价值和意义以及课题的执行情况予以了肯定。《中国社会科学报》2012年9月19日第358期发表了《打造信息时代的学术利器》,着重指出本课题意义重大:“当代语言研究呼唤一种跨语言、跨方言的开放性研究,期待可供学科利用的多语种、多元化的真实文本资源。正是在这个意义上,利用专业软件平台开展民族语言语法文本标注,不仅将拓展中国语言资源挖掘的新领域,而且将开辟新的研究范式,推进语言研究的深度发展”。在昆明举办的“2013国际语言学高级研习班”上,课题组向参会的国内外同行(包括美国少数民族语言研究院多位专家和中国台北静宜大学专家)全面介绍了本课题的设计思想、研究思路、技术方法以及阶段成果,得到了与会者的高度好评,扩大了课题的影响力。

二、研究成果情况

1、已完成9部专著及相应的数据库(成果形式:专著/数据库)

本课题截至目前已有9种语言完成了语法标注工作,在标注数据库的基础上已经撰写成相应的书稿。每部书稿的基本内容包括:第一,该语言导论,介绍标注语言的背景和语音、词汇、语法特征。第二,20余篇约5-10万字语法标注真实文本(即标注熟语料,形态、语序、句法),并配以句对齐汉语译文和全文译文,多行对照总字数达20余万字,是全书的主体。第三,全书文本词汇索引和后记。每部专著约30万字,分别为:

(1)、江 荻:《藏语拉萨话语法标注文本》,专著/数据库,约30万;

(2)、龙从军:《藏语安多话语法标注文本》,专著/数据库,约30万;

(3)、燕海雄:《彝语凉山话语法标注文本》,专著/数据库,约30万;

(4)、杨将领:《独龙语独龙江话语法标注文本》,专著/数据库,30万;

(5)、尹巧云:《德昂语语法标注文本》,专著/数据库,约30万;

(6)、蓝利国:《壮语武鸣话语法标注文本》,专著/数据库,约30万;

(7)、潘立慧:《黎语志强话语法标注文本》,专著/数据库,约30万;

(8)、白碧波:《哈尼语语法标注文本》,专著/数据库,约30万;

(9)、徐世璇:《土家语语法标注文本》,专著/数据库,约30万;

2、中国民族语言语法标注平台(成果形式:软件)

本项目前期语言采用Toolbox软件操作。由于SIL的Toolbox有两方面缺陷:计算机内码层次太低,是基于DOS系统开发和改造的软件,对多文字多字体操作缺乏兼容性,例如汉字处理仍然保留单八位底层编码,造成半个汉字现象;同时,该软件英文版本,功能设置重复,使用困难。为此,课题组开发出汉语版文本语法标注平台软件,增加必要的输入和输出功能。这套软件还包括分词功能、词典与文本互动功能、字体设置(包括英语、汉语、音标和其他民族文字)功能、隔行对照化整体移行功能等。目前,该软件处于试用阶段,正在完善隔行对照化、跳转插词、形态分析、深层形式和表层形式交互标注等功能。

我们相信这套文本处理软件将是一套适合中国少数民族语言或无文字语言全面开展语法-词典研究的优秀工具软件,也是一种帮助研究者实现从文本编制语法词典,又利用词典自动标注文本的互动分析工具。

3、《中国民族语言语法标注集》(成果形式:数据库)

《中国民族语言语法标注集》是本项研究的基础工作。课题组建立三套完整的涵盖了整个语法系统(词法或形态、句法)的语法标注集。实际上,由于各语言语法类型差异较大,按照语法差异类别可以分为苗瑶侗台语、藏缅语、阿尔泰语(北方)三种类型,分别建立适合各类语言的标注集。这三套语法标注集由子课题组承担,要求全部按照国际规范用英语命名和缩略语注解,另外添加中文术语翻译。具体要求包括词类标记、语法词小类标记(如语气词、代词等)、形态标记(如复数词缀、时态词缀等)、格标记、体貌标记、名词化标记、助词标记等。对于整套丛书,要求语法标记保持一致,每个语言都从子课题语法标注集选取标记,形成标准化和规范化的标注集,为中国民族语言研究奠定坚实的基础。

4、《中国民族语言语法信息电子词典》(成果形式:数据库)

本课题每种语言的文本标注都需要建立交互用电子词典。因此,词典是本课题的一项重要研究成果。这些词典具有以下内容:第一,双语对照或多语对照(部分语言可以添加传统文字,例如藏文、彝文、蒙古文等),即要求词典包含民族语词条,每个词条用汉语(和/或英语)注释,注释词条将作为文本自动标注的对照词条;第二,词典规模在5000条至数万条。本项研究的语法标注软件平台能为词典与文本互动提供了交互功能,即任何时候都可以从文本修改增删词典的词条,扩大词条规模。第三,所有语言词典都要添加语法标记,语法标记需要事先植入词典,其中语法属性包括每个词的词类,所有可能的语法词(虚词)的语法标记,人称代词等封闭词类的标记等。

5、《中国民族语言语法标注研究》(成果形式:专著)

课题组于2013年1月份举办了中国民族语言语法标注专题会议,探讨民族语言语法现象和语法标注过程中遇到的问题,交流经验。在这次会议的基础上,课题组成员积极撰写研究文章。目前,书稿已经提交民族出版社,全书约30万字,目前正在编辑印刷中。

 

序号

成果名称

作者

成果形式

刊物名或出版社、刊发或出版时间

字数

转引

1

中国民族语言语法标注研究

课题组

论著集

民族出版社

2013年10月

30万

 

2

中国民族语言语法标注软件平台

课题组

软件

1.0试用版

1件

 

3

东亚语言语音词汇数据检索系统的设计与功能概述

江荻

论文

《云南师范大学学报》2011年第2期

8000

 

4

国际音标输入软件的设计与实现

江荻,刘汇丹,吴兵

论文

《中文信息学报》2011第2期

9000

 

5

重音、重调和声调

江荻

论文

《语言教学与研究》2011第4期

10000

 

6

藏语不规则动词的信息标注方法

江荻

论文

《中国计算语言学研究前沿进展》,清华大学出版社,2011年

9000

 

7

藏语la don格标记新分类

龙从军

论文

《博士论坛论文集》,中央民族大学出版社,2012年

9000

 

8

la don分类标准及识别标注研究

龙从军

论文

《少数民族青年计算语言学论文集》,青海出版社,2012年

8000

 

9

简析藏语中的指小后缀

龙从军

论文

《民族所青年论坛论文集》,社会科学文献出版社,2012年

7000

 

10

基于Unicode的藏文转写拉丁算法

康才畯,江荻

论文

《中国计算语言学研究前沿进展》,清华大学出版社,2011年

8000

 

11

藏文国际编码的发展与技术应用

吴兵,江荻

论文

西南民族大学学报》2011年第8期

9000

 

12

彝语派生名词构词法研究

马辉,江荻

论文

《民族语文》2012年第3期31-38页

12000

 

13

有关计算机数据处理的记音规范建议

潘悟云 江荻 麦耘

论文

民族语文2012年第5期3-7页

8000

 

14

独龙语个体量词的产生和发展

杨将领

论文

《民族语文》 2011年第6期

9000

 

15

内爆音声母探源

黄行

论文

《民族语文》2012年第2期

8000

 

16

相同语音范畴类型的跨语言比较研究

黄行

论文

《中国语言学报》第15期,商务印书馆 2012年

12000

 

17

白语方言否定标记的特征与来源

张军

论文

《大理学院学报》 2012年第7期

7000

 

18

藏语文本信息处理的几个关键问题

龙从军

论文

科研信息化技术与应用. 2012, 3(4): 51–58.

11000

 

19

论汉藏语言硬腭塞音的来源

燕海雄

论文

《民族语文》2011年第5期

8000

 

20

藏语判断、存在动词识别策略

李琳,龙从军

论文

中文信息学报(已接受)

9000

 

21

基于词位的藏文黏写形式的切分

康才畯,龙从军,江荻

论文

计算机工程与应用(已接受)

7000

 

22

藏语句法功能组块的边界识别

李琳,龙从军,江荻

论文

第十二届全国计算语言学会议,2013年10月10-12日,苏州大学

7000

 

23

基于条件随机场的藏文人名识别研究

康才俊,龙从军,江荻

论文

“2013亚洲语言信息处理国际会议”,8月17日-19日,新疆师范大学

8000

 

24

壮语的领属结构

蓝利国

论文

汉语方言类型研讨会暨第一届方言语音与语法论坛,2012年8月7-9日,复旦大学

9000

 

25

藏东南地区藏缅语领属结构现象

江荻

论文

汉语方言类型研讨会暨第一届方言语音与语法论坛,2012年8月7-9日,复旦大学

 

 

26

藏语拉萨话语法标注文本

江荻

专著

数据库

专著排版中

30万

 

27

藏语安多话语法标注文本

龙从军

专著

数据库

专著排版中

30万

 

28

彝语凉山话语法标注文本

燕海雄,马辉

专著

数据库

专著排版中

30万

 

29

独龙语独龙江话语法标注文本

杨将领

专著

数据库

专著排版中

30万

 

30

德昂语语法标注文本

尹巧云,刘岩

专著

数据库

专著排版中

30万

 

31

壮语武鸣话语法标注文本

蓝利国

专著

数据库

专著排版中

30万

 

32

黎语志强话语法标注文本

潘立慧

专著

数据库

专著排版中

30万

 

33

哈尼语语法标注文本

白碧波,许鲜明

专著

数据库

专著排版中

30万

 

34

土家语语法标注文本

徐世璇

专著

数据库

专著排版中

30万

 

(课题组供稿)

(责编:赵晶)