旧版网站入口

站内搜索

《汉语盲文语料库建设研究》中期检查报告

2016年03月10日15:33

一、 研究进展情况

① 研究计划总体执行情况及各子课题进展情况

1. 研究计划总体执行情况

汉语盲文语料库建设的理论研究按照预期计划进行,基本达到了预期目标,成果表达略有滞后。首先对汉语盲文语料库的理论地位和实际功能进行了深入研究,明确了汉语盲文语料库作为一种有鲜明特色的汉语语料库,将扩展汉语语言资源类型和功能,丰富汉语语言资源,具备服务于盲文教学、盲文本体研究、盲文信息化、盲文教材、盲文词典编写等多种功能。将建设目标确定为包含约1,000万方盲文的平衡性较高、代表性好,经过多层级信息标注,在盲文领域内通用性好,盲文-拼音-汉字对照的专用型语料库。由于标注可以选择性删除,如果将盲文及其相关标注删除,它可以变成一个较大规模的汉语语音标注语料库,也是特殊分词连写、特殊标调的汉语注音语料库。这也是对我国缺少汉语注音语料库的一个积极补充。

盲文语料库建设实践研究略有超前。盲文语料的采集研究和实践超额完成任务,截止2015年6月底,采集589个语篇,盲文320万方,完成了采集任务总量的32%,超额完成了2015年全年的采集计划。对全部盲文语料进行了拼音、汉字的自动标注,已经完成了460个语篇(约250万方)盲文及其对应的拼音、汉字的人工校对,其中270个语篇完成了三校,准确率达到99.9%以上,超额完成了2015年全年的对照标注计划。开始了语言信息标注试验,包括对盲文(原始语料已经分词)的词性标注、对汉语原文的重新分词及词性标注试验。按照预定计划建成了汉语盲文语料库小规模原型系统,汉语盲文语料库建设的路径已经从理论上打通,可以预期在下一步大规模建设中没有不可逾越的障碍。

2. 各子课题进展情况

2.1 盲文语料库建设规范制定与质量检查子课题研究进展

2.1.1 研究制定盲文语料库采集原则与采集规范

通过恰当的选材原则提高盲文语料库的语料平衡性和样本代表性。为了将汉语盲文语料库建设成通用性、平衡性较好的语料库,盲文语料应能够代表1953年现行盲文发布至今的实际使用全貌,语料样本的选取应具有广泛性和代表性。

语料样本的历时分布:

? 近期为主的原则(1995年国家标准颁布以后占70%左右)

? 早期为辅的原则(1953-1995年占30%左右)

? 早期不等比例递减原则

语料样本的共时分布:

? 正式盲文出版物为主的原则(占85%左右)

? 中国盲文出版社与上海盲文印刷厂等比例原则(约5:1)

? 图书、教材为主,期刊杂志为辅的原则(约9:1)

? 图书语料大类均衡性原则

? 非正式出版物(7%-8%)

? 盲校(试题、讲义、校本教材)为主的原则

? 高校、其他单位为辅的原则

? 区域代表性原则

? 理论完备服从于现实可能的原则

? 个人语料(7%-8%)

? 规范性筛选原则(作文、答卷、投稿、通信等他读文本)

? 区域代表性原则

? 年龄代表性原则

? 理论完备服从于现实可能的原则

根据开题专家建议,会同采集子课题组研究决定:由盲文出版编校人员按照出版的标准翻译,增补与期刊比例相当的报纸语料及网络新媒体语料。

2.1.2 研究制定盲文语料库标注规范

为盲文规范化、标准化、信息化及盲文基础研究和教学研究的需要,盲文语料库需要对盲文文本进行多层级的信息标注。一方面需要标注盲文的汉语拼音和对应汉字,一方面需要标注盲文的分词连写和标调方式,同时还需要标注词性。为提高语料库建设效率、提高成果的价值,参照已有的汉语语料库规范标准和成熟方法,根据盲文语料的特点研究提出了盲文语料库标注规范。

重点标注盲文字符和词汇层面的信息,增强盲文语料库的易用性。对盲文语料库的生语料、对照语料、标注语料以XML标记语言的方式置标和存储,参考XCES标准,制定盲文语料库XML语言信息项标记和格式规范。与普通汉语语料相同标注信息采用常规的标注符号,研究设计了特殊标注符号集,以满足盲文特殊的分词连写标注的需要。

盲文语料库标注原则:

? 遵循常规的Leech标注7原则

? 简化原则

? 实用性原则

? 针对性原则(分词连写、标调)

汉语盲文与明眼文在语义层面是一致的,盲文语料库不需要进行语义标注。盲文触觉信息标注的重点是组合缺陷符号标注。单方缺陷符号,可以由检索表直接检出、统计,而不需要一一标注。

2.1.3 进行采集、标注质量检查

研究制定了盲文语料库建设质量检查方法,包括标准符合性、语料正确率、标注正确率、标注一致性等方面。采用计算机自动全面检查与人工抽查相结合,以计算机检查为主的方法,并且把对上一道工序的检查纳入下一道工序的研究内容。在语料库建设网站开辟了“问题讨论与交流”专区,人人都是质量检查员。对采集环节中汉语原文图片顺序、盲文样本方数超标及不达标问题进行了监督检查,提请采集组及时进行修改。对计算机拼音-汉字自动标注进行检查和人工校对,对提出的问题集中修改软件。对人工校对错误率进行全面普查,错误率在0.5%以下的由检查员修改,错误率在0.5%以上的发回,由校对员重新校对。通过了第一次检查的,再随机抽取30%进行二次抽查。

语言信息、触觉信息标注刚开始试验,没有检查。

2.2盲文语料调查和语料采集子课题研究进展

采集组成员主要分布在北京、上海两家盲文出版单位,首先对各自单位的盲文出版物情况进行了调查。盲文语料库以新中国1953年正式颁布现行盲文以来所有的盲文语料为研究总体,以正式出版物为主,非出版物、个人语料为辅。由于现行盲文分词连写和标调规则自由度大,建立了严格的采集规范。盲文语料的采集面要广,样本数要多,并且要适度增大样本的容量。根据选材原则,采用分层随机抽样方法收集连续盲文文本片段,出版物语料占总语料的85%左右,每个语篇样本采集5,000±500方,每个出版物最大采集3个语篇。非正式出版物和个人语料占总语料的15%左右,每个语篇样本采集2,000±200方,每个人最多采集3个语篇。

根据语料采集原则研究制定了盲文出版物的采集方法,本着先易后难的原则,先采集中国盲文出版社、上海盲文印刷厂1995年以后有电子版的盲文语料及其汉语原文。研究了试点采集的方法与步骤,进行了采集软件试验。对电子版盲文语料直接采集上传到盲文语料库建设专用网站。由于盲文出版单位没有汉语原文电子版,纸质版上有许多盲文编校做过的标示,严重影响识别准确率。研究决定放弃OCR采集汉语原文电子版语料。通过扫描的方式将汉语原文语料以图片形式上传,通过采集软件与对应的盲文语料匹配。汉语原文电子语料通过计算机自动标注和根据原文图片的人工校对获得。

开始研究个人语料和无电子版盲文语料的采集。无电子版的盲文语料以图片方式采集后,进行数字化处理,人工校对。检查合格后,盲文图文对齐保存到语料库。开始调研非正式出版物盲文语料、个人盲文语料的情况。已经收集北京联合大学特殊教育学院、长春大学特殊教育学院2014、2015届单考单招盲文试卷(作文)266份(重复参加考试的尚未剔除),收集《盲人月刊》盲文投稿46件。待纸质数字化能够实用后,再采集到盲文语料库网站。

2.3 盲文语料库标注加工子课题研究进展

研究制定了盲文语料库标注方案,盲文语料库要进行三类标注,即:盲文-拼音-汉字对照标注、盲文触觉信息标注、语言信息标注。语言信息标注的重点是盲文分词连写单位及其语法属性。汉语拼音是盲文和明眼文的中介层,拼音特别是声调信息是标注重点。盲文语料经标注后最终将生成9行对照文本。

1)盲文原文,盲文语料库采用盲文字符Unicode国际标准字符集(U2800—U28FF)作为盲文字符规范,以提高语料库的跨计算机、跨平台兼容性,盲文语料存在不同编码的情况,需要将语料样本全部转换成Unicode盲文字符。

2)触觉信息标注,主要标注语料的触觉特征,特别是组合缺陷符号,方便用户提取例文。

3)盲文拼音标注,标注盲文点字对应的汉语拼音。

4)盲文词汇标注,标注盲文对应的汉字内容,即盲文的连写单位和特殊的分写单位。

5)盲文词性标注,由于盲文分词连写中存在许多非词单位,其词性标注需要制定特殊的规范,词性标注的重点是客观描写盲文连写单位的构词特征。

6)汉语原文/译文,根据盲文标注出对应的汉语原文,有原文的根据原文图片进行人工校对,没有原文的根据语境进行人工校对。

7)汉语拼音标注,根据汉语原文/译文进行拼音标注,根据汉语拼音正词法基本规则进行声调标注。

8)汉语分词标注,根据汉语拼音正词法基本规则对原文/译文进行分词标注。

9)汉语词性标注,对汉语标注分词单位进行常规的词性标注。

课题组目前对采集的盲文语料已经批量完成了第3、6层的标注,其他层的标注也已开始实验,全部标注采用机注人校的方式进行。由于盲文基本未标调,计算机汉字标注错误多,需要大量的人工校对。目前,汉字标注人工校对的主力是北京联合大学特殊教育学院、潍坊学院特殊教育的23名学生,拼音校对或盲文疑难问题由上述学院的4位盲文教师和中国盲文出版社3位盲文编校(明眼人)校对。

经质量检查,拼音及汉字错误率低于0.1%的语篇为合格语篇,可以进入下一步标注工序。

2.4 盲文语料库建设计算机辅助软件研发子课题研究进展

盲文语料库建设既需要利用通用的信息技术手段,还需要研发盲文相关的专用辅助软件。第一类是语料库采集辅助软件,主要为盲文语料采集、录入、存储服务,如盲文电子化资料的数据采集软件、纸质盲文语料的数据采集软件等。第二类是语料库标注加工辅助软件,主要为语料库汉盲对照标注、语言信息标注、触觉信息标注提供辅助,如汉盲多行平行对照标注辅助软件、语言信息标注及人工校对工具软件等。由于盲文点字之间的区分度小,标注时易出错,辅助软件还要具备错误提示功能,以提高标注效率。

建设了汉语盲文语料库建设专用网站,进行元数据采集及管理,盲文语料与对应汉语原文语料的采集、存储、匹配等。从中国盲文出版社专用封闭的BWord文档、上海盲校PRT盲文文件活化出盲文电子文本,使僵化的6点盲文离开专用软件能够生存,使课题组有了对汉语盲文信息化处理的基础。

设计开发了盲文-拼音-汉字自动对齐标注软件和人工校对辅助软件。将汉语拼音从计算机后台拉到显示屏,突出了汉语拼音在汉语盲文中应有的本源地位,架起了盲文与汉字沟通的桥梁。本软件对盲文自动拼音标注准确率达到到99%以上。对盲文标志符号、指示符号进行错误提示。提供疑问、偏误标注按钮,记录错误有利于训练标注软件,记录疑问有利于核查。提供查找盲文—替换汉字功能,选中拼音,悬浮备选字词,减少键盘输入,提高人工校对效率。利用高准确率的拼音行,盲文不熟练的学生也可进行盲-汉校对。

语料库管理软件和盲文语料语言信息标注软件正在研制中。纸质盲文数字化处理也正在研制中。

② 调查研究及学术交流情况(调研数据整理运用、文献资料收集整理、学术会议、学术交流、国际合作等)

进行盲文正式出版物语料调查。盲文出版物的丰富性虽然不可与汉语同日而语,但是也有60年的积淀,有曲折复杂的历史变化。我国对汉语盲文出版物的学术研究很少。摸清盲文出版物的情况,掌握第一手资料,进而提高出盲文版物语料采集的代表性。

对中国盲文出版社1953年至2014年5162种盲文读物(包括图书和期刊),进行整理统计,各类读物比例为:中国文学15.2%、医学16.5%、医学教材5.8%、文教科体11.7%、教材教辅12.2%、政治7.6%、历史地理5.4%、马恩列斯毛邓著作5.1%;艺术3.8%、外国文学3.6%、法律3.4%、哲学2.9%、语言文字1.9%、经济类2.4%、综合性读物2.5%。医学和医学教材所占比例最大,这是服务盲人从事按摩推拿职业需求的结果。除了教材教辅外,将其余归类整理为:文学、文综、医学、理综、其他五大类,有利于分类采集。由于中国盲文出版社藏馆较多,中间搬过家,存在馆藏目录信息不准的情况,有些书目难以精准查找。可以利用版本图书馆作为救急,但是,初步查询后,发现版本图书馆并没有真正保有每个盲文版本的图书。历史较长的盲校图书馆还可以做最后的补充。

上海盲校盲文印刷厂从1959年9 月开始为外校制作盲文教材。 1986年以来,为全国盲校印制盲文中小学各年级各学科(体育、美工除外)教材以及部分盲文课外读物,该厂印制的盲文教材均以人教版为蓝本。1995年开始制作盲人普通高中盲文教材。义务教育盲文教材为上海盲校盲文印刷厂专属,包括语文、数学的随班就读用书。义务教育以上阶段的教材和各学段的课外读物、练习册、词语手册等,北京、上海两家出版社都有制作。

上海盲校盲文印刷厂生产的盲文教材样本及其电子版(1995年以后)都保存完好。但是,其盲文电子版软件的PRT格式不寻常,整个文件像一块雕版,不可选中其中的部分,无法复制粘贴到另外的文档。需要破译其“密码”,开发专门的PRT读取工具,才能将要采集的盲文电子版上传到盲文语料库。

进行非正式出版物及个人盲文语料调查。非正式出版物是指经过他人校对并且机器刻印的盲文资料,主要包括盲校制作的试卷、讲义、翻印的教材等。这些语料能够反映盲文在实际使用中的情况,可以研究非专业出版人员使用汉语盲文的情况。通过调查摸清持有非正式出版物的盲文语料单位,语料的类型、数量、质量等。在可能的程度上提高非正式出版物盲文语料的代表性。

个人语料是指盲人写给他人读的、未经别人校对的盲文材料,例如:答卷、作文,投稿、通信等。通过个人语料可以研究盲人分词连写、标调等情况,考察不同方言区盲人盲文标调的情况。盲人自读的盲文资料往往包含个人的简记符号,不宜收录到盲文语料库,不在调查范围。

社会成年盲人语料的调查是难点,已经委托中国盲人协会进行盲人个人保有盲文语料情况调查。进行了北京联合大学、长春大学2所特殊教育学院盲文作文试卷调查,并收集了近二年纸质版盲文语料。开始了初等教育盲校制作盲文语料数量、种类及其电子版原文保有情况调查,数据还没有反馈回来。

③ 成果宣传推介情况(成果发布会、《工作简报》报送情况、国家社科基金专刊投稿及采用情况等)

首次大规模宣传是与开题论证会同时进行的,开题会的同时进行了新时期首都特殊教育发展高层论坛,扩大了课题开题的影响力。许多传统媒体和新媒体围绕我国将首次建设汉语语料库进行了大量的报道,给予了高度评价。光明日报、中国教育报、现代教育报及北京地方报纸等传统媒体进行了报道,新华网、光明网、凤凰网、千龙网、国图空间、国家手语和盲文研究中心、中国教育科学院及江苏、河北、吉林等地方社科网站也进行了报导。在北京联合大学学报(社科版)等进行了宣传。

在中国残疾人联合会、中国盲人协会、国家手语和盲文研究中心相关会议、网站进行了研究过程的宣传和报道。在第八届语言文字应用研讨会、第十届中国信息无障碍论坛、全国盲人协会2014、2015年会上进行了成果宣传和推介。通过国家、省、自治区盲协主席,向广大盲人宣传国家对盲人文化基础建设、盲人语言文字权益平等的高度重视。

2014年报送《工作简报》一份、核心成果一份(《建设汉语盲文语料库的意义与价值》5000字)。2014年10月30日向国家社科基金专刊投稿一份(《建设汉语盲文语料库 推动盲文基础建设》2000字)未被采用。

④ 研究中存在的主要问题、改进措施,研究心得、意见建议

由于我国盲文研究力量薄弱,全国仅有我们这一个团队,而这个团队承担国家社科基金重大项目很感力量不足,特别是理论研究方面。由于没有博士点,人才培养方面很困难,缺少一支骨干力量。北京联合大学特殊教育学院计划2015年招生特殊教育语言学盲文方向硕士1人,教育部语言文字应用研究所的硕士生研究方向向盲文靠拢。北京联合大学特殊教育学院计划新进半个计算语言学博士专职进课题组,计划动员中国教育科学院特殊教育研究室、南京特殊教育师范学院有盲文研究基础的专家为本项目研究贡献力量。

近年来,国家社科基金连续部署了“基于汉语和部分少数民族语言的手语语料库建设研究”和“汉语盲文语料库建设研究”2个重大项目。这是国家对残疾人语言基础工程高度重视,是对弱势群体语言文字权益平等的高度重视。课题组承担这样艰巨而光荣的任务,深感责任重大、使命光荣、压力无限,课题组成员决心勤奋努力、扎实工作,无愧于使命,无憾于自心。

盲文语料库不仅建成以后可以为盲文研究服务,在建设初期已经能够为盲文标调提供实证数据的基础,建设过程也是盲文研究深入的过程,并且与传统研究的维度可以互补。

这些年从事盲文研究,动力来自国家的重托和盲人的感动。从2004年第一个国家社科基金项目,我们的团队和盲人群众一直互相感动着。本重大项目立项以来,首席专家和许多核心成员的身体健康指数、心理幸福指数大幅度下降。但是,为了弱势群体语言文字权益平等、为了盲人文化的发展大业,为了国家的重托和盲人的期望,誓将无怨无悔地把冷板凳坐到底。

在没有管理国家重大项目经验、没有研究重大项目学术氛围的单位,没有博士点的学科设立重大项目确实应慎之又慎。大家都有为国出力的良好愿望,重大项目是无尚光荣的任务,同时也可能是超限的压力。

二、 研究成果情况

三、 盲文语料库建设工作网站

盲文语料库建设网站基本架构及研究资源

元数据采集界面

盲-汉语料采集上传过程

盲文—拼音—汉语三重对齐信息化标注

盲文—拼音—汉语语料人工校对

问题讨论与交流专区

通过汉语盲文语料库建设专用网站,可以跨时空作业。实现了网络与单机的互通,可以利用全国各地的盲文人才资源,满足不同空间课题组成员同时、异时研究盲文语料库建设的需要,开拓了课题研究的时间与空间。

2.《汉语盲文语料库建设方案》(论文)

本论文阐明了现行盲文的文字地位。现行盲文在词汇层面与汉语拼音有显著差别,它的分词连写和标调(技术方案)与汉语拼音有本质的不同,现行盲文还具有了流通性和法定性,参照周有光先生的观点,现行盲文应该说是一种(拼音)文字。它既有别于汉语拼音,又与汉语拼音有密切的联系。可以认为现行盲文与汉语拼音是同源异构体。作为记录汉语的汉字,现行盲文与它的距离很远,他们分属性质不同的技术方案。

《汉语盲文语料库建设方案》从现行盲文分词连写和标调方面的特点论述了建设专门汉语盲文语料库的意义与价值。论证了盲文语料库应该是具有较大规模(约1000万方盲文)、经过语言信息和触觉信息多层级对照标注的语料库。该语料库的建设可促进对我国盲文发展全貌的把握和了解,促进盲文基础研究、信息化、规范化研究,助力盲文信息无障碍水平提升。论证了语料库选材原则、样本采集、语料标注规范、标注方案、辅助软件研发计划等关键问题,详细说明了盲文语料库建设的主要内容和初步方案,并确定了攻克盲文语料库建设重点和难点问题的路径和方法。

3.《汉语盲文的升级之路》(论文)

从我国盲文坎坷的发展历程探讨了盲文语料库在汉语盲文未来升级的里程碑意义,介绍了盲文语料库的功能与作用。通过对盲文语料库中的语料进行观察、比较,在统计分析的基础上寻找汉语盲文使用的规律,并对先前盲文规范的执行情况进行验证或总结。通过盲文语料库可以直接对盲人实际读写的盲文语料进行客观的定量研究,全面了解现行盲文方案颁行60年来我国盲人语言生活状况。通过盲文语料库提供的符号、词汇、语音等大量的真实语料及统计数据,可以全面了解验证盲文规则的实际执行情况,分析客观存在的差异,作为修订、构建新规则的基础。盲文语料库可为升级盲文规则,修订使用规范提供坚实的基础数据平台,面向未来的汉语盲文升级可以驶入快车道。

作为关键性基础资源,盲文语料库的建设将极大地助力盲文信息化,将为盲文信息化的研究提供高质量训练数据和测试数据,可以促进面向盲文的语言科技的进步,让盲人有更多获得信息的渠道、沟通方式,分享社会科技进步成果。盲文语料库能够很好地服务于盲文教学,提升盲文出版的规范化水平,为盲文词典编纂、盲文教材编写服务。盲文语料库可以引领盲文研究从抽象转向实际使用,这将有力提升我国盲文基础研究的水平,并且可以占领国际盲文研究的制高点。

本文受到了中国残疾人联合会领导的高度重视。

4.《基于盲文语料库的现行盲文标调研究新进展》(论文)

由于盲文研究难度大,加之我国盲文研究力量薄弱,汉语盲文在很多领域缺乏实证性基础数据,最迫切需要的是盲文出版物标调的实证数据。文献中唯一能够找到的数据是“所有出版物中平均大约只有5%的音节标了调”,找不到得出这个数据的统计样本、方法、过程。这个数据的科学性不得而知。没有盲文语料库,这成了无法验证的数据。几十年来,我国盲文研究领域一直渴望现行盲文出版物标调率的实证数据。这是现行盲文标调研究的基础,是隐性标调研究、修订标调规则、制定国家通用盲文标准的基础。没有科学的基础数据,标调问题的其他研究就成了空中楼阁。

鉴于本次较大规模实证研究结果的平均标调率为11.35%,与以往结果差异很大。因此,有必要重新评估盲生的猜谜问题,可以尝试用本研究成果解释盲校教师、学生对现行盲文猜谜现象的观点与专家迥异的原因。基于实证标调数据,展望未来现行盲文标调规则修订,标调率上浮空间比原先的估计要大得多,篇幅增加的幅度小。未来国家通用盲文标准标调率的上升,对盲校师生的冲击比原先估计的更小,新旧衔接的跨度更小,更容易适应和接受。

由于盲文出版物的特殊性,传统的人工方式难以对现行盲文出版物标调进行大规模的实证统计。正在建设的汉语盲文语料库发挥了重要作用,新世纪以来的盲文语料已经有足够的代表性,能够提供大量的第一手计算机统计数据,为现行盲文标调实证研究提供了可能。这是我国首次以语料库为基础的盲文实证研究,有盲文专家感慨盲文语料库:“牛刀小试,大显威力”。 

(责编:李叶)