旧版网站入口

站内搜索

中国少数民族语言语音声学参数统一平台建设研究中期检查报告

2019年11月18日13:41来源:全国哲学社会科学工作办公室

一、研究进展情况

主要内容:

一、研究计划总体执行情况及各子课题进展情况

本项目研究计划:立足中国少数民族语言特点,瞄准国际前沿,利用目前国内外通用的声学分析软件和仪器设备,用语言学、语音学、声学、计算机科学和统计学的理论方法,对我国少数民族语言语音进行系统地声学研究的基础上,建立基于近二十种少数民族语言方言土语(蒙古语、布里亚特语、达斡尔语、土族语、东乡语、保安语、东部裕固语、维吾尔语、哈萨克语、图瓦语、鄂温克语、鄂伦春语、锡伯语、彝语、藏语和蒙古语方言土语包括蒙古国喀尔喀方言)的“中国少数民族语言语音声学参数统一平台”(简称“统一平台”),为进一步开展我国少数民族语言方言土语语音声学描写研究和比较研究打好基础。

本项目自立项以来,总体上按原计划实施。到目前为止

? 完成了蒙古、维吾尔、哈萨克、鄂温克、达斡尔、土族、东部裕固、东乡、等8种语言的索引库、声样库、音段标注库、声学参数标注库和声学参数库,并搭建了基于上述语言的“中国少数民族语言语音声学参数统一平台”(简称“统一平台”)。

? 建立了保安、布里亚特、图瓦、锡伯、彝语、藏等语言的索引库、声样库。

? 正在研制卫拉特方言的乌日吐木仁话、巴尔虎布里亚特方言的巴尔虎话、内蒙古方言的科尔沁话、巴林话的索引库、声样库、音段标注库和声学参数标注库。

? 研制了“声学参数自动标注/提取软件”和与之相关的诸多应用性小程序。

? 重要阶段性成果之一: “中国少数民族语言语音声学参数统一平台”框架

实验语音学为语言学这门传统的人文学科增加了实验科学的新方法,为语言分析提供了新的研究视角和内容,为有声语言资源库建设提供了技术保障。语音声学参数库(Acoustical Database)是语言资源声学层面的最高形式,是对特定语言的语音进行系统声学分析、提取该语言语音声学特征的微观声学参数集合,可比喻为是提取语言DNA。在语音信号分析和处理过程中,时域和频域特性是至关重要的。在语音研究中对音段和超音段特征测量和分析已进行了几十年,从以音节、词为基础的音段和超音段特征分析到现在连续语料的音段和超音段特征分析,使我们对语音和韵律特性认识越来越清晰、越来越准确,在应用研究中越来越有效。

自2014年2月开始,根据多年积累的语音声学参数库研制经验,研发并投入使用“语音声学参数自动标注/提取系统”(3.3版本)和诸多数据处理小工具,使该项工作逐渐走上自动化,提高了工作效率和准确率,避免了采集者的主观因素,确保了数据的客观性和准确性(参看周学文、呼和,2014)。如上所述,我们团队已完成了蒙古、维吾尔、哈萨克、鄂温克、达斡尔、土族、东部裕固、东乡、等8种语言的语音声学参数数据库,并基于这些声学参数库搭建了“中国少数民族语言语音声学参数统一平台”框架(

我们正在建设的“统一平台”是利用国际通用的语音声学分析软件,提取有效表征语言音段和超音段的各种声学特征参数,并把它们集合成一个完整的语音声学参数数据库,用数据库管理软件进行统一管理的平台(通用的自然语言语音处理平台)。“统一平台”将利用现代科技,以数据库(量化和数字化)的形式完整地保存少数民族语言音段和超音段的声学参数。用户利用统一平台可以完成查询检索多语种语音声学参数内所有的信息、可以任意设定查询的组合条件、可以对结果集合按照任意字段排序、可以在结果集合中查询词/音素之间任意切换、可以手动/自动对查询结果集进行选择并把选择的结果输出到EXCEL等。统一平台还有统计、分析和分类等功能。随着容纳更多语言语音声学参数数据库,可以根据用户需求,改进界面的友好性和系统的强壮性(鲁棒性Robustness)。以下是目前使用的统一平台界面。

“统一平台”特点为:(1)实用性:基本上包含了所有音段的主要声学特征,能够满足所有的参数提取、统计分析和比较研究;(2)稳定性:确保了数据库主要结构的稳定性(参数库的扩充不影响其稳定性)。这样才能有利于声学参数的积累;(3)扩充性:确保了数据库的可扩充性,以便满足新参数和结构的微调。该平台能够确保数据库内容的维护,包括增加、删除、修改、查询;确保方便提取所有参数,满足相关研究。

? 重要阶段性成果之二: “中国少数民族语言方言语音实验研究丛书”

为检验和论证“统一平台”的权威性、普遍性、实用性和功能的完整性,我们团队自2017年开始利用“统一平台”,组织撰写了“中国少数民族语言方言实验研究丛书”。其中,蒙古语、鄂温克语和维吾尔语等三卷得到了出版资助。目前,蒙古语卷和鄂温克语卷已出版,维吾尔语卷已经进入出版流程,预计今年7月中旬出版。

该丛书将在以往研究的基础上,针对民族语言语音研究的历史和现状,从解决所面临的实际问题出发,采用声学语言学的理论和方法,对目标语言的元音、辅音等音段特征和词重音等超音段特征进行了较全面、系统地定量和定性分析。除总序外,本丛书包括了以下研究内容:(1)元音研究方面:对目标语言每一个元音进行系统的统计分析,统计参数(项)包括音长、音强、目标位置共振峰频率(F1—F3)及其前后过渡段频率;统计内容有平均值、标准差和变异系数等;通过分析参数平均值及其音质定位、目标位置共振峰频率及其前、后过度段共振峰频率之间的关系、音节数量与声学参数之间的关系、音节类型与声学参数之间的关系、辅音音质与元音声学参数之间的关系等问题,确定每一个元音的实际音值及其在声学空间中的分布格局和分布特点以及在语流中的存在模式和音系特点,并探讨其过去、现在和未来变化方式和方向。(2)辅音研究方面:对目标语言每个辅音进行系统地统计分析,统计参数(项)包括音长、音强、目标位置共振峰(CF1—CF3;VF1—VF3)等;统计内容有平均值、标准差和变异系数等;通过分析和观察辅音三维语图特点、共振峰分布模式、词中分布特征、词中位置与声学参数之间的关系、后置元音音质与辅音声学参数之间的关系等问题,探讨了辅音在词中的出现频率特点和语流中的存在模式和音系特点;另外,基于VOT-GAP二维坐标和COG(辅音谱重心)、STD(相对于谱重心的谱偏移量)和SKEW(偏离度,低于谱重心的谱与高于谱重心的谱之比)等参数,分析确定了辅音声学特点(声学表现)、声学空间中的分布格局、塞音塞擦音的GAP与其发音部位之间以及COG、STD和SKEW值与清辅音发音部位之间的相关性和语言学意义。(3)词重音研究方面:从单词韵律模式和词重音问题入手,阐述了语音四要素与目标语言词重音性质之间的关系问题;基于声学参数分析了词重音功能与作用问题,并从类型学的视角对词重音位置问题进行了解释。(4)音系研究方面:基于实验音系学理论和方法,对目标语言的音系进行了较全面系统地分析和归纳。(5)语音学理论方面:通过解读声学元音图(元音声学空间动态分布图)中不同元音音位及其变体之间的叠加现象、元音阴阳(松紧)属性与元音和谐律之间的关系,阐述了音位与变体、属性与规则、规则与实施等层面的绝对性和相对性问题,即语音学理论的相对性和绝对性等问题。

? 重要阶段性成果之三:培养了5位博士,3位硕士

在本项目的资助下,与地方院校合作培养了哈斯乎(2014年与内蒙古大学照日格图教授合作。该生的博士学位论文为“基于语音声学参数库的东部裕固语研究”)、韩国君、哈斯其木格(2016年与中央民族大学大学宝玉柱教授合作。两位的博士学位论文为 “(基于语音声学参数库的)达斡尔语音系研究”和“(基于语音声学参数库的)土族语音系研究”)、呼司乐土、金铃(2018年与西北民族大学巴图格日勒教授合作。两位的博士学位论文为“基于语音声学参数库的东乡语研究”和“基于语音声学参数库的保安语辅音研究”)和买力坎木?苏来曼、艾则孜?阿布力米提(2013年与西北民族大学阿里木教授合作。两位的硕士论文为“维吾尔语标准音(话)元音声学分析”、“维吾尔语浊辅音的声学特征研究”)、德格吉呼(2017年与西北民族大学巴图格日勒教授合作。该生的硕士学位论文为“基于语音声学参数库的保安语元音研究”)等硕士。目前该项目正在培育3位博士和1位博士后。

二、调查研究及学术交流情况

? 调查研究:自立项以来,我们课题组前后赴内蒙古各盟市旗县、甘肃、青海交界的积石山保安族东乡族撒拉族自治县、甘肃省临夏回族自治州、新疆伊犁州和阿勒泰地区进行语言调查和语音信号采集工作,采集了近100个人的语料,200多小时的声样。

? 2016年7月与内蒙古民族大学蒙古学学院联合承办了“第十二届全国语音学学术会议”。有140位专家学者参加了本次会议。本次会议论文集共收集128篇论文。这些论文基本反映了当前我国在语音学研究领域的现状与最新进展。

? 正在与俄罗斯布里亚特联邦共和国国立大学和蒙古国科学院语言文学研究所合作实施“布里亚特语语音声学参数库”和“蒙古语喀尔喀方言语音声学参数数据库”。

? 前后邀请俄罗斯布里亚特联邦共和国国立大学吉日嘎拉教授等来我国访问进行学术交流和合作研究(3人次)。项目负责人呼和研究员曾两次前往蒙古国参加学术会议和进行项目调研。

三、成果宣传推介情况

2013年3月29日, “中国少数民族语言语音声学参数统一平台建设研究”项目开题会,在中国社会科学院民族学与人类学研究所举行。

四、研究中存在的主要问题、改进措施,研究心得、意见建议

? 该项研究所涉及民族语言和方言图较多(近二十种),所包含语言有阿尔泰语系语言、汉藏语系语言。到目前位置,本项研究除藏语和彝语外几乎都是阿尔泰语系语言,为此亟待拓展到汉藏语系语言和方言。要完成该项任务除培育和接受精通汉藏语系语言方言的实验语言学专业人员外,需要更多的经费资助。

? 实施子课题时需要与多单位之间进行多方面的协同,特别是找到能够长期合作的单位和人员难度较大。

? “语音标注库”建设是该项目的难点和重点。只有既能精通母语,又能懂得语言学和实验语言学理论方法的研究人员才能胜任该项研究。找到这类人员难度较大。为此我们不得不采取“一手培养,一手干活”的方法。为此,需要更多的培训费。

? 为更好地完成项目任务,完善和提升项目成果,改进“功能模块”,使得“中国少数民族语言语音声学参数统一平台”规模扩展到大数据水平,希望给予滚动资助。

二、研究成果情况

主要内容:

一、代表性成果简介

? 代表性成果(一):“中国少数民族语言语音声学参数统一平台”。我们正在建设的“统一平台”是语言资源声学层面的最高形式,是对特定语言的音段和超音段进行系统声学分析,提取有效表征语言音段和超音段的各种声学特征参数集(可比喻为语言声学特征DNA),并用数据库管理软件进行统一管理的有声资源库平台。请见图2~3.“统一平台”的学术价值和社会影响:(1)推动科学保护弱势语言,抢救濒危语言的进程;(2)有效促进科研资源的共享和科学研究的延续性;(3)推进语音学基础理论研究,促进语音学与相关学科的发展。如,能够推动语言发生、接触和演化研究,特别是语言类型学(语音类型学)的发展(呼和等,语音声学空间分布类型初探,民族语文,2019年第5期);(4)能够为民族语言言语声学工程研究和研发提供语音学基础数据资源,推动我国多语种人机智能交互平台技术的发展;(5)保护我国民族文化的多样性,促进我国语言生活的健康和谐发展;(6)“统一平台”中所提出的各项标准和原则必将成为国际国内语言声学实验研究依据和标准,推动语言声学实验研究工作的规范化和标准化进程;(7)“统一平台”不仅是语音本体基础研究领域的一个突破,而且将会成为国家信息资源的重要组成部分,弥补国家少数民族语言信息资源的阙如。

总之,“统一平台”将我国传统的优势学科同新的前沿领域相结合,无论从现代社会语言资料和文化遗产流失的严峻现实,还是从科学技术和语言研究相结合的发展方向来看,都有着广阔的发展空间和远大前景。该平台将为我国同类语言数据库、档案库提供范例,为语言本体描写研究和比较研究,以及民族学与人类学等其他学科的研究提供真实、客观的数据资源,将会有力促进我国民族语言学学科的发展。

? 代表性成果(二):“中国少数民族语言方言实验研究丛书”。目前已出版《蒙古语语音声学研究》(呼和,社会科学文献出版社,2018年6月)和《鄂温克语语音声学研究》(乌日格喜乐图,呼和,社会科学文献出版社,2018年10月)等两卷。

? 已出版的两部专著在以往研究的基础上,利用“中国少数民族语言语音声学参数统一平台”,用声学语言学和统计学的理论和方法,对蒙古语和鄂温克语元音、辅音等音段特征和词重音等超音段特征进行了较全面、系统地定和定性分析。

描写每一个音段的实际音值及其在声学空间中的分布格局和分布特点以及在语流中的存在模式和音系特点,探讨语音四要素与两种语言词重音性质之间的关系问题,阐述了语音声学参数与音段和超音段特征之间的相关性和语言学意义。所提出的语言声学实验研究思路和方法,得出的结果和结论对蒙古语、鄂温克语语音学乃至我国少数民族语言实验研究具有较高的参考价值,促进民族语言实验研究学学科体系建设,推动我国民族语言学科的发展。

? 代表性成果(三):“再论蒙古语词重音问题”(呼和,民族语文,2014年第4期)。蒙古语词重音分绝对重音和相对重音。非词首音节中含有短元音的多音节词的重音为绝对重音;非词首音节中不含短元音的多音节词的重音为相对重音。蒙古语词重音是整个音节语音四要素变化的综合效应;词重音属自由重音,但不完全是自由的,其位置与长元音(或复合元音)有关。该项研究针对几百年以来有关蒙古语词重音方面的争论,用实证和感知实验的方法解释和解决了词重音问题。这对蒙古语、蒙古语族乃至阿尔泰语系语言的韵律基础研究和应用研究具有较高的参考价值和应用价值。

? 代表性成果(四):“语音声学参数自动标注/提取系统简介”(周学文,呼和,中文信息学报,2014年第3期,第28卷)。本文重点介绍了一个实用的语音声学参数自动标注/提取软件系统。使用该系统能够极大地降低语音参数标注和采集的错误率,有效提高语音声学参数库研制效率,确保实验方法和实验数据的可重复性和可验证性,从而推动语音声学参数数据库研制和语音声学实验研究工作的规范化和标准化。

? 代表性成果(五):“蒙古语元音演变的声学语音学线索”(呼和,中央民族大学学报,2015年第4期)。本文从声学语音学的视角探讨了蒙古语元音的演变问题。主要结论为: 圆、展唇元音的声学格局确定了它们的演变方向和方式;辅音发音方法影响元音舌位的高、低,而其发音部位影响元音舌位的前、后;后置辅音对其前置元音的影响相对大于前置辅音对其后置元音的影响;音位层面的关系是绝对的,而变体层面的关系是相对的;“阴阳对立”是蒙古语元音的一种属性,而“元音和谐律”是这种属性在具体语言中的表现形式。其中,属性层面的关系是绝对的,而规则层面的关系是相对的。导致语音演变的条件和因素错综复杂。本文用声学模型的理论和方法为语音演变提供新的研究思路和方法。该文2018年12月获中国社会科学院民族学与人类学研究所优秀成果奖,并推荐中国社会科学院第九届优秀科研成果。

? 代表性成果(六):“语言亲属关系声学语音学线索”(呼和,实验语言学,第四卷第4号,2015年)。本文提出用“语音声学模型相似度”实证语言之间亲属关系亲近度的思路和方法,并用蒙古、维吾尔、鄂温克、达斡尔和土族等阿尔泰语系语言的元音声学模型进行了初步验证。本文为语言亲属关系亲近研究提供新的理论和方法。

? 代表性成果(七):“蒙古语韵律层级单元探讨”(呼和,西北民族大学学报,2017年第4期)。本文在以往研究的基础上,立足蒙古语韵律特点,根据McCarthy 和Prince(1993)的“韵律构词学”(prosodic morphology)理论,参照国内外面向语音合成的文本和口语处理基础理论与建模方法研究经验,结合语言学、语音学、音系学、实验语言学的理论和方法,探讨了蒙古语韵律层级单元及其特点等问题。

? 代表性成果(八):“蒙古语词重音及其分类问题”(呼和,梅花,满语研究,2018年第1期)。蒙古语词重音与英语、俄语等重音语言不同,也与日语等音调音高语言有所差别。在蒙古语中,元音音系学长短,既能区别词义,也能辨别词重音。而元音物理学长短,只承担辨别词重音任务。前者既可以视为音系层面上的长短元音对立,也可以视为韵律音系学层面的轻重对立。本文主张把蒙古语(乃至阿尔泰语系语言)归类为音调音长语言,并与声调语言、重音语言和音调音高语言相提并论。

三、下一步研究计划

在2019—2020年度完成以下研究任务:

? 进一步充实和改善“中国少数民族语言语音声学参数统一平台”管理平台,并不断增加语言和方言数量,充分利用和发挥“统一平台”的功能和作用。

? 实施和完成哈萨克、达斡尔、土族、东部裕固、东乡等语言和蒙古语卫拉特方言乌日吐木仁话的索引库、声样库、音段标注库、声学参数标注库和声学参数库,并介入到“中国少数民族语言语音声学参数统一平台”。

? 继续研制鄂伦春、图瓦、锡伯、彝语等语言和蒙古语巴尔虎布里亚特方言陈巴尔虎话、内蒙古方言科尔沁话、巴林话的索引库、声样库、音段标注库和声学参数标注库,并争取介入到“中国少数民族语言语音声学参数统一平台”。

? 充分利用“统一平台”的功能和作用,组织相关人员继续撰写“中国少数民族语言方言实验研究丛书”。争取在2019~2020期间,再出版3~5部专著。

? 每年发表3~5篇较高水平的学术论文。

? 在2019~2020期间,组织课题组成员前后赴蒙古国、俄罗斯联邦布里亚特共和国和卡尔梅克共和国、哈萨克斯坦和吉尔吉斯斯坦、日本和韩国以及我国黑龙江、辽宁、吉林、新疆、内蒙古、甘肃、青海、西藏、云南、广西等地进行语言调查、语料录制和项目调研。

? 邀请相关专家召开多次小型研讨会,组织多场学术报告会,组织承办全国性语音学会议1~2次。同时组织课题组成员参加与本项研究相关的国内外学术会议。

? 从蒙古国、俄罗斯、哈萨克斯坦、吉尔吉斯斯坦、美国、日本和韩国邀请相关专家讨论并开展语音声学参数库方面的合作研究。

(课题组供稿 )

(责编:孙爽、艾雯)