旧版网站入口

站内搜索

中国方言区英语学习者语音习得机制的跨学科研究中期检查报告

2017年12月11日09:46来源:全国哲学社会科学工作办公室

一、 研究进展情况

1、课题开题与子课题进展情况

① 研究计划总体执行情况及各子课题进展情况(如下图)

该研究的目标是针对中国方言区英语学习者的发音特点和偏误类型,开展一系列的跨学科研究,提出可以用于计算机口语评测与课堂学习的矫正方法,以针对不同方言区英语学习者进行发音评测和制定个性化的学习方案,同时为方言区英语口语能力评测提供科学的依据。根据上图的研究路线,本课题研究凝练出3个关键性研究问题,设置了四个子课题(如下图)。目前,四个子课题均按照进度执行。

子课题1:中国方言区英语学习者大规模语音库与标注系统构建(负责人:贾媛)

完成了语音总体方案设计,完成了东北(200人)、山东(200人)、宁波(50人)、厦门(50人)和长沙(50人)等方言区的语音录制,共550人,录制了每人约10个小时,合计约5000小时的语音。完成任务过半。

1.1 语音库与标注系统总体方案制订

中国社会科学院语言所负责完成了语音库总体方案制订,包括方言区分布确认、英语语音库的发音文本设计、语音库录音和标注规范的制订。

1.1.1 方言区分布(如下图)

1.1.2 语料库发音文本设计

英语语料包括英语单词、词组、短语、句子和语篇(如下图)。为了便于开展英汉对比研究,我们同时还采集了汉语的语料,包括普通话和方言的单字调、两字组、三字组、句子和语篇。

1.1.3 录音平台(如下左图)和录音数据自动切分

录音时,发音人配戴耳麦(如下右图),坐在电脑屏幕前,朗读显示在电脑屏幕上的单词、句子或篇章,录音由英语专业的研究生操作,录制完成需进行听音检查。

对所有录音提供自动音段切分程序

1.1.4 完成方言区英语语音标注系统构建

音段标注:在对声音文件进行标注时,在音段标注上,首先采用自动切分软件,对英语单词、句子和篇章进行自动切分,不仅切分单词边界,也切分音素边界。标注符号采用ARPABET符号集。对于方言普通话的切分,首先采用自动切分程序,对词边界和声韵边界进行自动切分,然后用手工对边界进行校准和修改。方言的切分主要依靠手工,符号集采用SAMPA。

超音段标注:对英语发音的超音段特征的标注,选用IViE语调标注系统和ToBI语调标注系统相结合的系统。IViE系统是由ToBI发展而来的,但又有所区别,两个系统的结合方式,主要是将ToBI中的间断指数层加入IViE标注系统中,标注层级包括:

(1)正则层(orthographic tier):将说话人所说的正确词语标记下来;

(2)音素层(phoneme tier):对所有元音和辅音边界进行标注;

(3)间断指数层(break index tier):对语调短语、中间短语和词边界进行标注,其中4、3、1分别代表前面3种韵律边界;

(4)突显层(prominence tier):标记突显音节,突显的音节用“P”表示,并标记在重读元音的中间位置;

(5)目标层(target tier),即语音层(phonetic tier):对语调的变化进行语音上的描写。

1.1.5 录音和标注培训

社科院负责对各个课题组进行录音和标注培训,系统讲解实验语音学的基本理论知识和标注分析方法。标注人员经过反复练习,经过一致性测试后方可进行标注,以保证录音和标注的质量。

1.2 东北方言区数据收集和标注

东北方言区课题组负责东北方言区英语学习者语音库的建立和研究。选取了东北具有代表性的四个城市—长春、哈尔滨、沈阳、大连—收集录音语料,每个城市选取发音人50名,男女各半,四个城市共200人。每个城市的50人中,有20人每人发音时长约为15个小时,其余30人每人发音时长约为5个小时。发音人是来自上述四个城市的吉林大学本科生和研究生。

完成了所有录音的音段切分工作,并开展了大规模的标注,在标注基础上开展了语音偏误特征分析。

1.3 山东方言区数据收集和标注

山东课题组自立项以来,收集并建立了200人的山东方言区英语学习者语音库。建库采纳了山东方言研究者钱曾怡(1985,2001)对山东方言区的划分,即东区与西区,东西区又各下分两个片,即东莱片和东潍片,西齐片和西鲁片。我们从这四个片的代表县市寻找发音人,尽量按男女人数相等的原则遴选发音人。发音人皆为某高校的在校大学生和研究生。录音历时一年半的时间,现已全部完成。每片男女各25人,共采集200名发音人的录音资料,每人录音时长达10小时。

完成了录制的语音数据的音段切分,开展了大规模的音段标注标注,在标注基础上开展了语音偏误特征分析。

1.4 宁波方言数据收集和标注

宁波方言研究收集了50名被试(男女各25人)、人均录音时长在8-12小时之间的英、汉口语语料(汉语又分普通话和宁波话)。提取语料的文本涵盖了词、句和短文,形式以朗读和看图会话为主。为了尽可能地排除干扰因素,被试来源地域主要被限制在宁波老城区,以规避李荣在《宁波方言词典》(1997)中所定义的语音变体带来的差异;受试对象基本来自在校大学生和研究生,群体年龄控制在19-28周岁之间,弱化新、老宁波话的差别;选取的发音人多具有10年以上的英语学习经历,语言水平中上。汉语普通话相当于3级甲等,在日常生活中可自如完成普通话和宁波话之间的语码转换,父母为宁波本地居民或长期生活在宁波地区的方言使用者。

完成了录制的语音数据的音段切分,开展了大规模的音段标注标注,在标注基础上开展了语音偏误特征分析。

1.5 长沙方言数据收集和标注

长沙方言研究收集了50名被试(男女各25人)、人均录音时长在8-12小时之间的英、汉口语语料(汉语又分普通话和长沙话)。提取语料的文本涵盖了词、句和短文,形式包括朗读、看图会话和即兴演讲。为了尽可能地排除年龄、地域因素造成的干扰,被试基本上是来自长沙市区的来自在校大学生和研究生,群体年龄控制在19-28周岁之间,以规避《长沙方言词典》(1998)中所定义的语音变体带来的差异;选取的发音人多具有10年以上的英语学习经历,语言水平中上。汉语普通话相当于3级甲等,在日常生活中可自如完成普通话和长沙话之间的语码转换,父母为长沙本地居民或长期生活在长沙地区的方言使用者。

目前已完成了10人语音数据的音段切分工作,并对已切分音段进行音段标注,在标注基础上开展了英语单元音偏误特征分析。

1.6 福州方言数据收集和标注

构建了福州方言区英语学习者英语、福州话及普通话语音数据库。发音人为43名熟练使用福州方言的在校本科层次及硕士研究生层次的英语学习者。语料采集历时一年时间,现已全部完成,每个发音人的录音时长超过10小时。语料除了各个子课题使用的通用语料之外,还录制了福州方言。标注方面,利用Praat软件,综合ToBI和IViE标注系统的优势,根据需要对采录的语音材料进行了尝试性的分级标注,并对标注的文件进行了初步的数据处理,分析福州方言区英语学习者在音段层面与超音段层面的语音特征,对比总结其与本族语者语音系统的异同点,探究学习者英语语音习得偏误及福州话对英语语音习得的迁移效应。研究报告还在整理中。

1.7 英语母语者语音库收集和标注

社科院课题组收集了英国和美国英语母语发音人各10人的数据。完成了数据的自动音段切分标注和部分韵律标注。

子课题2:中国方言区英语学习者语音偏误特征与自动标注系统构建(负责人:胡方)

我国的英语教育十分重视词汇、语法等语言形式,而对语音、语调的作用重视不够,从而导致我国英语学习者发音不准确,语调不连贯,难以用英语进行口语交流。建立中国英语学习者语音库,依据声学指征分析学生的英语发音,不仅可以弥补单纯依靠听辨感知学习语音的不足,也为语音学、音系学及二语语音习得研究提供全新的研究视角,对二语习得研究、外语教学和计算机辅助教学系统具有重要的理论价值和实际意义。在方言区英语学习者语音库基础上,课题组陆续开展了语音偏误分析,取得了一批阶段性成果。

2.1 东北方言区课题组语音研究

对东北方言区英语学习者的语音偏误特征进行声学研究,主要从音段和超音段两个层面进行。音段层面考察辅音和元音的发音偏误。辅音我们用嗓声起始时间(VOT),强频集中区等声学参数考察。元音用第一、第二或者第三共振峰等参数考察。超音段层面主要考察学习者在短语和句子层面的发音特征,包括重音分布、停顿、语调短语切分和边界调类型等。我们将东北方言区发音人的声学参数与标准英语发音人的声学参数进行系统的对比分析,从而发现学习者声学特征与标准英语发音人的声学特征之间的差异,找出学习者的发音偏误,进而探讨普通话以及东北方言的某些特殊音段特征如何影响学习者成功习得英语的元音和辅音,方言声调系统以及普通话声调系统如何影响学习者正确习得英语语调。

2.2 山东方言区语音研究

山东方言区英语学习者语音库是目前在全国单方言区建库人数最多的,其研究的切入点也比较有规律性。在语音习得、声调习得以及英汉语音对比方面都有涉及。我们也将研究的成果与其他方言区进行交流,如和东北方言区英语学习者语音库互换研究成果,交流所开展的研究工作,并就山东方言语音习得特点与东北方言区英语学习者习得特点进行对比,以期发现异同。同时,我们还共享了目前各自库中所有的本族语者语音资料。

目前我们已对山东方言两区四片的英语学习者的四个前元音习得做了较为全面的研究,与美国本族语者的发音进行了对比,初步总结出了山东方言英语学习者语音学习的规律和特点。研究采纳了实验语音手段,得出的结果具有客观性与可信性。

2.3 宁波方言区语音研究

分布在浙江宁波、舟山地区的宁波方言以其“石骨铁硬”的发音风格、个性化的语音特征和生动形象地表达方式成为吴语太湖片区具有代表性的重要方言。对现行语言政策和语言生态环境下的方言区英语学习者而言,来自母语因素的影响更为复杂。近年来,随着语言研究视角的扩展和传统语音教学困境的凸显,对学习者独特的语音系统和节奏韵律模式描述和解读获得了更多的关注。

初步研究成果显示,宁波方言区英语学习者的语音产出从音段、韵律节奏到语调型层面与英语本族语使用者间存在系统的差异。中介语体现出的语音特征明显受到学习者母语,特别是方言方音的迁移。语料库技术和实验方法的介入不仅使语音教学和研究从对传统“口耳之学”的感性经验的依赖转向基于大数据统计的理性分析成为可能,还可将研究得发现充分地融入教学实践环节,借助参数的对比和试错,对语音偏误加以有效的预判,突出教学重点,形成针对性的教学策略,服务于以提高沟通效能为核心的方言区的英语语音教学。

2.4 长沙方言语音研究

长沙方言是新湘语的代表方言,属于长益片长株潭小片,主要使用于长沙市区和长沙县。由于果摄字元音的高化演变,长沙方言的元音系统属于偏后型元音三角(贝先明,2008),其后元音与属典型元音四角的美式英语具有更大的相似度,而前元音与美式英语具有更小的相似度,因此是元音偏误较为理想的研究材料。

初步研究成果显示,长沙方言区英语学习者难以区分英语中的/i-?/、/?-u/等相似元音对,且与英语本族语者在个体元音发音上有较大差异(如下图)。

长沙被试在发英语/? u/时倾向于用母语中的/u/代替;同时,/i/ /?/ /?/在声学空间的高低维度上与方言中的相似元音无明显差异。研究结果对课堂英语教学有一定的指导意义:传统的英语语音教学受对比语言分析理论影响,着重于母语和外语发音有差异的部分,但本研究结果为语音学习模型提供了实证支持,发现学习者产出与母语相似的英语元音时,会因范畴构建过程的同化机制产生偏误。因此,教学的侧重点应转移到相似元音上,落实到长沙地区英语语音教学中,则应重点关注/i u ? ?/的发音。

2.5 方言区英语学习者韵律自动标注系统构建研究

韵律标注包括韵律边界和音高事件(重音、边界调等)的标注。随着语料库规模的增大,人工标注的工作量急剧增加,标注成本较大。此外,韵律标注具有一定的主观性,保证不同标注人员之间标注结果的一致性较为困难。因此,采用计算机技术自动而准确地进行语料的标注是本课题的一个重要研究工作。

课题组针对韵律边界的标注,提出了基于隐马尔科夫模型(Hidden Markov Model; HMM)声学建模与状态解码的自动韵律标注方法。采用该方法用于韵律自动标注的优势包括:在基于声学特征分布进行韵律边界标注时可以充分考虑其他已知标注信息对于分布参数的影响;通过整句解码的方式确定韵律边界标注结果,考虑了句中不同位置处韵律边界标注间的相关性;使用与语音识别类似的算法框架,可以借鉴语音识别中较为成熟的模型训练与解码算法。

在具体实现中:提出基于穷举搜索的韵律短语边界自动标注方法,分析了合成系统中不同特征与上下文信息对韵律标注性能的影响,验证该方法的可行性;在此基础上又提出了基于维特比搜索的韵律短语自动标注方法,在保证标注结果准确性的前提下,提高了标注的效率;进一步提出了结合n-gram先验分布的韵律短语自动标注方法,通过利用文本层面的先验知识,进一步提高了韵律标注的准确性,在标准英语库Boston University Radio News Corpus和Blizzard Challenge 2007英文语料库上分布取得了79.6%和81%的标注F-score。

课题组将利用方言区英语学习者语音库,对现在提出的韵律边界分类模型进行改进。

子课题3:中国方言区英语学习者语音与音系学习机制研究(负责人:宋大为)

课题组开展了英语学习者的元音产出、发音和感知空间关系的研究。目前完成了数据收集和初步的分析。创新在于从三个空间维度,对英语学习者的语音发音生理、声学、和感知数据进行采集和分析,深入探索学习者的语音习得机制。本项目利用电磁发音仪釆集学习者的英语和母语的元音发音运动数据,以及英语本族语者的运动数据,用科学、直观的方法对比和分析不同发音人的生理发音特点,科学构建发音人在元音发音中的舌位运动空间。并同时结合感知实验的多模态研究方法,深入和全面地挖掘学习者的音位范畴习得特征。

3.1 L1 和L2的EMA英语数据采集

本项目利用电磁发音仪(Electromagnetic Articulography; EMA)釆集学习者的英语和母语的元音发音生理运动数据,以及英语本族语者的运动数据,用科学、直观的方法对比和分析不同发音人的生理发音特点,科学构建发音人在元音发音中的舌位运动空间。另外,基于声学数据,即元音的共振峰F1、F2和F3数值,构建声学元音图。通过对比中国学习者和英语本族语者的英语元音声学特征、以及学习者的母语方言声学特征,分析和归纳学习者的英语元音偏误特点,探究英语产出和方言母语间的关联性。

EMA的采集系统为德国引进的Carsten AG500仪器,录音采样率为200赫兹。每次录音共需用到9个传感器(如下图),其中6个传感器分别要粘贴在每位发音人的舌根、舌体、舌尖、下齿龈、下唇和上唇位置;另外3个传感器分别粘贴在发音人的鼻梁、左耳根和右耳根位置,作为对数据进行头部校准处理的参考点,数据釆集时要求发音人语速较慢,发音清晰。

电磁发音仪可以让人们更直观地跟踪发音时舌位的运动情况。通过构建发音人的元音发音生理空间对比英美本族语者和学习者的舌头运动情况(如下左图)和舌头位置(如下右图)。

3.2 感知实验和数据处理

本部分研究将学习者的发音语料作为感知实验中的刺激音,并请25名英语母语者(包括英国人和美国人)参与对学习者的元音发音进行了听辨实验和评分实验。感知实验研究用Eprime2.0软件设计和完成。

感知实验1为听辨实验,要求英语母语者每听到一个刺激音后,从备选单词中,选出所感知到的单词。实验2为评分实验,要求英语母语者对听到的每个刺激音中的元音发音进行评分。

3.3声学录音和数据处理

本部分研究通过中国社科院语言所语音室的专业录音软件以44.1 KHZ的采样率,采集了发音人的英语发音语料,语料中涵盖了英语中的18个单双元音,包括11个单元音/?/,/?/,/ɑ/,/?/,/u/,/?/,/i/,/?/,/?/,/?/,/?:/和6个双元音/a?/,/??/,/e?/,/a?/,/o?/,/ju/。每个元音都在一个真实的英语单音节单词中,单词大多都是以阻塞音或摩擦音作为首尾辅音。

通过Praat脚本(熊子瑜2016)自动提取到每个单词元音稳定段上10个等分点的F1,F2和F3数据。接下来,我们将第3-8点上的F1,F2和F3值分别求均值,作为代表该元音音质的共振峰数据,这样在一定程度上可以去除音节首尾辅音对元音共振峰的影响。

子课题四:中国方言区英语学习者语音学习策略与应用平台研究(负责人:顾曰国)

现代信息技术与课堂教学的整合是我国英语教育改革中的重要问题,新的教学模式实现了(1)以学生为中心,使学习者有了更多自主学习和合作学习的机会;(2)教师利用计算机辅助交流平台能更好地监测学生的发展,获取学生的反馈信息,增强课堂模式的互动性;(3)移动互联网技术的发展,提高了资源的共享和推广,使得在线学习成为未来发展趋势。大城市学校的现代化语音教育手段可以带动偏远地区的课堂教学,缩小教学水平上的差距,实现教育公平化。信息交互平台的多元化和现代化特征有利于推动我国的外语教育的改革和发展。

研究创新处在于推动现代化科技成果在教学应用中的实践,使科技创新更好地服务于社会需求具有重要的理论和现实意义。课堂将3D动态发音可视化模型、自动语音评测系统、训练语音感知和产出的APP软件应用于语音教学课堂中,促进传统课堂向多元化、多模态的发展。学习者在多模态的信息交流平台和模拟语言情境中,学习、体验和实践知识,丰富语音课堂的教学模式,调动学生的积极性,克服传统语音课堂中形式单一、内容抽象、学生缺乏兴趣的问题。为未来更多现代信息技术与课堂教学的融合尝试提供参考。在立项的1年多时间里,课题组完成了两方面工作。

4.1 3D发音建模

本研究拟以我国各个方言区的大学英语学习者的语音特征为考察对象,利用电磁发音仪EMA(AG500)和核磁共振MRI的三维舌位空间数据,探讨各个地区英语学习者的发音问题,构建我国首批面向英语学习者的三维发音生理模型,为二语学习者的发音问题提供可视化信息反馈(visual feedback),打破目前语音评测体系中只提供评分,而没有反馈的局限性,进而发展语音评测的有效性和可视化,也为开发面向教育应用的可视化语音训练系统和平台提供有价值的参考。

目前完成了部分MRI数据和EMA数据的收集。使用电磁发音仪,在发音器官表面粘贴了传感器(用于记录发音过程中局部发音器官的位置信息),采集了同步的语音信号和传感器的位置信息,用核磁共振设备采集了同一发音人的发音器官(舌、下颚、上颚等)的MRI形态数据。

在此基础上,建立了一个虚拟现实系统,该系统能实时将输入的语音信号转换成高真实度的三维舌头运动序列。利用深度神经网络建立从语音信号到传感器位置的映射关系;用MRI形态数据,用有限元方法建立了一个舌的生理模型;将这两个模型依次串联起来,得到了发音过程中舌头实时运动的虚拟现实系统。实验表明,该系统能够依据输入的语音信号生成高真实度的发音器官的运动序列。

4.2 “语音教学与测试平台”建设

按照国家社科基金重大项目的研究计划和进度安排,第四子课题组于2016年初开始启动“语音教学与测试平台”建设的调研和研发工作。

经过细致论证,该平台将主要着眼于学习者语言听说能力的训练和培养,以富文本形式向学习者全方位呈现字、词、句、语篇等语音材料的标注数据内容,并具备语音播放、录制和声学参数动态呈现等基础功能,还将支持跟读、混播、对比、评测等辅助学习功能。

目前该平台已完成了前期的技术调研、方案设计和程序开发等基础工作,并初步实现了xReader系统,可用于语音训练和跟读学习(操作界面如下图)。

xReader可呈现的数据内容:文本方面,以篇章材料为例,xReader目前可以呈现语句、短语、词语、音标等不同层级的标注内容及其翻译信息,还可通过字号大小、字符颜色变化等手段来凸显相应的文字内容,如语句重音、词重音等;声学参数方面,xReader目前可以动态分析并呈现宽带语图、窄带语图、音高图和波形图等数据内容。

为便于用户的学习和跟读,xReader提供了丰富的语音播放方式:

针对列表内容主要有两种播放方式:(1)顺序播放,对列表中选定的内容从上往下依次播放,用户可自由设定中间的停顿时间;(2)随机播放,对列表中选定的内容按照随机顺序进行播放,用户可自由设定中间的停顿时间。

针对语句内容,不仅可以播放全句内容,也可以根据需要选定其中的某个短语或词语进行播放,还可以在波形图或语图上自由选定某个声音片段进行播放。

针对用户录音内容主要有三种播放方式:(1)混合播放,混合播放语句的原始声音和用户声音,以便于用户对比;(2)仅播放原始声音;(3)仅播放用户声音。另外,该程序还支持将原始声音和用户声音拼接起来同屏显示与播放。

xReader可支持录音与采集:该工具支持学习者按句录音,并可自动保存用户语音数据,从而实现学习者语音数据的动态集采功能。

2、调查研究及学术交流情况

为了对获取的语料进行标注以便开展深入的分析,社科院专家和学者到各个子课题组交流访问,介绍语料标注和分析技术,并多次组织人员参加社科院主办的学术交流和专题研修活动,启动联合指导模式,定期派出学生到社科院访学,参与课题研究。课题组成员先后参与相关国内学术会议、专题研讨和研修活动共32次,成功申报科研项目共7项,教研课题共1项,指导学生成功申报相关课题共3项(均已结题)。

课题组成员在期刊、国际和国内重要会议上、论坛和沙龙发表研究成果32篇,其中英文12篇,EI检索8篇,CSSCI检索2篇,指导与本课题相关硕士毕业论文共12篇,共1篇获得优秀论文奖。

3、学术会议与学术交流活动

课题组参加学术交流列表:

2016年6月,胡方,Speech Prosody 2016。

2016年7月,闻欣怡、贾媛,第十二届全国语音学学术会议。

2016年7月,王宇、贾媛、李爱军、徐亮,国际中国语言学学会第24届年会。

2016年7月,唐颖、潘淑芳,第十二届全国语音学学术会议。

2016年7月,唐颖、董倩,第十二届全国语音学学术会议。

2016年7月,唐颖、张丽娜,第十二届全国语音学学术会议。

2016年7月,周晓凤、李丹丹,第十二届全国语音学学术会议。

2016年7月,周晓凤、杨迪,第十二届全国语音学学术会议。

2016年7月,周晓凤、刘珊珊,第十二届全国语音学学术会议。

2016年9月,翟红华、王妃妃、李爱军、赵瑾,第五届中国英语语音教学研究国际研讨会。

2016年9月,Qian Chen、Zhenhua Ling, Chenyu Yang, Lirong Dai,Interspeech 2016。

2016年9月,Xinyi Wen、Jia Yuan,Interspeech 2016。

2016年9月,Hongwei Ding、X. Xu,Interspeech 2016。

2016年9月,Fang Hu, Chunyu Ge,Interspeech 2016。

2016年9月,Liping Xia, Fang Hu,Interspeech 2016。

2016年9月,Hu, W., Hu, F., Jin, J.,Interspeech 2016。

2016年9月,周晓凤、张景哲,语言文化的影响与变迁国际学术研讨会。

2016年9月,唐颖、魏召召,语言文化的影响与变迁国际学术研讨会。

2016年9月,周晓凤、范晓丹,海峡两岸外语教学研讨会。

2016年9月,唐颖、魏召召,第五届中国英语语音教学研究国际研讨会。

2016年9月,李爱军、林茂灿,第三届韵律语法研究国际研讨会。

2016年12月,李爱军、林茂灿,应邀到天津大学外国语言与文学学院做特邀报告:漫谈语音的相似性英汉语调的“同”和“异”》。

2016年10月,王宇、贾媛、李爱军、徐亮,Oriental-COCOSDA 2016。

2016年10月,丁红卫,First Symposium on Linguistic Diversity in China。

2016年11月,丁红卫,“新信息技术下高校教学变革与革新”学术研讨会

2016年12月,翟红华、赵瑾、李爱军、贾媛,山东国外语言学研究会年会。

2017年3月,Qiang Fang, Ran Luo, Jianguo Wei, Wenhuan Lu, Weiwei Xu, Yin Yang,IEEE VR 2017。

2017年10月,Yuan Jia, Wang Yu, Aijun Li, Liang Xu, Dawei Song,第14届全国人机语音通讯会议。

2017年10月,贾媛、王宇、李爱军、徐亮,第14届全国人机语音通讯会议。

组织学术会议列表:

2016年10月,UPenn-SJTU Symposium on Speech Science and Computational Linguistics

2017年6月,上海交通大学外国语学院2017年音系学与实验音系学高级研讨会

2017年7月,上海交通大学外国语学院2017年语音学与大脑神经机制研讨会

2017年10月,国际言语产出会议,将组织专题研讨:Production and Perception of Tone in Language Acquisition

4、成果宣传推介情况

项目组积极在项目成语之间和国际上共享与推介数据库和研究成果。其一,社科院专家与各个方言课题组和各个子课题组进行密切沟通,进行录音和标注数据的培训,保证收集数据的质量、数据标注的规范性和可靠性。其二,各个方言课题组共享公用基础资源,并交流研究成果。其三,积极在国际上推广研究成果、共享资源。课题组积极组织国际研讨会,并在在国际会议上发表论文,并且参加每年O-COCOSDA组织的亚洲英语学习者数据库和语音研究研讨(AESOP-SIG),并将在亚洲范围共享基础资源部分数据。

二、 研究成果情况

1、山东方言两区四片的英语学习者前元音习得研究

翟红华、王妃妃、李爱军、赵瑾(2016)山东方言区英语学习者英语元音音段习得的实验语音研究——以前元音/i/、/?/、/?/、/?/为例,第五届中国英语语音教学研究国际研讨会。

我们对山东方言两区四片的英语学习者四个前元音/i/、/?/、/?/、/?/习得进行了实验语音研究。具体实验语料由两部分组成,山东学生和美国本族语者的朗读语料。语料全部来源我们所建的山东方言区英语学习者语音库。包括英语和汉语语料。本研究从山东学生的朗读语料和美国本族语者的朗读语料中,随机抽取了64位山东学生(每个城市两男两女,年龄20-24岁)和4位美国学生(两男两女,年龄20岁左右)的语料作为研究对象。山东发音人分别是来自山东某高校非英语专业的本科生和研究生。在入学之前他们一直生活在方言区,方言是他们日常交流语言。他们的英语学习特别是发音在一定程度上受到方言的影响。抽取的东潍区学生的语料包含两部分:英语语料和方言语料。英语语料选取以浊辅音/b/、/d/、/g/为首辅音,目标元音/i/、/?/、/?/、/?/居中,爆破音结尾的单词,见下表。

为了研究山东东潍区学生英语发音受方言影响的程度,本研究还选取了这些发音人的方言语料。方言语料是以/b/、/d/、/g/为声母,以韵母/i/和/?/结尾的单字构成,见下表。

通过对比山东和美国两地学生的元音共振峰F1和F2,发现山东学生习得元音/i/和/?/要优于元音/?/和/?/,而且山东学生试图用方言/i/和/?/来代替英语元音/?/和/?/的发音。这主要是受到方言的影响:山东方言对元音/i/的习得产生了正迁移影响,而对元音/?/和/?/的习得产生了负迁移影响。实验数据真实有效,具有客观性,一改以往主观定性的研究,对英语语音教学具有参考价值,同时对学生自身的语音学习有很大的帮助,对于北方官话区英语学习者语音的学习也有一定的借鉴作用。

2、宁波方言区英语学习者的单元音声学特征分析

王宇、徐亮、贾媛、李爱军(2017)基于英汉语对比的单元音声学特征分析,《宁波大学学报》,01期。

该研究以言语学习模型为支撑,利用声学语音实验的方法,在音段层面考查了10位来自宁波方言区英语学习者11个英语单元音(如下左图),并对照宁波方言和汉语普通话相似的3个顶点元音/i,u,a/语音产出的共振峰特征(如下右图),推论方言和普通话对英语发音可能存在的影响。研究发现:方言区发音人与英语本族语者之间的英语单元音产出存在系统性差异;宁波方言及普通话语音体系对方言区学习者的英语语音产出具有明显的负向迁移。

研究的发现为ESL语音教学的支撑理念(如言语学习模型)提供了数理上的依据,统计结果除了显示出发音人与英语母语者元音产出差异和趋势,还对语音迁移中相似音位间的影响力做出了推断,有助于语音教师在语音偏误预判得基础上把握教学重点,制定有效的应对策略,克服母语的迁移效应。

3、影响外语口音感知和可懂度的声学及发音信息探究

智娜(2017)《影响外语口音感知和可懂度的声学及发音信息探究》,中国社会科学院语言研究所博士后报告。

本研究以我国北京方言区的大学英语学习者为考察对象,通过三项实验:(1)声学实验;(2)英语本族语者对学习者发音的感知实验;(3)借助电磁发音仪(EMA)的元音生理发音实验,来探讨影响学习者外语口音和发音可懂度的相关声学、感知及发音特征,以及这三个维度之间的对应关系。本研究分别对比了学习者和英国人、学习者和美国人在元音声学层面上的共振峰特征和时长特征,以及在发音生理层面上的舌尖、舌体、舌根、下唇、下齿龈的运动特征情况。我们将声学和生理的7个参数同英语本族语者的感知结果相对应,发现声学层面上的共振峰特征可以显著影响英语本族语者对元音可懂度和口音的感知,而时长特征对可懂度和口音的影响不显著;在生理层面上,舌体和舌根的运动变化对元音可懂度和口音的感知影响最为显著,其他发音器官的影响不显著。本研究在声学、发音、和感知三个维度上的研究数据可以为外语学习者的元音发音提供有效的纠正型反馈意见。学习者要降低外语口音对元音发音的可懂度影响,要练习和区别各个元音,尤其是对立元音在发音动作上的区别,而非时长特征上的差异;另外,教学中有必要引进可视化的发音工具和模型,对可懂度较低的元音有针对性地开展舌体和舌根的发音运动模仿和练习,提高外语的发音质量。

4、自动韵律边界预测研究

Chen, Q., Ling, Z., Yang, C., Dai, L. (2015). Automatic phrase boundary labeling of speech synthesis database using context-dependent HMMs and N-Gram prior distributions. Interspeech.

论文提出了基于隐马尔科夫模型(Hidden Markov Model,HMM)声学建模与状态解码的自动韵律标注方法。采用该方法用于韵律自动标注的优势包括:在基于声学特征分布进行韵律标注时可以充分考虑其他已知标注信息对于分布参数的影响;通过整句解码的方式确定韵律标注结果,考虑了句中不同位置处韵律标注间的相关性;使用与语音识别类似的算法框架,可以借鉴语音识别中较为成熟的模型训练与解码算法。在具体实现中:首先提出基于穷举搜索的韵律短语边界自动标注方法,分析了合成系统中不同特征与上下文信息对韵律标注性能的影响,验证该方法的可行性;在此基础上又提出了基于维特比搜索的韵律短语自动标注方法,在保证标注结果准确性的前提下,提高了标注的效率;进一步提出了结合n-gram先验分布的韵律短语自动标注方法,通过利用文本层面的先验知识,进一步提高了韵律标注的准确性,在Boston University Radio News Corpus和Blizzard Challenge 2007英文语料库上分布取得了79.6%和81%的标注F-score。

5、发音可视化建模研究

Fang, Q., Luo, R., Wei, J., et al. (2017). Acoustic VR in the mouth: A real-time speech-driven visual tongue system. IEEE VR.

“一带一路”国家重大发展战略除了要求国内的资金、技术走出去,同时也需要大量听、说、读、写能力全面的语言人才为“走出去”战略服务。发音的准确与否是语言能力评价的重要指标之一。然而,发音往往是语言学习的薄弱环节。有些学习者的母语中没有目标语言的某些语音单元,造成学习者仅仅从听觉上无法意识到语音单元的差异,给学习这些语言的发音造成很大困难。可视语音技术能生成与语音信号同步的发音器官运动视频信息,并以视频的方式反馈学习者发音时发音器官的位置信息,能够帮助学习者克服发音学习中的上述困难,提高语言学习的效率。

在发音学习过程中,发音器官的运动信息对于提高学习的效率有积极意义。然而,除了唇的运动能直接观测外,其它的发音器官通常都位于声道内部,很难直接观察。因此,实时捕捉发音过程中舌头的快速三维运动是一件十分困难的事情。本研究采用如下方法建立了一个新的虚拟现实系统。该系统能实时将输入的语音信号转换成高真实度的三维舌头的运动序列。首先,我们使用EMA在发音器官表面粘贴了传感器(用于记录发音过程中局部发音器官的位置信息),并采集了同步的语音信号和传感器的位置信息,并基于此信息利用深度神经网络建立从语音信号到传感器位置的映射关系。其次,我们用MRI采集了同一发音人的发音器官(舌、下颚、上颚等)的形态数据。基于上述发音器官的形态数据,我们用有限元建立了一个舌的生理模型。该模型充分考虑了舌头的非线性形变,舌头形变过程中的体积不变性,以及舌头在运动过程中与周围器官(下颚、上颚等)的碰撞。为了提高模型的实时性,我们采用了空间减缩的方法用在低维度空间中计算舌头的形变。最后,我们将前两部建立的模型依次串联起来,得到了本文描述的发音过程中舌头实时运动的虚拟现实系统(如下图)。实验表明,该系统能够依据输入的语音信号生成高真实度的发音器官的运动序列。

6、英语语调与汉语语调的对比研究

林茂灿、李爱军(2016)英汉语调的相似性与对外汉语语调教学,《中国语音学报》第7辑。

本文为研究英语语调与汉语语调之间在声学或语音表现上的相似性,从“相似不等于相同,相似是客观事物存在的‘同’和‘异’矛盾的统一”(张光鉴,1992)的相似性定义出发,观察和研究英语语调和汉语调调之间哪些是“同”,哪些是“异”。汉语是声调语言,英语是非声调语言。我们看到英语与汉语之间的重读凸显及疑问和陈述边界调,都存在语音表现和语音特征的“同”和“异”,因而,英汉语调有相似性。

“心智和思维产生于人跟外界的相互作用,在这个相互过程中,人通过自己的身体获得经验,这个经验用“体验”称之为最合适。“心寓于身”还有一层意思是概念和概念系统的形成要受人类身体构造的制约。例如人对各种颜色的分辨很大程度上是由人体视网膜的生理构造决定的。”(沈家煊,2005)我们认为,英汉语调的相似性有其认知和生理上的理据。

这篇论文应邀作为大会报告在第三节汉语韵律语法国际研讨会上报告。

课题组供稿

(责编:王瑶)