旧版网站入口

站内搜索

汉语方言自然口语有声基础语料库建设中期检测报告

2016年12月05日15:07来源:全国哲学社会科学工作办公室

一、研究进展情况

一、研究计划总体执行情况

本项目2012年10月中标。2013年1月13日举行开题论证会,开题至今(2016年7月)已有三年半。项目按计划推进,总体顺利。

本项目分前期(2013)、中期(2014-2016)、后期(2017)三个阶段。前期的理论研究与语料库设计已如期完成,2014年至今(2016)为中期,有两项主要任务:(1)语料采制;(2)软件研究(语料转写核对软件与语料库管理软件)。这两项是本项目的中心工作。以下逐项汇报。

1.1 语料采制(2014年7月-2016年7月)

语料采制分采录(调查录制)与转写(研究标注)两项工作。两年来,分属三个方言子课题的20个方言子项目按照《汉语方言语料采制手册》的规范与要求工作,现有17方言点已完成语料采录,开始转写;另3方言因故略延,正在筹备语料采录。以下就方言布点、语料内容、研究进展与项目管理逐一汇报。

1.1.1 方言布点:兼顾方言与文化选择20方言点

依据投标书设定的“兼顾方言与文化”的布点原则,选了20个方言点,覆盖全国九个一级方言区和官话的八个二级分区(《中国语言地图集》)。这20方言点均为当地经济文化中心(或为古城),具有方言与地域文化的双重代表。

1.1.2 语料内容:基础语料与语篇语料数量大

每方言点有4位发音人:老年男女、青年男女,分别录制基础语料字、词、句和语篇语料。基础语料以老男为主,同时录制另三人音系基础字。语篇语料4人均录。为方便多人对话,专设一引話人(方言地道、清楚本项目任务)参与双口语篇与三口语篇录制。语篇分话本语篇、话题语篇与自话语篇,三类语篇的口语自然度依序递增。每方言点共录制6105字,约5600词(核心词200、基础词5260、特征词100-200),100语法例句,900分钟语篇(见下页表1)。语料数量大于一般方言调查和一些在研方言数据库。

表1 本项目单方言点语料结构表

注:6105字含老男4002同音字和1092双字调式字,老女、青男、青女各337音系例字。

1.1.3 研究进展:已完成17方言点的语料采录

2014年上半年完成南京语料的试点采录、修订完善了语料采制大纲《汉语方言语料采制手册》后,即筹备路途最远的新疆哈密方言的采录。7月,新疆大学哈密方言子项目完成采录的前期准备:拟定当地独有方言文化采录底本(特征词、熟语、传说、故事、轶事、歌谣、非遗曲艺),为4位发音人分拟独用的语料底本,选定合适的发音人,拟定采录工作日程,勘查预定录音录像场地等。8月,5人团队赴哈密,全天调查并录制。首席专家刘俐李教授率队,哈密方言研究专家新疆大学张洋教授同步监听发音质量,发现问题随即质疑、讨论、重录,子项目负责人新疆大学杨洪建副教授与研究生卜元彬负责检查、复核、剪辑与整理音档,发现不合格的音档随即补录,项目组侯超实验师负责录音与录像,确保各技术参数达标。5人团队白天录制,晚上总结整理,各司其职、相互配合,紧张而有序地按计划完成了哈密语料采录。

2014年10月上旬,经费拨至各方言,各子项目陆续开始语料采录。10月,北京官话首先启动,12月,兰州、银川两方言启动。2015年1月,徽语、东北官话、晋语、粤语、温州吴语启动。2015年暑假前后,闽语、常熟吴语、湘语、胶辽官话启动。目前这12方言点均已完成语料采录,开始语料转写。2016年上半年完成客家话、西南官话、黄冈江淮官话的语料采录。截止2016年7月,共有17个方言点完成语料采录。

首席专家参与了5个方言点的语料采录,其余由各方言责任人负责:兰州城市学院莫超、张建军两教授,暨南大学陈晓锦、浙江师范大学王洪钟、山西大学史秀菊、山东女子学院王淑霞教授,哈尔滨师范大学梁晓玲、新疆大学杨洪建、安徽大学栗华益、常熟理工学院顾劲松、盐城师范学院冯青青等副教授,南京师范大学侯超实验师。博士研究生唐志强、付康,硕士研究生施小梅、漆盈、郭文娟、张敏怡、卜元彬等参加调查采录。

1.1.4 项目管理

依据开题研讨会专家的意见,各方言语料的采制聘请当地有造诣的方言学者承担。“当地方言学者”一指本籍方言学者,二指虽非本籍但工作于当地并于当地方言有造诣者。20个方言点有20位责任人,人多力大,但需要规范与统一,这是保质、如期完成语料研制的前提。

项目组以《汉语方言语料采制手册》为法规,规约并统一20方言点的语料研究,采用两级责任制管束并推进各方言点的工作。启用法规手册与两级责任制的实质是协助与推动各子项目的工作,以保证任务的完成。

(1)用《汉语方言语料采制手册》规约并统一研究

该手册由首席专家牵头、项目组核心成员集体研究(2013),经南京方言试点检验后修订完善(2014上半年)。手册有上下两编。上编是“语料采制规范”,规范并约定各方言点的采录内容、采录对象以及录音、录像、摄像等技术指标,规范音频与视频的剪辑整理、语料标注、汉字与国际音标的使用、语料入库路径,提供快捷转写语料的方法与相应软件,提供语料库结构模型,提供音频、视频、标注、文本等入库语料的电子安放模板“××方言语料包”。下编是“语料采制底本”,提供各方言通用的字、词、句、语篇的采录底本。

(2)用两级责任制管束并推进研究

项目组下设子课题,子课题下设子项目,子项目对子课题负责、子课题对项目组负责。每一方言为一子项目,20方言点隶属三个子课题:西部北部方言组(北京、东北、中原、兰银、胶辽、西南、冀鲁官话,晋语),由兰州城市学院、华东师范大学博导莫超教授主持;中部东部方言组(吴语、江淮官话、徽语、湘语),由浙江师范大学王洪钟教授主持;南部方言组(粤语、闽语、客家话、赣语),由暨南大学陈晓锦教授主持。子项目承担各方言点语料的研制,包括人员组织、经费使用、研究进度、结项成果等,与项目组签有协议书。

(3)用协助与监管来保证各子项目完成任务

项目组采用通讯(电子邮件、QQ群、电话)、视频课件、会议、派员等方式,在各方言语料研究的不同阶段实施协助与监管,以保证各子项目按设计要求不走弯路顺利完成任务。

◇语料采录前:审核采录底本与发音人选,提供语料包与语料研究软件包。

采录底本与发音人选是采录语料的关键,各方言在录制前要报首席专家审核批准。

各方言的采录底本分全国通用与本地特有两类。通用语料集中于字、词、句等基础语料,特有语料集中于语篇。通用语料取自《汉语方言语料采制手册》,各方言相同,但要将每条语料的编码改为本方言的唯一码。特有语料由各方言自拟,有方言特征词、当地熟语、传说、故事、轶事、歌谣、非遗曲艺、名产、名物等。特有语料底本由各子项目自拟、报首席专家审批,然后将通用底本与特有底本合成本方言采录底本。再拆分成4位发音人专用的分角色底本,经首席专家审批后再使用。

2015年1月,在语料采录普遍启动时,项目组将语料包与软件包下发各子项目。语料包是语料研究与语料入库的电子模板,可使各方言在研究伊始就清楚结项要求,避免走弯路,同时也规约并统一各方言的语料采制。软件包提供6种语料研究软件,以方便并统一各方言语料采录。有(1)音频处理软件、(2)文件更名软件、(3)国际音标软件、(4)语篇处理软件、(5)语音分析软件、(6)同音类记法与文件更名操作视频。(6)是培训视频,讲授字表快速记音的“同音类记法”与批量更换文件名的“拖把更名器”的使用方法。

◇语料采录中

有些方言点技术力量不足,项目组派员并携带设备协助,例如哈密、长沙、北京。有些方言点在录制中遇到问题,项目组则通过电话、短信、电子邮件等协助解决,例如平遥、广州、银川、兰州、北京、长沙、黟县、温州等。

◇语料采录后

项目组逐一检查各方言报送的原始语料,及时通告所发现的问题。

提供语料转写软件。语料转写耗时费力,是语料研究的难点与重点。子课题“方言口语库的数字化新技术研究”(简称软件组)设两个分组,专项研究开发辅助4个子库转写语料的软件与方法。在开始语料转写前,将这些软件和方法提供给各方言。

培训专用语料转写软件的使用。

2015年11月,软件组完成了两款专用软件和两种快速记音法的研制,部分方言点完成了语料采录,即将开始语料转写。11月7日,项目组召开中期研讨会,邀请各方言负责人和骨干成员参加,议程之一是培训以下4款软件的使用:

1)词表标音软件的使用与实习(鲍培明副教授讲授)

2)声调分析软件VoiceSort的使用与实习(宋益丹讲师讲授)

3)字表同音类记法的使用与实习(侯超实验师讲授)

4)词表快速标音法说明与实习(刘俐李教授讲授)

1)和2)是自行研制的软件,3)和4)是综合已有软件、excel表以及方言学知识研制的字表、词表快捷标音方法。这4种软件与方法以及后来研制的句表标音系统有效提高了语料的标音效率。

下图1是课题组成员学习词表标音软件的场景一角。

图1 学习词表标音软件

下图2是课题组成员学习声调分析软件VoiceSort的场景一角。后排三人是软件组成员,弯腰站立者是软件组的鲍培明副教授,她根据与会者提出的意见正指导团队现场修改词表标音软件的程序。

图2 学习声调分析软件VoiceSort

1.2 软件研究

2014年7月至今(2016年7月)的两年里,软件组研制了两类软件。 一是语料库管理软件,二是语料转写软件。语料库管理软件体现语料库的信息化构架并保障其运行,适用于本库;语料转写软件针对语料个体,既可用于本库语料也可用于其他语料,具有一定通用性。语料转写软件是方言研究的数字化工具。

2014年7月3日,首席专家刘俐李教授召集计算机科学、地理信息系统、实验方言学三领域的项目成员,专题研讨语料库管理软件及语料转写软件的研制。9月中旬,刘俐李教授与软件组负责人曲维光教授再次商讨,确定了具体研究方案。

1.2.1 字库与词库管理软件初步完成

由熟悉方言语料库的计算机学者鲍培明副教授具体执行语料库管理软件的研究。本项目所建语料库有字、词、句、篇4个子库,各库数据结构不同,4子库每条数据分别为52、137、38、30字段,管理软件需要分别设计与研制。

2014年11月,完成语料库整体设计。2015年5月,首先研制出字段最多的字库与词库管理软件。6月,首席专家与实验方言学者查看字库与词库的管理界面,提出修改意见。2015年10月完成修订,11月7日,在项目中期研讨会上演示,全体与会者审阅并提出修改意见。软件组当即研究并修改。会后建立了项目组专用QQ群,交流讨论问题。目前已完成修订,字库与词库的界面已可使用。

句库与篇库管理软件在研制中。

1.2.2 标音软件“语料库标音系统”初步完成

2015年7月完成词库标音系统,经方言组试用,提出修改意见,修改后再试用,再修改。2015年 11月7日培训骨干成员学习使用,听取意见,现场修改。在词库标音系统的基础上,11月中旬完成句库自动标音系统,并将词库与句库标音系统合为语料库标音系统。

句库标音系统也可用于语篇标音:将语篇拆分为句,即可应用从而实现篇库的快速标音,而拆篇为句也是语篇标注的要求。由是,语料库标音系统可实现词、句、篇3个子库的快速标音。

1.2.3 初步完成声调分析软件VoiceSort的研究

声调是方言记音中的难题,本项目多采用声学语音实验来完成。声调实验

数据的处理是语音学与方言音系学的接口,工作量大,处理尺度不易把握,是声调实验研究的难点。本项目研制的声调分析软件VoiceSort可缓解这一难题。

1.2.4 创建字表快速标音的“同音类记法”

2015年1月,侯超实验师与首席专家归纳整理出“同音类记法”。其原理是同音聚类与批量标音,作用是给字表快速标音。首先要完成方言音系声韵调例字的标音,然后利用字表中的古音信息聚类,再应用EXCEL表的批量处理功能就可快速标音。

二、各子课题进展情况

本项目有五个子课题。子课题一是软件组,研制建库系列软件;子课题二、三、四是方言组,负责方言语料的研究;子课题五研究方言韵律。五个子课题基本依照计划完成任务。

2.1 子课题一:软件组

负责研究语料库管理软件和语料转写软件,使语料的处理软件化或半软件化。设两个分组。第一组由南京师范大学计算机学院曲维光教授牵头、鲍培明副教授负责。第二组由首席专家刘俐李教授负责,文学院宋益丹讲师、侯超实验师实施。

第一分组已完成四项工作:

(1)语料库管理软件的总体设计;

(2)字库和词库管理软件的研制,界面已可使用;

(3)词库与句库标音软件“语料库标音系统”的编程,已提交各方言语料研究小组使用,普遍反映良好;

(4)完成项目组前期成果“现代汉语有声词汇库”的上网改造,并获得国家专利。

第二分组已完成两项工作:

(1) 声调分析软件VoiceSort;

(2) 字表快速标音的“同音类记法”。

声调分析软件与同音类记法各方言已使用,反映良好。

该组成员同时进行语言处理及计算语言学的相关研究,发表论文2篇,获得专利1项。

2.2 子课题二:西部北部方言语料研究

负责北方官话二级分区及晋语的9个方言点的语料研究。负责人兰州城市学院莫超教授。2014年7月至今(2016年7月),完成了7个方言点的语料采录,开始语料转写。另2个方言点预计2016年12月前完成采录。

该组成员同时进行本方言的相关研究,出版专著2部,发表论文21篇,完成3.3万字的调研报告1份,该报告获市社科联科研二等奖。

自2014年至今,该组成员获得国家社科基金课题2项:语言接触视阈下的河州方言形成与演变研究(2015),黑龙江省汉语方言地图集(2016);获得国家语委、教育部“中国语言资源保护工程专项任务”5项(山西平遥,黑龙江哈尔滨、肇东,甘肃兰州、文县);获得教育部社科项目1项:丝绸之路经济带甘肃段语言文字使用状况研究(2015)。

2.3 子课题三:中部东部方言语料研究

负责吴语、徽语、湘语、江淮官话共6个方言点的语料研究。负责人浙江师范大学王洪钟教授。

2014年7月至今,6个方言点全部完成语料录制,已开始语料转写。

该组成员同时进行本方言的相关研究,出版著作1部,发表论文18篇。

自2014年至今,该组成员获得国家社科基金课题2项:苏北江淮官话的地理语言学研究(2015)、南部吴语发声类型多维特征参数实验研究(2015);教育部人文社科基金课题1项:吴语特殊发声类型研究(2014);国家语委、教育部“中国语言资源保护工程专项任务”3项(浙江江山方言、江山文化、衢州);中国博士后基金课题2项:苏北方言语音的现状及历史演变研究(2014),石臼湖流域方言的地理语言学研究(2015);省教育厅课题2项:安徽宣州吴语语言资源调查(2014),湘语与赣语共同特征的历史比较研究(2014)。

2.4 子课题四:南部方言语料研究

负责粤语、闽语、客家话、赣语4个方言点的语料研究,负责人暨南大学陈晓锦教授。2014年7月至今(2016年7月),该组完成3方言点语料的录制,开始语料转写。剩余的1个方言点预计2016年12月前完成采录。

该组成员同时进行本方言的相关研究,发表论文10篇。

2014年该组成员获得国家社科基金课题2项(重大与重点各一):海外华人社区汉语方言与文化研究(重大)、美国华人社区汉语方言与文化研究(重点)。

2.5 子课题五:方言口语韵律研究

负责人南京师范大学顾文涛教授。根据开题评审专家“收缩任务”“研究韵律词变调”的意见,本组研究任务有所调整。

该组目前已完成的研究:

(1) 南京、徐州、苏州、常州方言句焦点重音的韵律编码方法的对比研究;

(2) 基于声调格局的“边缘吴语”概念研究;

(3) 仙居话内爆音发声态研究。

正在进行的研究:

(1)江淮官话和吴语的发声态研究;

(2)方言区的情感语音特征研究。

该组成员同时进行韵律及方言的相关研究,发表论文6篇。

三、调查研究

有文献调查和实地语料调查研究两类。

3.1 文献调查

文献调查的主要目的是拟制各方言语料采制底本,其次是梳理各方言音系的已有研究。已完成采录的17方言在2014年7月前已完成文献调查。现有3个方言点正在调查研究相关文献。

3方言之一的赣语已完成语料采制底本的拟制,正在查阅梳理音系研究文献。冀鲁官话与中原官话正在调查研究本方言特有文化与特征词的相关文献,查阅梳理本方言音系研究的相关文献,然后撰写本方言特有语料采制底本与音系研究综述,预计于8月底完成并提交审核。

3.2 实地调研

已完成的17方言点的语料均在方言当地调查与录制。有些方言点调查与录制分数次完成(多在上课期间),有的集中时间一次完成(多在假期)。另3个方言点将于2016年9月至12月赴当地调查。

四、举办学术会议

2015-2016年举办了三次学术会议:

(1) 本项目中期研讨会(项目组全体骨干成员会议,南京,2015)

(2) 2015实验方言学论坛(全国性学术会议,南京,2015)

(3) 第五届海外汉语方言国际学术研讨会(国际学术会议,美国旧金山,2016)

4.1本项目中期研讨会2015年11月在南京召开

11月6日报到,11月7日召开。项目组全体骨干成员从全国各地赴会(有两人请假,派员参会)。下图3为与会者合影。

  

图3 项目中期研讨会合影

会议有三项议程:(1)汇报课题进展与问题:(2)审议语料库管理软件;(3)培训4款语料转写软件(方法)。

表2 “汉语方言自然口语有声基础语料库建设”中期研讨会日程

会议按照以上日程顺利进行。聚焦点是鲍培明副教授演示的语料库网页设计,与会者提出了各种建设性意见。其次是各方言点语料采制工作,全体成员具体探讨了语料采录、整理及语料转写的各类问题。

4款语料转写软件(方法)的培训采用讲解与现场实习模式,讲解后随即试用并提出修改意见,讲者与听者均有收益。

4.2 举办“2015实验方言学论坛”(南京,11月)

这是第二届实验方言学论坛。由中国语言学会语音学分会主办、本项目所属南京师范大学文学院与南京师范大学综合语音实验室承办。五十余名国内外著名实验语音学家、方言学家及青年学者出席会议,本项目中期会议与会者均出席。下图是合影。会议的主旨之一是推动方言研究数字化,这是本项目建设的两项目标之一。项目组发布了前期电子成果“现代汉语方言有声词汇库”。

应《方言》杂志主编麦耘教授约稿,“2015实验方言学论坛”的会讯发布于《方言》2016年第1期。

图4 项目组举办的全国性学术会议的

4.3 举办“第五届海外汉语方言国际研讨会学术”(2016,美国旧金山)

7月15-17日在美国旧金山召开。由美国旧金山大学与中国暨南大学联合主办,本项目子课题负责人陈晓锦教授是中方主办人,本项目首席专家与另一位方言子课题负责人出席。这是汉语方言学术会议第一次走出国门,与陈晓锦教授2014年中标的国家社科基金重大项目“海外华人社区汉语方言与文化研究”(14ZDB107)相呼应。国际国内50余名方言学者出席会议,中心议题除海外汉语方言与文化的研究外,还包括方言研究的数字化。

五、学术交流

5.1 出席学术会议

2014年7月至2016年7月,项目组成员出席国际、国内重要学术会议50人次。

除由项目组举办的“第五届海外汉语方言国际研讨会学术”“(2016年7月,美国旧金山)和“2015实验方言学论坛”(2015年11月,南京)外,其他重要会议还有:“第十二届全国语音学学术会议”(2016年7月,通辽),“汉语方言国际学术高端论坛”(2015年9月,成都),“首届亚太语言文化生态国际会议”(2015年6月,广州),“中国语言学会第十七届学术年会” ( 2014年9月,北京),“he 3rd CCF Conference on Natural Language Processing & Chinese Computing(NLPCC 2014)”(2014年12月,深圳),“‘动态普通话:变异与规范’首届学术研讨会”(2014年11月,澳门),“第47届国际汉藏语言暨语言学会议”(2014年10月,昆明),“第十三届全国计算语言学学术会议(CCL2014)”(2014年10月,武汉),“第十一届中国语音学学术会议”(2014年8月,乌鲁木齐),“Australian International Speech Science and Technology Conference 2014”(2014年12月,新西兰Christchurch),等。

5.2学术讲座

2014年7月至2016年7月,项目组成员应邀在国内外讲座11人次。

2016年4月,刘俐李教授应邀在南京晓庄学院做“汉语方言地理信息系统”讲座。

2016年4月,顾文涛教授应邀在日本东京大学做“Speech prosody of Chinese languages(汉语演讲的韵律)”讲座。

2015年11月,顾文涛教授应邀在意大利那不勒斯东方大学做“Quantitative analysis of L1 and L2 Mandarin speech prosody(L1和L2普通话韵律的定量分析)”讲座。

2015年9月,顾文涛教授应邀在德国基尔大学做“From function to form in the study of Mandarin speech prosody(汉语韵律的功能与形式研究)”讲座。

2015年7月,刘俐李教授应全国汉语方言学会邀请在“汉语方言田野调查高级研修班”(上海交通大学)做“方言研究数字化”讲座。

2015年4月,刘俐李教授应邀在湖南科技大学做“汉语方言地理信息系统”讲座。

2015年3月,莫超教授应邀在陇南市政府做“‘氐羌来宾’:远古走来的白马藏人”。

2014年12月,顾文涛教授应邀在澳大利亚麦考瑞大学做“Stress, tone and intonation in L2 Mandarin speech by English and Cantonese learners”讲座。

2014年11月,刘俐李教授应邀在澳门大学讲学一周,有两个专题:(1)现代语音学研究与应用;(2)方言音系(声韵调)的系列实验研究。

2014年8月,刘俐李教授应全国汉语方言学会邀请在“2014田野调查语音学研修班”(珠海)讲授“方言音系实验”。

六、成果宣传推介情况

成果推介。项目组在“2015实验方言学论坛”宣传并推介前期电子成果“现代汉语方言有声词汇库”。

2014年7月至今(2016年7月),项目组在《中国社会科学报》发表4篇文章介绍本项目学术思想与研究成果:“数字化推动特色方言口语库建设”(2014/8/11),“汉语河州话的形成及其语言性质”(2015/9/10),“从西北方言文献角度考察文化变迁”(2016/2/25),“氐羌来宾”:远古走来的白马藏人”(2015/4/15)。

本项目倡导并实践的“方言研究数字化”已为国家社科规划办采纳,列为2014年度国家社会科学基金项目语言学课题指南的第12号“方言研究数字化基础建设研究”(首席专家刘俐李教授2011年将“方言研究数字化基础建设”上报“国家哲学社会科学重大基础理论研究选题建议”)。

工作简报。2014年7月呈报中期评估报告(1.76万字),2015年7月撰写了中期评估报告(2.37万字,上报未收),12月呈报《工作简报》(0.8万字)。

七、研究中存在的主要问题和改进措施

因经费少、工作量大而造成一些操作性困难。开题时项目组根据下拨经费情况收缩了任务,但方言布点与语料库结构只能微调无法大减,否则会伤及项目的基础设计。项目组想方设法应对这一困难,主管单位也尽力协助。

7.1 因任务重经费少有6方言负责人请辞

方言子项目负责人先后有6人请辞(赣语、闽语(2)、客家话、冀鲁官话与西南官话)。

不少方言点负责人同时承担国家语委、教育部的“中国语言资源保护工程专项任务”。该项目每方言点拨经费8万(方言语料)和15万(文化语料),本项目只有2万。以8万计,为本项目的4倍,而本项目工作量为其4倍多(见表3数据)。负责人请辞也是事出有因。

表3 两项目单方言点语料量及经费对比

解决办法:改由项目组承担此6方言的语料研制。

项目组曾多方设法另找方言点负责人,但无合适者:或本人愿意但与课题要求不符,或虽符合课题要求而本人得知任务后又打退堂鼓。

问题虽已解决,但此6方言进度后延,影响到项目的整体进度。原计划2016年12月完成全部语料研制,2017年试运行语料库并完善语料库管理软件。但此6方言的语料研制预计分别于2017年与2018年完成,原定2017年的工作只得顺延。

二、研究成果情况

一、代表性成果

以下所列5项成果均与方言研究的革新和数字化有关,方言研究数字化是本项目的建设目标之一。

国家社科重大项目除完成所设定的研究任务外,还应有益于学科建设。汉语方言学从20世纪20年代诞生至今已近一个世纪,硕果累累。但需要发展。我们认为,汉语方言学承继先贤智慧与硕果,对语言静态基础单位字、词的研究已达极致,储备了足够的发展势能。探索语言动态运作基本单位语篇,应是本世纪汉语方言学发展的重要方向,因为语篇的动态研究更能揭示语言本质,故此,国际语言学界近年推崇立足于语篇研究的功能语言学。但研究语篇的工作量远大于字词,传统的作坊式手工劳动已不能胜任,与之匹配的应是方言研究的数字化,包括①采录语料数字化,②确定语料音质实验数据化,③转写标注语料软件化,④汇集语料数据库化,⑤绘制方言地图平台化,⑥刊布成果自控化(《中国社会科学报》2014年8月11日)。所报5项成果与上述①至④有关。这5项成果都很稚嫩,但这是我们迈出的第一步,祈望能抛砖引玉,推动方言研究的数字化发展。

1.1《汉语方言语料采制手册》(16.6万字)

这是本项目工作的法规性文件。2013年完成初稿,2014年试用后修订,2015年再试用再修订,同年11月在项目中期研讨会印发纸质本。该手册分上下两编。

如上所述,转型语篇研究是本世纪汉语方言学发展的重要方向,本手册下编为方言学转型提供了语料采集的初本。与方言语篇研究匹配的研究方式是方言研究的数字化,本手册上编提供了语料采集数字化初案。

上编有梳理资料、采录语料与整理语料三项规范。

(1)资料规范:有拟制文化语料及特征词规范,确定音系规范。

(2)采录规范:有采录对象、采录内容、音频采录与处理、视频采录与处理、拍照等五项规范。同时提供具体操作指导。

(3)语料整理规范:有音频与视频剪辑、转写汉字、标注国际音标、字词标注及复核、例句标注及复核、语篇标注、数据模板、入库数据语料包等八项操作规范。同时写明各类软件的使用方法、操作步骤与具体要求。

下编有语料概览、基础语料与语篇语料三部分。

(1)语料概览:用6张表列出采录底本的结构、语料种类、数量,各类语料录制时长、录制方式,不同角色发音人的具体任务。

(2)基础语料:有单字4002个,双音节韵律词546组(研究变调用),词汇约5600(核心词200、基础词29类5260词、特征词100-300),语法例句100。

(3)语篇语料:有话本、话题、自话三类。话本语篇有六类,分所有方言通用与各方言特用。话题语篇有四类:单口叙述型、多口交互型、仪式型、艺术型,每类提供话题及引导词。自话语篇有自然场景与特定场景两种。

上编集中阐述采制方言语料的数字化方式与技术手段。下编是以语篇为核心的自成体系的语篇采录大纲。就我们目力所及,语篇调查大纲在汉语方言学界尚未见,本手册应是首次。

1.2 现代汉语方言有声词汇库V1.0(网址:fych.njnu.edu.cn,4.94G)

语料库是储存语料的数字化方式。“现代汉语方言有声词汇库”是本项目的前期成果,可在网上查询使用,是一个兼顾语音的方言有声词汇库。2016年取得国家计算机软件著作权(登记号2016SR157089)。由两期211重点学科建设项目资助建设,10年中约40名硕士生、博士生参与研究。2008年建成单机光盘版,2012年改造成网络版。经多次语料复核后2015年11月上网,更名为“现代汉语方言有声数据库”(该库还有二期建设的其他语料,但未完成复核,未上网,该库目前只有词汇)。下图是其首页。

图8 “现代汉语方言有声词汇库”首页

该库所选方言点分布于全国10大方言区,覆盖官话的8个二级区,以及湘、闽、吴语的部分二级区。每方言点录制词汇3600~4000条。每条数据有26字段,分5类:词项,词属,词音,词义,词性。词项是纲,统领各方言词义;“词属”标明每一词条的词汇大类(基础词、核心词、特征词);“词音、词义、词性”

描写词条的内部构造。词音与词义并注,声音与文本同现,集中反映方言词汇的共性和个性。可从方言、词项、词属、词音、词义、词性等不同角度检索词汇,还可进行声母、韵母、韵尾、调类、调值、音节数等单项或多项语音检索。可选择单点或多点方言组合检索。可在检索结果中进行10次再检索。每种检索同时匹配文本与声音,并有计数。可用于语音、词汇的专项研究,也可用作教学演示,如方言课、语音课,中小学语文课,文化课等,也可供社会使用。

本项目所建语料库与此词汇库不同:(1)本项目所建库有字库、词库、句库和语篇库,该库只是兼顾语音的词汇库;(2)本项目词库每方言有5600词,该库是3600~4000词;(3)本项目词库数据有137字段,该库为26字段;(4)两库的方言布点与发音人皆有不同。

1.3 语料库标音系统

这是一个给方言词和方言句子自动标注国际音标的软件。由鲍培明副教授团队研制。软件自身占用空间6兆。无需安装,直接复制即可使用。该标音系统附有使用说明,有文有图,按图索骥便可操作。使用前将要标音的词表、句表与已标好音的字表复制到软件指定位置。然后运行程序,即可自动完成词表与句表的标音。汉字标音后需要手动标注词汇中的音变,如变调、变声与变韵。

本项目各方言已使用,普遍反映提高了标音效率。其他方言也可使用,前提是按照本项目字表、词表与句表的格式输入数据。

1.4 同音类记法

是一种快速记音法,基本原理是聚类同音字、批量记音,而不必一字一记。按照同音聚类原理,利用EXCEL表的批量处理功能,即可实现字表的快速记音。关键步骤是聚类同音字、批量记音与校音。记音的第一步是给方言音系的声韵调例字标注方音;第二步利用方音与古音的对应关系聚类同音字;第三步用EXCEL表的批量处理功能记录字音;第四步关联汉字音档与标音,运用同音校对法核对标记的字音,校正与古音不对应的字音。

该方法由侯超实验师与刘俐李教授归纳整理。

1.5方言声调分析软件VoiceSort

这是一款用于分析和归纳方言声调的软件。由宋益丹讲师研制。

软件的设计思路是对接praat基频提取脚本,实现方言声调五度值转换的批量处理,提升方言声调系统归纳的效率。VoiceSort分析和归纳方言声调系统的

优势:

(1)根据五度值曲线进行调类归纳,不受主观因素干扰,声调系统的归纳过程更具科学性,并有助于发现声调系统的动态变化;

(2)批量处理多个文件(如老男、老女、青男、青女),无需分次打开,大大提高声调归纳的效率;

(3)所有样本的作图自动完成,一步到位;数据与图表直接以excel表形式输出,便于数据汇总和结果呈现。

目前已完成单字调的分析部分,预计于2017年1月完成双字调系统的自动化处理,实现软件的全部功能。

同音类记法、语料库标音系统与方言声调分析软件VoiceSort,是针对本项目字表、词表、句表的标音以及声调研究的数据处理工具,覆盖了本项目4个子库的语料标音(语篇可拆分成句应用标音系统)。这套方言研究的系列数字化工具有效缓解了本项目语料标注的难题,同样也应有助于其他同类研究。

2014年至2016年,项目组成员获立国家社科基金课题6项,其中重大项目1项,重点课题1项。

二、成果清单 见下页。

成果清单

课题组供稿

(责编:沈王一)