旧版网站入口

站内搜索

“汉语方言自然口语有声基础语料库建设”中期检查情况

2015年07月22日16:22来源:全国哲学社会科学工作办公室

一、研究进展情况

一、研究计划总体执行情况

本项目2012年10月立项。2013年1月13日举行开题论证会,至今(2014年6月)已有一年五个月。一年多来,项目按照原定计划推进,总体进展顺利。

本项目的总目标是建设一个可与GIS衔接的、方言布点较均衡、语料类型较全、标注较精的基础方言口语语料库,同时借助语料库建设推动方言研究的数字化。课题有两项建设目标:(1)建语料库;(2)通过建库推动方言研究的数字化。依据研究计划,课题分前期(2013)、中期(2014-2016)、后期(2017)三个阶段。前期主要任务是基础理论研究和建库设计;中期主要是语料采集和标注;后期主要是语料库运行和完善。目前已完成前期基础理论研究,刚进入中期语料采集。具体情况如下。

1.1 前期基础理论研究(2013.02-2014.05)

调动组织全组力量,完成了三项基础工作:(1)梳理相关文献,厘清建库的基本理念,重新审视并确认申报时论证的语料库定位;(2)依据语料库定位设计语料库整体架构、确定数据类型与数据结构;(3)研究口语语篇类型,拟定语料采录大纲。

1.1.1 确认语料库定位

项目组对语料库文献及本项目所涉方言的各种文献进行了仔细梳理,结合研究目标厘清了建库的三个基本理念:专库多用、开放互动、方言研究数字化;同时确认本项目应建一个基础性的、系统语篇型语料库,即给本库两个定位:(1)基础性;(2)系统语篇型。

1.1.2 完成语料库设计及各类数据设计

根据“基础性”和“系统语篇型”的定位设计了语料库结构及各类数据结构。我们用三项设计实现“基础性”定位:

第一,语料类型的基础性。以口语语篇为主,辅以字、词、句等基础语料。从建库目标看,基础语料是实现语篇自动或半自动标注的支柱;从语料库结构看,基础语料与语篇语料互为依托,才能满足方言研究及应用研究的各种需求。

第二,方言布点的基础性。方言口语语篇兼具方言的语言系统及其所承载的地域文化的双重基础性。为呈现这种双重基础性,方言布点兼顾方言与文化。因方言分区与地域文化大体对应,故依照汉语方言的一二级分区、选择地域文化中心的具有典型代表的县市设方言点。这些方言点覆盖全国九个大方言区和官话的八个二级分区,是当地经济文化中心(或为古城),具有地域文化代表性。

第三,语料形式与内容统一的基础性。语料形式指其语言样态,语料内容指其所映射的客观世界。选用适量的方言文化语料,体现方言所承载的经典地域文化。

用两项设计实现“系统语篇型”定位。“系统语篇型”有两个含义,一是语料类型以语篇为主;二是语料是系统的(Systematic),即预先确定收集语料的原则和比例,语料具有平衡性和系统性。

第一,设两个大库:语篇库和基础库,语篇库是主库,基础库是副库,体现语篇的主角地位。两个大库分别设三个子库:语篇库有文本语篇库、即席语篇库和自录语篇库,基础库含字库、词库和句库。

第二,语篇类型分三级,三级类型所含种类数成宝塔状:顶部的一级种类数目少,概括度高,便于操作;中底部的二、三级类型数目递增,尽量涵盖方言口语中出现的各种细类,体现语篇语料的系统性。设定每一小类的采录内容及大体相当的时长,实现语料平衡。

设计基础数据。语篇库以语篇为一级单位、以句为二级单位设计数据,每条数据24个字段。基础库因语言单位不同,分别设计数据字段。字库以音节为一级单位、以音位为二级单位设计,每条数据41字段。词库以词语为一级单位、以音节结构元素为二级单位设计,每条数据42字段。句库以句为单位设计,每条数据22字段。各类数据的字段数目虽不同,但都含三部分,一是语言信息字段,二是制作信息字段,三是与GIS衔接的字段。

1.1.3 完成语料库采录底本制作

语料采录底本是语料库建设的根本,前述各项设计能否兑现取决于语料采录底本的结构与质量。语料采录底本还是中后期工作的纲领。因此,拟制语料采录底本是前期基础研究的归宿与重心,项目组倾注了大量人力、物力与精力。语料采录底本分字表、词表、句表和语篇底本四类。前三类我们有前期积累,而语篇底本我们既无前期研究成果,又缺乏可资参考的资料,是重中之重。四类采录底本的研制经历了三步。第一步参阅文献拟草稿(2013年2月-2013年11

月)。第二步征求意见后修改加工形成初稿(2013年12月)。2013年12月中旬在

广州召开第17届全国汉语方言学会年会,四类采录底本以论文形式在会上交流,广泛征求专家意见。第三步经实地采录试验后再次修订、定稿(2014年2月-4月)。2014年1月在南京用采录底本初稿试验录制,然后逐字、逐词、逐句、逐篇整理、修订,再定稿。四类采录底本的拟制情况见下节“调查研究”。

1.2 中期语料研究(2014年1月-至今)

2014年上半年是前期基础研究与中期语料研究的衔接过渡期。已按计划完成南京方言的试验采录,并根据试验结果修订完善了语料采录大纲。其他方言点的同步采录工作大多安排就绪,计划暑假开工。

南京方言的采录试验集中在2014年1月,依照采录底本初稿完成了主体工作,含4052单字、542双字组、5646词语、100语法例句,以及文本语篇、即席语篇的录音和录像。2月至6月进行了两项后续工作。一是依据试验结果修订采录底本的缺陷,补充、删节、修改有关内容,完善采录底本。其中字表和词表有较大改动,语篇底本有个别调整。二是检查所录语料是否合格。重点检查方言是否准确、地道,音档有无扑麦、过载或信噪比不足,音档数量与采录底本是否吻合。请当地方言人审听方言是否合格,由项目组成员审查技术问题。将审核出的问题集中,拟制成补录提纲,于2014年4月完成补录。然后整理补录的音档,替换原不合格音档。根据新定采录底本重新整理已录语料,根据数据模型切割音档,根据语料库构架归置音档于指定位置,使所有音档的编码、存放位置等与新采录大纲一致。

二、各子课题进展情况

本项目有五个子课题。子课题一是软件组,研制建库系列软件;子课题二、三、四是方言组,分别研究东西南北中的方言语料;子课题五研究方言韵律。软件组和韵律组的研究依托于方言组。方言组的研究主要在前期和中期,软件组和韵律组的研究主要在中期和后期。五个子课题都按照原计划实施研究。

2.1 子课题一:语料库建设系列软件的研制

负责人南京师范大学计算机学院曲维光教授。该子课题的任务是研究和开发相关软件,使语料的采集加工软件化或半软件化。采用两条途径实现这一目标:一是自主研制相应软件,二是借用已有软件,分别由两个小组承担。关于借用软件,已选了两款,其中一款已完成与项目的对接,另一款尚在考察中。关于自研软件,正在依据已录语料细化其设计,并选用供研制软件用的语料。

借用软件之一是Elan ( EUDICO Linguistic Annotator),由荷兰纽梅茵马克斯布朗克心理语言学研究所开发,是一个跨平台(可在Windows ,Macos ,Linux等主流操作系统上使用)的多媒体转写标注软件。广泛应用于口语语料库建设、话语分析、态势语研究等方面。2001年颁布,比较成熟,已有汉文版。本项目所以选择Elan是因为:第一,它可同步实现语篇的三种标注——汉字、国际音标、普通话译文;第二,可分别进行音频、视频文件的标注。这两种性能与本项目语料文件储存类型及语篇标注要求相吻合。按照项目组要求,王洪钟教授和侯超实验师研究了Elan性能和操作程序,并用已采录语料实际演练,确定语篇标注工序。由侯超起草、项目负责人审定修改,形成本项目语篇标注规范,收入《汉语方言口语有声库语料采制工作手册》下篇第三部分“语料整理规范”第六款第四条“语篇标注规范”。

另一款软件可同步录入用普通话翻译方言语篇的口语语声。这将在一定程度上缓解语篇标注的压力。但这款软件不够稳定。可否改造为建库所用,尚在考察中。

该组成员同时进行语言处理及计算语言学的相关研究,发表论文3篇。

2.2 子课题二:西部北部方言口语语料研究

负责人兰州城市学院莫超教授。该组负责北方官话二级分区及晋语的9个方言点的语料研究。在2013年的前期基础研究中,协同总项目组完成了语法采录大纲的研制。专题研制了“兰银官话语法基础语料调查提要”,为中期兰银官话语法语料的采录提供了依据。

2014年2-5月,该子课题有8个方言点完成了以下三项基础工作:

(1)梳理方言音系已有研究成果,汇总主要分歧,为归纳音系做准备。

(2)拟制本方言特有文化语料采录底本。这是语篇采录大纲的内容之一,约占一个方言点语篇总时长的20%。

(3)拟出本方言特征词表。这是采录词表的内容之一,占一个方言点采录总词条数的3.6%。

本项目语料采录大纲分所有方言共有和各方言特有两部分,以共有语料为主,特有语料为辅。共有语料由总项目组设计。特有语料分特有文化语料和特征词两类。特有文化语料由各方言点根据语篇模型拟出初稿,由总项目组审核定稿。特征词由总项目组提供初稿,方言点核实、补充、修订,再由总项目组审核、定稿。两类语料的设计模型均经过2014年1月的语料采录试点的检验。2月,各方言点开始工作,5月全部完成。

特有文化语料归属语篇,项目组依据语篇模型规定其种类及数量,以保持各方言点语料的平衡。拟出特有文化语料底本的统一书写模板,以保证语料采集大纲的整齐与一致。关于特征词,项目组提供了精粗不一的初稿,各方言依据多种文献和责任人此前的研究积累进行复核修订。各方言修订的幅度不同,有的未修订,仍采用原稿;有的删节大部分词条,另做补充;有的基本保留原词条,补充了词义、例证等。提交的特征词表各方言数目不等,需要项目组最终审核统一。关于音系综述,有的方言点已有研究不多,尚无分歧,略去不做。

以上三项工作及完成情况的概括包含三个方言组,下文汇报另两个方言组情况时不再重复。

本组有8个方言点拟定了特有文化语料采录大纲:北京官话(冯青青博士)、胶辽官话(王淑霞教授)、冀鲁官话(张燕芬副教授)、甘肃兰银官话和宁夏兰银官话(莫超教授)、东北官话(梁晓玲副教授)、新疆兰银官话(张洋教授)、晋语(史秀菊教授),共11.18万字,平均每方言1.4万字。有7个方言拟制了特征词表(新疆点除外),共1634条,平均每方言233条;有5个方言做了音系综述(胶辽官话、晋语、新疆兰银官话除外),总字数1.73万字,平均每方言0.346万字。

该组成员同时进行本方言的相关研究,发表论文12篇。

2.3 子课题三:中部东部方言口语语料研究

负责人浙江师范大学王洪钟教授。该组负责吴语、徽语、湘语、江淮官话共5个方言点的语料研究。2013年的基础研究阶段,协同总项目组研究语篇采录大纲,以及语篇标注软件的引介工作。

2013年1-5月,王洪钟首次研究了方言口语的语篇类型,拟出语篇采录初稿,为本项目语篇采录底本的后续研究奠定了良好基础。同时,尝试用Elan标注方言语篇,使本项目建库软件的开发借用进入了操作层面。

2014年1-4月,江淮官话南京方言点作为项目试点完成语料采录。

2014年2-5月,本组的其他4个方言点完成了特有文化语料底本、特征词表、音系文献综述等研究:南部吴语(王洪钟教授)、北部吴语(顾劲松副教授)、徽语(栗华益副教授)、湘语(李康澄博士)。4个方言的特有文化语料底本总字数8.74万,平均每方言点2.185万字。4方言音系综述共1.454万字,平均每方言点0.36万字。修订特征词表的有3个方言,共497词条,平均每方言点166词,徽语仍沿用项目组提供的词表。

该组成员同时进行本方言的相关研究,出版著作一部,发表论文17篇。

2.4 子课题四:南部方言口语语料研究

负责人暨南大学陈晓锦教授,负责粤语、闽语、客家话、赣语4个方言点的语料研究。

2014年2-5月,粤语(陈晓锦教授)和客家话(侯小英博士)完成了拟订文化语料底本、修订特征表及音系综述三项工作。粤语文化语料底本2.23万字,特征词162个,音系综述0.83万字。客家方言文化语料底本1.45万字,特征词208条,音系综述0.35万字。平均每方言点文化语料1.84万字,特征词185词,音系综述0.59万字。

该组成员同时进行本方言的相关研究,发表论文9篇。

2.5子课题五:方言口语韵律研究

负责人南京师范大学顾文涛教授。根据开题评审专家“收缩任务”“研究韵律词变调”的意见,本组研究任务调整为两项:一是建设典型方言专用韵律数据库;二是用实验方法研究各方言点韵律词(双音节)变调,为研究方言语料标注软件提供音变规律的支撑。因收缩了任务,顾文涛教授2013年另设计课题“社会情感的语音生成与认知的跨语言跨文化研究”,选为国家社科基金重大项目,竞标后获批,立项号13&ZD189。

该组的方言专用韵律数据库正在筹建。

韵律词变调研究需要语料做实验。2014年5月,南京完成采录语料的核对,6月初,选用了其中的542组双音节韵律词开始做实验。目前正在分割组合音档,做标注。预计7月底完成。这一研究的另一用意是通过试验拟出韵律词变调的研究规范。

该组成员同时还进行韵律及方言的相关研究,发表论文5篇。

三、调查研究

主要有文献调查和实地语料采录。

实地语料采录是本项目中期的主要任务。2104年是中期研究第一年,上半年完成一个方言的试点采录,下半年将全面推开。

2013年1月至今,项目组调查研究的重心是语料采录大纲,分字表、词表、句表和语篇底本四种。如前所述,研制语料采录大纲经历了三步:查阅文献拟草稿,征求意见定初稿,试验检验后定稿。四类语料底本的具体调查研究如下。

3.1字表。定稿字表分单字表和双字组表(用来调查连读变调)。定稿单字表4012字,分音系例字(1-337)和同音字汇(338-4012)两部分,统一编号。第1-96号为声调例字,97-234为声母例字,235-337为韵母例字;338-4012为同音字汇。每字携带反切上下字、中古韵摄、开合、等、声、韵、调及北京声韵调。其中3904-4012的109个字没有古音信息。先后参加字表拟定的有项目组成员吴莉、肖萍、冯青青、王会、魏汉杰、唐志强、刘俐李。

双字组表用来调查最基本的双音节连读变调规律。按照中古四声八调设计,共542组。这些组合首先确保符合调类组合规则,其次考虑常用性和通用性,考虑到有的方言可能不只八个声调,预留了可补空间。先后参加双字组表拟定的有侯超、冯青青、刘俐李。

单字表的源表是项目组前期成果“现代汉语方言有声数据库”(2005-2012)的采录字表,经历了四次修订。总字数由源表的4033字到草稿的4082字、初稿的4052字,定稿为4012字。

第一次修订(2013年2月至10月)拟出草稿。修订原则:一字一音一义,不收方言不说的字、发音人难以确认的字、冗余字、极度低频字和语义不明字。做了四项修订:验核补字,删重,修缮,补充各字的古音信息。我们用三种材料检验字表收字,一是42卷本方言词典共有词的用字,二是“现代汉语方言有声数据库”6000词汇表用字,三是社科院语言所的词汇调查表用字,然后删重补漏,修订源表用字、用例、注释、读音等方面的不当及错漏。总字数由源表的4033增至4082。

第二次修订(2013年12月)后确定初稿。广州方言会议征求意见后,主要修正了有误的古音和北京音信息,查补了80余字原缺的古音信息,增加了音系例字中的韵母例字,删节了30个不易采录到的字,给字表重新排序。总字数由草稿的4082减至4052。该稿用于试点采录。

第三次修订(2014年2月)后初步定稿。初稿在南京试录后根据试验结果再次修订。主要工作:再次排查重复字,删节书面语字、少用字、不便言说的字,多义字选其口语常用义,给无音韵地位的字重新排序。总字数由初稿的4052减至4012。

第四次(2014年5至6月)核对古音信息,定稿。依据丁声树、李荣《古今字音对照手册》和社科院语言所《方言调查字表》,参照《广韵》、《康熙字典》和郭锡良《汉字古音手册》逐字核对修正或补充4012字的古音信息及北京音信息,共修正补充了34字的相关信息。

3.2 词表。定稿词表分核心词、基础词和特征词三个大类。前两类是各方言共有词,反映方言的共性,可用于方言间比较。特征词各方言点不同,反映方言的个性。核心词采用斯瓦迪士的200核心词,序号1-200。基础词共5260条,序号201-5460;按语义分作29类,按类排序。特征词每方言点各有专属词表,词目在100-300之间,起始序号5461。

用来制定词表的源表是项目组前期成果“现代汉语方言有声数据库”(2008-2012)的采录词表,有6020条核心词和基础词,各方言特征词100-400不等。6020条词表是多重研究的结果,以三篇系统研究汉语方言词汇的硕士学位论文(南京师范大学,2009)为主。该词表含42卷本方言词典的3877条方言共有词(经硕士论文自建数据库统计得出)。源词表的收词及数量基本符合本项目,但还需要打磨。源词表经过三次修订,总词数由6020词减至5886、5646(用于试点录音),定稿词表为5460词。修订工作主要有:(1)核定收词单位,删节语素,保留词、短语词和成语、惯用语;(2)核定并注释词义,给容易岐解的词、不易准确理解的多义词注释词义(取基本义),做到一词一义;(3)核定词性,做到一词一种词性;(4)删节同义重复词、生僻词、已亡词、近亡词、书面语词、方言中难有对应说法的词,删节借用常用名词或动词的量词,如一房子人,一挑水,删节重叠、儿化等变形词;(5)分类及归类;(6)编码;(7)排序。2013年11月前拟草稿,主要工作是(1)-(4);2013年12月拟出初稿,以(4)-(7)为主;2014年1月后的再次修订,主要查误补漏,涉及(1)-(7)全部。

参加词表修订的有侯超、宋益丹、唐志强、滕菲、王会、魏汉杰、唐志强、刘俐李。

3.3 句表。有100语法例句。语法例句不是本项目语料重点,因为本库各种类型的语篇能提供数量较大、类型较全、自然度较高的语法例句。但自然语篇的语法例句类型及其数量的平衡不易控制,故仍需做此项设计。100条语法例句涉及句法结构、句法成分、语序、句型、句类、体貌、复句和特殊格式,以方便方言之间的比较。句表草稿拟出后修订了一次,即广州会议后的修订,南京试验时未发现问题。拟制句表的有侯超、莫超。

3.4 语篇。这是本库语料建设的主体,但可资参考的文献很少。我们认为,口语语篇类型及据此而研制的语篇采录模型是拟制语篇底本的关键。2013年1月,项目开题后即由王洪钟担纲,从语篇类型入手展开研究。5月13日拟出初

稿。项目负责人根据初稿再研究,8月13日拟出第二稿,然后提交方言组学者讨论。8月27日拟出第三稿。第三稿结合说话人角色和语料类型进行语料平衡处理,设定各类话题编码,形成语篇采录模型。然后用具体语料填充该模型,制成语篇采录表。语篇采录表经广州会议征求意见和南京试录检验后,调整了一些话语方式,最终定稿。冯青青参与了具体语料的研制。

确定语篇类型依循三条原理:(1)注重语篇形式与语篇内容的统一及充实;(2)语篇形式应涵盖本项目所涉及的各种因素;(3)语篇内容应包含人、自然、社会和话语四方面,因为语篇映射客观世界,客观世界的基本元素有人、自然和社会;语篇还是话语单位,应有话语的内涵。语篇设计遵循四项原则:(1)类型全,篇量足;(2)注重反映方言的语音、词汇、语法、语篇特点,注重反映方言所承载的地域文化特征;(3)便于各方言语料对比;(4)便于发音人言说和录音人录制。

定稿语篇采录底本分为三大类:文本语篇(按照文本脱稿言说生成)、即席语篇(顺着话题即时言说生成)、自录语篇(根据语境现场言说生成)。三类语篇的自然度依次递增,即:文本语篇﹤即席语篇﹤自录语篇,但录制与标注的难度顺序相反。文本语篇分六类,即席语篇有四类,自录语篇有两类。

四、学术会议

举办了重大项目开题论证会。

先期召开了开题预备会。2012年12月15日项目组在宁全体成员参加,主要讨论项目负责人的开题总报告,五个子课题的分报告。重点讨论了语料库管理及研发语料处理软件问题,GIS(地理信息系统)技术与方言语料对接问题,语篇类型设计、采录、标注等问题。安排了论证会的学术准备与会务筹备。

2013年1月13日,开题论证会在南京师范大学随园举行。会议由中国社会科学院语言所侯精一研究员主持,出席会议的有上海师范大学潘悟云、复旦大学游汝杰、复旦大学陈忠敏、南京大学顾黔等五位教授,江苏省社科规划办主任徐之顺,还有南京师范大学副校长缪建东、社会科学处处长秦国荣、文学院院长骆冬青、副院长党银平等教授。项目负责人刘俐李教授做开题总报告,子课题负责人兰州城市学院副院长莫超、浙江师范大学王洪钟、南师大计算机学院副院长曲维光、南师大文学院顾文涛四教授作子课题开题报告,骨干成员南师大地科院龙毅教授就本项目与GIS的衔接作说明。各位评审专家就数据库规范、标注工作量、音变规律研究等问题提出精要见解与建议。侯精一研究员

作总结,认为本项目有“很高的热情,很硬的要求,很大的工作量”,建议“收缩任务”并提出具体指导意见。这些意见和建议中肯、切实,使项目建设更具操作性。

组织了重要学术会议的专场讨论。

“全国汉语方言学会第十七届学术年会暨汉语方言国际学术讨论会”2013年12月12-15日在广州召开,这是国内最高层次的方言学研讨会。遵照会议筹委会组织重大项目专场讨论的动议,项目组组织了一组论文参会。项目负责人作大会主题发言“第三代语料库和方言语篇库设计——‘汉语方言自然口语有声基础语料库建设’的设计”。与之呼应的有分会场的学术报告“汉语方言长篇采录语料的设计与思考”(王洪钟)、“兰银官话自然口语库中语法基础语料的设计与思考”(莫超)、“汉语方言自然口语库语法调查设计”(侯超)、“汉语方言自然口语库语音采录语料的思考”(肖萍)、“吴语叙述型语篇韵律研究方案”(宋益丹)。这些发言引起了会场内外的热烈讨论。项目组成员广泛征求意见,同时利用会议间隙集体讨论了研究内容、研究策略以及语料采录大纲的修订与分工。会后,项目负责人被推举为全国方言学会学术委员。

再次组织重要学术会议的专场讨论。

第十一届中国语音学学术会议(PCC2014)将于2014年8月在新疆大学举行。中国语言学会语音学分会会长鲍怀翘研究员授意项目负责人组织实验方言学专场。项目组将以一组方言声调实验与数据处理策略的论文参会。刘俐李参会论文“方言声调大样本单体实验的启示”、侯超“基于语音实验的调系规整方法再议”、宋益丹“汉语方言调长和调型的关系研究”。

五、学术交流

学术会议

2012年11月至2014年6月,项目组成员出席国际、国内重要学术会议32人次。主要会议有“全国汉语方言学会第十七届学术年会暨汉语方言国际学术讨论会”(2013年12月,广州),“第七届官话方言国际学术研讨会”(2013年11月,合肥),“首届语言类型学国际学术研讨会暨第二届方言语音与语法论坛”(2013年11月,常熟),“方言学国际高端论坛暨庆祝《方言》杂志创刊35周年学术讨论会”(2013年9月,济南),“阿尔泰语与西北汉语方言接触学术研讨会”(2013年8月,西宁),“第七届国际吴方言学术研讨会”(2012年11月,

金华),“当代语言科学创新与发展国际学术研讨会”(2012年10月,徐州),“第二届中国地理语言学国际学术研讨会”(2012年10月,南京)。

学术讲座

2012年10月至2014年6月,项目组成员应邀外出讲座5人次。

2012年10月,莫超教授与张建军副教授应邀在宝鸡文理学院做“西北方言文言文献中的“语助辞”专题讲座。

2013年4月,张洋教授应邀在新疆维吾尔自治区党校做“新疆语言与文化”学术讲座。

2013年5月,张洋教授应邀在新疆大学方言研究中心做“新疆汉语方言的语音”专题讲座。

2013年9月,顾文涛教授应邀在日本东京大学做“Prosodic analysis and perception of Mandarin attitudinal speech”讲座。

2014年3月,顾文涛教授应邀在日本东京大学做“Quantitative analysis of prosodic errors in nonnative speech”讲座。

六、成果宣传推介情况

项目组虽未举行专门的成果发布会,但已多次在国际和全国性学术会议上推介阶段成果,尤其“全国汉语方言学会第十七届学术年会暨汉语方言国际学术讨论会”,与会学者300余人,项目组发布了一组有关方言口语语料库设计的系列论文,引起关注,影响较大。项目负责人的主题报告“第三代语料库和方言语篇库设计——‘汉语方言自然口语有声基础语料库建设’的设计”反响热烈,当场即有学者表示赞同或赞誉。项目组成员还在“第七届官话方言国际学术研讨会”、“方言学国际高端论坛暨庆祝《方言》杂志创刊35周年学术讨论会”等重要学术会议上推介本项目成果及方言研究数字化理念。

项目负责人在《中国社会科学院报》(2013年2月18日第A07版)撰文介绍方言研究数字化成果“汉语方言实验工作系统”,编者将文章标题改为“‘方言实验工作系统’使方言研究更科学”,并在文前加有编者按。本项目倡导并实践的方言研究数字化已为国家社科规划办采纳,列为2014年度国家社会科学基金项目语言学课题指南的第12号“方言研究数字化基础建设研究”(项目负责人刘俐李2011年上报“国家哲学社会科学重大基础理论研究选题建议”的题目是“方言研究数字化基础建设”)。

二、研究成果情况

一、代表性成果

1.《汉语方言自然口语有声基础语库语料采录大纲》(8.76万字)

这是本项目语料采录大纲,也可供方言口语研究用。由三部分构成。

第一部分“录制语料概览”,用6张表列出采录底本的结构、语料种类、数量,各类语料录制时长、录制方式,不同角色发音人的具体任务。

第二部分“基础语料录制底本”,分语音、词汇、语法。语音部分有单字4012个,双音节韵律词542个。词汇分核心词(200)、基础词(5260,29类)、特征词(100-300)。语法有100例句。

第三部分“语篇语料录制底本”,分文本语篇、即席语篇、自录语篇三种。文本语篇有六类,分全部方言通用与各方言特用两种,提供录制底本。即席语篇有四类,各类下含三至四种,提供话题及话题引导词。自录语篇两种,提供场景说明及录制要求。

创新之处主要是第三部分。此前的方言调查大纲多为字、词、句,即本大纲的第二部分,未见语篇调查大纲。在已有研究成果中也有语篇,但数量少,尤其缺少自然口语语篇(即席语篇与自录语篇)。本成果提供了成系统的口语语篇采录底本,就我们目力所及,在汉语方言研究领域应是第一次。方言口语语篇采录底本有助于推动方言口语甚至共同语口语的调查与研究。此外,词表分核心词、基础词、特征词的三分结构,基础词的多重筛选,字表附古音信息,字表添加韵律词等,具有一定新意,会更方便汉语方言的调查与研究。

2.《汉语方言口语有声库语料采制工作手册》(2.36万字)

这是规范项目组各项工作的指导文件,分“概述”和“工作规范”两部分。

“概述”含研究目标、方言选点、语料结构、任务进度、责任分工五项。可使每位项目组成员把握项目整体,定位各自职责。

“工作规范”有三项:(1)资料规范;(2)采录规范;(3)整理规范。

(1)资料规范:有补充采录底本(文化语料及特征词)规范和确定音系规范。提出具体要求(类型和数目)、指明途径、规范工作步骤。

(2)采录规范:有采录对象规范、采录内容规范、音频采录与处理规范、

视频采录与处理规范、拍照规范五项。指明采录对象和采录内容,提出技术要求并予以指导,如硬件型号、软件版本、技术指标、操作程序及注意事项等。

(3)语料整理规范:含音频和视频剪辑、转写汉字、标注国际音标、字词标注和复核、例句标注和复核、语篇标注、数据模板和数据字典、入库数据语料包等八项操作规范。同时写明各类软件的使用方法、操作步骤与具体要求。

工作手册是规范本项目各种研究程序的文件,也是方言语料数字化研究方法、研究方式与技术手段的集成。方言研究的数字化是本世纪方言研究的趋势,是本项目建设的目标之一。该工作手册有助于推进方言数字化研究方式与技术手段的推广与普及。

3.《江阴方言新探》(18.6万字)

该书采用多学科交叉的多元方法研究江阴方言。首先构建江阴方言有声数据库(附光盘),应用数据库语料实验研究江阴16镇18方言点的声调。根据实验结果,将江阴方言分为五片。应用历史语料与年龄差语料揭示江阴方言近20年的变化。描写并比较江阴5方言片以及新派的常用词和特征词。有同音字汇、记音语法例句、方言故事和曲艺音频。抽样调查江阴的语言生态,多项综合统计表明,近20年来江阴方言快速萎缩、普通话发展迅速,这与江阴人的语言态度密切相关。

著名方言学家、复旦大学游汝杰教授书评评价:“同时具备四项新内容的‘方言志’,《江阴方言新探》应该是第一部”。厦门大学李如龙教授认为“采取多学科交叉、多种方法综合的研究便可使现代的方言学‘插翅’”。

该书是运用多学科交叉的数字化方法研究单点方言的一个成功案例,其模式对推进单点方言的数字化研究有参考意义。本项目单方言点的后期研究成果将以此书为参照。

二、成果清单

序号

成果名称

作者

成果形式

刊物、出版社名称及刊发、出版时间

字数

转载、引用、获奖等况

1

汉语方言自然口语有声基础语库语料采录大纲

项目组

著作(稿)

未出版

8.76万

 

2

汉语方言口语有声库语料采制工作手册

项目组

报告类

未发表

2.36万

 

3

江阴吴语新探

刘俐李

侯  超

著作

世界图书出版公司北京公司,2013

18.6万

有书评

4

中古阳声韵韵尾在现代汉语方言中的读音类型

张燕芬

论文

《语言研究》2012年4期

1.4万

 

5

江阴吴语近二十年的变化

刘俐李

论文

《语言研究》2013年1期

0.84万

人大《语言文字学》2013年5期全文转

6

试析湖北通城方言的入声韵尾

栗华益

论文

《语言研究》2013年3期

0.7万

 

7

试析汉语方言入声韵尾边音化

栗华益

论文

《方言》2013年4期

1.57万

 

8

浙江仙居吴语浊内爆音的语音学考察

宋益丹

论文

《方言》2014年2期

0.6万

 

9

东干语(陕西支)声调共时差异实验研究

刘俐李

论文

《民族语文》2013年5期

1.18万

 

10

哈密方言的“上”所起的格作用

热西旦·马力克、张洋

论文

《民族语文》2014年1期

0.8万

 

11

“方言实验工作系统”使方言研究更科学

刘俐李

论文

《中国社会科学报》2013年2月18日第A07版

0.25万

 

12

海洋方言:汉语方言研究新视觉

陈晓锦

黄高飞

论文

《中国社会科学报》2014年4月14日第七版头条,并在第一版有提要介绍

 

 

13

基于统计学习模型的句法分析方法综述

吴伟成

周俊生

曲维光

论文

《中文信息学报》,2013年,第27卷,第3期,9-19
 

0.5万

 

14

A Practical Method for Chinese All-Word Sense Tagging

Fu Jia, Qu Weiguang

论文

ICIC Express Letters, Part B: Application, Volume 3, Number 6, p 1459-1466, 2012
 

0.5万

EI检索

15

词义归纳综述

孙玉霞

曲维光

狄  颖

周俊生

论文

计算机科学,2014,第二期,23-32

0.5万

 

16

江淮方言入声时长变异实验研究

刘俐李

论文

《中国语言学》第六辑北京大学出版社 2013

1.5万

 

17

试析汉语方言入声韵的元音尾化

栗华益

论文

《语文研究》2013年1期

2.16万

 

18

实验方言学理念与方法刍议——以《江阴方言新探》为例

唐志强

刘俐李

论文

《语文研究》2013年4期

0.4万

 

19

试析汉语方言入声韵元音分尾现象

栗华益

论文

《语言科学》2013年3期

1.6万

 

20

甘肃境内的中原官话研究

莫  超

尹  雯

论文

《语言科学》2013年6期

1.80万

 

21

绩溪华阳话两字组连读变调分析

栗华益

论文

《中国语学研究·开篇》(日本)第31期(2012)

0.94万

 

22

江苏高淳(淳溪镇)方言音系

侯  超

论文

《中国语学研究·开篇》(日本)第32期(2013)

0.94万

 

23

哈密方言非音质特征表达的意义

张  洋

论文

《语言与翻译》2013年3期

0.5万

 

24

哈密方言“走”字句

张  洋

田云华

论文

《语言与翻译》2014年3期

0.6万

 

25

哈密方言的“下”

张  洋

论文

《新疆社科论坛》

2012年5期

0.55万

 

26

试论词汇研究在海外汉语方言研究中的重要性

陈晓锦

论文

《暨南学报》(哲社版)

2013年9期

 

 

27

汉语词缀的功能与皖北方言的”子”尾

侯  超

论文

《南京师范大学文学院学报》2012年3期

0.9万

 

28

普通话态度语音的感知实验研究

顾文涛

论文

《南京师范大学文学院学报》2013年9月

0.6万

 

29

方言与网络语言

侯  超

论文

《语文建设》2013年2期

0.25万

 

30

宿迁方言古咸山摄舒声字的今读

冯青青

论文

《江苏大学学报》

2013年2期

0.77万

 

31

日照巨峰方言音系及其特点

冯青青

论文

《山东理工大学学报》

2014年1期

1.06万

 

32

《西游记》中“筑”字形义考辨

顾劲松

论文

《盐城师范学院学报(人文社会科学版)》2012年6期

0.55万

 

33

盐城方言古全浊上及浊去字的今读

冯青青

论文

《盐城师范学院学报(人文社会科学版)》

2014年1期

0.95万

 

34

现代汉语“够+A”格式研究

侯  超

论文

《常熟理工学院学报(人文社会科学版)》2012第9期

0.7万

 

35

苏属江淮官话n、l分混状况考察

顾劲松

论文

《常熟理工学院学报(人文社会科学版)》2013年5期

0.80万

 

36

现代汉语方言词汇研究综述

顾劲松

论文

《苏州科技学院学报(社会科学版)》2014年3期

0.90万

 

37

从民俗中发掘方言语词的特殊读音——梅县客方言为例

侯小英

论文

《嘉应学院学报》

2014年4期

0.74万

 

38

Data acquisition and prosodic analysis for Mandarin attitudinal speech

顾文涛

论文

East Flows the Great River: Festschrift in Honor of William S-Y Wang on his 80th Birthday,香港城市大学出版社,2013年8月

0.8万

 

39

Rhythmic Patterns of Nonnative Mandarin Speech

顾文涛

论文

日本音響学会2014年春季研究発表会论文集,2014年3月

0.3万

 

40

Prosody of Mandarin affective speech by mentally retarded children

顾文涛

论文

Proceedings of WASSS

2013年8月

0.4万

 

41

东北、华北方言中后置原因标记“的事儿”

梁晓玲

论文

《语文教学通讯》

2013年9期

0.5万

 

42

哈密方言的复数词缀“跟前”

张  洋

论文

《新疆职业大学学报》

2012年6期

0.55万

 

43

哈密方言的处所疑问代词“哪达”

张洋

田云华

论文

《新疆职业大学学报》  2014年3期

0.6万

 

44

悉尼粤方言广府话

陈晓锦

论文

《粤语研究》

2012年12月,澳门

 

 

45

东南亚华人社区汉语方言创新词分析

陈晓锦

论文

《南方语言学》第五辑,暨南大学出版社,2013年

 

 

46

东南亚华人社区兄弟汉语方言的互借词

陈晓锦

论文

《粤语研究》2013年6月,澳门

 

 

47

从语言接触看粤语对广州地区客家话的影响

陈晓锦

肖自辉

论文

《第十五届粤方言研讨会论文集》,澳门粤方言学会,2012年12月。

 

 

48

广州的客家方言

陈晓锦

郑  蕾

论文

《第九届客家方言学术研讨会论文集》,中央民族大学出版社,2013年1月

 

 

49

马来西亚沙巴客家话借词浅析

陈晓锦

卓俊霖

论文

《第九届客家方言学术研讨会论文集》,中央民族大学出版社,2013年1月

 

 

课题组供稿
(责编:实习生、张文卓(实习生))