旧版网站入口

站内搜索

“汉语史语料库建设研究”中期检查报告

2014年02月26日19:09来源:全国哲学社会科学工作办公室

一、 研究计划总体执行情况及各子课题进展情况

本项目于2010年12月27日获国家社科基金办批准立项,立项后召集课题组全体人员根据国家社科基金办反馈的“第17组综合评价意见”(即对本项目的专家意见),就专家组提出的“缩小课题范围,只做中古汉语语料库,集中力量将中古汉语语料库做精做好。加强语料库建设相关理论研究”等意见重新填写了项目的目标任务书并得到国家社科基金办的批准。

项目的最终目标是:在五年建设期间,1.建成国内首个可用于汉语史研究的由多个子库组成的收录原始语料1000万字,库容1600万字的具有多集合特点的深加工中古汉语语料库(内容上是中古汉语代表性语料的集合,结构上是校勘库、义项库、语法库等多库的集合,功能上是自动分词软件、自动标注软件、检索系统软件等多种功能软件的集合。为汉语史语料库的建设作一些理论上的探讨及实践上的尝试,为汉语史研究(特别是中古汉语史的研究),提供一个比较实用的操作平台。2.在中古汉语语法体系、中古汉语词汇系统、中古汉语语料库建设理论研究方面有所突破,产生相关的指导性理论论著。3.研制出“中古汉语语料库检索系统”、 “中古汉语自动分词系统”、“中古汉语词义自动标注系统”“ 、“中古汉语异文发现软件”等一系列相关软件。

自项目开题至今(2011.4—2013.7),已经经过了两年半时间,项目研究时间

(2010.12—2015.12)过半,我们严格按照原订计划,总体进展顺利,目前已经完成全部任务的三分之二(某些方面在原计划的基础上作了较大规模拓展)。具体表现在: 入库语料至2013年9月8月底全部完成校勘(包括初校、终校),字数超过原来规划的1000万字(除原计划1000万字传世文献语料校勘入库外,根据专家建议,新增加了近100万字出土文献语料,同时,增加了繁体电子版佛经语料7亿多字,大大超过原库量)。语料的人工深加工(分词、语义、语法、文字标注)已经完成145万字(并经三次复核),为自动分词、标注软件提供了可靠记忆样本,目前已进入机器自动分词、标注(再人工核对)阶段,工作进度已大大加快。“语义库”、“语法库”、“异文库”均已建成。?原来确定的两个理论研究课题“中古汉语构词法与造词法研究”、 “中古汉语语法体系研究”亦按计划进行,目前已接近完成。同时,新增了“长沙走马楼三国吴简词汇计量研究”、“汉魏石刻资料词汇计量研究”两个出土文献词汇研究的理论课题,目前顺利进行。?语料库的各种相关软件(“中古汉语语料库语料检索系统”、“中古汉语自动分词软件”、“汉语自动语义标注软件”、“ 版本异文自动发现软件”)已经自主研制开发成功,经过反复运用调试,都已进入第三版,目前正实际运用中进一步完善提高。

四个子项目的具体进展情况如下:

(一)“深加工中古汉语语料库语料鉴别与整理研究”子项目(负责人:方向东教授)

按照计划书研究内容和研究方法进行,将须入库的中古语料先进行版本的确定和校勘,已完成《殷芸小说》、《论衡》、《南齐书》、《宋书》、《梁书》、《抱朴子》、《三国志》、《世说新语》、《后汉书》、《齐民要术》、《水经注》、《颜氏家训》、《北齐书》、《搜神记》、《列子》、《先秦汉魏晋南北朝诗》的版本调查工作,并撰写了调查报告;采取课题组参与者分头分工把关的原则,将确定的中古文献语料分课题组成员校勘。目前完成进度如下:《后汉书》(179.4万)《洛阳伽蓝记》(5.7万)《水经注》(40万)《神仙传》(3.8万)《魏书》(140万)《幽明录》《冥祥记》(合计8万)《陈书》《周书》(合计51万)《论衡校释》(90万)《三国志》(85万)《北史》(44万)《北齐书》(28万)《南齐书》(35万)《梁书》(35万)《南史》(80万)17部文献语料共计914.9万字,初校工作已于2012年8月份全部完成。

至2013年7月底,已完成终校的文献是:《后汉书》(周燕飞初校,曹红军、谢秉洪教授负责终校),《洛阳伽蓝记》《神仙传》(李玉娇、李慧娟初校,王锷教授负责终校),《魏书》(魏庆彬初校,王锷教授负责终校),《梁书》(景红纬初校,王锷教授负责终校),《南齐书》(顾言初校,方向东教授负责终校)《陈书》(李卫卫初校,方向东教授负责终校)《南史》(朱娜娜初校,方向东教授负责终校)《幽明录》《冥祥记》(叶国盛初校,方向东教授负责终校),合计542.9万字的终校工作完成。

即将完成的有:《三国志》(朱珠初校,谢秉洪教授负责终校),《论衡校释》(蔡玉英初校,曹红军教授负责终校),《水经注》(王勇初校,吴新江教授负责终校),《北齐书》(易雪丹初校,吴新江教授负责终校),《北史》(吴婷、申阜鑫、郭林初校,吴新江教授负责终校),《周书》(李卫卫初校,吴新江教授负责终校),合计323万字。此项工作目前正利用暑假时间作最后冲刺,全部终校工作将在2013年8月底完成。

另外又增加100万字的出土文献语料(吐鲁番文献、长沙走马楼三国吴简、汉魏南北朝石刻资料),该项语料由“深加工中古汉语语料库理论研究”子项目组成员负责录入校勘,目前也已完成。

也即是说,至2013年8月底,该子项目的预定任务已经圆满完成,今后的工作是对将来临时增加的语料进行校勘。

(二)“深加工中古汉语语料库建设研究”子项目(负责人:化振红教授)

该子项目组自2012年年终检查至今主要完成以下工作:

修订义项库(化振红教授、汪祎博士):针对原有的中古词语义项数据库中收词数量不足、义项不全、词条和义项交叉、多义词处理不当等缺陷,重新进行了校对、整理,截至目前,新修订的义项库词条总数共483,432条,全部完成了人工校对工作并投入使用。(并结合“义项库”的建设,建立了《汉语大词典》数据库)

建立异体字、疑难字库(赵家栋副教授):针对中古语料中极为普遍的特殊用字现象,建立了专门的中古汉语语料库异体字数据库,收入各体汉字3700个左右,基本解决了现阶段语料切分、标注以及未来的词语检索过程中的字体转换问题,部分解决了数据库中疑难字的显示问题。下一阶段,将大量收入中古汉语疑难字,建立与系统检索软件完全匹配的中古汉语语料库疑难字库。两个字库继续升级、最终合并之后,可望完全解决整个数据库的检索、显示等问题。

语料标注(化振红教授负责组织全体教师、博士):继续进行了语料的人工切分、标注工作,提供了更多的人工切分、标注样本。从2012年12月年检截止目前,新增人工切分、标注样本约59万字,累计完成人工标注样本145万字左右。初步实现了改进后的义项库、人工标注样本与电脑切词及标注软件的对接,对程序软件标注的语料样本正在进行评估、调研,提高程序软件切词、标注的正确率,目前的切词、标注的一次正确率达到75%左右,新一轮的调试正利用暑假紧张进行,9月初正式进入程序软件操作为主、人工校对为辅的切词、标注阶段。届时,语料切词、标注进度将大大加快。

(三)“深加工中古汉语语料库理论研究”子项目(负责人:黄 征教授)

该子项目包括四个理论研究课题及一个吐鲁番出土文献整理课题:

中古汉语构词法与造词法研究(刘杰博士):该项研究的主要内容包括适应中文信息处理的中古汉语复音词的鉴别与界定、构成特点与生成特点、发展趋势及计量研究等内容。作为词汇理论研究,与中古汉语语法体系的研究、语料的鉴别与整理、汉语史数据库平台建设等其它项目的研究是互补关系,几个部分相互依托,共同推进。目前通过整理国内近二十年来中古汉语复音词研究的成果,对大量专书、专类词汇研究著述中的复音词的研究成果进行全面梳理和整理,对中古汉语复音词进行了计量研究,已完成“中古汉语核心复音词表”的整理编纂(近10000词条)。服务于后续研究的需要。在收集整理中古复音词的同时,对各家各类研究成果进行梳理,尤其是中古汉语复音词的界定标准进行归纳分析,建立了一套能服务于语料库建设需要的中古汉语复音词的界定标准和“分词”依据。“中古汉语的构词法”、“中古汉语的造词法及新词生成机制”这两个问题正在研究。

中古汉语语法体系研究(胡静书博士):通过对中古汉语的虚词的收集整理,统计分析,目前已完成中古汉语语法体系——词法体系的研究,句法体系研究正在进行。

长沙走马楼三国吴简词汇计量研究(张学城副教授)该课题将走马楼三国吴简的全部释文制作数据库,利用数据库生成引得,为词汇计量研究提供条件。

文物出版社的释文凝聚了很多学者的心血,具有很高的学术价值。但是由于简文量大,人手有限,时间紧迫,错误在所难免。课题承担者在原有释文基础上,核对已公布的相关竹简照片,订正了前人释文中的一些错误,完成全部校勘录入工作。并已完成吴简(一)(二)册的切词、标注及数据库的制作,其余(三)(四)册的切词、标注正在进行。

汉魏石刻资料词汇计量研究(罗小如博士)该课题以毛远明《汉魏六朝碑刻校注》(约69万字)为基础,进一步搜集补充汉魏石刻资料,参照汉魏石刻拓片做好现有石刻释文的校对整理,分别输入电脑,这一阶段的工作已经完成。随后分词、标注,做成数据库。然后利用数据库进行专项词汇计量研究。目前已完成10万字左右的切词、标注,并进入数据库。其余部分将在2014年8月前完成。

“吐鲁番出土文献”数据库(赵红副教授)唐长孺主编的《吐鲁番出土文书》第一册集中公布了中古时期吐鲁番出土文献的图版,本阶段的主要工作集中在第一册的资料精加工以及电子化处理方面。首先将前期工作中完成的录文与出土文书图版进行一一对照校勘,弥补和纠正了录文中的缺失,提交语料库入库使用的录文资料尽最大可能准确无误。第二,将出版物的图版用扫描、拍照等方法电子化处理,使异体字切分成为可能。第三,将已经辑录的异体字逐一用制图软件切分,制成各自独立的字形图片,同时录入其所在文句,使字形与文句一一对照,避免了孤立字形缺乏例证的弊端,同时也为语料库入库分词提供了完整的资料。目前,经过精加工的录文资料已经提交入库,进行分词、标注等相关工作。电子化处理的字形图片工作也已基本完成,《吐鲁番文献俗字典》亦已编纂完成,将递交“异文库”、“疑难字库”。

(四)“深加工中古汉语语料库系统平台建设与研究”子项目(负责人:陈小荷教授)

2012年12月年检至今,该子项目组主要工作如下:

“中古汉语语料库语料检索系统”软件的改进升级(曲维光教授、付佳)。2012年上半年软件第一版研制以后,进行了试运行,在试运行过程中,根据“语料库建设”子项目组的意见建议,又进行了两次改版升级,一方面进一步提升了软件的运行速度,同时,又拓展了软件的检索功能(如:语料的时代分层、地域区分功能;相类语料的同页面比对功能、网上互动功能等)目前“中古汉语语料库检索系统”已经推出第三版,功能和性能已基本达到要求。

版本异文自动发现的研究(陈小荷教授),针对中古汉语语料改进了算法,速度更快、异文定位更加准确。

相关软件的对接(李斌博士)。在项目建设实践中,总结经验教训,将“中古汉语自动语义标注软件”与“中古汉语自动分词软件”有机结合,不仅通过形式区分进行自动分词,而且通过语义鉴别进行自动分词,有效提高了切词的准确性(李斌博士)。

二、调查研究及学术交流情况

两年半以来,本项目组围绕项目的进展开展了一系列学术调研、文献收集以

及学术交流活动。共邀请国内专家前来进行学术讲座场,本项目组成员应邀外出进行学术讲座4场,出席国际、国内重要学术会议13人次。

(一)调研数据整理运用:

扫描版文献检索问题的调查研究(陈小荷教授)。对语料库中的扫描版文献直接进行检索,目前美国已经开始较多运用这一技术。在我们的语料库中能否采用这一技术,这关系到语料库的质量。子课题组负责人陈小荷教授对此进行了细致的调查了解,通过国内外相关资料的研究,陈教授认为:从原理上说,扫描版文献是无法直接检索的,必须经过字符识别和人工校对之后才能检索。但是,检索结果的呈现形式可以是扫描图像。其中的奥秘就是将文本的段落、句子、词或字符与它在扫描图像中的位置联系起来,检索仍然在文本中进行(这一过程不让用户看见),但可通过位置映射将相应的图像呈现给用户。例如,利用工具软件DjvuToy,可以制作djvu电子书,进行字符识别、生成可检索的隐藏文本。这一技术在语料检索中很有价值。如果检索结果以文本形式呈现,用户对其准确性和真实性是持谨慎态度的,往往还要去查阅扫描文献或纸版本。检索结果以图像形式呈现,用户可以放心使用。即使字符识别可能有误,也能够直观地在扫描图像上反映出来。基于这样的认识,我们目前正在在检索系统上做这方面的实验尝试。

中古汉语语料自动切词软件准确率问题的调查研究(董志翘、化振红教授)

目前古代汉语语料的自动切词软件研究的瓶颈是切词准确率的问题,现代汉语语

料自动切词软件的准确率已经可以达到95%以上,但古代汉语语料由于词与非词界限的模糊,自动切词软件的准确率一直不高(基本上在70%—80%间徘徊)。利用在韩国参加学术会议的机会,董志翘、化振红教授与台湾大学工程科学及海洋工程研究所杜正民、唐国铭教授、法鼓佛教学院洪正洲助理教授进行了会间个别交流,他们目前正参与法鼓佛教学院“中华电子佛典数据库”的建设,唐国铭教授的报告“运用佛经音义语料建构‘语意词网’之研究——以《瑜伽师地论》为例”洪正洲助理教授的报告“以统计量化分析方式进行早期汉译佛典之翻译年代判断与翻译特征萃取”,对于我们汉语史语料库的建设均有启发。通过调查,他们研制的检索系统的某些功能和自动分词软件研制方法(按文体分别制作自动切词软件提高分词精确度的方法),很值得我们借鉴,为此互相建立了进一步交流协作的意向。目前我们已经在进行按文体制作自动切词软件的尝试。

(二)国内外文献资料的收集整理:

国外《经律异相》资料的收集整理(董志翘教授)。语料库中所收《经律异相》是梁代宝唱所编的我国第一部佛教类书,资料价值非常高,但该书一直未有人整理。我们首次用国内所能见到的八种重要藏经本进行校勘整理,加上断句、标点(94万字,巴蜀书社2011年8月出版)。后经董志翘教授与日本国际佛教大学院大学“日本古写经研究所”所长落合俊典教授联系,在他的大力支持下,又查找到日本金刚寺、七寺、兴圣寺三个寺院所藏《经律异相》的三种古写本,并全部复印寄赠。目前,我们正利用这些宝贵的材料对《经律异相》作进一步校勘整理。

国内汉魏六朝石刻资料的收集整理(董志翘教授、罗小如博士)语料库中的中古出土石刻文献,以前均散见各处,没有一个比较完备的文本。我们了解到西南大学古籍所毛远明教授新近刚出版《汉魏六朝碑刻校注》(全10册,2008年线装书局出版),这是迄今汉魏六朝碑刻资料收集最全面、整理最精审的著作。立即前往重庆与他当面协商,最后同意将该书收入语料库。我们目前在该书的基础上,又进一步搜集补充了一些汉魏石刻资料,并进行切词、标注的深加工处理。

电子佛经资料的收集整理(陈小荷教授)搜集了繁体电子版佛经语料7亿多字,并且对佛经语料自动分词方法进行了初步探索。语料包括大正藏、卐续藏、嘉兴藏、赵城金藏、中华藏、房山石经、高丽藏、乾隆藏、卍正藏、永乐北藏、洪武南藏等等(均已排除重复部分)。一种佛经往往有多种译本,例如《金刚经》主要有姚秦时代的鸠摩罗什译本、唐代玄奘译本。有的甚至有梵汉对照,其中梵文词语用汉字音译,如《唐梵翻对字音般若波罗蜜多心经》。这些语料对于研究佛经词汇发现和自动分词以及中古音韵都是非常宝贵的资料。也大大充实了我们的语料库。

(三)学术会议:

召开了重大招标项目开题论证会

2011年4月3日上午9时,在南京师范大学贵宾室召开了本项目的开题论证会。出席本次开题会的有国家级“有突出贡献专家”、北京大学中文系博士生导师蒋绍愚教授,北京语言大学信息科学学院博士生导师宋柔教授,江苏省哲学社会科学基金办公室主任徐之顺。南京师范大学副校长吴康宁教授,文学院院长朱晓进教授,社会科学处副处长秦国荣教授及课题组全体成员。项目首席专家董志翘教授全面系统地汇报了调整后课题的思路、研究路径、研究项目的重难点等。蒋绍愚教授就课题的语料库范围、功能、来源文本选择、语料分期、文本标注内容等具体问题,和语料库检索平台、平行知识库、前期人工标注、后期计算机的学习等技术路线,提出自己的意见。宋柔教授结合自己多年从事现代汉语语料库建构与研究工作,也对语料库标注的开放性、模糊性,尤其是文字形体难题等提出了建设性建议。课题组成员与相关专家学者进行了热烈的沟通与交流,在现场提出了一些新的的设想

召开了重大招标项目专家咨询会

2011年11月26日,在南京师范大学南山专家楼二楼第二会议室举行本项目专家咨询会。受邀的咨询专家有湖南师范大学蒋冀骋教授、北京大学孙玉文教授、浙江大学张涌泉、汪维辉教授、复旦大学汪少华教授、厦门大学曾良教授、上海师范大学徐时仪教授7人(7位专家涵盖中古汉语史研究中的文字、音韵、词汇、语法等各个领域),与全体项目组成员对课题进展以及相关问题展开了热烈讨论,同时纷纷为项目出谋划策,提出了不少宝贵的意见、建议。

召开了“深加工中古汉语语料库”前期成果专家评估会

结合211学科建设评估,深加工中古汉语语料库前期试运行部分(已有部分中古文献经加工后入库试运行),2012年2月19日接受了由南京师范大学组织的专家组的评估,专家组由安徽大学古文字专家黄德宽教授、中国社会科学院计算语言学专家冯志伟研究员、厦门大学敦煌学专家曾良教授组成,专家组通过听取项目组汇报、参观语料库演示,最终评语是:“课题组在语料库加工应用和软硬件平台建设方面,在中古汉语研究领域处于国内领先。围绕语料库开展的相关理论研究成果,对中古汉语研究方面产生了积极影响。研究整理的中古汉语语料文本,得到学术界的高度评价。该课题成果具有较为广泛的推广价值,中古汉语典型语料库和便捷的检索方式,为汉语史及中古汉语提供了先进的研究与交流平台。”鉴定等第为“优秀”。

(四)学术交流:

邀请外单位专家前来进行学术讲座(9场)

2011年4月2日,项目组邀请北京语言大学博士生导师,计算语言学专家宋柔教授在南京师范大学国际教育学院报告厅作学术报告,报告的题目是“基于广义话题的汉语文本结构”

2011年4月2日,项目组邀请北京大学博士生导师、汉语史专家蒋绍愚教授作学术报告,报告的题目是“汉语史的学习和研究”

2011年11月15日,项目组邀请东北师范大学博士生导师,古文献专家曹书杰教授作学术讲座,讲座题目:“考据学与汉语言文字研究”。

2011年11月26日,项目组邀请北京大学博士生导师孙玉文教授作学术讲座,讲座题目是:“扬雄《方言》折射出的秦汉方音”。

2011年11月26日,项目组邀请复旦大学出土文献与古文字研究中心博士生导师,训诂学专家汪少华教授作学术讲座,讲座题目是:“训诂与考古研究成果利用”。

2011年11月27日,项目组邀请厦门大学博士生导师,敦煌学专家曾 良教授作学术讲座,讲座题目是:“”。

2011年11月27日,项目组邀请湖南师范大学博士生导师,汉语史专家蒋冀骋教授作学术讲座,讲座题目是:“语感与训诂”。

2012年2月17日,项目组邀请安徽大学博士生导师,古文字学专家黄德宽教授作学术讲座,讲座题目是:“关于清华简《尹至》《尹诰》形成年代与性质问题”。

2013年1月13日,项目组邀请上海师范大学博士生导师,音韵学专家潘悟云教授作学术讲座,讲座题目是“汉语语料库检索系统设计”。

本项目组成员应邀外出进行学术讲座(12场)

2011年10月14日,本项目首席专家董志翘教授应邀在北京大学中文系作了“关于‘名量式’复合词的几个问题”的学术讲座。

2011年9月15日,本项目子课题负责人黄征应邀在西南大学汉语言文献研究所,作了题为《敦煌语言文字学研究——敦煌俗语言学论纲》的学术讲座。

2011年12月16日至18日,本项目首席专家董志翘教授应邀在山东师范大学文学院、淮北师范大学文学院做了题为“回望与前瞻——新时期的汉语学习与应用”的学术讲座。

2012年9月17日,董志翘教授应邀为南京信息工程大学作题为“知今必鉴古,无古不成今——从古代文献中汲取科技创新的营养”讲座。

2012年10月9日,董志翘教授应邀为浙江外国语学院人文学院作题为“表示过程、持续状态的‘中’及其来源”的学术讲座。

2012年11月27日,董志翘教授应邀为西南大学文学院作题为“关于汉语‘名量式’复合词的几个问题”的学术讲座。

2012年11月28日,董志翘教授应邀为重庆师范大学作题为“努力拓展学生视野,全面掌握古代汉语知识”的学术讲座。

2012年11月29日,董志翘教授应邀为四川外国语大学中文系作题为“略论汉语中的‘离合词’”的学术讲座。

2012年11月29日,董志翘教授应邀为重庆师范大学文学院为研究生作“拓宽学术视野,全面掌握古代汉语知识”的报告。

2012年12月1日,董志翘教授应邀为四川大学文学与新闻学院为研究生作“关于汉语名量式复合词的几个问题”的报告。

2013年3月24日,董志翘教授应邀为陕西师范大学文学院为研究生作“佛教对中土取名命字的影响”的学术报告。

2013年4月15日,董志翘教授应邀为武汉大学文学院为教师、研究生作“佛教对中土取名命字的影响”的学术报告。

本项目组成员出席国际、全国重要学术会议(30人次)

2011年5月6—9日,本项目首席专家董志翘教授出席清华大学百年校庆西

南濒危文字文献研讨会,并主持会议发言。.

2011年8月12日,本项目组成员赵红副教授出席由中国敦煌吐鲁番学会等

单位主办的“中国敦煌吐鲁番学会理事会暨学术讨论会”,并宣读了论文“ 吐鲁番出土文献字词零考”。

2011年8月20日—22日,本项目子课题负责人陈小荷教授及成员冯敏萱、

李斌、徐润华博士出席在河南洛阳召开的全国第十一届计算语言学学术会议(CNCCL-2011)并在会议上报告论文4篇。

2011年8月23—28日,本项目首席专家、中国训诂学研究会副会长董志翘

教授、本项目子课题负责人、中国训诂学研究会副秘书长方向东教授出席在成都召开的中国训诂学研究会及西南交通大学主办的“2011年海峡两岸文献与方言研究学术研讨会”报告了论文,董志翘教授作大会学术总结。

2011年12月4日至5日,本项目子课题负责人陈小荷教授及课题组成员曲

维光教授出席了在北京召开的中国中文信息学会第七届全国代表大会暨学会成立三十周年学术会议,陈小荷继续当选为理事。

2012年4月20日—24日,本项目首席专家董志翘教授出席由中国社会科学

院语言研究所、湖南师范大学文学院主办的“第八届中古汉语国际学术研讨会”,并作大会主题报告“关于“见2V”句中“见”的词性及功能”。本项目成员赵家栋副教授出席会议,并宣读论文“《经律异相》校读札记”。

2012年4月27日—28日,本项目子课题负责人陈小荷教授作为教育部语信

司推荐的专家出席在广西南宁召开的联合国教科文组织第十三届国际母语日研讨会,在研讨会上作了“关于汉语方言信息处理”的报告。

2012年5月25日,本项目子课题负责人黄征教授出席在日本东京召开的“第

57回东方学会的国际研讨会”,并作了题为“中国愿文与日本愿文比较研究”的大会报告。

2012年8月15日,项目组成员胡静书讲师出席了由中国社会科学院语言研

究所主办的中国语言学会第十六届学术年会,提交和宣读论文“害怕义到情态义:一个反复出现的词义演变现象”。与会期间,调查了与中古汉语语法体系有关的研究动态和成果,也咨询了相关专家学者,本课题研究的价值和重要性得到同行专家的肯定,同时也获得了对语法体系研究有益的意见和建议。

2012年9月10日,子项目负责人方向东教授出席在河南师范大学召开的“中

国历史文献研究会第33届年会”,同时了解文献古籍数字化的相关信息和建设情况。

2012年10月8日—10日,本项目首席专家董志翘教授出席中国训诂学研究

会在浙江大学召开的学术年会,在会上作“日本的中古汉语词汇研究”的主题报告。并再次当选中国训诂学研究会副会长。子项目负责人方向东教授亦出席会议,当选为中国训诂学会常务理事。项目组成员赵家栋副教授同时出席会议,宣读论文“敦煌写卷丑妇赋字词校读札记”。

2012年10月12日—16日,董志翘教授出席韩国交通大学(忠州)主办的

“佛教文献研究暨第六届佛经语言学国际学术研讨会”,在会上作“佛教类书《经律异相》的语料价值”的主题报告,并主持分组学术会议。子项目负责人化振红教授同时出席会议。

2012年10月19日—21日,董志翘教授出席在扬州大学召开的国际汉语史研究会暨第十一届全国古代汉语学术研讨会,在会上作 “努力拓展学生视野,全面掌握古代汉语知识”的主题报告。

2012年10月25日—28日,董志翘教授出席在江苏师范大学召开的“当代语言科学创新与发展国际学术研讨会暨《语言科学》创刊十周年庆典”,在会上作“加强汉语史语料库建设,促进汉语史研究的现代化”学术报告,具体介绍了本项目建设目标、具体功能以及目前进展情况,引起与会者的关注并给予高度评价。

2012年10月30日—11月4日,项目组成员赵家栋副教授、胡静书讲师出席在安徽师范大学召开的“近代汉语学术研讨会”,赵家栋在会上宣读论文“敦煌文献疑难字词考辨五则”,胡静书在会上宣读了论文“论‘勿’的没有义用法”。并在会上介绍了本项目的进展情况,与相关与会者交流了经验。

2012年11月5日,项目组成员赵红副教授出席了在徐州召开的“江苏省语言学学术年会”,在会上宣读了论文“基于中古汉语语料库建设的若干思考”,论文提出,中古汉语熟语料库建设不能仅仅满足于古文献的收录,还应该保留普遍存在于传世文献和出土文献当中的诸多异文,实现异文自动检索、自动发现。针对吐鲁番出土文献众多的异体字,还应通过链接等技术手段保留原字形,进行考释意见的标注关联及文字属性的标注。通过采用通用置标语言,实现语料共享,避免重复建设而产生的资源浪费。该论文引起了与会学者的较大兴趣。学者们纷纷肯定了语料库建设的重要价值,同时也对感兴趣的问题进行了咨询,并提出了建议;一些目前正在进行相关研究以及准备进行相关研究的学者们还与论文作者在会下进行了热烈的讨论。

2012年12月6日——12日,董志翘教授出席“古代东亚诸国变格汉文研究”国际学术研讨会(日本东京驹泽大学),在会上作“唐宋时期来华日本僧人著述中的变格汉文”的主题报告。

2013年3月22日—3月25日,董志翘教授出席“命名学首届国际学术会”

(陕西省国际文化经济交流中心、西安武警工程学院主办),任华东组组长,作“佛教对中土取名命字的影响”的学术报告。

2013年4月12日—4月15日,出席“《汉语大词典》第二版修订会议”(上

海汉语大词典编纂处、辞书出版社主办,武汉大学文学院承办),在会上作“《汉语大词典》(第二版)修订方案读后”的报告,

2013年 7 月 10-14 日,在山东烟台出席“《汉语大词典》第二版修订工作

会议”(《汉语大词典编纂处、上海辞书出版社主办,鲁东大学承办),在会上作“中中古汉语研究语料库与《汉语大词典》(第二版)修订”的报告。

(五)国际交流:

2012年1月始,项目首席专家董志翘教授应邀参加日本东京驹泽大学佛教研究所主持的国际合作项目“东亚诸国汉语变格研究”的研究工作,该项目由日本国文部省立项,2012年——2015年,项目组由5名日本学者、1名中国学者、2名韩国学者组成。中、日、韩三国语言接触的研究对于汉语史研究将是一个很大的促进。项目研究期间,每年赴日本1-2次进行共同研究。

三、成果宣传推介情况

(一)尚未举行专门的成果发布会。但多次在国际、全国学术会议上介绍推荐过本项目成果(见前参加学术会议部分)在南京师范大学召开的“深加工中古汉语语料库”前期成果专家评估会上,本项目前期成果也作了宣传介绍、演示。

(二)2011年上半年、下半年分别向国家社科基金办、省社科基金办报送了《工作简报》(一)(二)两期,2012年(三)(四)两期《工作》简报材料都已准备好,但6月份适遇年中检查,项目研究进展情况均通过填表形式报送;12月份又遇年终检查,项目研究进展情况又通过填表形式报送。2013年上半年的《工作简报》正准备编集,又要进行项目中期评估,项目研究进展情况又只能通过填表报送。(因为《工作简报》内容基本与检查、评估表相同,如果另外再印一份《简报》,不仅浪费,也给相关部门增加负担。我们是这样理解的。)

(三)2012年9月,本项目首席专家董志翘教授接受了《中国社会科学报》

记者闻铮的书面采访,对于汉语语料库建设的意义以及高校将重大研究项目的进行与人才培养紧密结合的做法作了阐述(分六个方面形成5000多字的文章交稿),相关内容见《中国社会科学报》2012年9月20日“社科基金专刊”文章“打造信息时代的学术利器——近年来国家社科基金资助数据库建设与研究进展”: “引领人文社科新发展: 数据库技术的诞生和发展不仅带来了计算机信息管理的巨大革命,而且给人文社会科学发展注入了新的活力,有力促进了现代学术体系和研究范式的建立。在社会科学领域,数据库在经济学、人口学、社会学等学科领域的重要作用已是显见的事实;在文史哲等人文科学领域,加快文献数字化、推动研究型资料库建设的重要性、紧迫性也已成为学界共识。基于这一背景,加大资料库建设支持力度、推进学科信息化基础建设就成为国家社科基金立项资助的重要考量。

以语言学为例,仅2010—2011年就有4个重大项目涉及资料库建设与研究,涵盖从汉语史语料库到民族语言语法标注文本,从出土古文献语料库到英汉平行语料库等不同研究领域,体现了语言学研究的最新进展和前沿趋势。正如“汉语史语料库建设研究”项目首席专家、南京师范大学教授董志翘所言,语料库建设是为语言学、文献学、辞书编纂学的深入系统研究服务的一项基础建设,而语料库语言学则是当前语言研究的主流。据他介绍,目前国内已建成的语料库中,现代汉语语料库占80%以上,且多为生语料库。因此,国家社科基金项目对中古汉语、出土古文献的语料库建设在很大程度上具有填补空白的意义。”

因为《中国社会科学报》是采取综合报道形式,所以,董志翘教授所撰“加强汉语史语料库建设,促进汉语史研究手段的现代化”一文由《西南大学学报》全文发表。 

代表性成果:

1. 自主开发研制成功“中古汉语语料库综合检索系统(第三版)”(曲维光教授、付佳博士):该系统在VS2010平台上开发,编程语言C#,数据库是Sql Server 2008.系统主要包括以下几个功能模块:

不带义项的查询,根据书名、词、词类、语法功能等条件进行查询。

带义项的查询, 根据书名、词、义项、词类、语法功能等条件进行查询。

书籍对比查询,先选定两本要比较的书籍,然后根据词、词类、语法功能等条件进行查询,查询结果以对比形式呈现。

字词组合查询,允许查询条件中出现若干个字词的逻辑组合(与、或、非)。

疑难字查询,输入疑难字编号,输出对应的疑难字图片。

语料库建设者与语料库使用者互动平台。

2.版本异文自动发现的研究(陈小荷教授),针对中古汉语语料改进了算法,速度更快、异文定位更加准确。这种新颖的版本异文发现算法的基本思想是通过“同文”搜索为异文发现提供可靠的锚点序列,然后在在两锚点之间的未匹配文本中查找异文。新算法的特点是:用PAT数组作为索引结构以加快同文搜索的速度;用全局双序列比对算法准确定位异文。我们用这个算法处理《论衡》的两个电子版本各20万字,在普通台式机上仅用546毫秒即处理完毕,发现异文1929种、7390次,无一遗漏。论文《同文搜索与序列比对相结合的版本异文发现算法》已投稿。

3.中古汉语语料库为《汉语大词典》(第二版)修订作出贡献。2012年12月10日,国家重大文化工程《汉语大词典》(第二版)编辑出版启动大会在北京人民大会堂召开。全国人大副委员长、《汉语大词典》(第二版)主编华建敏,新闻出版总署署长、《汉语大词典》(第二版)工委会主任柳斌杰,教育部副部长、国家语委主任、《汉语大词典》(第二版)工委会副主任李卫红,中共上海市委常委、宣传部长、《汉语大词典》(第二版)工委会副主任杨震武出席会议并讲话,《汉语大词典》(第二版)学术顾问委员会、编纂委员会的专家学者出席会议。

本项目首席专家董志翘应邀担任编纂委员及分册主编。在2013年4月12日武汉召开的“《汉语大词典》(第二版)编纂出版学术研讨会”上,董志翘作了长篇发言,指出:“《汉语大词典》(第一版)在收词、分项、释义、引证方面存在的最大问题是较少利用中古汉语、近代汉语及出土文献材料。而近30年来,中古、近代汉语及出土文献语言研究成果大量涌现,必须广泛收集,合理利用。同时,要与时俱进,在编纂方法手段上要有突破,要充分运用现代计算机、互联网和语料库技术,特别是要充分调查和利用《汉语大词典》(第一版)有关数据库,来提高第二版编纂工作的质量和进度。而我们目前承担的国家社科重大招标项目“汉语史语料库建设研究”,已经研制了《汉语大词典》(第一版)全文数据库,同时目前在建的中古汉语语料库正可以为《汉语大词典》(第二版)的编纂提供有力支撑。”这一意见得到了与会领导与主编人员的高度重视。

2013年7月10日,董志翘教授作为主编特别提名的中古汉语专家应邀出席在山东烟台召开的“《汉语大词典》(第二版)编纂出版工作会议”,具体讨论了利用我们重大招标项目阶段成果为《汉语大词典》(第二版)编纂工作服务的相关问题。目前,我们已经为《汉语大词典》(第二版)提供了中古汉语核心复音词词表(10000词条),并通过通过正在建设的汉语史语料库的调查分析,提出建议增收中古汉语新词条5040条,提供相关释义、书证材料110万字。我们研制的《汉语大词典》(第一版)全文数据库,也将为第一版的相关问题的核查、研究提供快捷准确的手段。同时,在具体修订编写过程中,我们的汉语史语料库还将发挥更大的作用。

4.董志翘教授结合本项目研究所指导的两篇博士论文(2012届周超《(刘)宋诗词汇研究》、2013届张俊之《二王杂帖词汇研究》)通过制作《(刘)宋诗》、《二王杂帖》数据库,采用计量词汇研究的方法进行,因材料扎实,方法得当,颇多创新,均顺利通过答辩,获得“优秀”等级。

阶段性成果清单:

序号

成果名称

作者

成果

形式

刊物、出版社名称及刊发、出版时间

字数

转载、引用、获奖等情况

1

同源词研究与汉语辞书编纂

董志翘

论文

《语言研究》2010年1期

1.2万

2012年10月获江苏省社科优秀成果二等奖

2

敦煌写本《启颜录》笺注

董志翘

论文

《西南民族大学学报》2012年3期

1万

CSSCI收录,下载频次61

3

逯钦立《先秦汉魏晋南北朝诗》校释举误

周  超

论文

《图书馆理论与实践》2012年4期

0.6万

CSSCI收录,载频次30

4

敦煌诗歌语词释证

赵家栋

董志翘

论文

《贵州师范大学学报》2012年1期

0.6万

CSSCI收录,下载频次69

5

敦煌文献中并不存在量词“笙”

赵家栋

董志翘

论文

《语言科学》

2012年第4期

0.5万

CSSCI收录,下载频次22

6

《经律异相》(5-11卷)校读札记

赵家栋

董志翘

论文

《南京师范大学文学院学报》

2012年第3期

0.4万

CSSCI收录,下载频次4

7

敦煌碑铭赞语词释证

赵家栋

论文

《敦煌研究》

2012年第4期

0.6万

 

8

唐代佛寺所在考异二则

赵家栋

付义琴

论文

《湖南科技大学学报》2012年1期

0.4万

下载频次32

9

从语法史角度看“一元动词带宾句”现象

付义琴

论文

《外语学刊》2012年2期

0.45万

CSSCI收录,下载频次32

10

宾语前数量词隐现的篇章分析

付义琴

赵家栋

论文

《华文教学与研究》2012年第3期

0.6万

CSSCI收录

11

二王杂帖释文订正四例

张俊之

论文

《东岳论丛》

2012年4期

0.4万

CSSCI收录,下载频次22

12

“忧”是伤心事吗

张俊之

论文

《语文建设》

2012年6期

0.4万

CSSCI收录,下载频次32

13

南北朝时期汉语词汇的南北差异研究

李  丽

论文

《西南交通大学学报》

2012年4期

0.6万

CSSCI收录,下载频次12

14

《〈大字典〉疑难字考辨六则》

赵家栋

论文

《汉字文化》

2012年2期

0.15万

CSSCI收录

下载频次9

15

Analysis of the Diffusion Process of Buddhist Vocabulary from Memoirs of Eminent Monks

化振红

论文

Cross-Cultural Communication

Vol.8,No.5,2012

0.8万

 

16

经典古籍注疏文献的知识网络研究与设计

马创新

陈小荷

曲维光

论文

图书情报工作

第57卷第9期

2013年5月《

0.9万

 

17

基于学科本体的训诂学知识组织体系初步构建

马创新

陈小荷

论文

图书情报工作》

第57卷第12期

2013年6月

0.9万

 

16

加强汉语史语料库建设,促进汉语史研究手段的现代化

董志翘

论文

《西南大学学报》2013年待发

1万

CSSCI收录

17

深加工中古汉语语料库建设若干问题的思考

化振红

汪  祎

论文

《西南大学学报》2013年待发

0.8万

CSSCI收录

18

同文搜索与序列比对相结合的异文发现算法

陈小荷

论文

《西南大学学报》2013年待发

0.7万

CSSCI收录

19

从信息处理角度考察察各类中古汉语语料的特点

陈小荷

研究报告

 

0.24万

 

20

中古汉语语料检索系统(第二版)

曲维光

付  佳

研究报告

软件

 

0.4万

 

21

词性标注研究

冯敏萱

徐润华

研究报告

 

0.48万

 

22

中古汉语自动分词训练库简要说明

梁社会

研究报告

 

0.11万

 

23

中古汉语自动分词软件(升级版)

李  斌

软件

 

 

 

(课题组供稿)
(责编:赵晶)