一、 研究进展情况
1、课题开题与子课题进展情况
按照项目书的整体研究计划,针对具体的研究问题,现就项目的整体进行情况汇报如下。首先,完成了《毛诗引得》、《春秋引得》、《春秋左传引得》、《春秋公羊传引得》、《春秋谷梁传引得》五部经书的全部文本的数字化,并制定了针对《汉学引得丛刊》特刊文本数字化的规范。完成了《史记及注释综合引得》《汉书及补注综合引得》《后汉书及注释综合引得》和《三国志及裴注综合引得》前四史的引得词头的录入,初步完成了《四十七种宋代传记综合引得》《辽金元传记三十种综合引得》所涉及到的人物的姓名、字号的文本数字化。其次,基于四部经书的数字化文本,制定了涵盖春秋以前的社会、经济、政治和文化的词汇底表,并对底表中的人名、地名和时间实体进行了标注。基于《毛诗引得》的领域知识、《春秋经传引得》的词汇分布特征,基于条件随机产,构建了自动分词、词性标记和自动断句的自动模型。再次,在所制定的《春秋经传引得》词汇底表基础上,筛选出实体和非实体词汇,并围绕非实体词汇,确定不同词汇的义项,为构建周遍型和引得的典籍知识库奠定基础。又次,结合对64种81册《汉学引得丛刊》的分析,从学理上对哈佛燕京学社引得编纂处的成员和哈佛燕京学社引得编纂处的成立与索引贡献进行了系统而全面的分析与探究。对引得序言的文本数字化进行了实验性的探究。系统调研了《引书》的研究状况,分析了《汉学引得丛刊》中引书的整体分布状况,拟定了《引书》文本数字化的初步框架。最后,结合《春秋经传引得》词汇底表,对春秋以前时期的词汇分布状况进行了分析。结合八部先秦典籍文献,探究了支持向量机在先秦典籍分类上的整体性能,为后续人文计算使用自动分类模型打下了基础。
在上述计划总体执行情况的基础上,各子课题具体执行情况如下。
一、《汉学引得丛刊》的数字化方面
以《春秋左传引得》《春秋公羊传引得》《春秋谷梁传引得》为典型代表案例,对《汉学引得丛刊》的数字化方式、过程进行了探究。
(一)词头的录入与校对
将《春秋经传引得》中出现的词头以及子词头进行逐字地手动录入生成相应的文档。有的词头有多种含义,不管是名词,动词,形容词都不做区分。但如果这个词头为特殊名词,则在相应的词头项后面添加该词头的特殊释义,并按照《引得》中出现的将其特殊释义用括号表示,这里的括号采用的是中文字符,例如:“心、心(星名)”,前一个“心”在一般释义为“心肺”或者“心意”。后一个“心”则为“星宿名”。此外,还有一些词头后括“參”表示方式一般用于两种情况:
1.一人有多种称呼,例如:
宋襄公(參:大子慈父,襄公,宋子,宋公,宋公慈父)
“宋襄公”在经传文中有“大子慈父”,“襄公”,“宋子”,“宋公”,“宋公慈父”五种称呼。
2.多人一种称呼,例如:
文伯(晉,參:士文伯)
文伯(晉,參:荀躒)
文伯(魯,參:穀)
“文伯”在经传文中不同的地方所指代的人物不同,前面的两个“文伯”指“晋”国的“士文伯”和“荀躒”,后面的“文伯”指 “魯”国的“穀”。以上含括号的词头,在录入时为了便于区分将括号及其内容一并录入。
为了确保录入的准确性,使用第二批人进行了二次的人工校对,对有存疑的字词头进行多方讨论进行最后的判定。对于一些常见字的错误进行了总结和统一替换。对于多数繁体字不认识或者无法通过拼音录入的情况,制定了相应的技术方案,解决了录入问题。
(二)正文的获取与校对
《春秋》三传的主要由四部分组成:《春秋》《公羊传》《谷梁传》《左传》。首先通过技术手段将《春秋》三传的正文全部数字化,成为《春秋》三传的电子版,再根据《春秋经传引得》的正文顺序对三传进行了合并。经过人工的合并获得了与《春秋经传引得》格式相同的电子版正文。通过阅读发现,电子版的正文与洪业先生所使用的正文存在大量的字词差异。因此,在第一遍校对的基础上进行了字的校对,以《春秋经传引得》为基准,对电子版中不一致的地方进行更改。例如:电子版中繁体的“为”取“為”,而引得中作“爲”,所以可以全部替换为“爲”,“為”作部首的也改为“爲”,“偽”作“僞”,“蒍”作“蔿”。在电子版中还添加了页码信息,根据《引得》在电子版的正文中在每一页结尾字的后面添加了页码用[num]的形式表示。此外,将引得的脚注信息也人工录入,将有脚注的字词用()括起来,添加相应的编号,在另一文档中记录脚注内容。例如:“63-4 一本輟上有而字下同”表示第63页的编号为4的脚注内容。
为了确保利用计算机程序自动生成语境的准确性,根据《春秋经传引得》对电子版的断句进行了校对。若电子版与《引得》的断句位置一致,则保留电子版的标点符号。若不一致则添加“/”或者删除标点。此外,“、”不作为断句标识,则保留。在春秋经传引得正文中作为断句的符号有:“,”,“。”,“:”,“?”,“/(校对过程中加的断句标识)”,不作为断句符号有:“、”,“「”,“」”,“《”,“》”,“『”,“』”,“<”,“>”。
(三)语境的生成与校对
根据校对完成的电子版正文和先前录入的电子版词头,使用计算机程序进行自动生成语境。程序自动生成的语境可能存在错误匹配,我们通过人工的对每个词头下的每条语境进行校对,确保词头下的语境匹配完全正确。在抽取语境前将括号及其特殊释义删除,校对语境时边校对边添加,这样重新生成了一份完整词头下的语境。在校对语境时我们使用“互参验证”的方法将词头、《引得》、校对后的全文以及自动匹配的语境结合起来进行校对。具体实施步骤如下:
图1 语境校对整个作业流程图
最后,根据校对完的语境,将他们的词头(含人工再次添加的特殊释义)再次抽取出来与原词头进行对比,检查原词头和语境中词头是否一致。这次校对主要是提高词头后括号中的特殊释义是否正确。通过检查发现原词头和语境录入的词头存在大量的不一致,这种不一致主要有两种情况:一是词头主体错误,这种错误主要发生在一些没有语境的异体字上。比如“鸞”、“?”、“竈”这种笔画多结构复杂的字。还有部分字的简繁混用情况,如“别”统一改为 “別”,“衛”统一改为 “衞”等。第二种不一致情况出现在词头后括号中的释义上。通过将不一致的词头重新确认后确定最终版本的词头。
基于上述整个过程,本子课题完成了对《春秋经传引得》的文本数字化,形成了针对《汉学引得丛刊》数字化的基本操作规范,并在该规范的基础上, 完成了对《毛诗引得》、《史记及注释综合引得》、《汉书及补注综合引得》、《后汉书及注释综合引得》和《三国志及裴注综合引得》、《四十七种宋代传记综合引得》和《辽金元传记三十种综合引得》的全文本、词头的数字化。
二、面向《汉学引得丛刊》基本素材库的多层级标注方面
首先,本文利用机器学习的方法对手工分词的《诗经》语料进行模型训练,并引入《汉学引得丛刊》中的《毛诗引得》领域词表对测试效果最佳的训练模板封闭测试后得到的分词结果进行长词校正,构建了针对《诗经》的自动分词模型和语料库,具体实现流程如图2所示。
图2 《诗经》自动分词流程
根据训练语料特性,结合《广韵》字表,利用统计分析的方法构建特征模板,采用条件随机场(CRFs)的机器学习方法搭建《诗经》的自动分词模型,并对不同特征组合下的分词模型采用准确率、召回率、调和平均值指标进行性能测试,从而完成自动分词模型的构建。其次,选取《尚书》《礼记》《周礼》《孝经》《诗经》《周易》《论语》《孟子》等8本典籍,在制定的形容词、拟声词、连词、时间词、副词、助词、方位词、动词、词缀、使动用法、兼词、为动用法、数词、意动用法、普通名词、标点、人名、其他语素或字、地名、语气词、专名、形容词作状语、介词 、名词作状语、量词、动词作状语、代词等词性规范集合的基础上,结合单字词及其词性、多字词的首尾字及其词性特征、词语长度、读音等特征,利用条件随机场模型完成面向先秦典籍的词性自动标注模型构建,其中基于组合特征模板的的词性标注模型调和平均值F能达到了94.79%,为后续展开大规模的先秦典籍词性自动标记奠定了坚实的基础。针对《春秋经传引得》经过精加工的四部典籍数字化文本,根据语境加工过程当中对句读的处理,在统计的基础上人工分析句法的分布情况,并统计小句的长度、小句首字、首词、尾字、尾词的具体分布,构建面向《春秋经传引得》的句读分布特征。把每一个小句看成一个序列,把对句读分类的问题转化为序列化识别的问题,基于条件随机场,构建了面向《春秋经传引得》的句读自动判定模型,并把该模型推广应用到其他典籍语料上。
三、《汉学引得丛刊》典籍知识库构建方面
首先,典籍知识库当中最重要的构成部分是实体,结合已经实现的典籍数字文本,对典籍当中不同实体进行分析,形成典籍实体规范是本课题当前完成的一项工作。典籍实体规范的整体概貌如下:古汉语尤其是春秋时期的人名构成,与现代汉语人名构成方式有很大不同,不论是构成成分的种类,还是构成规则,都要更加的复杂和多样。在这样的情况下,对人名进行类别细化的必要性,成为一种必须认真对待的问题。以下为按本规范标注实体后的样例:
夏,五月,鄭伯克段于鄢。
[TIME.季夏],[TIME.月五月],[PER.氏尊鄭伯]克[PER.名段]于[LOC.地 鄢]。本实体规范制定的目的是便于古汉语典籍的实体识别、实体消歧和实体关系抽取。实体识别是基础和前提,也是最重要的一个环节。目前较为有效的实体识别技术大多基于条件随机场等序列化标注模型,对于汉语来说,序列化标注的每一个特征项对应一个汉字。考虑到这一点,本规范在制定时,力求保证实体类别和命名规则可以作为序列化标注的特征项来使用。比如 “氏+尊称+名”这一命名规则,人名构成成分“氏”、“尊称”和“名”可以对应作为人名中每个汉字的特征项,详见下例:
[TIME.月份五月],[PER.氏尊名鄭伯突]出奔[LOC.国蔡]。
五 月 TIME.B
月, 月 TIME.E
鄭 氏 PER.B
伯 尊 PER.M
突 名 PER.E
出 N N
奔 N N
蔡 国 LOC.S
这样对于按本规范标注过命名实体的语料来说,有两种重要的特征可以供序列化标注模型来训练,且这些特征的信息量相对于以往汉语命名实体识别研究来说,是更为丰富的。
其次,结合已经制定的《春秋经传引得》词汇底表,对其中的非实体多义项词汇进行了分析,根据已经确定的词汇义项,后续利用决策树算法完成对词汇义项计算模型的构建,并把该模型推广到其他典籍词汇义项的确定上,从而实现对《汉学引得丛刊》整个多义词义项的自动确认。
最后,《引得》的序言具有独特的价值并且是典籍知识库当中独特的知识的一种。在项目执行过程当中,选取《荀子引得》的序言为案例,对《引得》序言的结构特点、语言特色进行了分析,并实现了对该序言的数字化,为后续整个《汉学引得丛刊》序言的数字化、分析与统计打下了基础。
四、基于典籍知识库的《汉学引得丛刊》研究方面
一方面,围绕《汉学引得丛刊》的学理探究。对《汉学引得》丛刊的主要编纂人员进行了细致的梳理,系统而全面的展现了《汉学引得丛刊》编纂者的不同贡献,比如李书春不仅亲自参与了多部引得的编纂工作,如《太平御览引得》《食货志十五种综合引得》等,并独自完成了《唐诗纪事著者引得》,还是《引得》校印所的负责人。以民国初期“西学东渐” 、“整理国故”与“索引运动”的发端为大背景,说明了哈佛燕京学社引得编纂处成立的时代背景和成立的整体情况,并通过《汉学引得丛刊》和《引得说》系统阐述了哈佛燕京学社引得编纂处的贡献和价值。另一方面,通过对《仪礼引得附郑注引书及贾疏引得》《春秋经传注疏引书引得》《礼记注疏引书引得》《毛诗注疏引书引得》《周礼引得附注疏引书引得》和《尔雅注疏引书引得》等经部引书数据的分析,制定了该类引书的数字化整体框架,同时通过设计的专门程序获取了这八部经书的完整的注疏内容,为后续全面分析引书的整体分布奠定了坚实的基础。
五、基于典籍知识库的人文计算研究方面
一方面,对《左传》、《尚书》、《诗经》三部上古文献字的分布频次进行了统计,发现均符合齐普夫定律,并对高频字的分布进行了统计和分析,统计结果见表1。
表1 《左传》、《论语》、《诗经》中前10高频字词分布情况
《左传》 《论语》 《诗经》
序号 汉字 频次 频率(%) 汉字 频次 频率(%) 汉字 频次 频率(%)
1 之 7344 3.746 子 975 6.108 之 1176 3.796
2 子 4988 2.544 曰 759 4.755 不 630 2.034
3 曰 3732 1.904 之 613 3.840 我 590 1.905
4 不 3632 1.853 不 583 3.652 有 568 1.834
5 也 3601 1.837 也 533 3.339 其 545 1.759
6 公 3447 1.758 而 345 2.161 子 477 1.540
7 以 3426 1.748 其 270 1.692 于 338 1.091
8 而 3128 1.596 者 219 1.372 兮 324 1.046
9 其 2662 1.358 人 219 1.372 彼 308 0.994
10 人 2577 1.315 以 211 1.322 以 307 0.991
合计 38537 19.659 4727 29.613 5263 16.99
另一方面,结合典籍文本,从宏观的角度和微观的细节挖掘出相应的类别知识是人文计算的重要内容之一。在这一前提下,基于《论语》《老子》《管子》《庄子》《孙子》《韩非子》《孟子》《荀子》和《墨子》等九部先秦典籍,结合支持向量机,从宏观的角度构建了先秦典籍类别自动判定模型。在构建自动分类模型过程当中所使用的TF-IDF、互信息、卡方统计和信息增益方法获取特征词的策略,为后续分类模型特征词的选取积累了特定的经验,同时在分类过程当中对特征维度的选取在一定程度为后续构建高性能的自动分类模型奠定了基础。
2、调查研究及学术交流情况
(一)调研数据整理运用
在本项目执行的过程中,主要对典籍当中实体的情况进行了调研,调研范围包括目前市面上所有的有关典籍的词典,比如《春秋左传词典》《史记辞典》等,有关典籍的经典评介、教材,比如鲁迅先生的《汉文学史纲要》袁行霈先生主编的袁行霈先生的《中国文学史》、王力先生的《古代汉语》等,整理形成了关于典籍中人名、地名和时间等实体规范的有关调研数据,下文具体给出了有关人名这一实体分布的调研情况,具体如下:
人名是最常见的命名实体。在现代汉语命名实体识别研究中,常根据“姓+名”这样的人名构造规则,利用姓氏表、人名用字表等资源来提高识别效果。然而古汉语人名的构造规则与现代汉语有较大不同,且存在着多种规则并用的情况。对于多种命名规则,使用同一个实体类别来表示显然是不利于实体挖掘研究,因此有必要对人名实体进一步分类,以对应不同的命名规则。现代汉语人名一般由“姓”和“名”构成。古代汉语中,“字”也是构成人名的重要成分。在春秋时期的典籍中,人名的构成更为复杂,“名、字、氏、尊称、爵称、出生、排行、谥号、职官、姓”等均是重要的构成成分。
不同人名的构成成分通过排列组合,可以形成种类繁多的命名规则。然而不可能所有的组合都能构成人名。春秋中人名构成成分繁多,构成规则复杂多变,而构成人名的汉字却十分有限,而且春秋时期典籍文献的数量和文字量相对较少。经过调研,我们对春秋时期的人名与称谓的标注形成了一整套完整的规范,具体包括以下14种情况:爵称和尊称;字的构成与表示;“子”字;排行和尊称;排行和氏;名;字;排行;“子”;氏;谥号;排行;合称。
(二)文献资料收集整理
围绕着人文计算、数字人文、典籍数字化、古文自动处理等已有的相关研究,面向CNKI、万方、维普和读秀、Web of Science等学术文献数据库,拉网式地获取了相关的研究文献,并基于已经占有的相关文献,针对古文数字化、智能处理和相关人文计算研究的已有研究,对古文信息处理的研究现状进行了统计和分析。
二、 研究成果情况
①代表性成果简介
在按部就班推进项目进行的过程中,形成了如下三类成果:
1、以《春秋经传引得》为代表的典籍精加工语料库。该语料库不仅标注了实体、非实体、单一义项和多义项的等细颗粒度的语义知识,而且进行了自动分词和词性标记。该语料库不仅为古文信息处理提供了第一手的极其宝贵的深标注语料,而且有益于古典文献学、目录学和古汉语的研究者基于该语料库展开深入的数字人文探究。
2、面向典籍的知识挖掘模型构建。结合《毛诗引得》、《春秋经传引得》等精加工的典籍语料,结合自动断句、自动分词、词性标注、多义词消歧等研究任务,通过条件随机场、支持向量机、决策树所构建的各种知识挖掘模型是本课题的代表性的研究成果之一。该系列知识挖掘模型的构建不仅能够推进《汉学引得学刊》知识挖掘的探究向纵深发展,而且对于其他古汉语知识挖掘的探究也有极大的参考价值。
3、针对典籍知识挖掘探究刊发的系列论文。围绕着《汉学引得丛刊》中的典籍所进行的《引得》数字化、典籍自动分词、典籍词性标注、相关研究状况综述、典籍自动分类和《引得》的学理性探究等问题,刊发了系列论文。该系列论文的刊发一方面有助于相关的研究者了解目前该领域的最新研究进展,另一方面有利于提升该研究领域在社会上影响力。
②阶段性成果及内容简介
1、王晓玉, 李斌. 基于CRFs和词典信息的中古汉语自动分词[J]. 数据分析与知识发现, 2017, 1(5):62-70.
以古籍语料为例,针对中古汉语的自动分词问题,优化分词原则,运用CRFs模型和词典相结合的方法,消除中古汉语人工分词结果中易出现的分词不一致问题;同时在CRFs分词中引入字符分类、字典信息两种特征,并通过对比实验选取每种特征最合适的分词模板。实验结果显示,分词结果的总F值在封闭测试中达到99%以上,开放测试的综合测试中也达到89%-95%。结果表明,在有效提高分词一致性的前提下,字符分类、词典标记特征能够有效提高中古汉语CRFs分词的精确度。同时,所提出的中古汉语分词系统可以服务于中古时期多类别的汉语语料。
2、黄水清,王东波. 基于优质人工语料的古籍文本人文计算[C].// 《中国索引》编辑部. 中国索引(第二辑). 上海:复旦大学出版社,2017.(二校结束)
在介绍了有关人文计算的主要研究机构和回顾了有代表性的古籍文本人文计算研究的基础上,对《汉学引得丛刊》产生的历史背景和内涵与外延进行了细致而全面的阐述。在简述《汉学引得丛刊》在典籍索引编纂实践和整体索引理论构建上的价值前提下,从中华文化和学术资源宝库的角度,分析了《汉学引得丛刊》对古籍文本人文计算的独特意义和价值。基于《汉学引得丛刊》的独特体例,结合人工和计算机有机协同的策略,在对《汉学引得丛刊》的多层面优质人工语料进行加工的基础上,拟对古籍文本的人文计算进行多角度的探究。
3、马学良,耿兆辉,刘玲玲,王东波[J].哈佛燕京学社引得编纂处的成立与索引贡献[J]. 图书情报工作,2017,61(12):50-56.
文章通过文献分析法和演绎法,总结了引得编纂处成立前东西方文化交流和中国传统知识分子转型的社会背景,分析了“整理国故”运动、“索引运动”影响下引得编纂处取得的索引成就。文章认为,哈佛燕京学社引得编纂处是民国时期“西学东渐”、“整理国故”及“索引运动”等众多因素影响下的产物,成绩斐然;引得编纂处的成就不仅局限于编纂了64种引得本身,还对中国索引事业发展起到了巨大的推动作用,对中国学术界产生了深远影响。
4、刘玲玲,梁旭,马学良. 哈佛燕京学社引得编纂处成员分析[J]. 图书情报工作,2017,61(12):57-63.
文章运用文献分析法和数据分析法,发现近年来关于哈佛燕京学社汉学引得丛刊研究过程中对于引得编纂处的成员构成始终是一个盲区,通过钩沉史料,揭示了他们各自的生平、学术背景、学术思想及在引得编纂处所承担的任务与角色。研究发现:拥有一批精干的专业人才队伍,是哈佛燕京学社引得编纂处在古籍索引编纂方面取得斐然成就的关键要素。
5、黄水清,王东波. 古文信息处理研究的现状及趋势[J].图书情报工作,2017,61(12):43-49.
随着古文数字化、智能处理和相关人文计算研究的迅速发展,对这一领域的整体研究状况进行梳理,不仅有助于从以往的研究当中总结相应的规律,而且在一定程度上有益于后续探究的展开。文章厘定了古文信息处理的概念,分析了古文信息处理的研究现状,给出了古文信息处理研究的整体概貌。同时,在统计分析的基础上,对古文数字化、智能处理和人文计算这3个方面的研究内容进行总结、回顾和研究趋势的展望。研究表明,在古文信息处理研究中,古文数字化所取得的成就最大,古文智能处理在词汇级的探究上取得了一定的成效,而对于人文计算来说,与古文相关的研究则才刚刚起步。
6、王东波,黄水清,何琳. 基于多特征知识的先秦典籍词性自动标注研究[J]. 图书情报工作,2017,61(12):64-70.
先秦典籍在古代典籍中的地位极为重要。本文提出对先秦典籍进行词性自动标注的解决方法,以便更加准确地挖掘先秦典籍中的潜在知识。文章通过条件随机场模型,结合统计方法确定组合特征模板,并最终得到针对先秦典籍的词性自动标注算法模型。结果表明,在先秦典籍自动分词的整个流程基础上,得到简单特征模板、组合特征模板下的词性自动标注模型,基于组合特征模板的词性标注模型调和平均值F达到94.79%,具有较强的推广和应用价值。在构建词性自动标注模型的过程中,通过融入字词结构、词语拼音和字词长度的特征知识,使得模型的精确率和召回率得到有效的提升。
7、王东波,何琳,黄水清. 基于支持向量机的先秦诸子典籍自动分类研究[J]. 图书情报工作,2017,61(12):71-76.
针对先秦诸子典籍进行自动分类的探究,以更加深入和精准地从古代典籍中挖掘出相应的知识。基于《论语》《老子》《管子》《庄子》《孙子》《韩非子》《孟子》《荀子》和《墨子》9种先秦诸子典籍构成的训练和测试语料,采用支持向量机技术,提取TF-IDF、信息增益、卡方统计和互信息为特征,完成针对先秦诸子典籍的自动分类实验。测试表明,基于先秦诸子典籍得到的自动分类模型调和平均值能达到99.21%,效果较好,具有较强的推广和应用价值。
8、王姗姗,王东波,黄水清,何琳. 多维领域知识下的《诗经》自动分词研究[J]. 情报学报,已投稿,外审过程中
《诗经》位居古文经学派“五经”之首,蕴含丰富。随着人文计算的广泛应用,本文结合《汉学引得丛刊》中《毛诗引得》的领域知识,采用机器学习的方法研究《诗经》的自动分词。基于《诗经》手工分词的语料,采用《广韵》字表和统计分析相结合的方法,得到23组融合不同特征知识的特征模板,训练产生机器学习分词模型。对每个分词模型进行性能测试,分析发现词性特征对《诗经》分词效果的影响最大,且分词模型的调和平均值F值最高可达到97.42%。最后,采用《毛诗引得》领域词表对测试性能最佳的分词模型进行长词校正的模型后处理,得到了融合引得专家词汇知识的《诗经》分词语料。本文融入多维领域知识实现《诗经》自动分词的研究模式不仅对先秦诗歌体的相关研究起借鉴意义,而且对先秦典籍的自动分词研究具有启发性,《诗经》分词语料作为本项目先秦典籍语料库的一部分,对进一步实现先秦典籍的知识挖掘有较强的辅助作用。
课题组供稿