旧版网站入口

站内搜索

敦煌遗书数据库建设中期检测报告

2016年12月05日13:47来源:全国哲学社会科学工作办公室

一、研究进展情况

一 研究计划总体执行情况及各子课题进展情况;

自2014年7月至2015年10月为研究计划的第二阶段,主要是理论研究(子课题一)、软件开发(子课题二)和数据采集(子课题三、四、五)三方面的内容,总体上目前已按计划完成第二阶段的各项工作任务,具体执行情况如下:

(一)子课题一“敦煌遗书数字化理论问题研究”进展情况:

1、课题开展情况

自去年10月份以來,本子课题的主要工作是进行研究报告的撰写和完善。尽管遇到了许多干扰,但整体工作的开展基本顺利。目前报告内容已经大体完成,正在进行最后的修改和完善。

2、其他相关成果

2015年,共计完成两篇理论性文章,其中一篇待刊,一篇发表:

(1)、韩春平:《敦煌文献回归的新时代》,《中国文化报》,2015-9-15理论版。(详见详见附录1转载)

(2)、韩春平、邰蕙莉、许端清:《敦煌遗书元数据新标准》(待刊,详见附录2转载)。

(二)子课题二“敦煌遗书数据库关键技术研究及软件系统开发”的进展情况:

1、开展了敦煌遗书数据库的需求调研与系统总体设计

在项目启动之初,就制定了敦煌遗书数据库系统技术实施方案,依据此方案,对有关敦煌数据库的应用需求进行了调研,包括走访包括课题组成员在内的相关专家和研究人员、查阅相关资料、了解以往类似课题的研究进展情况及存在的问题,同时,对当前图像数据库的前沿技术进行了了解掌握,在此基础上,对敦煌遗书数据库系统的总体框架和功能进行了设计,综合形成了“敦煌遗书数据库需求分析与系统设计报告”,为正式开展敦煌遗书数据库系统的开发提供了总体依据。

2、开展了敦煌遗书数据库关键技术的研究工作

1)在子课题一的敦煌遗书元数据标准规范的指导下,对敦煌遗书的基本信息、图版及研究文献等数据库素材的多源数据的组织存储与表达形式等技术做了分析研究,形成了数据库内部使用基本信息关联存储的组织形式与图版数据使用图像文件多分辨率组织存储的方式,以便于减少数据库的体积,提高数据库的检索效率。2)在上述遗书多源数据的组织表达与存储技术的基础上,研究了基于遗书的基本信息、研究文献和图版互相关联的高效检索技术,实现了遗书信息、图版和研究文献的关联检索,同时考虑到方便研究人员进行更多样化的查询,正在对相关文献的信息进行进一步划分并增加更对相关文献细致的搜索功能,以及以图搜图功能的研究。3)研究了基于公众互联网的敦煌遗书高清图像远程快速浏览技术研究,集成采用图像多分辨率组织存储技术,实现了在互联网上遗书高清图像的快速流畅显示。4)针对研究人员的方便研究的需求与现存遗书图像可能存在的显示不清问题,实现了图像与遗书论文对照浏览与录文的竖排演示,并在此基础之上完成了对遗书图像的在线快速简单参数调节功能,同时可以对参数调节的结果进行保存与读取。

3、开发完成了敦煌遗书数据库管理系统

在上述关键技术研究的基础上,完成了敦煌遗书数据库软件系统的开发,为敦煌遗书的录入、检索浏览、输出等管理与使用提供支持,具体包括以下功能:1)数据录入功能:支持基于文档表格的批量导入、单个手工录入、修订、删除等;2)检索浏览功能:支持针对数据库的统一全文检索,并支持基于各元数据字段的单个/多个并发条件检索,支持遗书图像的放、缩与快速浏览,支持图像与录文的对照浏览,支持录文竖排显示,支持在对照浏览的同时进行图像参数的调节,同时正在对遗书相关文献的细分与搜索以及以图搜图等功能进行进一步开发;3)输出功能:按照用户的要求输出各种规格/类型的图像/文字/文档/报表等。 4)数据库维护功能,为其它子课题的建库提供辅助支持。5)保存与读取功能:可保存用户对图像进行的调节结果,方便用户下次浏览时直接读取上次调节的参数。

以下是系统界面截图示例:  

2、代表性成果:

建成了敦煌遗书数据库(二期),包括敦煌遗书数据库软件系统和遗书数据两部分:敦煌数据库软件系统为敦煌遗书的录入、检索浏览、输出等管理与使用提供支持,具体包括以下功能:1)数据录入功能:支持基于文档表格的批量导入、单个手工录入、修订、删除等;2)检索浏览功能:支持针对数据库的统一全文检索,并支持基于各元数据字段的单个/多个并发条件检索,支持遗书图像的放、缩

与快速浏览,支持图像与录文的对照浏览,支持录文竖排显示,支持在对照浏览的同时进行图像参数的调节;3)输出功能:按照用户的要求输出各种规格/类型的图像/文字/文档/报表等。4)数据库维护功能,为其它子课题的建库提供辅助支持。5)保存与读取功能:可保存用户对图像进行的调节结果,方便用户下次浏览时直接读取上次调节的参数。

(三)子课题三“敦煌汉文遗书数据库”进展情况

本次课题第二阶段已完成子项目敦煌文献研究论著目录数据库元数据的整理。按照数据库建库要求,对元数据进行逐条逐项针对性处理,达到批量带入数据库的要求,并在今年1月,赴浙江大学,讨论完善数据库建库中二级库建设的具体问题。主要内容如下:

1)、完成对大部分甘肃藏汉文文献的录文共计739109字。

Dy.(敦研)1~375,完成录文量310996字;

Jb.(酒博)1~18,完成录文量48842字;

Gt.(甘图)1~32,完成录文量151433字;

Xbsd.(西北师大)1~20,完成录文量69570字;

Yb.(永博)1~8,完成录文量18315字;

Zyxy.(中醫學院)1~3,完成录文量5938字;

Zb.(张博)1,完成录文量8395字;

Gb.(甘博)1~138,完成录文量351698字;

Db.(敦博)1~83 完成录文量204042字;

Dxb.(定西博物馆)1~12,完成录文量26108字;

Gtb.(高博)1~3,完成录文量29183字

2)、完成对部分国内散藏汉文文献的调查

重庆市博物馆藏敦煌文献23条叙录,3463字

浙江省藏敦煌文献204条叙录,43308字

湖南省图书馆藏敦煌文献9条叙录,2627字

辽宁省图书馆藏敦煌文献271条叙录,5231字

湖北省博物馆藏敦煌文献35条叙录,6546字

安徽省博物馆藏敦煌文献99条叙录,17254字

天津艺术博物馆藏敦煌文献335条叙录,64563字

天津图书馆藏敦煌文献177条叙录,18142字

上海图书馆藏敦煌文献105条叙录,28734字

旅顺博物馆藏敦煌文献9条叙录,4229字

台湾中央图书馆藏敦煌文献144条叙录,12600字

重庆宝林博物馆藏敦煌文献13条叙录,9277字

3)、完成对伯希和、斯坦因、俄藏文献的目录录入约1396651字。

伯希和目录约6040号 共计录入139668字;

斯坦因目录约6980号 共计录入293195字;

俄藏目录Дх.366号至Дх.19092号 共计录入963788字;

4)、根据数据库要求完成敦博藏、敦研藏、英藏、法藏前20号元数据转换。

详见下截图:(具体内容见文后附录4)

(四)子课题四“敦煌遗书数据库藏文数据库建设”的进展情况:

甘肃藏藏文文献:

1、敦煌研究院175件藏文文献的编号、定名、保存现状子目、题记、收藏地和来源等信息和全文录文已完成,约80万字。并拍摄完成了数码图片约500多张。

2、敦煌市博物馆藏藏文文献已整理编号、定名、保存现状子目、题记、收藏地和来源等信息6000件,全文录文已完成100件,约18万字。拍摄完成了数码图片5000件,约15000多张。

法藏敦煌藏文的目录进行了初步整理:

1. 法藏文文献P.t1299—P.t3615号目录题记进行整理和录入,约。

2.法藏藏文文献汉藏解题目录的录入已完成,3000件,约55万字。

3.法藏藏文文献(P.T.0001----- P.T.0046)全文录入完成,约12万字。

(五)子课题五“敦煌遗书数据库研究文献数据库建设”的进展情况:

本阶段主要是收集有关敦煌文献研究正式发表的国内的论著,其中专著类约300本,因该类文献没有专门的数据库,收集非常麻烦;论文类从2014年1月1日至15年9月底约有1312篇,这些论文已经做好所有的元数据和录文。

1)、根据数据库要求完成英藏敦煌遗书研究文献S.001-S.5639录文约110万字。

2)、完成甘肃藏敦煌文献研究文献目录录文约100字。

见截图:

(六)子课题六“敦煌遗书图像数据采集与编辑”的进展情况:

因为敦煌文献数据库建设,需要高清图片以便于将来学者研究文献时考察,考录到敦煌文献卷帙多,要拍摄的照片量很大,因此在本阶段课题工作中又设立了第六子课题,主要负责敦煌文献遗书图像采集编辑。负责人由敦煌研究院陈列中心的盛䶮海副研究馆员担任。在本阶段工作中,该子课题组已经将甘肃藏部分汉藏文文献采成图像数据并编辑导入数据库,详细工作见下:(附录3亦有介绍)

1.完成敦煌市博物馆藏敦煌遗书共81个卷号拍照,571张图片

2.完成高台县博物馆藏敦煌遗书共3个卷号拍照,60张图片

3.完成高台县博物馆藏敦煌藏文遗书共2个卷号拍照,5张图片

4.完成酒泉市博物馆藏敦煌遗书共18个卷号拍照,134张图片

5.完成酒泉市博物馆藏敦煌藏文遗书19个卷号拍照,50张图片

6.完成定西市博物馆藏敦煌遗书共12个卷号,46张图片

7.完成敦煌市博物馆敦煌藏文文献5000个卷号拍照,15000张图片

8.完成敦煌市档案馆敦煌藏文文献12个卷号拍照,50张图片

9.完成甘肃省博物馆藏敦煌藏文文献34个卷号拍照,90张图片

二、调查研究及学术交流情况

1、文献调查

为完成本阶段课题研究,课题组首席专家马德奔赴北京、辽宁、安徽、重庆等省市,实地调查国内散藏文献,共计调查25000多件;第三子课题负责人邰惠莉研究员赴湖北、上海、浙江等地调查文献共计11000多件。敦煌研究院陈列中心盛䶮海同志调查并拍摄甘肃省内武威、张掖、天水、兰州、敦煌、嘉峪关等地散藏文献约照片3700张。

2、学术交流

为协调各子课题之间科研工作,马德研究员、邰惠莉研究员、勘措吉博士多次赴杭州、敦煌与各子课题成员进行协商,在兰州招开课题组小型会议一次,与国内各敦煌遗书的收藏单位交流七次。与相关专家交流13次。

三、成果宣传推介情况

1、2014年7月在敦煌召开本项目第一阶段中期检查报告会

2、2016年编制了一期《简报》

四、研究中存在的主要问题、改进措施、意见建议;

我们的目的是建成完整的敦煌遗书数据库。本项目研究建设工作中的最主要也是最大的问题,仍然是数据采集与经费两个方面:首先是数据采集方面主要存在两大难题:一是国外藏品数据的采集,主要是数字图片的拍摄与撷取,涉及好多方面的问题;二是遗书的录文工作,特别是社会历史文书的录文,不仅数量大,而且难度也很大,需要敦煌遗书整理研究方面的一流专家们经过长期研究和仔细校勘过的录文与研究成果以及他们的帮助,同时也涉及诸多方面的问题。而国内藏品数据的采集,相对来讲情况可能会好一些,但也难度较大。其次是经费,敦煌遗书数据库是一项很大的建设工程,尤其是他涉及到全球范围内的国际性研究,需要有充足的经费保障,目前的项目经费也只是杯水车薪,并且在现有的这点经费中,课题经费报销也存在一些困难。

针对如上问题,改进措施即是在经费保障下的数据工作。有了充足的经费,就可以顺利地从事数据采集,包括与国内外各收藏单位的协调,争取到国内外敦煌遗书研究专家支持和帮助。为此,我们希望继续得到国家社科基金的支持,以便将敦煌遗书数据库作为国家社科基金重大项目做完整并不断完善。

根据近两年项目工作的进展情况和本数据库建设的需要,我们重新制订了项目工作计划,本项目建设分三个阶段进行:2016年完成法藏;2017年完成俄藏;

2018年完成国内外散藏;2019年完成中国国图藏;2020年完成英藏。院内主要承担单位:文献所、陈列中心。经费(年均200万元)来源:

一、继续申请国家社科基金滚动资助(50乘5)

二、院里配套(50乘5)

三、争取社会赞助(100乘5)。

我们建议将本项目设为滚动项目关得到相应的资助。

五、其他需要说明的问题

1、课题组成员调整

为更好的完成本项目,本阶段课题组成员有所调整。其中第四子项目“藏文文献数据库建设”第一次把藏文遗书的整理和建库工作纳入业务范畴,就文海内外相关文献资料进行综合考察和研究,建立敦煌藏文基本信息库系统。此工作任务重,工作量大,除了基本信息采集外还涉及到定名,翻译、研究状况等方面信息。考虑到工作量和工作的多样性,需要做如下调整:

项目首席专家:马德(敦煌研究院研究员,不变)。

第1子项目“敦煌遗书数字化理论问题研究”

负责人:韩春平(兰州大学图书馆研究馆员,不变)。

第2子项目“敦煌遗书数据库关键技术研究及软件系统开发”

负责人:许端清(浙江大学教授,不变);

主要成员:林怀忠(浙江大学副教授,承担主要技术工作)

吴荣鉴(敦煌研究院副研究员,承担部分技术工作)

冯立云(浙江大学图书馆馆员,承担部分技术工作)

董建峰(浙江大学计算机学院博士研究生,承担部分技术工作)

张丹(浙江大学计算机学院博士研究生,承担部分技术工作)

乔婷婷(浙江大学计算机学院博士研究生,承担部分技术工作)

韩嘉楠(浙江大学计算机学院硕士研究生,承担部分技术工作)

张培梁(浙江大学计算机学院硕士研究生,承担部分技术工作)

凌敏(浙江大学计算机学院硕士研究生,承担部分技术工作)

第3子项目“敦煌汉文遗书数据库”

负责人:邰惠莉(敦煌研究院研究员,不变)

主要成员:马德(除负责全面工作外,承担部分录文)

赵晓星(敦煌研究院研究员,承担部分录文)

郭俊叶(敦煌研究院副研究员,承担部分录文)

李茹(敦煌研究院副研究员,承担部分录文)

黄京(敦煌研究院馆员,承担部分录文)

余燕(敦煌研究院馆员,承担部分录文)

钟妍(敦煌研究院资料员,承担部分录文)

刘旸(兰州城市学院历史系学生,承担部分录文)

第4子项目“敦煌藏文遗书数据库”

负责人:勘措吉(敦煌研究院副研究员,不变);

主要成员:万玛项杰(敦煌研究院馆员,承担部分录文)

杨本加(西北民族大学教授,承担部分录文)

才项多杰(青海师范大学民族大师范学教授,承担部分录文)

隆英忠(甘肃民族出版社副编审,承担部分录文)

李毛吉(西北民族大学图书馆馆员,承担部分录文)

斗本加(西北民族大学博士研究生,承担部分录文)

万玛才让(西北民族大学博士研究生,承担部分录文)

第5子项目“敦煌遗书研究文献数据库”

负责人:瞿晶(浙江大学图书馆副教授,不变)

李国(敦煌研究院副研究员,负责敦煌遗书研究文献信息的分类整理)

主要成员:申国美(国家图书馆研究馆员,承担部分研究文献信息采编)

师俊杰(敦煌研究院馆员,承担部分研究文献信息采编)

王海彬(敦煌研究院馆员,承担部分研究文献信息采编)

刘翔(浙江理工大学图书馆副研究馆员,承担部分研究文献信息采编)

韩松涛(浙江大学图书馆副研究馆员,承担部分研究文献信息采编)

王倩(浙江理工大学图书馆副研究馆员,承担部分研究文献信息采编)

陈月利(浙江大学图书馆馆员,承担部分研究文献信息采编)

董津菁(浙江大学图书馆馆员,承担部分研究文献信息采编)

何旭源(浙江大学图书馆馆员,承担部分研究文献信息采编)

王军统(浙江大学图书馆馆员,承担部分研究文献信息采编)

李博雅(黑龙江大学信息管理学院学生,承担部分研究文献信息采编)

第6子项目“敦煌遗书图像数据采集与编辑”

负责人:盛䶮海(敦煌研究院副研究员,负责国内外各地收藏敦煌遗书图像数据的采集与编辑)

主要成员:梁旭澍(敦煌研究院馆员,承担部分遗书图像数据的采编)

王海云(敦煌研究院馆员,承担部分遗书图像数据的采编)

张海博(敦煌市博物馆馆员,承担部分遗书图像数据的采编) 2、敦煌遗书数据库建设工程量浩大,本阶段2014-2015年,我们得到了国家社科基金的滚动资助,并且我院也比较支持,配套了50万,但这些经费远远不足。为此,我们希望继续得到国家社科基金的支持,将本项目作为滾动项目,以便于我们将敦煌遗书数据库作为国家社科基金重大项目做大、做全、做完整并不断完善。

如果本项目不再增加经费或延伸,我们将对目前完成的第一阶段的成果在进行必要的改进之后,作为本项目的最终成果,在适当的时候申请结项。

二、研究成果情况

①代表性成果简介

子课题一 理论研究,撰写并撰写论文二篇

1、韩春平:《敦煌文献回归的新时代》,《中国文化报》,2016-9-15理论版。

2、韩春平、邰蕙莉、许端清:《敦煌遗书元数据新标准》(待刊)

子课题二 数据库软件开发

建成了敦煌遗书数据库(二期),包括敦煌遗书数据库软件系统和遗书数据两部分:敦煌数据库软件系统为敦煌遗书的录入、检索浏览、输出等管理与使用提供支持,具体包括以下功能:1)数据录入功能:支持基于文档表格的批量导入、单个手工录入、修订、删除等;2)检索浏览功能:支持针对数据库的统一全文检索,并支持基于各元数据字段的单个/多个并发条件检索,支持遗书图像的放、缩与快速浏览,支持图像与录文的对照浏览,支持录文竖排显示,支持在对照浏览的同时进行图像参数的调节;3)输出功能:按照用户的要求输出各种规格/类型的图像/文字/文档/报表等。4)数据库维护功能,为其它子课题的建库提供辅助支持。5)保存与读取功能:可保存用户对图像进行的调节结果,方便用户下次浏览时直接读取上次调节的参数。

子课题三 敦煌遗书汉文文献数据库建设

1、已完成子项目敦煌文献研究论著目录数据库元数据的整理。按照数据库建库要求,对元数据进行逐条逐项针对性处理,达到批量带入数据库的要求,并在今年1月,赴浙江大学,讨论完善数据库建库中二级库建设的具体问题。主要内容如下:

1)、完成对大部分甘肃藏汉文文献的录文共计739109字。

2)、完成对部分国内散藏汉文文献的调查

3)、完成对伯希和、斯坦因、俄藏文献的目录录入约1396651字。

4)、根据数据库要求完成敦博藏、敦研藏、英藏、法藏前20号元数据转换。

子课题四 敦煌遗书藏文文献数据库建设

1、敦煌研究院175件藏文文献的编号、定名、保存现状子目、题记、收藏地和来源等信息和全文录文已完成,约80万字。并拍摄完成了数码图片约500多张。

2、敦煌市博物馆藏藏文文献已整理编号、定名、保存现状子目、题记、收藏地和来源等信息6000件,全文录文已完成100件,约18万字。拍摄完成了数码图片5000件,约15000多张。

3、法藏敦煌藏文的目录进行了初步整理:

1)、法藏文文献P.t1299—P.t3615号目录题记进行整理和录入,约。

2)、法藏藏文文献汉藏解题目录的录入已完成,3000件,约55万字。

3)、法藏藏文文献(P.T.0001----- P.T.0046)全文录入完成,约12万字。

子课题五 敦煌遗书研究文献数据库建设

本阶段主要是收集有关敦煌文献研究正式发表的国内的论著,其中专著类约300本,因该类文献没有专门的数据库,收集非常麻烦;论文类从2014年1月1日至15年9月底约有1312篇,这些论文已经做好所有的元数据和录文。

1)、根据数据库要求完成英藏敦煌遗书研究文献S.001-S.5639录文约110万字。

2)、完成甘肃藏敦煌文献研究文献目录录文约105万字。

子课题六 “敦煌遗书图像数据采集与编辑”

因为敦煌文献数据库建设,需要高清图片以便于将来学者研究文献时考察,在本阶段工作中,因此在本阶段课题工作中又设立了第六子课题,主要负责敦煌文献遗书图像采集编辑。该子课题组已经将甘肃藏部分汉藏文文献采成图像数据并编辑导入数据库,详细工作见下:

1.完成敦煌市博物馆藏敦煌遗书共81个卷号拍照,571张图片

2.完成高台县博物馆藏敦煌遗书共3个卷号拍照,60张图片

3.完成高台县博物馆藏敦煌藏文遗书共2个卷号拍照,5张图片

4.完成酒泉市博物馆藏敦煌遗书共18个卷号拍照,134张图片

5.完成酒泉市博物馆藏敦煌藏文遗书19个卷号拍照,50张图片

6.完成定西市博物馆藏敦煌遗书共12个卷号,46张图片

7.完成敦煌市博物馆敦煌藏文文献5000个卷号拍照,15000张图片

8.完成敦煌市档案馆敦煌藏文文献12个卷号拍照,50张图片

9.完成甘肃省博物馆藏敦煌藏文文献34个卷号拍照,90张图片

课题组供稿

(责编:沈王一)