旧版网站入口

站内搜索

“敦煌遗书数据库建设”中期检查情况

2015年07月30日14:55来源:全国哲学社会科学工作办公室

一、研究进展情况

① 研究计划总体执行情况及各子课题进展情况;

自2013年1月至2014年6月为研究计划的第一阶段,主要是理论研究(子课题一)、软件开发(子课题二)和数据采集(子课题三、四、五)三方面的内容,总体上目前已按计划完成第一阶段的各项工作任务,具体执行情况如下:

(一)子课题一“敦煌遗书数字化理论问题研究”进展情况:

理论研究主要致力于以下两个各有侧重而又相互融合的层面,并取得了相应成绩:

其一、在侧重于具体工作的敦煌遗书数据库建设层面:通过与项目组工作人员进行充分交流,进一步明确了各子课题的具体任务,从而强化了对整个数据库建设的感性认识。在此基础上,不断完善了对数据库建设的总体构想和规划,并力求与数据库建设各项工作紧密结合。工作中重点对敦煌遗书元数据标准进行了深入探讨,制定和提出了新的标准。

其二、在侧重于抽象研究的敦煌遗书数字化学理层面:通过梳理同类数字资源建设的历史,结合数字化技术的发展历程,进一步探讨了遗书数字化的内涵、学术价值和社会文化效益,以及遗书的著录、标引等问题,并对数字化的负面效应进行了解析。已经完成一定篇幅的研究报告,并撰写论文两篇,其中一篇发表,一篇待刊;另外发表报刊文章一篇。

(二)子课题二“敦煌遗书数据库关键技术研究及软件系统开发”的进展情况:

1、开展了敦煌遗书数据库的需求调研与系统总体设计

在项目启动之初,就制定了敦煌遗书数据库系统技术实施方案,依据此方案,对有关敦煌数据库的应用需求进行了调研,包括走访包括课题组成员在内的相关专家和研究人员、查阅相关资料、了解以往类似课题的研究进展情况及存在的问题,同时,对当前图像数据库的前沿技术进行了了解掌握,在此基础上,对敦煌遗书数据库系统的总体框架和功能进行了设计,综合形成了“敦煌遗书数据库需求分析与系统设计报告”,为正式开展敦煌遗书数据库系统的开发提供了总体依据。

2、开展了敦煌遗书数据库关键技术的研究工作

1)在子课题一的敦煌遗书元数据标准规范的指导下,对敦煌遗书的基本信息、图版及研究文献等数据库素材的多源数据的组织存储与表达形式等技术做了分析研究,形成了数据库内部使用基本信息关联存储的组织形式与图版数据使用图像文件多分辨率组织存储的方式,以便于减少数据库的体积,提高数据库的检索效率。2)在上述遗书多源数据的组织表达与存储技术的基础上,研究了基于遗书的基本信息、研究文献和图版互相关联的高效检索技术,实现了遗书信息、图版和研究文献的关联检索;3)研究了基于公众互联网的敦煌遗书高清图像远程快速浏览技术研究,集成采用图像多分辨率组织存储技术,实现了在互联网上遗书高清图像的快速流畅显示。

3、初步开发完成了敦煌遗书数据库管理系统

在上述关键技术研究的基础上,初步完成了敦煌遗书数据库软件系统的开发,为敦煌遗书的录入、检索浏览、输出等管理与使用提供支持,具体包括以下功能:1)数据录入功能:支持基于文档表格的批量导入、单个手工录入、修订、删除等;2)检索浏览功能:支持针对数据库的统一全文检索,并支持基于各元数据字段的单个/多个并发条件检索,支持遗书图像的放、缩与快速浏览,支持图像与录文的对照浏览;3)输出功能:按照用户的要求输出各种规格/类型的图像/文字/文档/报表等 4)数据库维护功能,为其它子课题的建库提供辅助支持。

(三)子课题三“敦煌汉文遗书数据库”进展情况

敦煌研究院藏敦煌遗书基本信息383号、71808字;数字图片815张;录文361100字。

其他已经搜集和整理的敦煌遗书基本信息(件数及字数):

英国国家图书馆藏: S.00001—S.12649,全部12649条, 30万字;录文约200000字。

法国国家图书馆藏: P.2001—P.6040,全部4040号,14万字;录文约600000字。

俄罗斯藏敦煌遗书:1至17092号,83万字。

中国国家图书馆藏:1至8738号,26万字;录文约10000字。

甘肃各地藏:甘博138号(32000),甘图32号(8933),敦博81号(20458),西北师大19号(5287),酒博28号(6000),定博10号(2218),永博8号(2060),高博3号(1692),甘肃中医学院3号(800),张博1号(273),以上共计704号, 79712字;录文约1000字。

台北“国立中央图书馆藏”敦煌卷子:1至144号,12612字。

湖北省博物馆藏敦煌经卷:1至35号,6552字。

旅顺博物馆藏敦煌经卷:1至9号, 4296字。

上海图书馆藏敦煌经卷:1至187号,附1至2号,计189件,50067字。

天津图书馆藏敦煌经卷:1至177号, 18118字。

天津艺术博物馆藏敦煌经卷:1至335号, 64342字。

安徽省博物馆藏敦煌经卷:1至101号, 17253字。

浙江藏敦煌经卷:浙图1至20号;文保所1至4号;灵隐寺1号;浙博1至177号;温博1至2号。共计204号, 43307字。

重庆博物馆藏敦煌经卷:1至23号, 3719字。

北京大学图图书馆藏敦煌经卷,1至246号, 53240字。

日本法隆寺藏敦煌写经:1号,147字。

日本国会图书馆藏敦煌写经:1至5号,531字。

日本三井文库藏敦煌写经:1至112号,14926字。

日本唐招提寺藏敦煌写经:1至28号,2584字。

日本有邻馆藏敦煌写经:1至60号,6403字。

(四)子课题四“敦煌遗书数据库藏文数据库建设”的进展情况:

以敦煌研究院藏敦煌藏文遗书为主,编辑173件藏文遗书的基本信息48000字,拍摄完成了敦煌研究院藏敦煌藏文文献高清数码图片约920张,录入了敦煌研究院为主和法藏等的敦煌藏文文献约100万字;同时整理法国国家图书馆藏敦煌藏文遗书部分信息。具体情况如下

1.录入敦煌研究院藏敦煌藏文无量寿经元数据76件,约41万字。收藏编号分别为:Dy.t.014 Dy.t.015 Dy.t.016 Dy.t.017 Dy.t.018 Dy.t.019 Dy.t.020 Dy.t.021 Dy.t.022 Dy.t.023 Dy.t.024 Dy.t.025 Dy.t.026 Dy.t.027 Dy.t.028 Dy.t.059 Dy.t.060 Dy.t.061 Dy.t.062 Dy.t.063 Dy.t.064 Dy.t.065 Dy.t.066 Dy.t.067 Dy.t.068 Dy.t.069 Dy.t.070 Dy.t.071 Dy.t.072 Dy.t.073 Dy.t.074 Dy.t.075 Dy.t.076 Dy.t.077 Dy.t.078 Dy.t.079 Dy.t.080 Dy.t.081 Dy.t.136 Dy.t.137 Dy.t.138 Dy.t.139 Dy.t.140 Dy.t.141 Dy.t.142 Dy.t.143 Dy.t.144 Dy.t.145 Dy.t.146 Dy.t.147 Dy.t.148 Dy.t.149 Dy.t.150 Dy.t.151 Dy.t.152 Dy.t.153 Dy.t.154 Dy.t.155 Dy.t.156 Dy.t.157 Dy.t.158 Dy.t.159 Dy.t.160 Dy.t.161 Dy.t.162 Dy.t.163 Dy.t.164 Dy.t.165 Dy.t.166 Dy.t.168 Dy.t.169 Dy.t.170 Dy.t.171 Dy.t.172 Dy.t.173。

2.录入敦煌研究院藏敦煌藏文般若波罗密多心经(编号Dy.t.019)元数据一件,500字。

3录入法藏敦煌藏文目录(P.t1299—P.t3615)约30万字。

4.录入法藏敦煌藏文解题目录约25万字。

5. 法敦煌藏文文献(第一、二、三册)目录10万字。

6.搜集法藏敦煌藏文遗书图片约2000张。

(五)子课题五《敦煌遗书研究文献库》的数据采集与整理:

敦煌研究院藏敦煌遗书研究信息,约82000字;

采集编录完成期刊目录8296条;

清洗敦煌相关研究论文的期刊目录数据2051条;

采集编录完成敦煌相关研究图书目录764条。

另外,还采集到与敦煌遗书及其相关的研究文献信息,如《中国敦煌学论文论著总目录》、“敦煌遗书研究文献按号索引”等。

前阶段,项目组主要基于已有的相关研究目录,通过主题、研究人员和文献类型分析,提取关键检索点,同时通过对国内大型数据库和相关图书馆的OPAC目录进行有关检索, 获取了敦煌遗书研究文献的期刊论文目录和图书目录,并依据有关元数据标准对元数据进行了清洗和过滤。并对全文数据的获取制作进行了实验。

②调查研究及学术交流情况(调研数据整理运用、文献资料收集整理、学术会议、学术交流、国际合作等);

数据采集与文献整理见前述。

小型学术会议二次,与国内各敦煌遗书的收藏单位交流五次。

与相关专家交流20次以上。

项目责任单位也是敦煌遗书收藏单位敦煌研究院的支持。

③成果宣传推介情况(成果发布会、《工作简报》报送情况、国家社科基金专刊投稿及采用情况等);

2013年1月举行项目开题报告会。

2013年内编印工作简报两期。

敦煌文书的数字化 甘肃日报,2014/6/13 (理论版)

④研究中存在的主要问题、改进措施,研究心得、意见建议;

我们的目的是建成完整的敦煌遗书数据库。本项目研究建设工作中的最主要也是最大的问题,还是数据采集与经费两个方面:首先是数据采集方面主要存在两大难题:一是国外藏品数据的采集,主要是数字图片的拍摄与撷取,涉及好多方面的问题;二是遗书的录文工作,特别是社会历史文书的录文,不仅数量大,而且难度也很大,需要敦煌遗书整理研究方面的一流专家们经过长期研究和仔细校勘过的录文与研究成果以及他们的帮助,同时也涉及诸多方面的问题。而国内藏品数据的采集,相对来讲情况可能会好一些,但也难度较大。其次是经费,敦煌遗书数据库又是一项建设工程,而且是一项涉及全球范围内的国际性研究项目和建设工程,需要有充足的经费保障,目前的项目经费也只是杯水车薪。

针对如上问题,改进措施即是在经费保障下的数据工作。有了充足的经费,就可以顺利地从事数据采集,包括与国内外各收藏单位的协调,争取到国内外敦煌遗书研究专家支持和帮助。为此,我们希望继续得到国家社科基金的支持,以便将敦煌遗书数据库作为国家社科基金重大项目做完整并不断完善。

根据近两年项目工作的进展情况和本数据库建设的需要,我们重新制订了项目工作计划,本项目建设分三个阶段进行:从立项至2014年6月为第一阶段,2014年7月至2015年10月为第二阶段,2015年11月至2018年6月为第三阶段。我们建议将本项目设为滚动项目关得到相应的资助。

④其他需要说明的问题。

一、按本项目立项时的计划,在2015年10月之前,本数据库在建成软件后,主要展示甘肃藏敦煌藏文遗书的全部数据,并适当展示敦煌遗书的其他信息。2015年10月之前的工作分为两个阶段。目前(2014年6月底前)为第一阶段的工作,主要是在必要的理论研究前提下,建成敦煌遗书数据库平台,录入敦煌研究院藏敦煌汉、藏文文献及研究文献的全部信息(包括数字图片与录文),以形成敦煌遗书数据库和基本框架。现作为中期检查的汇报即是第一阶段的成果。接下来的第二阶段,从现在开始至2015年10月底前,在不断改进技术平台的前提下,重点完成甘肃藏敦煌藏文文献的全部基本信息采集与编辑、全部数字图片的拍摄与编辑;同时完成法藏及部分零散收藏的敦煌藏文遗书的全部基本信息、部分数字图片等数据采集,以及法藏、俄藏及部分零散收藏的敦煌遗书的全部基本信息、部分数字图片,英藏、国图藏敦煌文书的部分基本信息等数据采集,并在软件平台展示;继续开展相关的理论研究工作,不断为完善本项目提出新的要求。从2015年11月开始到2018年6月,从事第三阶段的工作,采集整理全部敦煌遗书的各项数据并导入数据库,建成完整意义上的敦煌遗书数据库。

二、根据目前项目需要,增加从事敦煌遗书数字图片拍摄和编辑的专家为项目组成员,他们是敦煌研究院盛䶮海副研究馆员,梁旭澍、王海云、穆亚东馆员,加入第四子项目敦煌藏文数据库建设(此前他们已经参与了本项目的大量工作);而因本项目软件系统不需要专门的藏文程序,此前投标书中所列藏文软件编辑的专家祁刊玉教授不再参与本项目。

二、研究成果情况

代表性成果:

1、已发表和理论研究文章,主要是关于敦煌遗书数字化(含数据库建设)的内涵、价值意义、技术开发、数据采集及整理等方面进行阐述。待发表的研究报告,主要是关于数据库建设工作的总结和其他理论问题的进一步探索。

2、敦煌遗书数据库(一期)

建成了敦煌遗书数据库(一期),包括敦煌遗书数据库软件系统和遗书数据两部分:敦煌数据库软件系统为敦煌遗书的录入、检索浏览、输出等管理与使用提供支持,具体包括以下功能:1)数据录入功能:支持基于文档表格的批量导入、单个手工录入、修订、删除等;2)检索浏览功能:支持针对数据库的统一全文检索,并支持基于各元数据字段的单个/多个并发条件检索,支持遗书图像的放、缩与快速浏览,支持图像与录文的对照浏览;3)输出功能:按照用户的要求输出各种规格/类型的图像/文字/文档/报表等。

一期数据库已收录入了目前敦煌研究院所收藏的全部藏文遗书173件和汉文遗书383件的完整数字资料信息,包括基本信息556条119800字、录文461条571100字、图版1735件,研究文献170件1000八条82000字。敦煌遗书数据库(一期)的建成是数字化时代敦煌遗书保护和研究的重要工作,已经成为敦煌学数字化大课题的重要分支,是敦煌学数字化乃至整个敦煌学研究的重要组成部分,可以事实推动和完善敦煌学的学科建设。

敦煌遗书数据库(一期)的建成,首次从国家层面,系统性地将散落的敦煌遗书以数字化形式搜集在一起,特别是首次将全部藏文遗书以数字化的形式提供服务,可以为敦煌遗书研究提供一个内容丰富、检索快捷、使用方便的数字化平台,推动敦煌遗书研究工作的开展,进而为敦煌学研究的繁荣建立有效的平台保障。由于数据库建设在内容方面的极大扩展,以及数据之间更加多样的关联,可以对数字资源进行深度开发,有利于实现“知识发现”,从而达到提高资料文献发现利用效率的目的;另一方面,可以为我们国家在研究古代各民族在文化、经济等方面交往融合的历史提供一个高效便捷的平台,进而了解并增进我国各民族的文化融合,这不仅具有重要的学术价值,也将会产生极大的社会影响力。

3、敦煌汉文遗书数据库(子课题二)主要成果如下:

(1)集中采集和整理敦煌研究院藏敦煌遗书基本信息383号、71808字;数字图片815张,录文361100字。

(2)其他已经搜集和整理的敦煌遗书基本信息:英国国家图书馆藏S.00001—S.12649,全部12649条30万字,录文约200000字;法国国家图书馆藏P.2001—P.6040,全部4040号14万字,录文约600000字;俄罗斯藏1至17092号83万字,;中国国家图书馆藏1至8738号26万字,录文约2000字;甘肃各地藏共计704号总字数79712字,录文约1000字;国内外散藏1667件,基本信息部分约29626字。

4、敦煌藏文数据库第一次把敦煌藏文遗书的整理和建库工作纳入业务范畴,就海内外相关文献资料进行综合考察和研究,建立敦煌藏文基本信息库系统。

(1)开展了以敦煌研究院为主的甘藏敦煌藏文及法藏部分目录藏文文献进行了初步摸底调查。目前已对敦煌研究院173件藏文文献的编号、定名、保存现状子目、题记、收藏地和来源等信息整理完成并拍摄完成了数码图片。

(2)部分法藏敦煌藏文基本信息的初步整理:录入法藏藏文文献P.t1299—P.t3615,完成法藏文文献解题目录的录入,完成法敦煌藏文文献的录文。

(3)初步开发完成的敦煌藏文数据库管理系统提供了以上的敦煌藏文文献的全面、准确的信息。

5、敦煌遗书研究文献信息部分,除敦煌研究院藏敦煌遗书研究信息约82000字之外,主要任务是全面搜集和整理国内外有关敦煌遗书(包括汉、藏文)研究的全部信息,在已有成果的基础上,建立敦煌遗书研究文献特色标引规范,通过各种出版物、数据库、互联网等,系统地发现、挖掘、跟踪已有的研究文献如图书、期刊、学位论文、各类灰色文献,密切注视国内外敦煌遗书研究的动态,及时、准确地提供各方面的研究信息,建立完善的敦煌遗书研究文献信息库系统,满足研究人员对文献信息的需求。

注:2010年立项的重大项目主要填写2012年6月以来的研究成果情况。

序号

成果名称

作者

成果形式

刊物名或出版社、刊发或出版时间

字数

转载、引用、获奖等情况

1

敦煌文化遗产数字化保护之浅见

马德

期刊论文

《敦煌学辑刊》2013年第2期。

6千

 

2

敦煌遗书与数字化

韩春平

期刊论文

敦煌学辑刊2013(4)

11.6千

 

3

敦煌遗书数字化理论问题研究

韩春平

研究报告

 

约50千

 

4

敦煌遗书数据库软件系统

许端清

软件

 

 

 

5

敦煌遗书数据库(一期)

许端清

数据库

 

 

 

6

敦煌汉文遗书基本信息数据

邰惠莉

电子文档

 

172万

 

7

敦煌汉文遗书录文

赵晓星等

电子文档

 

117万

 

8

敦煌藏文遗书基本信息数据

勘措吉

电子文档

 

200万

 

9

敦煌藏文遗书数字图片

盛䶮海等

数字图片

 

2400张

 

10

敦煌藏文遗书录文

勘措吉等

电子文档

 

100万

 

11

敦煌藏文遗书数字图片

盛䶮海等

数字图片

 

2400张

 

12

敦煌藏文遗书录文

勘措吉等

电子文档

 

100万

 

13

完成期刊目录

瞿晶等

电子文档

 

8296条

 

 

清洗敦煌相关研究论文的期刊目录数据

瞿晶等

电子文档

 

2051条

 

 

完成敦煌相关研究图书目录

瞿晶等

电子文档

 

764条

 

 

敦煌遗书研究文献按号索引

申国美

电子书

 

 

 

1

中国敦煌学研究论著总目录信息,论文17200条、著作1500条

李国

电子文档

 

100万字

 

2

敦煌藏文遗书数字图片

盛䶮海等

数字图片

 

2400张

 

3

敦煌藏文遗书录文

勘措吉等

电子文档

 

100万

 

4

完成期刊目录

瞿晶等

电子文档

 

8296条

 

5

清洗敦煌相关研究论文的期刊目录数据

瞿晶等

电子文档

 

2051条

 

19

完成敦煌相关研究图书目录

瞿晶等

电子文档

 

764条

 

20

敦煌遗书研究文献按号索引

申国美

电子书

 

 

 

21

 

 

 

中国敦煌学研究论著总目录信息,论文17200条、著作1500条

李国

电子文档

 

100万字

 

课题组供稿
(责编:实习生、张文卓(实习生))