舊版網站入口

站內搜索

敦煌遺書數據庫建設中期檢測報告

2016年12月05日13:47來源:全國哲學社會科學工作辦公室

一、研究進展情況

一 研究計劃總體執行情況及各子課題進展情況﹔

自2014年7月至2015年10月為研究計劃的第二階段,主要是理論研究(子課題一)、軟件開發(子課題二)和數據採集(子課題三、四、五)三方面的內容,總體上目前已按計劃完成第二階段的各項工作任務,具體執行情況如下:

(一)子課題一“敦煌遺書數字化理論問題研究”進展情況:

1、課題開展情況

自去年10月份以來,本子課題的主要工作是進行研究報告的撰寫和完善。盡管遇到了許多干擾,但整體工作的開展基本順利。目前報告內容已經大體完成,正在進行最后的修改和完善。

2、其他相關成果

2015年,共計完成兩篇理論性文章,其中一篇待刊,一篇發表:

(1)、韓春平:《敦煌文獻回歸的新時代》,《中國文化報》,2015-9-15理論版。(詳見詳見附錄1轉載)

(2)、韓春平、邰蕙莉、許端清:《敦煌遺書元數據新標准》(待刊,詳見附錄2轉載)。

(二)子課題二“敦煌遺書數據庫關鍵技術研究及軟件系統開發”的進展情況:

1、開展了敦煌遺書數據庫的需求調研與系統總體設計

在項目啟動之初,就制定了敦煌遺書數據庫系統技術實施方案,依據此方案,對有關敦煌數據庫的應用需求進行了調研,包括走訪包括課題組成員在內的相關專家和研究人員、查閱相關資料、了解以往類似課題的研究進展情況及存在的問題,同時,對當前圖像數據庫的前沿技術進行了了解掌握,在此基礎上,對敦煌遺書數據庫系統的總體框架和功能進行了設計,綜合形成了“敦煌遺書數據庫需求分析與系統設計報告”,為正式開展敦煌遺書數據庫系統的開發提供了總體依據。

2、開展了敦煌遺書數據庫關鍵技術的研究工作

1)在子課題一的敦煌遺書元數據標准規范的指導下,對敦煌遺書的基本信息、圖版及研究文獻等數據庫素材的多源數據的組織存儲與表達形式等技術做了分析研究,形成了數據庫內部使用基本信息關聯存儲的組織形式與圖版數據使用圖像文件多分辨率組織存儲的方式,以便於減少數據庫的體積,提高數據庫的檢索效率。2)在上述遺書多源數據的組織表達與存儲技術的基礎上,研究了基於遺書的基本信息、研究文獻和圖版互相關聯的高效檢索技術,實現了遺書信息、圖版和研究文獻的關聯檢索,同時考慮到方便研究人員進行更多樣化的查詢,正在對相關文獻的信息進行進一步劃分並增加更對相關文獻細致的搜索功能,以及以圖搜圖功能的研究。3)研究了基於公眾互聯網的敦煌遺書高清圖像遠程快速瀏覽技術研究,集成採用圖像多分辨率組織存儲技術,實現了在互聯網上遺書高清圖像的快速流暢顯示。4)針對研究人員的方便研究的需求與現存遺書圖像可能存在的顯示不清問題,實現了圖像與遺書論文對照瀏覽與錄文的豎排演示,並在此基礎之上完成了對遺書圖像的在線快速簡單參數調節功能,同時可以對參數調節的結果進行保存與讀取。

3、開發完成了敦煌遺書數據庫管理系統

在上述關鍵技術研究的基礎上,完成了敦煌遺書數據庫軟件系統的開發,為敦煌遺書的錄入、檢索瀏覽、輸出等管理與使用提供支持,具體包括以下功能:1)數據錄入功能:支持基於文檔表格的批量導入、單個手工錄入、修訂、刪除等﹔2)檢索瀏覽功能:支持針對數據庫的統一全文檢索,並支持基於各元數據字段的單個/多個並發條件檢索,支持遺書圖像的放、縮與快速瀏覽,支持圖像與錄文的對照瀏覽,支持錄文豎排顯示,支持在對照瀏覽的同時進行圖像參數的調節,同時正在對遺書相關文獻的細分與搜索以及以圖搜圖等功能進行進一步開發﹔3)輸出功能:按照用戶的要求輸出各種規格/類型的圖像/文字/文檔/報表等。 4)數據庫維護功能,為其它子課題的建庫提供輔助支持。5)保存與讀取功能:可保存用戶對圖像進行的調節結果,方便用戶下次瀏覽時直接讀取上次調節的參數。

以下是系統界面截圖示例:  

2、代表性成果:

建成了敦煌遺書數據庫(二期),包括敦煌遺書數據庫軟件系統和遺書數據兩部分:敦煌數據庫軟件系統為敦煌遺書的錄入、檢索瀏覽、輸出等管理與使用提供支持,具體包括以下功能:1)數據錄入功能:支持基於文檔表格的批量導入、單個手工錄入、修訂、刪除等﹔2)檢索瀏覽功能:支持針對數據庫的統一全文檢索,並支持基於各元數據字段的單個/多個並發條件檢索,支持遺書圖像的放、縮

與快速瀏覽,支持圖像與錄文的對照瀏覽,支持錄文豎排顯示,支持在對照瀏覽的同時進行圖像參數的調節﹔3)輸出功能:按照用戶的要求輸出各種規格/類型的圖像/文字/文檔/報表等。4)數據庫維護功能,為其它子課題的建庫提供輔助支持。5)保存與讀取功能:可保存用戶對圖像進行的調節結果,方便用戶下次瀏覽時直接讀取上次調節的參數。

(三)子課題三“敦煌漢文遺書數據庫”進展情況

本次課題第二階段已完成子項目敦煌文獻研究論著目錄數據庫元數據的整理。按照數據庫建庫要求,對元數據進行逐條逐項針對性處理,達到批量帶入數據庫的要求,並在今年1月,赴浙江大學,討論完善數據庫建庫中二級庫建設的具體問題。主要內容如下:

1)、完成對大部分甘肅藏漢文文獻的錄文共計739109字。

Dy.(敦研)1∼375,完成錄文量310996字﹔

Jb.(酒博)1∼18,完成錄文量48842字﹔

Gt.(甘圖)1∼32,完成錄文量151433字﹔

Xbsd.(西北師大)1∼20,完成錄文量69570字﹔

Yb.(永博)1∼8,完成錄文量18315字﹔

Zyxy.(中醫學院)1∼3,完成錄文量5938字﹔

Zb.(張博)1,完成錄文量8395字﹔

Gb.(甘博)1∼138,完成錄文量351698字﹔

Db.(敦博)1∼83 完成錄文量204042字﹔

Dxb.(定西博物館)1∼12,完成錄文量26108字﹔

Gtb.(高博)1∼3,完成錄文量29183字

2)、完成對部分國內散藏漢文文獻的調查

重慶市博物館藏敦煌文獻23條敘錄,3463字

浙江省藏敦煌文獻204條敘錄,43308字

湖南省圖書館藏敦煌文獻9條敘錄,2627字

遼寧省圖書館藏敦煌文獻271條敘錄,5231字

湖北省博物館藏敦煌文獻35條敘錄,6546字

安徽省博物館藏敦煌文獻99條敘錄,17254字

天津藝術博物館藏敦煌文獻335條敘錄,64563字

天津圖書館藏敦煌文獻177條敘錄,18142字

上海圖書館藏敦煌文獻105條敘錄,28734字

旅順博物館藏敦煌文獻9條敘錄,4229字

台灣中央圖書館藏敦煌文獻144條敘錄,12600字

重慶寶林博物館藏敦煌文獻13條敘錄,9277字

3)、完成對伯希和、斯坦因、俄藏文獻的目錄錄入約1396651字。

伯希和目錄約6040號 共計錄入139668字﹔

斯坦因目錄約6980號 共計錄入293195字﹔

俄藏目錄Дх.366號至Дх.19092號 共計錄入963788字﹔

4)、根據數據庫要求完成敦博藏、敦研藏、英藏、法藏前20號元數據轉換。

詳見下截圖:(具體內容見文后附錄4)

(四)子課題四“敦煌遺書數據庫藏文數據庫建設”的進展情況:

甘肅藏藏文文獻:

1、敦煌研究院175件藏文文獻的編號、定名、保存現狀子目、題記、收藏地和來源等信息和全文錄文已完成,約80萬字。並拍攝完成了數碼圖片約500多張。

2、敦煌市博物館藏藏文文獻已整理編號、定名、保存現狀子目、題記、收藏地和來源等信息6000件,全文錄文已完成100件,約18萬字。拍攝完成了數碼圖片5000件,約15000多張。

法藏敦煌藏文的目錄進行了初步整理:

1. 法藏文文獻P.t1299—P.t3615號目錄題記進行整理和錄入,約。

2.法藏藏文文獻漢藏解題目錄的錄入已完成,3000件,約55萬字。

3.法藏藏文文獻(P.T.0001----- P.T.0046)全文錄入完成,約12萬字。

(五)子課題五“敦煌遺書數據庫研究文獻數據庫建設”的進展情況:

本階段主要是收集有關敦煌文獻研究正式發表的國內的論著,其中專著類約300本,因該類文獻沒有專門的數據庫,收集非常麻煩﹔論文類從2014年1月1日至15年9月底約有1312篇,這些論文已經做好所有的元數據和錄文。

1)、根據數據庫要求完成英藏敦煌遺書研究文獻S.001-S.5639錄文約110萬字。

2)、完成甘肅藏敦煌文獻研究文獻目錄錄文約100字。

見截圖:

(六)子課題六“敦煌遺書圖像數據採集與編輯”的進展情況:

因為敦煌文獻數據庫建設,需要高清圖片以便於將來學者研究文獻時考察,考錄到敦煌文獻卷帙多,要拍攝的照片量很大,因此在本階段課題工作中又設立了第六子課題,主要負責敦煌文獻遺書圖像採集編輯。負責人由敦煌研究院陳列中心的盛海副研究館員擔任。在本階段工作中,該子課題組已經將甘肅藏部分漢藏文文獻採成圖像數據並編輯導入數據庫,詳細工作見下:(附錄3亦有介紹)

1.完成敦煌市博物館藏敦煌遺書共81個卷號拍照,571張圖片

2.完成高台縣博物館藏敦煌遺書共3個卷號拍照,60張圖片

3.完成高台縣博物館藏敦煌藏文遺書共2個卷號拍照,5張圖片

4.完成酒泉市博物館藏敦煌遺書共18個卷號拍照,134張圖片

5.完成酒泉市博物館藏敦煌藏文遺書19個卷號拍照,50張圖片

6.完成定西市博物館藏敦煌遺書共12個卷號,46張圖片

7.完成敦煌市博物館敦煌藏文文獻5000個卷號拍照,15000張圖片

8.完成敦煌市檔案館敦煌藏文文獻12個卷號拍照,50張圖片

9.完成甘肅省博物館藏敦煌藏文文獻34個卷號拍照,90張圖片

二、調查研究及學術交流情況

1、文獻調查

為完成本階段課題研究,課題組首席專家馬德奔赴北京、遼寧、安徽、重慶等省市,實地調查國內散藏文獻,共計調查25000多件﹔第三子課題負責人邰惠莉研究員赴湖北、上海、浙江等地調查文獻共計11000多件。敦煌研究院陳列中心盛海同志調查並拍攝甘肅省內武威、張掖、天水、蘭州、敦煌、嘉峪關等地散藏文獻約照片3700張。

2、學術交流

為協調各子課題之間科研工作,馬德研究員、邰惠莉研究員、勘措吉博士多次赴杭州、敦煌與各子課題成員進行協商,在蘭州招開課題組小型會議一次,與國內各敦煌遺書的收藏單位交流七次。與相關專家交流13次。

三、成果宣傳推介情況

1、2014年7月在敦煌召開本項目第一階段中期檢查報告會

2、2016年編制了一期《簡報》

四、研究中存在的主要問題、改進措施、意見建議﹔

我們的目的是建成完整的敦煌遺書數據庫。本項目研究建設工作中的最主要也是最大的問題,仍然是數據採集與經費兩個方面:首先是數據採集方面主要存在兩大難題:一是國外藏品數據的採集,主要是數字圖片的拍攝與擷取,涉及好多方面的問題﹔二是遺書的錄文工作,特別是社會歷史文書的錄文,不僅數量大,而且難度也很大,需要敦煌遺書整理研究方面的一流專家們經過長期研究和仔細校勘過的錄文與研究成果以及他們的幫助,同時也涉及諸多方面的問題。而國內藏品數據的採集,相對來講情況可能會好一些,但也難度較大。其次是經費,敦煌遺書數據庫是一項很大的建設工程,尤其是他涉及到全球范圍內的國際性研究,需要有充足的經費保障,目前的項目經費也只是杯水車薪,並且在現有的這點經費中,課題經費報銷也存在一些困難。

針對如上問題,改進措施即是在經費保障下的數據工作。有了充足的經費,就可以順利地從事數據採集,包括與國內外各收藏單位的協調,爭取到國內外敦煌遺書研究專家支持和幫助。為此,我們希望繼續得到國家社科基金的支持,以便將敦煌遺書數據庫作為國家社科基金重大項目做完整並不斷完善。

根據近兩年項目工作的進展情況和本數據庫建設的需要,我們重新制訂了項目工作計劃,本項目建設分三個階段進行:2016年完成法藏﹔2017年完成俄藏﹔

2018年完成國內外散藏﹔2019年完成中國國圖藏﹔2020年完成英藏。院內主要承擔單位:文獻所、陳列中心。經費(年均200萬元)來源:

一、繼續申請國家社科基金滾動資助(50乘5)

二、院裡配套(50乘5)

三、爭取社會贊助(100乘5)。

我們建議將本項目設為滾動項目關得到相應的資助。

五、其他需要說明的問題

1、課題組成員調整

為更好的完成本項目,本階段課題組成員有所調整。其中第四子項目“藏文文獻數據庫建設”第一次把藏文遺書的整理和建庫工作納入業務范疇,就文海內外相關文獻資料進行綜合考察和研究,建立敦煌藏文基本信息庫系統。此工作任務重,工作量大,除了基本信息採集外還涉及到定名,翻譯、研究狀況等方面信息。考慮到工作量和工作的多樣性,需要做如下調整:

項目首席專家:馬德(敦煌研究院研究員,不變)。

第1子項目“敦煌遺書數字化理論問題研究”

負責人:韓春平(蘭州大學圖書館研究館員,不變)。

第2子項目“敦煌遺書數據庫關鍵技術研究及軟件系統開發”

負責人:許端清(浙江大學教授,不變)﹔

主要成員:林懷忠(浙江大學副教授,承擔主要技術工作)

吳榮鑒(敦煌研究院副研究員,承擔部分技術工作)

馮立雲(浙江大學圖書館館員,承擔部分技術工作)

董建峰(浙江大學計算機學院博士研究生,承擔部分技術工作)

張丹(浙江大學計算機學院博士研究生,承擔部分技術工作)

喬婷婷(浙江大學計算機學院博士研究生,承擔部分技術工作)

韓嘉楠(浙江大學計算機學院碩士研究生,承擔部分技術工作)

張培梁(浙江大學計算機學院碩士研究生,承擔部分技術工作)

凌敏(浙江大學計算機學院碩士研究生,承擔部分技術工作)

第3子項目“敦煌漢文遺書數據庫”

負責人:邰惠莉(敦煌研究院研究員,不變)

主要成員:馬德(除負責全面工作外,承擔部分錄文)

趙曉星(敦煌研究院研究員,承擔部分錄文)

郭俊葉(敦煌研究院副研究員,承擔部分錄文)

李茹(敦煌研究院副研究員,承擔部分錄文)

黃京(敦煌研究院館員,承擔部分錄文)

余燕(敦煌研究院館員,承擔部分錄文)

鐘妍(敦煌研究院資料員,承擔部分錄文)

劉旸(蘭州城市學院歷史系學生,承擔部分錄文)

第4子項目“敦煌藏文遺書數據庫”

負責人:勘措吉(敦煌研究院副研究員,不變)﹔

主要成員:萬瑪項杰(敦煌研究院館員,承擔部分錄文)

楊本加(西北民族大學教授,承擔部分錄文)

才項多杰(青海師范大學民族大師范學教授,承擔部分錄文)

隆英忠(甘肅民族出版社副編審,承擔部分錄文)

李毛吉(西北民族大學圖書館館員,承擔部分錄文)

斗本加(西北民族大學博士研究生,承擔部分錄文)

萬瑪才讓(西北民族大學博士研究生,承擔部分錄文)

第5子項目“敦煌遺書研究文獻數據庫”

負責人:瞿晶(浙江大學圖書館副教授,不變)

李國(敦煌研究院副研究員,負責敦煌遺書研究文獻信息的分類整理)

主要成員:申國美(國家圖書館研究館員,承擔部分研究文獻信息採編)

師俊杰(敦煌研究院館員,承擔部分研究文獻信息採編)

王海彬(敦煌研究院館員,承擔部分研究文獻信息採編)

劉翔(浙江理工大學圖書館副研究館員,承擔部分研究文獻信息採編)

韓鬆濤(浙江大學圖書館副研究館員,承擔部分研究文獻信息採編)

王倩(浙江理工大學圖書館副研究館員,承擔部分研究文獻信息採編)

陳月利(浙江大學圖書館館員,承擔部分研究文獻信息採編)

董津菁(浙江大學圖書館館員,承擔部分研究文獻信息採編)

何旭源(浙江大學圖書館館員,承擔部分研究文獻信息採編)

王軍統(浙江大學圖書館館員,承擔部分研究文獻信息採編)

李博雅(黑龍江大學信息管理學院學生,承擔部分研究文獻信息採編)

第6子項目“敦煌遺書圖像數據採集與編輯”

負責人:盛海(敦煌研究院副研究員,負責國內外各地收藏敦煌遺書圖像數據的採集與編輯)

主要成員:梁旭澍(敦煌研究院館員,承擔部分遺書圖像數據的採編)

王海雲(敦煌研究院館員,承擔部分遺書圖像數據的採編)

張海博(敦煌市博物館館員,承擔部分遺書圖像數據的採編) 2、敦煌遺書數據庫建設工程量浩大,本階段2014-2015年,我們得到了國家社科基金的滾動資助,並且我院也比較支持,配套了50萬,但這些經費遠遠不足。為此,我們希望繼續得到國家社科基金的支持,將本項目作為滾動項目,以便於我們將敦煌遺書數據庫作為國家社科基金重大項目做大、做全、做完整並不斷完善。

如果本項目不再增加經費或延伸,我們將對目前完成的第一階段的成果在進行必要的改進之后,作為本項目的最終成果,在適當的時候申請結項。

二、研究成果情況

①代表性成果簡介

子課題一 理論研究,撰寫並撰寫論文二篇

1、韓春平:《敦煌文獻回歸的新時代》,《中國文化報》,2016-9-15理論版。

2、韓春平、邰蕙莉、許端清:《敦煌遺書元數據新標准》(待刊)

子課題二 數據庫軟件開發

建成了敦煌遺書數據庫(二期),包括敦煌遺書數據庫軟件系統和遺書數據兩部分:敦煌數據庫軟件系統為敦煌遺書的錄入、檢索瀏覽、輸出等管理與使用提供支持,具體包括以下功能:1)數據錄入功能:支持基於文檔表格的批量導入、單個手工錄入、修訂、刪除等﹔2)檢索瀏覽功能:支持針對數據庫的統一全文檢索,並支持基於各元數據字段的單個/多個並發條件檢索,支持遺書圖像的放、縮與快速瀏覽,支持圖像與錄文的對照瀏覽,支持錄文豎排顯示,支持在對照瀏覽的同時進行圖像參數的調節﹔3)輸出功能:按照用戶的要求輸出各種規格/類型的圖像/文字/文檔/報表等。4)數據庫維護功能,為其它子課題的建庫提供輔助支持。5)保存與讀取功能:可保存用戶對圖像進行的調節結果,方便用戶下次瀏覽時直接讀取上次調節的參數。

子課題三 敦煌遺書漢文文獻數據庫建設

1、已完成子項目敦煌文獻研究論著目錄數據庫元數據的整理。按照數據庫建庫要求,對元數據進行逐條逐項針對性處理,達到批量帶入數據庫的要求,並在今年1月,赴浙江大學,討論完善數據庫建庫中二級庫建設的具體問題。主要內容如下:

1)、完成對大部分甘肅藏漢文文獻的錄文共計739109字。

2)、完成對部分國內散藏漢文文獻的調查

3)、完成對伯希和、斯坦因、俄藏文獻的目錄錄入約1396651字。

4)、根據數據庫要求完成敦博藏、敦研藏、英藏、法藏前20號元數據轉換。

子課題四 敦煌遺書藏文文獻數據庫建設

1、敦煌研究院175件藏文文獻的編號、定名、保存現狀子目、題記、收藏地和來源等信息和全文錄文已完成,約80萬字。並拍攝完成了數碼圖片約500多張。

2、敦煌市博物館藏藏文文獻已整理編號、定名、保存現狀子目、題記、收藏地和來源等信息6000件,全文錄文已完成100件,約18萬字。拍攝完成了數碼圖片5000件,約15000多張。

3、法藏敦煌藏文的目錄進行了初步整理:

1)、法藏文文獻P.t1299—P.t3615號目錄題記進行整理和錄入,約。

2)、法藏藏文文獻漢藏解題目錄的錄入已完成,3000件,約55萬字。

3)、法藏藏文文獻(P.T.0001----- P.T.0046)全文錄入完成,約12萬字。

子課題五 敦煌遺書研究文獻數據庫建設

本階段主要是收集有關敦煌文獻研究正式發表的國內的論著,其中專著類約300本,因該類文獻沒有專門的數據庫,收集非常麻煩﹔論文類從2014年1月1日至15年9月底約有1312篇,這些論文已經做好所有的元數據和錄文。

1)、根據數據庫要求完成英藏敦煌遺書研究文獻S.001-S.5639錄文約110萬字。

2)、完成甘肅藏敦煌文獻研究文獻目錄錄文約105萬字。

子課題六 “敦煌遺書圖像數據採集與編輯”

因為敦煌文獻數據庫建設,需要高清圖片以便於將來學者研究文獻時考察,在本階段工作中,因此在本階段課題工作中又設立了第六子課題,主要負責敦煌文獻遺書圖像採集編輯。該子課題組已經將甘肅藏部分漢藏文文獻採成圖像數據並編輯導入數據庫,詳細工作見下:

1.完成敦煌市博物館藏敦煌遺書共81個卷號拍照,571張圖片

2.完成高台縣博物館藏敦煌遺書共3個卷號拍照,60張圖片

3.完成高台縣博物館藏敦煌藏文遺書共2個卷號拍照,5張圖片

4.完成酒泉市博物館藏敦煌遺書共18個卷號拍照,134張圖片

5.完成酒泉市博物館藏敦煌藏文遺書19個卷號拍照,50張圖片

6.完成定西市博物館藏敦煌遺書共12個卷號,46張圖片

7.完成敦煌市博物館敦煌藏文文獻5000個卷號拍照,15000張圖片

8.完成敦煌市檔案館敦煌藏文文獻12個卷號拍照,50張圖片

9.完成甘肅省博物館藏敦煌藏文文獻34個卷號拍照,90張圖片

課題組供稿

(責編:沈王一)