舊版網站入口

站內搜索

汪啟明 連燕婷:方志方言文獻的數字化摭談

2022年09月28日11:26來源:中國社會科學報國家社科基金專刊

作者系國家社科基金重大項目“方志中方言資料的整理、輯錄及數字化工程”首席專家、西南交通大學特聘教授﹔西南交通大學博士研究生

中華文明歷經數千年的演進、積澱,流傳至今的文獻浩如煙海。現代社會信息技術飛速發展,這對文獻的保護和利用來說,既是機遇,也是挑戰。“不數字無人文”時代的全面到來,意味著數字化已成為文獻資源保護、利用、轉化、發展的必要前提。

文獻可檢索化是學術大發展的助推器。從利用角度而言,數字化的核心是“可檢索”。檢索是現代人文社科研究必不可少的手段和工具,其基本功能是根據問題的指向,幫助研究者快速、准確地查找、鑒別和處理相關文獻材料,建立起知識之間的關聯,實現知識的融匯。數字人文興起之前,人們對文獻進行可檢索化處理的成果是索引,也稱“引得”。中國古代的索引是在字書、韻書、類書、書目等基礎上發展起來的檢索工具,或稱為通檢、備檢、韻編、串珠等。索引可以實現查檢字、詞、句、篇、文、史、地、事、人、年、制等功能,極大地提高研究效率。

歷史上體例完備、搜羅宏富的索引型工具書的每一次進步,都能有力地推動學術的發展,並對后世產生深遠影響。清代阮元主持編纂《經籍籑詁》(又作《經籍纂詁》),匯集了我國唐以前古書中的訓詁資料,分韻編排,對歷代典籍訓詁做了索引式的整理——“展一韻而眾字畢備,檢一字而諸訓皆存,尋一訓而原書可識。”故此書甫一問世,就受到當時學界盛贊,並在學術研究中加以利用。如郝懿行撰寫《爾雅義疏》就得益於書中提供的豐富材料,他說“適購得《經籍纂詁》一書,絕無檢書之勞,而有引書之樂”﹔20世紀后半葉,日本諸橋轍次新編《大漢和辭典》,中國台灣出版《中文大辭典》,我國兩部大型語文辭書《漢語大字典》和《漢語大詞典》,都把《經籍籑詁》列為最重要的參考書之一﹔《故訓匯纂》《古音匯纂》則是《經籍籑詁》的最新發展。時至今日,它仍然是學者案頭必備的工具書。又如,民國時期由洪業主持的哈佛燕京學社引得編纂處編纂的“漢學引得叢刊”,借鑒西方科學的索引技術和方法,首次大規模成系統地編纂了64種81冊中國古籍引得工具書,深受當時國內外學界的贊賞,極大地推動了民國學術的發展。

大數據時代,各類綜合性、專題性電子數據庫如雨后春筍般涌現。相較傳統的紙質索引而言,能夠處理海量數據的數字化檢索功能豐富且更高效便捷,開啟了人文學科全新的研究路徑,引起了研究范式的大變革。可見,文獻可檢索化的意義絕不止於為學界提供高效便捷的檢索工具,更重要的是倡導了科學高效的讀書和治學方法。

“精校勘”“可檢索”是文獻數字化的兩大支點。文獻的保護和利用,這裡主要指古文獻的保護和利用,有原生性保護和再生性保護兩種方式。原生性保護更多關注文獻作為文化承載實體的物質屬性,把文獻當作“文物”保護起來。再生性保護則有影印、縮微和數字化三種技術手段。前兩種手段讓文獻以再造紙本或縮微膠片的形式轉印,較好地保存了原貌﹔但沒有經過標點、校勘、注釋,閱讀不便,無法進行檢索,查找效率低下,使用中証據力有所欠缺。因此,要提升古文獻的利用率,讓它們“活起來”,就必須將其內容轉化為數字文本。

文獻數字化包括紙本資源的電子化,以及在電子化文本基礎上的斷句、標點、詞語切分等基礎性加工和深層次的知識提取、聯結、擴展。“精校勘”是文獻數字化的第一個支點。基於可靠紙本的電子化文本是文獻數字化的前提和保障,文獻數字化的實現過程即是大規模整理文獻的過程。“可檢索”則是文獻數字化的另一個支點。擁有可靠的電子化文本后,在海量的數據資料面前,如果不能實現可檢索,則還是不利於讀者對文獻的利用。因此,隻有夯實“精校勘”和“可檢索”兩個支點,才能走穩文獻數字化的建設之路。

文獻數字化,歸根到底是知識生產資源、學術研究材料的數字化。“一時代之學術,必有其新材料與新問題”,新材料能出新學問。從語言研究角度說,激活舊材料,挖掘新材料是語言研究持久不懈的重要工作。新材料有兩層含義:狹義的新材料指地下出土的材料,如清末民初的甲骨文、簡帛及敦煌文獻﹔廣義的新材料則指前人未曾使用過的,或在研究中沒有系統搜集、整理的,學界不曾注意的材料,如域外文獻、大內檔案。從方言研究角度看,20世紀的歌謠收集、方言調查報告、少數民族語言調查,近年的方志方言整理,其實質上也是新材料,但這些材料的“新”不深究難以覺察。中國地方志是“我國有史以來最大的社會科學成果群”,其中蘊含了豐富的方言材料,他們是中國語言學研究的又一富礦,是具有寶貴價值的新材料。其中不僅有漢語方言,還有少數民族語、外來語,語音、詞匯、語法、俗語俱全。但分布零散,搜檢不易,前人使用不多。20世紀中葉,日本學者波多野太郎編纂《中國方志所錄方言匯編》(9編),收集、影印了266種中國舊志中的方言資料﹔21世紀初,日本學者太田齋、加納巧《新編中國地方志所錄方言志目錄》集31個省市含有方言資料的新志,編成目錄。2021年,出現了兩部舊志方言資料整理的集大成之作:華學誠主編,曹小雲、曹嫄《歷代方志方言文獻集成》(11冊)整理點校了966種舊志方言文獻﹔李藍《中國方志中語言資料集成》(42冊)搜集影印了742種含有語言資料的舊志內容。這是兩部舊志方言資料整理的力作,得到學界好評。國家社科基金重大項目“方志中方言資料的整理、輯錄及數字化工程”搜集整理新、舊方志中的方言資料,分省編成《中國方志方言資料匯纂》,印刷紙本296冊﹔建成了可供檢索利用的“中國方志方言詞匯數據庫”。該庫從10余萬種方志中,系統地整理出3677種中國新、舊方志中的方言詞,現已入庫方言詞130萬余條,總字數約5000萬字。該數據庫屬於全息數據庫,可一鍵查詢到古今方志方言詞匯的相應信息,這對未來的漢語方言研究或將有重要參考價值。

科學設計檢索字段是提高檢索效率的關鍵。文獻數字化要兼顧到原貌保護、精確校勘、電子化提取、方便檢索等多方面要求。因此,需要根據不同的檢索目的,匹配不同專業的特征項,做好檢索的頂層設計,從而提高檢索效率和查准率。在文獻數字化的建設過程中,“精校勘”的紙質文本與電子化文本是實現“可檢索”功能的前提,而提高檢索效率的關鍵則是科學的檢索字段設計。

大數據時代的文獻數字化除提供字符串匹配的基礎檢索功能外,還應對內容進行深度標引、知識發掘和文獻信息關聯。以“中國方志方言詞匯數據庫”為例,其檢索字段設計包括:詞形、注音、釋義、文例、詞類、語類、通行地域、方志纂修時間、方志纂修者、方志名稱、方言所在篇(卷)。通過數據的結構化處理,可進行批量查詢、計量統計﹔可實現全文檢索,也可進行方言分時、分地、分詞類、分語類等專門性檢索。方言分區、分類是方言研究的基礎工作,又是方言研究的歸宿。學界目前多以語音為方言分區的條件,“中國方志方言詞匯數據庫”可以起到重要的輔助和驗証作用。如可從數據庫中方便地提取同一方言詞在相鄰的區、片、小片、點的復現率、同一方言詞在不同方言中的共現率等數據。例如,晉語“好面”指白面、精細面,在山西太原、鄉寧等地47種方志中出現過﹔又如方言詞“蔫”指物不新鮮,在河北雄縣、青縣,江蘇吳縣,浙江蕭山、鄞縣,上海,福建,廣東番禺,重慶雲陽、長壽,四川蓬溪、簡陽,貴州遵義、平越等地36種方志中出現過。這樣的數據,無疑將有益於我們用來研究方言分區、方言溯源、方言擴散、方言比較、形音義、語言接觸、移民現象等多方面的問題。基於該庫對漢語方言材料進行深度而高效的分析,使漢語方言研究除方言調查報告、方言著作、方言研究論文、方言地圖、方言詞典外,又多了一個可靠好用的檢索平台,有助於方言研究進入更宏觀的視野,提高研究結論的精准性、穩定性及可驗証性,促生新的研究理念、方法與范式。

依托於現代信息技術發展起來的文獻數字化檢索方式,是真正對包括古籍在內的文獻實現永續性保護和利用的好辦法,必將大大推動人文社會科學領域的發展,推動中華優秀傳統文化創造性轉化、創新性發展。

(責編:王路凱、黃瑾)