舊版網站入口

站內搜索

“漢語史語料庫建設研究”中期檢查報告

2014年02月26日19:09來源:全國哲學社會科學工作辦公室

一、 研究計劃總體執行情況及各子課題進展情況

本項目於2010年12月27日獲國家社科基金辦批准立項,立項后召集課題組全體人員根據國家社科基金辦反饋的“第17組綜合評價意見”(即對本項目的專家意見),就專家組提出的“縮小課題范圍,隻做中古漢語語料庫,集中力量將中古漢語語料庫做精做好。加強語料庫建設相關理論研究”等意見重新填寫了項目的目標任務書並得到國家社科基金辦的批准。

項目的最終目標是:在五年建設期間,1.建成國內首個可用於漢語史研究的由多個子庫組成的收錄原始語料1000萬字,庫容1600萬字的具有多集合特點的深加工中古漢語語料庫(內容上是中古漢語代表性語料的集合,結構上是校勘庫、義項庫、語法庫等多庫的集合,功能上是自動分詞軟件、自動標注軟件、檢索系統軟件等多種功能軟件的集合。為漢語史語料庫的建設作一些理論上的探討及實踐上的嘗試,為漢語史研究(特別是中古漢語史的研究),提供一個比較實用的操作平台。2.在中古漢語語法體系、中古漢語詞匯系統、中古漢語語料庫建設理論研究方面有所突破,產生相關的指導性理論論著。3.研制出“中古漢語語料庫檢索系統”、 “中古漢語自動分詞系統”、“中古漢語詞義自動標注系統”“ 、“中古漢語異文發現軟件”等一系列相關軟件。

自項目開題至今(2011.4—2013.7),已經經過了兩年半時間,項目研究時間

(2010.12—2015.12)過半,我們嚴格按照原訂計劃,總體進展順利,目前已經完成全部任務的三分之二(某些方面在原計劃的基礎上作了較大規模拓展)。具體表現在: 入庫語料至2013年9月8月底全部完成校勘(包括初校、終校),字數超過原來規劃的1000萬字(除原計劃1000萬字傳世文獻語料校勘入庫外,根據專家建議,新增加了近100萬字出土文獻語料,同時,增加了繁體電子版佛經語料7億多字,大大超過原庫量)。語料的人工深加工(分詞、語義、語法、文字標注)已經完成145萬字(並經三次復核),為自動分詞、標注軟件提供了可靠記憶樣本,目前已進入機器自動分詞、標注(再人工核對)階段,工作進度已大大加快。“語義庫”、“語法庫”、“異文庫”均已建成。原來確定的兩個理論研究課題“中古漢語構詞法與造詞法研究”、 “中古漢語語法體系研究”亦按計劃進行,目前已接近完成。同時,新增了“長沙走馬樓三國吳簡詞匯計量研究”、“漢魏石刻資料詞匯計量研究”兩個出土文獻詞匯研究的理論課題,目前順利進行。語料庫的各種相關軟件(“中古漢語語料庫語料檢索系統”、“中古漢語自動分詞軟件”、“漢語自動語義標注軟件”、“ 版本異文自動發現軟件”)已經自主研制開發成功,經過反復運用調試,都已進入第三版,目前正實際運用中進一步完善提高。

四個子項目的具體進展情況如下:

(一)“深加工中古漢語語料庫語料鑒別與整理研究”子項目(負責人:方向東教授)

按照計劃書研究內容和研究方法進行,將須入庫的中古語料先進行版本的確定和校勘,已完成《殷芸小說》、《論衡》、《南齊書》、《宋書》、《梁書》、《抱朴子》、《三國志》、《世說新語》、《后漢書》、《齊民要術》、《水經注》、《顏氏家訓》、《北齊書》、《搜神記》、《列子》、《先秦漢魏晉南北朝詩》的版本調查工作,並撰寫了調查報告﹔採取課題組參與者分頭分工把關的原則,將確定的中古文獻語料分課題組成員校勘。目前完成進度如下:《后漢書》(179.4萬)《洛陽伽藍記》(5.7萬)《水經注》(40萬)《神仙傳》(3.8萬)《魏書》(140萬)《幽明錄》《冥祥記》(合計8萬)《陳書》《周書》(合計51萬)《論衡校釋》(90萬)《三國志》(85萬)《北史》(44萬)《北齊書》(28萬)《南齊書》(35萬)《梁書》(35萬)《南史》(80萬)17部文獻語料共計914.9萬字,初校工作已於2012年8月份全部完成。

至2013年7月底,已完成終校的文獻是:《后漢書》(周燕飛初校,曹紅軍、謝秉洪教授負責終校),《洛陽伽藍記》《神仙傳》(李玉嬌、李慧娟初校,王鍔教授負責終校),《魏書》(魏慶彬初校,王鍔教授負責終校),《梁書》(景紅緯初校,王鍔教授負責終校),《南齊書》(顧言初校,方向東教授負責終校)《陳書》(李衛衛初校,方向東教授負責終校)《南史》(朱娜娜初校,方向東教授負責終校)《幽明錄》《冥祥記》(葉國盛初校,方向東教授負責終校),合計542.9萬字的終校工作完成。

即將完成的有:《三國志》(朱珠初校,謝秉洪教授負責終校),《論衡校釋》(蔡玉英初校,曹紅軍教授負責終校),《水經注》(王勇初校,吳新江教授負責終校),《北齊書》(易雪丹初校,吳新江教授負責終校),《北史》(吳婷、申阜鑫、郭林初校,吳新江教授負責終校),《周書》(李衛衛初校,吳新江教授負責終校),合計323萬字。此項工作目前正利用暑假時間作最后沖刺,全部終校工作將在2013年8月底完成。

另外又增加100萬字的出土文獻語料(吐魯番文獻、長沙走馬樓三國吳簡、漢魏南北朝石刻資料),該項語料由“深加工中古漢語語料庫理論研究”子項目組成員負責錄入校勘,目前也已完成。

也即是說,至2013年8月底,該子項目的預定任務已經圓滿完成,今后的工作是對將來臨時增加的語料進行校勘。

(二)“深加工中古漢語語料庫建設研究”子項目(負責人:化振紅教授)

該子項目組自2012年年終檢查至今主要完成以下工作:

修訂義項庫(化振紅教授、汪祎博士):針對原有的中古詞語義項數據庫中收詞數量不足、義項不全、詞條和義項交叉、多義詞處理不當等缺陷,重新進行了校對、整理,截至目前,新修訂的義項庫詞條總數共483,432條,全部完成了人工校對工作並投入使用。(並結合“義項庫”的建設,建立了《漢語大詞典》數據庫)

建立異體字、疑難字庫(趙家棟副教授):針對中古語料中極為普遍的特殊用字現象,建立了專門的中古漢語語料庫異體字數據庫,收入各體漢字3700個左右,基本解決了現階段語料切分、標注以及未來的詞語檢索過程中的字體轉換問題,部分解決了數據庫中疑難字的顯示問題。下一階段,將大量收入中古漢語疑難字,建立與系統檢索軟件完全匹配的中古漢語語料庫疑難字庫。兩個字庫繼續升級、最終合並之后,可望完全解決整個數據庫的檢索、顯示等問題。

語料標注(化振紅教授負責組織全體教師、博士):繼續進行了語料的人工切分、標注工作,提供了更多的人工切分、標注樣本。從2012年12月年檢截止目前,新增人工切分、標注樣本約59萬字,累計完成人工標注樣本145萬字左右。初步實現了改進后的義項庫、人工標注樣本與電腦切詞及標注軟件的對接,對程序軟件標注的語料樣本正在進行評估、調研,提高程序軟件切詞、標注的正確率,目前的切詞、標注的一次正確率達到75%左右,新一輪的調試正利用暑假緊張進行,9月初正式進入程序軟件操作為主、人工校對為輔的切詞、標注階段。屆時,語料切詞、標注進度將大大加快。

(三)“深加工中古漢語語料庫理論研究”子項目(負責人:黃 征教授)

該子項目包括四個理論研究課題及一個吐魯番出土文獻整理課題:

中古漢語構詞法與造詞法研究(劉杰博士):該項研究的主要內容包括適應中文信息處理的中古漢語復音詞的鑒別與界定、構成特點與生成特點、發展趨勢及計量研究等內容。作為詞匯理論研究,與中古漢語語法體系的研究、語料的鑒別與整理、漢語史數據庫平台建設等其它項目的研究是互補關系,幾個部分相互依托,共同推進。目前通過整理國內近二十年來中古漢語復音詞研究的成果,對大量專書、專類詞匯研究著述中的復音詞的研究成果進行全面梳理和整理,對中古漢語復音詞進行了計量研究,已完成“中古漢語核心復音詞表”的整理編纂(近10000詞條)。服務於后續研究的需要。在收集整理中古復音詞的同時,對各家各類研究成果進行梳理,尤其是中古漢語復音詞的界定標准進行歸納分析,建立了一套能服務於語料庫建設需要的中古漢語復音詞的界定標准和“分詞”依據。“中古漢語的構詞法”、“中古漢語的造詞法及新詞生成機制”這兩個問題正在研究。

中古漢語語法體系研究(胡靜書博士):通過對中古漢語的虛詞的收集整理,統計分析,目前已完成中古漢語語法體系——詞法體系的研究,句法體系研究正在進行。

長沙走馬樓三國吳簡詞匯計量研究(張學城副教授)該課題將走馬樓三國吳簡的全部釋文制作數據庫,利用數據庫生成引得,為詞匯計量研究提供條件。

文物出版社的釋文凝聚了很多學者的心血,具有很高的學術價值。但是由於簡文量大,人手有限,時間緊迫,錯誤在所難免。課題承擔者在原有釋文基礎上,核對已公布的相關竹簡照片,訂正了前人釋文中的一些錯誤,完成全部校勘錄入工作。並已完成吳簡(一)(二)冊的切詞、標注及數據庫的制作,其余(三)(四)冊的切詞、標注正在進行。

漢魏石刻資料詞匯計量研究(羅小如博士)該課題以毛遠明《漢魏六朝碑刻校注》(約69萬字)為基礎,進一步搜集補充漢魏石刻資料,參照漢魏石刻拓片做好現有石刻釋文的校對整理,分別輸入電腦,這一階段的工作已經完成。隨后分詞、標注,做成數據庫。然后利用數據庫進行專項詞匯計量研究。目前已完成10萬字左右的切詞、標注,並進入數據庫。其余部分將在2014年8月前完成。

“吐魯番出土文獻”數據庫(趙紅副教授)唐長孺主編的《吐魯番出土文書》第一冊集中公布了中古時期吐魯番出土文獻的圖版,本階段的主要工作集中在第一冊的資料精加工以及電子化處理方面。首先將前期工作中完成的錄文與出土文書圖版進行一一對照校勘,彌補和糾正了錄文中的缺失,提交語料庫入庫使用的錄文資料盡最大可能准確無誤。第二,將出版物的圖版用掃描、拍照等方法電子化處理,使異體字切分成為可能。第三,將已經輯錄的異體字逐一用制圖軟件切分,制成各自獨立的字形圖片,同時錄入其所在文句,使字形與文句一一對照,避免了孤立字形缺乏例証的弊端,同時也為語料庫入庫分詞提供了完整的資料。目前,經過精加工的錄文資料已經提交入庫,進行分詞、標注等相關工作。電子化處理的字形圖片工作也已基本完成,《吐魯番文獻俗字典》亦已編纂完成,將遞交“異文庫”、“疑難字庫”。

(四)“深加工中古漢語語料庫系統平台建設與研究”子項目(負責人:陳小荷教授)

2012年12月年檢至今,該子項目組主要工作如下:

“中古漢語語料庫語料檢索系統”軟件的改進升級(曲維光教授、付佳)。2012年上半年軟件第一版研制以后,進行了試運行,在試運行過程中,根據“語料庫建設”子項目組的意見建議,又進行了兩次改版升級,一方面進一步提升了軟件的運行速度,同時,又拓展了軟件的檢索功能(如:語料的時代分層、地域區分功能﹔相類語料的同頁面比對功能、網上互動功能等)目前“中古漢語語料庫檢索系統”已經推出第三版,功能和性能已基本達到要求。

版本異文自動發現的研究(陳小荷教授),針對中古漢語語料改進了算法,速度更快、異文定位更加准確。

相關軟件的對接(李斌博士)。在項目建設實踐中,總結經驗教訓,將“中古漢語自動語義標注軟件”與“中古漢語自動分詞軟件”有機結合,不僅通過形式區分進行自動分詞,而且通過語義鑒別進行自動分詞,有效提高了切詞的准確性(李斌博士)。

二、調查研究及學術交流情況

兩年半以來,本項目組圍繞項目的進展開展了一系列學術調研、文獻收集以

及學術交流活動。共邀請國內專家前來進行學術講座場,本項目組成員應邀外出進行學術講座4場,出席國際、國內重要學術會議13人次。

(一)調研數據整理運用:

掃描版文獻檢索問題的調查研究(陳小荷教授)。對語料庫中的掃描版文獻直接進行檢索,目前美國已經開始較多運用這一技術。在我們的語料庫中能否採用這一技術,這關系到語料庫的質量。子課題組負責人陳小荷教授對此進行了細致的調查了解,通過國內外相關資料的研究,陳教授認為:從原理上說,掃描版文獻是無法直接檢索的,必須經過字符識別和人工校對之后才能檢索。但是,檢索結果的呈現形式可以是掃描圖像。其中的奧秘就是將文本的段落、句子、詞或字符與它在掃描圖像中的位置聯系起來,檢索仍然在文本中進行(這一過程不讓用戶看見),但可通過位置映射將相應的圖像呈現給用戶。例如,利用工具軟件DjvuToy,可以制作djvu電子書,進行字符識別、生成可檢索的隱藏文本。這一技術在語料檢索中很有價值。如果檢索結果以文本形式呈現,用戶對其准確性和真實性是持謹慎態度的,往往還要去查閱掃描文獻或紙版本。檢索結果以圖像形式呈現,用戶可以放心使用。即使字符識別可能有誤,也能夠直觀地在掃描圖像上反映出來。基於這樣的認識,我們目前正在在檢索系統上做這方面的實驗嘗試。

中古漢語語料自動切詞軟件准確率問題的調查研究(董志翹、化振紅教授)

目前古代漢語語料的自動切詞軟件研究的瓶頸是切詞准確率的問題,現代漢語語

料自動切詞軟件的准確率已經可以達到95%以上,但古代漢語語料由於詞與非詞界限的模糊,自動切詞軟件的准確率一直不高(基本上在70%—80%間徘徊)。利用在韓國參加學術會議的機會,董志翹、化振紅教授與台灣大學工程科學及海洋工程研究所杜正民、唐國銘教授、法鼓佛教學院洪正洲助理教授進行了會間個別交流,他們目前正參與法鼓佛教學院“中華電子佛典數據庫”的建設,唐國銘教授的報告“運用佛經音義語料建構‘語意詞網’之研究——以《瑜伽師地論》為例”洪正洲助理教授的報告“以統計量化分析方式進行早期漢譯佛典之翻譯年代判斷與翻譯特征萃取”,對於我們漢語史語料庫的建設均有啟發。通過調查,他們研制的檢索系統的某些功能和自動分詞軟件研制方法(按文體分別制作自動切詞軟件提高分詞精確度的方法),很值得我們借鑒,為此互相建立了進一步交流協作的意向。目前我們已經在進行按文體制作自動切詞軟件的嘗試。

(二)國內外文獻資料的收集整理:

國外《經律異相》資料的收集整理(董志翹教授)。語料庫中所收《經律異相》是梁代寶唱所編的我國第一部佛教類書,資料價值非常高,但該書一直未有人整理。我們首次用國內所能見到的八種重要藏經本進行校勘整理,加上斷句、標點(94萬字,巴蜀書社2011年8月出版)。后經董志翹教授與日本國際佛教大學院大學“日本古寫經研究所”所長落合俊典教授聯系,在他的大力支持下,又查找到日本金剛寺、七寺、興聖寺三個寺院所藏《經律異相》的三種古寫本,並全部復印寄贈。目前,我們正利用這些寶貴的材料對《經律異相》作進一步校勘整理。

國內漢魏六朝石刻資料的收集整理(董志翹教授、羅小如博士)語料庫中的中古出土石刻文獻,以前均散見各處,沒有一個比較完備的文本。我們了解到西南大學古籍所毛遠明教授新近剛出版《漢魏六朝碑刻校注》(全10冊,2008年線裝書局出版),這是迄今漢魏六朝碑刻資料收集最全面、整理最精審的著作。立即前往重慶與他當面協商,最后同意將該書收入語料庫。我們目前在該書的基礎上,又進一步搜集補充了一些漢魏石刻資料,並進行切詞、標注的深加工處理。

電子佛經資料的收集整理(陳小荷教授)搜集了繁體電子版佛經語料7億多字,並且對佛經語料自動分詞方法進行了初步探索。語料包括大正藏、卐續藏、嘉興藏、趙城金藏、中華藏、房山石經、高麗藏、乾隆藏、卍正藏、永樂北藏、洪武南藏等等(均已排除重復部分)。一種佛經往往有多種譯本,例如《金剛經》主要有姚秦時代的鳩摩羅什譯本、唐代玄奘譯本。有的甚至有梵漢對照,其中梵文詞語用漢字音譯,如《唐梵翻對字音般若波羅蜜多心經》。這些語料對於研究佛經詞匯發現和自動分詞以及中古音韻都是非常寶貴的資料。也大大充實了我們的語料庫。

(三)學術會議:

召開了重大招標項目開題論証會

2011年4月3日上午9時,在南京師范大學貴賓室召開了本項目的開題論証會。出席本次開題會的有國家級“有突出貢獻專家”、北京大學中文系博士生導師蔣紹愚教授,北京語言大學信息科學學院博士生導師宋柔教授,江蘇省哲學社會科學基金辦公室主任徐之順。南京師范大學副校長吳康寧教授,文學院院長朱曉進教授,社會科學處副處長秦國榮教授及課題組全體成員。項目首席專家董志翹教授全面系統地匯報了調整后課題的思路、研究路徑、研究項目的重難點等。蔣紹愚教授就課題的語料庫范圍、功能、來源文本選擇、語料分期、文本標注內容等具體問題,和語料庫檢索平台、平行知識庫、前期人工標注、后期計算機的學習等技術路線,提出自己的意見。宋柔教授結合自己多年從事現代漢語語料庫建構與研究工作,也對語料庫標注的開放性、模糊性,尤其是文字形體難題等提出了建設性建議。課題組成員與相關專家學者進行了熱烈的溝通與交流,在現場提出了一些新的的設想

召開了重大招標項目專家咨詢會

2011年11月26日,在南京師范大學南山專家樓二樓第二會議室舉行本項目專家咨詢會。受邀的咨詢專家有湖南師范大學蔣冀騁教授、北京大學孫玉文教授、浙江大學張涌泉、汪維輝教授、復旦大學汪少華教授、廈門大學曾良教授、上海師范大學徐時儀教授7人(7位專家涵蓋中古漢語史研究中的文字、音韻、詞匯、語法等各個領域),與全體項目組成員對課題進展以及相關問題展開了熱烈討論,同時紛紛為項目出謀劃策,提出了不少寶貴的意見、建議。

召開了“深加工中古漢語語料庫”前期成果專家評估會

結合211學科建設評估,深加工中古漢語語料庫前期試運行部分(已有部分中古文獻經加工后入庫試運行),2012年2月19日接受了由南京師范大學組織的專家組的評估,專家組由安徽大學古文字專家黃德寬教授、中國社會科學院計算語言學專家馮志偉研究員、廈門大學敦煌學專家曾良教授組成,專家組通過聽取項目組匯報、參觀語料庫演示,最終評語是:“課題組在語料庫加工應用和軟硬件平台建設方面,在中古漢語研究領域處於國內領先。圍繞語料庫開展的相關理論研究成果,對中古漢語研究方面產生了積極影響。研究整理的中古漢語語料文本,得到學術界的高度評價。該課題成果具有較為廣泛的推廣價值,中古漢語典型語料庫和便捷的檢索方式,為漢語史及中古漢語提供了先進的研究與交流平台。”鑒定等第為“優秀”。

(四)學術交流:

邀請外單位專家前來進行學術講座(9場)

2011年4月2日,項目組邀請北京語言大學博士生導師,計算語言學專家宋柔教授在南京師范大學國際教育學院報告廳作學術報告,報告的題目是“基於廣義話題的漢語文本結構”

2011年4月2日,項目組邀請北京大學博士生導師、漢語史專家蔣紹愚教授作學術報告,報告的題目是“漢語史的學習和研究”

2011年11月15日,項目組邀請東北師范大學博士生導師,古文獻專家曹書杰教授作學術講座,講座題目:“考據學與漢語言文字研究”。

2011年11月26日,項目組邀請北京大學博士生導師孫玉文教授作學術講座,講座題目是:“揚雄《方言》折射出的秦漢方音”。

2011年11月26日,項目組邀請復旦大學出土文獻與古文字研究中心博士生導師,訓詁學專家汪少華教授作學術講座,講座題目是:“訓詁與考古研究成果利用”。

2011年11月27日,項目組邀請廈門大學博士生導師,敦煌學專家曾 良教授作學術講座,講座題目是:“”。

2011年11月27日,項目組邀請湖南師范大學博士生導師,漢語史專家蔣冀騁教授作學術講座,講座題目是:“語感與訓詁”。

2012年2月17日,項目組邀請安徽大學博士生導師,古文字學專家黃德寬教授作學術講座,講座題目是:“關於清華簡《尹至》《尹誥》形成年代與性質問題”。

2013年1月13日,項目組邀請上海師范大學博士生導師,音韻學專家潘悟雲教授作學術講座,講座題目是“漢語語料庫檢索系統設計”。

本項目組成員應邀外出進行學術講座(12場)

2011年10月14日,本項目首席專家董志翹教授應邀在北京大學中文系作了“關於‘名量式’復合詞的幾個問題”的學術講座。

2011年9月15日,本項目子課題負責人黃征應邀在西南大學漢語言文獻研究所,作了題為《敦煌語言文字學研究——敦煌俗語言學論綱》的學術講座。

2011年12月16日至18日,本項目首席專家董志翹教授應邀在山東師范大學文學院、淮北師范大學文學院做了題為“回望與前瞻——新時期的漢語學習與應用”的學術講座。

2012年9月17日,董志翹教授應邀為南京信息工程大學作題為“知今必鑒古,無古不成今——從古代文獻中汲取科技創新的營養”講座。

2012年10月9日,董志翹教授應邀為浙江外國語學院人文學院作題為“表示過程、持續狀態的‘中’及其來源”的學術講座。

2012年11月27日,董志翹教授應邀為西南大學文學院作題為“關於漢語‘名量式’復合詞的幾個問題”的學術講座。

2012年11月28日,董志翹教授應邀為重慶師范大學作題為“努力拓展學生視野,全面掌握古代漢語知識”的學術講座。

2012年11月29日,董志翹教授應邀為四川外國語大學中文系作題為“略論漢語中的‘離合詞’”的學術講座。

2012年11月29日,董志翹教授應邀為重慶師范大學文學院為研究生作“拓寬學術視野,全面掌握古代漢語知識”的報告。

2012年12月1日,董志翹教授應邀為四川大學文學與新聞學院為研究生作“關於漢語名量式復合詞的幾個問題”的報告。

2013年3月24日,董志翹教授應邀為陝西師范大學文學院為研究生作“佛教對中土取名命字的影響”的學術報告。

2013年4月15日,董志翹教授應邀為武漢大學文學院為教師、研究生作“佛教對中土取名命字的影響”的學術報告。

本項目組成員出席國際、全國重要學術會議(30人次)

2011年5月6—9日,本項目首席專家董志翹教授出席清華大學百年校慶西

南瀕危文字文獻研討會,並主持會議發言。.

2011年8月12日,本項目組成員趙紅副教授出席由中國敦煌吐魯番學會等

單位主辦的“中國敦煌吐魯番學會理事會暨學術討論會”,並宣讀了論文“ 吐魯番出土文獻字詞零考”。

2011年8月20日—22日,本項目子課題負責人陳小荷教授及成員馮敏萱、

李斌、徐潤華博士出席在河南洛陽召開的全國第十一屆計算語言學學術會議(CNCCL-2011)並在會議上報告論文4篇。

2011年8月23—28日,本項目首席專家、中國訓詁學研究會副會長董志翹

教授、本項目子課題負責人、中國訓詁學研究會副秘書長方向東教授出席在成都召開的中國訓詁學研究會及西南交通大學主辦的“2011年海峽兩岸文獻與方言研究學術研討會”報告了論文,董志翹教授作大會學術總結。

2011年12月4日至5日,本項目子課題負責人陳小荷教授及課題組成員曲

維光教授出席了在北京召開的中國中文信息學會第七屆全國代表大會暨學會成立三十周年學術會議,陳小荷繼續當選為理事。

2012年4月20日—24日,本項目首席專家董志翹教授出席由中國社會科學

院語言研究所、湖南師范大學文學院主辦的“第八屆中古漢語國際學術研討會”,並作大會主題報告“關於“見2V”句中“見”的詞性及功能”。本項目成員趙家棟副教授出席會議,並宣讀論文“《經律異相》校讀札記”。

2012年4月27日—28日,本項目子課題負責人陳小荷教授作為教育部語信

司推薦的專家出席在廣西南寧召開的聯合國教科文組織第十三屆國際母語日研討會,在研討會上作了“關於漢語方言信息處理”的報告。

2012年5月25日,本項目子課題負責人黃征教授出席在日本東京召開的“第

57回東方學會的國際研討會”,並作了題為“中國願文與日本願文比較研究”的大會報告。

2012年8月15日,項目組成員胡靜書講師出席了由中國社會科學院語言研

究所主辦的中國語言學會第十六屆學術年會,提交和宣讀論文“害怕義到情態義:一個反復出現的詞義演變現象”。與會期間,調查了與中古漢語語法體系有關的研究動態和成果,也咨詢了相關專家學者,本課題研究的價值和重要性得到同行專家的肯定,同時也獲得了對語法體系研究有益的意見和建議。

2012年9月10日,子項目負責人方向東教授出席在河南師范大學召開的“中

國歷史文獻研究會第33屆年會”,同時了解文獻古籍數字化的相關信息和建設情況。

2012年10月8日—10日,本項目首席專家董志翹教授出席中國訓詁學研究

會在浙江大學召開的學術年會,在會上作“日本的中古漢語詞匯研究”的主題報告。並再次當選中國訓詁學研究會副會長。子項目負責人方向東教授亦出席會議,當選為中國訓詁學會常務理事。項目組成員趙家棟副教授同時出席會議,宣讀論文“敦煌寫卷丑婦賦字詞校讀札記”。

2012年10月12日—16日,董志翹教授出席韓國交通大學(忠州)主辦的

“佛教文獻研究暨第六屆佛經語言學國際學術研討會”,在會上作“佛教類書《經律異相》的語料價值”的主題報告,並主持分組學術會議。子項目負責人化振紅教授同時出席會議。

2012年10月19日—21日,董志翹教授出席在揚州大學召開的國際漢語史研究會暨第十一屆全國古代漢語學術研討會,在會上作 “努力拓展學生視野,全面掌握古代漢語知識”的主題報告。

2012年10月25日—28日,董志翹教授出席在江蘇師范大學召開的“當代語言科學創新與發展國際學術研討會暨《語言科學》創刊十周年慶典”,在會上作“加強漢語史語料庫建設,促進漢語史研究的現代化”學術報告,具體介紹了本項目建設目標、具體功能以及目前進展情況,引起與會者的關注並給予高度評價。

2012年10月30日—11月4日,項目組成員趙家棟副教授、胡靜書講師出席在安徽師范大學召開的“近代漢語學術研討會”,趙家棟在會上宣讀論文“敦煌文獻疑難字詞考辨五則”,胡靜書在會上宣讀了論文“論‘勿’的沒有義用法”。並在會上介紹了本項目的進展情況,與相關與會者交流了經驗。

2012年11月5日,項目組成員趙紅副教授出席了在徐州召開的“江蘇省語言學學術年會”,在會上宣讀了論文“基於中古漢語語料庫建設的若干思考”,論文提出,中古漢語熟語料庫建設不能僅僅滿足於古文獻的收錄,還應該保留普遍存在於傳世文獻和出土文獻當中的諸多異文,實現異文自動檢索、自動發現。針對吐魯番出土文獻眾多的異體字,還應通過鏈接等技術手段保留原字形,進行考釋意見的標注關聯及文字屬性的標注。通過採用通用置標語言,實現語料共享,避免重復建設而產生的資源浪費。該論文引起了與會學者的較大興趣。學者們紛紛肯定了語料庫建設的重要價值,同時也對感興趣的問題進行了咨詢,並提出了建議﹔一些目前正在進行相關研究以及准備進行相關研究的學者們還與論文作者在會下進行了熱烈的討論。

2012年12月6日——12日,董志翹教授出席“古代東亞諸國變格漢文研究”國際學術研討會(日本東京駒澤大學),在會上作“唐宋時期來華日本僧人著述中的變格漢文”的主題報告。

2013年3月22日—3月25日,董志翹教授出席“命名學首屆國際學術會”

(陝西省國際文化經濟交流中心、西安武警工程學院主辦),任華東組組長,作“佛教對中土取名命字的影響”的學術報告。

2013年4月12日—4月15日,出席“《漢語大詞典》第二版修訂會議”(上

海漢語大詞典編纂處、辭書出版社主辦,武漢大學文學院承辦),在會上作“《漢語大詞典》(第二版)修訂方案讀后”的報告,

2013年 7 月 10-14 日,在山東煙台出席“《漢語大詞典》第二版修訂工作

會議”(《漢語大詞典編纂處、上海辭書出版社主辦,魯東大學承辦),在會上作“中中古漢語研究語料庫與《漢語大詞典》(第二版)修訂”的報告。

(五)國際交流:

2012年1月始,項目首席專家董志翹教授應邀參加日本東京駒澤大學佛教研究所主持的國際合作項目“東亞諸國漢語變格研究”的研究工作,該項目由日本國文部省立項,2012年——2015年,項目組由5名日本學者、1名中國學者、2名韓國學者組成。中、日、韓三國語言接觸的研究對於漢語史研究將是一個很大的促進。項目研究期間,每年赴日本1-2次進行共同研究。

三、成果宣傳推介情況

(一)尚未舉行專門的成果發布會。但多次在國際、全國學術會議上介紹推薦過本項目成果(見前參加學術會議部分)在南京師范大學召開的“深加工中古漢語語料庫”前期成果專家評估會上,本項目前期成果也作了宣傳介紹、演示。

(二)2011年上半年、下半年分別向國家社科基金辦、省社科基金辦報送了《工作簡報》(一)(二)兩期,2012年(三)(四)兩期《工作》簡報材料都已准備好,但6月份適遇年中檢查,項目研究進展情況均通過填表形式報送﹔12月份又遇年終檢查,項目研究進展情況又通過填表形式報送。2013年上半年的《工作簡報》正准備編集,又要進行項目中期評估,項目研究進展情況又隻能通過填表報送。(因為《工作簡報》內容基本與檢查、評估表相同,如果另外再印一份《簡報》,不僅浪費,也給相關部門增加負擔。我們是這樣理解的。)

(三)2012年9月,本項目首席專家董志翹教授接受了《中國社會科學報》

記者聞錚的書面採訪,對於漢語語料庫建設的意義以及高校將重大研究項目的進行與人才培養緊密結合的做法作了闡述(分六個方面形成5000多字的文章交稿),相關內容見《中國社會科學報》2012年9月20日“社科基金專刊”文章“打造信息時代的學術利器——近年來國家社科基金資助數據庫建設與研究進展”: “引領人文社科新發展: 數據庫技術的誕生和發展不僅帶來了計算機信息管理的巨大革命,而且給人文社會科學發展注入了新的活力,有力促進了現代學術體系和研究范式的建立。在社會科學領域,數據庫在經濟學、人口學、社會學等學科領域的重要作用已是顯見的事實﹔在文史哲等人文科學領域,加快文獻數字化、推動研究型資料庫建設的重要性、緊迫性也已成為學界共識。基於這一背景,加大資料庫建設支持力度、推進學科信息化基礎建設就成為國家社科基金立項資助的重要考量。

以語言學為例,僅2010—2011年就有4個重大項目涉及資料庫建設與研究,涵蓋從漢語史語料庫到民族語言語法標注文本,從出土古文獻語料庫到英漢平行語料庫等不同研究領域,體現了語言學研究的最新進展和前沿趨勢。正如“漢語史語料庫建設研究”項目首席專家、南京師范大學教授董志翹所言,語料庫建設是為語言學、文獻學、辭書編纂學的深入系統研究服務的一項基礎建設,而語料庫語言學則是當前語言研究的主流。據他介紹,目前國內已建成的語料庫中,現代漢語語料庫佔80%以上,且多為生語料庫。因此,國家社科基金項目對中古漢語、出土古文獻的語料庫建設在很大程度上具有填補空白的意義。”

因為《中國社會科學報》是採取綜合報道形式,所以,董志翹教授所撰“加強漢語史語料庫建設,促進漢語史研究手段的現代化”一文由《西南大學學報》全文發表。 

代表性成果:

1. 自主開發研制成功“中古漢語語料庫綜合檢索系統(第三版)”(曲維光教授、付佳博士):該系統在VS2010平台上開發,編程語言C#,數據庫是Sql Server 2008.系統主要包括以下幾個功能模塊:

不帶義項的查詢,根據書名、詞、詞類、語法功能等條件進行查詢。

帶義項的查詢, 根據書名、詞、義項、詞類、語法功能等條件進行查詢。

書籍對比查詢,先選定兩本要比較的書籍,然后根據詞、詞類、語法功能等條件進行查詢,查詢結果以對比形式呈現。

字詞組合查詢,允許查詢條件中出現若干個字詞的邏輯組合(與、或、非)。

疑難字查詢,輸入疑難字編號,輸出對應的疑難字圖片。

語料庫建設者與語料庫使用者互動平台。

2.版本異文自動發現的研究(陳小荷教授),針對中古漢語語料改進了算法,速度更快、異文定位更加准確。這種新穎的版本異文發現算法的基本思想是通過“同文”搜索為異文發現提供可靠的錨點序列,然后在在兩錨點之間的未匹配文本中查找異文。新算法的特點是:用PAT數組作為索引結構以加快同文搜索的速度﹔用全局雙序列比對算法准確定位異文。我們用這個算法處理《論衡》的兩個電子版本各20萬字,在普通台式機上僅用546毫秒即處理完畢,發現異文1929種、7390次,無一遺漏。論文《同文搜索與序列比對相結合的版本異文發現算法》已投稿。

3.中古漢語語料庫為《漢語大詞典》(第二版)修訂作出貢獻。2012年12月10日,國家重大文化工程《漢語大詞典》(第二版)編輯出版啟動大會在北京人民大會堂召開。全國人大副委員長、《漢語大詞典》(第二版)主編華建敏,新聞出版總署署長、《漢語大詞典》(第二版)工委會主任柳斌杰,教育部副部長、國家語委主任、《漢語大詞典》(第二版)工委會副主任李衛紅,中共上海市委常委、宣傳部長、《漢語大詞典》(第二版)工委會副主任楊震武出席會議並講話,《漢語大詞典》(第二版)學術顧問委員會、編纂委員會的專家學者出席會議。

本項目首席專家董志翹應邀擔任編纂委員及分冊主編。在2013年4月12日武漢召開的“《漢語大詞典》(第二版)編纂出版學術研討會”上,董志翹作了長篇發言,指出:“《漢語大詞典》(第一版)在收詞、分項、釋義、引証方面存在的最大問題是較少利用中古漢語、近代漢語及出土文獻材料。而近30年來,中古、近代漢語及出土文獻語言研究成果大量涌現,必須廣泛收集,合理利用。同時,要與時俱進,在編纂方法手段上要有突破,要充分運用現代計算機、互聯網和語料庫技術,特別是要充分調查和利用《漢語大詞典》(第一版)有關數據庫,來提高第二版編纂工作的質量和進度。而我們目前承擔的國家社科重大招標項目“漢語史語料庫建設研究”,已經研制了《漢語大詞典》(第一版)全文數據庫,同時目前在建的中古漢語語料庫正可以為《漢語大詞典》(第二版)的編纂提供有力支撐。”這一意見得到了與會領導與主編人員的高度重視。

2013年7月10日,董志翹教授作為主編特別提名的中古漢語專家應邀出席在山東煙台召開的“《漢語大詞典》(第二版)編纂出版工作會議”,具體討論了利用我們重大招標項目階段成果為《漢語大詞典》(第二版)編纂工作服務的相關問題。目前,我們已經為《漢語大詞典》(第二版)提供了中古漢語核心復音詞詞表(10000詞條),並通過通過正在建設的漢語史語料庫的調查分析,提出建議增收中古漢語新詞條5040條,提供相關釋義、書証材料110萬字。我們研制的《漢語大詞典》(第一版)全文數據庫,也將為第一版的相關問題的核查、研究提供快捷准確的手段。同時,在具體修訂編寫過程中,我們的漢語史語料庫還將發揮更大的作用。

4.董志翹教授結合本項目研究所指導的兩篇博士論文(2012屆周超《(劉)宋詩詞匯研究》、2013屆張俊之《二王雜帖詞匯研究》)通過制作《(劉)宋詩》、《二王雜帖》數據庫,採用計量詞匯研究的方法進行,因材料扎實,方法得當,頗多創新,均順利通過答辯,獲得“優秀”等級。

階段性成果清單:

序號

成果名稱

作者

成果

形式

刊物、出版社名稱及刊發、出版時間

字數

轉載、引用、獲獎等情況

1

同源詞研究與漢語辭書編纂

董志翹

論文

《語言研究》2010年1期

1.2萬

2012年10月獲江蘇省社科優秀成果二等獎

2

敦煌寫本《啟顏錄》箋注

董志翹

論文

《西南民族大學學報》2012年3期

1萬

CSSCI收錄,下載頻次61

3

逯欽立《先秦漢魏晉南北朝詩》校釋舉誤

周  超

論文

《圖書館理論與實踐》2012年4期

0.6萬

CSSCI收錄,載頻次30

4

敦煌詩歌語詞釋証

趙家棟

董志翹

論文

《貴州師范大學學報》2012年1期

0.6萬

CSSCI收錄,下載頻次69

5

敦煌文獻中並不存在量詞“笙”

趙家棟

董志翹

論文

《語言科學》

2012年第4期

0.5萬

CSSCI收錄,下載頻次22

6

《經律異相》(5-11卷)校讀札記

趙家棟

董志翹

論文

《南京師范大學文學院學報》

2012年第3期

0.4萬

CSSCI收錄,下載頻次4

7

敦煌碑銘贊語詞釋証

趙家棟

論文

《敦煌研究》

2012年第4期

0.6萬

 

8

唐代佛寺所在考異二則

趙家棟

付義琴

論文

《湖南科技大學學報》2012年1期

0.4萬

下載頻次32

9

從語法史角度看“一元動詞帶賓句”現象

付義琴

論文

《外語學刊》2012年2期

0.45萬

CSSCI收錄,下載頻次32

10

賓語前數量詞隱現的篇章分析

付義琴

趙家棟

論文

《華文教學與研究》2012年第3期

0.6萬

CSSCI收錄

11

二王雜帖釋文訂正四例

張俊之

論文

《東岳論叢》

2012年4期

0.4萬

CSSCI收錄,下載頻次22

12

“憂”是傷心事嗎

張俊之

論文

《語文建設》

2012年6期

0.4萬

CSSCI收錄,下載頻次32

13

南北朝時期漢語詞匯的南北差異研究

李  麗

論文

《西南交通大學學報》

2012年4期

0.6萬

CSSCI收錄,下載頻次12

14

《〈大字典〉疑難字考辨六則》

趙家棟

論文

《漢字文化》

2012年2期

0.15萬

CSSCI收錄

下載頻次9

15

Analysis of the Diffusion Process of Buddhist Vocabulary from Memoirs of Eminent Monks

化振紅

論文

Cross-Cultural Communication

Vol.8,No.5,2012

0.8萬

 

16

經典古籍注疏文獻的知識網絡研究與設計

馬創新

陳小荷

曲維光

論文

圖書情報工作

第57卷第9期

2013年5月《

0.9萬

 

17

基於學科本體的訓詁學知識組織體系初步構建

馬創新

陳小荷

論文

圖書情報工作》

第57卷第12期

2013年6月

0.9萬

 

16

加強漢語史語料庫建設,促進漢語史研究手段的現代化

董志翹

論文

《西南大學學報》2013年待發

1萬

CSSCI收錄

17

深加工中古漢語語料庫建設若干問題的思考

化振紅

汪  祎

論文

《西南大學學報》2013年待發

0.8萬

CSSCI收錄

18

同文搜索與序列比對相結合的異文發現算法

陳小荷

論文

《西南大學學報》2013年待發

0.7萬

CSSCI收錄

19

從信息處理角度考察察各類中古漢語語料的特點

陳小荷

研究報告

 

0.24萬

 

20

中古漢語語料檢索系統(第二版)

曲維光

付  佳

研究報告

軟件

 

0.4萬

 

21

詞性標注研究

馮敏萱

徐潤華

研究報告

 

0.48萬

 

22

中古漢語自動分詞訓練庫簡要說明

梁社會

研究報告

 

0.11萬

 

23

中古漢語自動分詞軟件(升級版)

李  斌

軟件

 

 

 

(課題組供稿)
(責編:趙晶)