一、 研究進展情況
① 研究計劃總體執行情況及各子課題進展情況
1. 研究計劃總體執行情況
漢語盲文語料庫建設的理論研究按照預期計劃進行,基本達到了預期目標,成果表達略有滯后。首先對漢語盲文語料庫的理論地位和實際功能進行了深入研究,明確了漢語盲文語料庫作為一種有鮮明特色的漢語語料庫,將擴展漢語語言資源類型和功能,豐富漢語語言資源,具備服務於盲文教學、盲文本體研究、盲文信息化、盲文教材、盲文詞典編寫等多種功能。將建設目標確定為包含約1,000萬方盲文的平衡性較高、代表性好,經過多層級信息標注,在盲文領域內通用性好,盲文-拼音-漢字對照的專用型語料庫。由於標注可以選擇性刪除,如果將盲文及其相關標注刪除,它可以變成一個較大規模的漢語語音標注語料庫,也是特殊分詞連寫、特殊標調的漢語注音語料庫。這也是對我國缺少漢語注音語料庫的一個積極補充。
盲文語料庫建設實踐研究略有超前。盲文語料的採集研究和實踐超額完成任務,截止2015年6月底,採集589個語篇,盲文320萬方,完成了採集任務總量的32%,超額完成了2015年全年的採集計劃。對全部盲文語料進行了拼音、漢字的自動標注,已經完成了460個語篇(約250萬方)盲文及其對應的拼音、漢字的人工校對,其中270個語篇完成了三校,准確率達到99.9%以上,超額完成了2015年全年的對照標注計劃。開始了語言信息標注試驗,包括對盲文(原始語料已經分詞)的詞性標注、對漢語原文的重新分詞及詞性標注試驗。按照預定計劃建成了漢語盲文語料庫小規模原型系統,漢語盲文語料庫建設的路徑已經從理論上打通,可以預期在下一步大規模建設中沒有不可逾越的障礙。
2. 各子課題進展情況
2.1 盲文語料庫建設規范制定與質量檢查子課題研究進展
2.1.1 研究制定盲文語料庫採集原則與採集規范
通過恰當的選材原則提高盲文語料庫的語料平衡性和樣本代表性。為了將漢語盲文語料庫建設成通用性、平衡性較好的語料庫,盲文語料應能夠代表1953年現行盲文發布至今的實際使用全貌,語料樣本的選取應具有廣泛性和代表性。
語料樣本的歷時分布:
近期為主的原則(1995年國家標准頒布以后佔70%左右)
早期為輔的原則(1953-1995年佔30%左右)
早期不等比例遞減原則
語料樣本的共時分布:
正式盲文出版物為主的原則(佔85%左右)
中國盲文出版社與上海盲文印刷廠等比例原則(約5:1)
圖書、教材為主,期刊雜志為輔的原則(約9:1)
圖書語料大類均衡性原則
非正式出版物(7%-8%)
盲校(試題、講義、校本教材)為主的原則
高校、其他單位為輔的原則
區域代表性原則
理論完備服從於現實可能的原則
個人語料(7%-8%)
規范性篩選原則(作文、答卷、投稿、通信等他讀文本)
區域代表性原則
年齡代表性原則
理論完備服從於現實可能的原則
根據開題專家建議,會同採集子課題組研究決定:由盲文出版編校人員按照出版的標准翻譯,增補與期刊比例相當的報紙語料及網絡新媒體語料。
2.1.2 研究制定盲文語料庫標注規范
為盲文規范化、標准化、信息化及盲文基礎研究和教學研究的需要,盲文語料庫需要對盲文文本進行多層級的信息標注。一方面需要標注盲文的漢語拼音和對應漢字,一方面需要標注盲文的分詞連寫和標調方式,同時還需要標注詞性。為提高語料庫建設效率、提高成果的價值,參照已有的漢語語料庫規范標准和成熟方法,根據盲文語料的特點研究提出了盲文語料庫標注規范。
重點標注盲文字符和詞匯層面的信息,增強盲文語料庫的易用性。對盲文語料庫的生語料、對照語料、標注語料以XML標記語言的方式置標和存儲,參考XCES標准,制定盲文語料庫XML語言信息項標記和格式規范。與普通漢語語料相同標注信息採用常規的標注符號,研究設計了特殊標注符號集,以滿足盲文特殊的分詞連寫標注的需要。
盲文語料庫標注原則:
遵循常規的Leech標注7原則
簡化原則
實用性原則
針對性原則(分詞連寫、標調)
漢語盲文與明眼文在語義層面是一致的,盲文語料庫不需要進行語義標注。盲文觸覺信息標注的重點是組合缺陷符號標注。單方缺陷符號,可以由檢索表直接檢出、統計,而不需要一一標注。
2.1.3 進行採集、標注質量檢查
研究制定了盲文語料庫建設質量檢查方法,包括標准符合性、語料正確率、標注正確率、標注一致性等方面。採用計算機自動全面檢查與人工抽查相結合,以計算機檢查為主的方法,並且把對上一道工序的檢查納入下一道工序的研究內容。在語料庫建設網站開辟了“問題討論與交流”專區,人人都是質量檢查員。對採集環節中漢語原文圖片順序、盲文樣本方數超標及不達標問題進行了監督檢查,提請採集組及時進行修改。對計算機拼音-漢字自動標注進行檢查和人工校對,對提出的問題集中修改軟件。對人工校對錯誤率進行全面普查,錯誤率在0.5%以下的由檢查員修改,錯誤率在0.5%以上的發回,由校對員重新校對。通過了第一次檢查的,再隨機抽取30%進行二次抽查。
語言信息、觸覺信息標注剛開始試驗,沒有檢查。
2.2盲文語料調查和語料採集子課題研究進展
採集組成員主要分布在北京、上海兩家盲文出版單位,首先對各自單位的盲文出版物情況進行了調查。盲文語料庫以新中國1953年正式頒布現行盲文以來所有的盲文語料為研究總體,以正式出版物為主,非出版物、個人語料為輔。由於現行盲文分詞連寫和標調規則自由度大,建立了嚴格的採集規范。盲文語料的採集面要廣,樣本數要多,並且要適度增大樣本的容量。根據選材原則,採用分層隨機抽樣方法收集連續盲文文本片段,出版物語料佔總語料的85%左右,每個語篇樣本採集5,000±500方,每個出版物最大採集3個語篇。非正式出版物和個人語料佔總語料的15%左右,每個語篇樣本採集2,000±200方,每個人最多採集3個語篇。
根據語料採集原則研究制定了盲文出版物的採集方法,本著先易后難的原則,先採集中國盲文出版社、上海盲文印刷廠1995年以后有電子版的盲文語料及其漢語原文。研究了試點採集的方法與步驟,進行了採集軟件試驗。對電子版盲文語料直接採集上傳到盲文語料庫建設專用網站。由於盲文出版單位沒有漢語原文電子版,紙質版上有許多盲文編校做過的標示,嚴重影響識別准確率。研究決定放棄OCR採集漢語原文電子版語料。通過掃描的方式將漢語原文語料以圖片形式上傳,通過採集軟件與對應的盲文語料匹配。漢語原文電子語料通過計算機自動標注和根據原文圖片的人工校對獲得。
開始研究個人語料和無電子版盲文語料的採集。無電子版的盲文語料以圖片方式採集后,進行數字化處理,人工校對。檢查合格后,盲文圖文對齊保存到語料庫。開始調研非正式出版物盲文語料、個人盲文語料的情況。已經收集北京聯合大學特殊教育學院、長春大學特殊教育學院2014、2015屆單考單招盲文試卷(作文)266份(重復參加考試的尚未剔除),收集《盲人月刊》盲文投稿46件。待紙質數字化能夠實用后,再採集到盲文語料庫網站。
2.3 盲文語料庫標注加工子課題研究進展
研究制定了盲文語料庫標注方案,盲文語料庫要進行三類標注,即:盲文-拼音-漢字對照標注、盲文觸覺信息標注、語言信息標注。語言信息標注的重點是盲文分詞連寫單位及其語法屬性。漢語拼音是盲文和明眼文的中介層,拼音特別是聲調信息是標注重點。盲文語料經標注后最終將生成9行對照文本。
1)盲文原文,盲文語料庫採用盲文字符Unicode國際標准字符集(U2800—U28FF)作為盲文字符規范,以提高語料庫的跨計算機、跨平台兼容性,盲文語料存在不同編碼的情況,需要將語料樣本全部轉換成Unicode盲文字符。
2)觸覺信息標注,主要標注語料的觸覺特征,特別是組合缺陷符號,方便用戶提取例文。
3)盲文拼音標注,標注盲文點字對應的漢語拼音。
4)盲文詞匯標注,標注盲文對應的漢字內容,即盲文的連寫單位和特殊的分寫單位。
5)盲文詞性標注,由於盲文分詞連寫中存在許多非詞單位,其詞性標注需要制定特殊的規范,詞性標注的重點是客觀描寫盲文連寫單位的構詞特征。
6)漢語原文/譯文,根據盲文標注出對應的漢語原文,有原文的根據原文圖片進行人工校對,沒有原文的根據語境進行人工校對。
7)漢語拼音標注,根據漢語原文/譯文進行拼音標注,根據漢語拼音正詞法基本規則進行聲調標注。
8)漢語分詞標注,根據漢語拼音正詞法基本規則對原文/譯文進行分詞標注。
9)漢語詞性標注,對漢語標注分詞單位進行常規的詞性標注。
課題組目前對採集的盲文語料已經批量完成了第3、6層的標注,其他層的標注也已開始實驗,全部標注採用機注人校的方式進行。由於盲文基本未標調,計算機漢字標注錯誤多,需要大量的人工校對。目前,漢字標注人工校對的主力是北京聯合大學特殊教育學院、濰坊學院特殊教育的23名學生,拼音校對或盲文疑難問題由上述學院的4位盲文教師和中國盲文出版社3位盲文編校(明眼人)校對。
經質量檢查,拼音及漢字錯誤率低於0.1%的語篇為合格語篇,可以進入下一步標注工序。
2.4 盲文語料庫建設計算機輔助軟件研發子課題研究進展
盲文語料庫建設既需要利用通用的信息技術手段,還需要研發盲文相關的專用輔助軟件。第一類是語料庫採集輔助軟件,主要為盲文語料採集、錄入、存儲服務,如盲文電子化資料的數據採集軟件、紙質盲文語料的數據採集軟件等。第二類是語料庫標注加工輔助軟件,主要為語料庫漢盲對照標注、語言信息標注、觸覺信息標注提供輔助,如漢盲多行平行對照標注輔助軟件、語言信息標注及人工校對工具軟件等。由於盲文點字之間的區分度小,標注時易出錯,輔助軟件還要具備錯誤提示功能,以提高標注效率。
建設了漢語盲文語料庫建設專用網站,進行元數據採集及管理,盲文語料與對應漢語原文語料的採集、存儲、匹配等。從中國盲文出版社專用封閉的BWord文檔、上海盲校PRT盲文文件活化出盲文電子文本,使僵化的6點盲文離開專用軟件能夠生存,使課題組有了對漢語盲文信息化處理的基礎。
設計開發了盲文-拼音-漢字自動對齊標注軟件和人工校對輔助軟件。將漢語拼音從計算機后台拉到顯示屏,突出了漢語拼音在漢語盲文中應有的本源地位,架起了盲文與漢字溝通的橋梁。本軟件對盲文自動拼音標注准確率達到到99%以上。對盲文標志符號、指示符號進行錯誤提示。提供疑問、偏誤標注按鈕,記錄錯誤有利於訓練標注軟件,記錄疑問有利於核查。提供查找盲文—替換漢字功能,選中拼音,懸浮備選字詞,減少鍵盤輸入,提高人工校對效率。利用高准確率的拼音行,盲文不熟練的學生也可進行盲-漢校對。
語料庫管理軟件和盲文語料語言信息標注軟件正在研制中。紙質盲文數字化處理也正在研制中。
② 調查研究及學術交流情況(調研數據整理運用、文獻資料收集整理、學術會議、學術交流、國際合作等)
進行盲文正式出版物語料調查。盲文出版物的豐富性雖然不可與漢語同日而語,但是也有60年的積澱,有曲折復雜的歷史變化。我國對漢語盲文出版物的學術研究很少。摸清盲文出版物的情況,掌握第一手資料,進而提高出盲文版物語料採集的代表性。
對中國盲文出版社1953年至2014年5162種盲文讀物(包括圖書和期刊),進行整理統計,各類讀物比例為:中國文學15.2%、醫學16.5%、醫學教材5.8%、文教科體11.7%、教材教輔12.2%、政治7.6%、歷史地理5.4%、馬恩列斯毛鄧著作5.1%﹔藝術3.8%、外國文學3.6%、法律3.4%、哲學2.9%、語言文字1.9%、經濟類2.4%、綜合性讀物2.5%。醫學和醫學教材所佔比例最大,這是服務盲人從事按摩推拿職業需求的結果。除了教材教輔外,將其余歸類整理為:文學、文綜、醫學、理綜、其他五大類,有利於分類採集。由於中國盲文出版社藏館較多,中間搬過家,存在館藏目錄信息不准的情況,有些書目難以精准查找。可以利用版本圖書館作為救急,但是,初步查詢后,發現版本圖書館並沒有真正保有每個盲文版本的圖書。歷史較長的盲校圖書館還可以做最后的補充。
上海盲校盲文印刷廠從1959年9 月開始為外校制作盲文教材。 1986年以來,為全國盲校印制盲文中小學各年級各學科(體育、美工除外)教材以及部分盲文課外讀物,該廠印制的盲文教材均以人教版為藍本。1995年開始制作盲人普通高中盲文教材。義務教育盲文教材為上海盲校盲文印刷廠專屬,包括語文、數學的隨班就讀用書。義務教育以上階段的教材和各學段的課外讀物、練習冊、詞語手冊等,北京、上海兩家出版社都有制作。
上海盲校盲文印刷廠生產的盲文教材樣本及其電子版(1995年以后)都保存完好。但是,其盲文電子版軟件的PRT格式不尋常,整個文件像一塊雕版,不可選中其中的部分,無法復制粘貼到另外的文檔。需要破譯其“密碼”,開發專門的PRT讀取工具,才能將要採集的盲文電子版上傳到盲文語料庫。
進行非正式出版物及個人盲文語料調查。非正式出版物是指經過他人校對並且機器刻印的盲文資料,主要包括盲校制作的試卷、講義、翻印的教材等。這些語料能夠反映盲文在實際使用中的情況,可以研究非專業出版人員使用漢語盲文的情況。通過調查摸清持有非正式出版物的盲文語料單位,語料的類型、數量、質量等。在可能的程度上提高非正式出版物盲文語料的代表性。
個人語料是指盲人寫給他人讀的、未經別人校對的盲文材料,例如:答卷、作文,投稿、通信等。通過個人語料可以研究盲人分詞連寫、標調等情況,考察不同方言區盲人盲文標調的情況。盲人自讀的盲文資料往往包含個人的簡記符號,不宜收錄到盲文語料庫,不在調查范圍。
社會成年盲人語料的調查是難點,已經委托中國盲人協會進行盲人個人保有盲文語料情況調查。進行了北京聯合大學、長春大學2所特殊教育學院盲文作文試卷調查,並收集了近二年紙質版盲文語料。開始了初等教育盲校制作盲文語料數量、種類及其電子版原文保有情況調查,數據還沒有反饋回來。
③ 成果宣傳推介情況(成果發布會、《工作簡報》報送情況、國家社科基金專刊投稿及採用情況等)
首次大規模宣傳是與開題論証會同時進行的,開題會的同時進行了新時期首都特殊教育發展高層論壇,擴大了課題開題的影響力。許多傳統媒體和新媒體圍繞我國將首次建設漢語語料庫進行了大量的報道,給予了高度評價。光明日報、中國教育報、現代教育報及北京地方報紙等傳統媒體進行了報道,新華網、光明網、鳳凰網、千龍網、國圖空間、國家手語和盲文研究中心、中國教育科學院及江蘇、河北、吉林等地方社科網站也進行了報導。在北京聯合大學學報(社科版)等進行了宣傳。
在中國殘疾人聯合會、中國盲人協會、國家手語和盲文研究中心相關會議、網站進行了研究過程的宣傳和報道。在第八屆語言文字應用研討會、第十屆中國信息無障礙論壇、全國盲人協會2014、2015年會上進行了成果宣傳和推介。通過國家、省、自治區盲協主席,向廣大盲人宣傳國家對盲人文化基礎建設、盲人語言文字權益平等的高度重視。
2014年報送《工作簡報》一份、核心成果一份(《建設漢語盲文語料庫的意義與價值》5000字)。2014年10月30日向國家社科基金專刊投稿一份(《建設漢語盲文語料庫 推動盲文基礎建設》2000字)未被採用。
④ 研究中存在的主要問題、改進措施,研究心得、意見建議
由於我國盲文研究力量薄弱,全國僅有我們這一個團隊,而這個團隊承擔國家社科基金重大項目很感力量不足,特別是理論研究方面。由於沒有博士點,人才培養方面很困難,缺少一支骨干力量。北京聯合大學特殊教育學院計劃2015年招生特殊教育語言學盲文方向碩士1人,教育部語言文字應用研究所的碩士生研究方向向盲文靠攏。北京聯合大學特殊教育學院計劃新進半個計算語言學博士專職進課題組,計劃動員中國教育科學院特殊教育研究室、南京特殊教育師范學院有盲文研究基礎的專家為本項目研究貢獻力量。
近年來,國家社科基金連續部署了“基於漢語和部分少數民族語言的手語語料庫建設研究”和“漢語盲文語料庫建設研究”2個重大項目。這是國家對殘疾人語言基礎工程高度重視,是對弱勢群體語言文字權益平等的高度重視。課題組承擔這樣艱巨而光榮的任務,深感責任重大、使命光榮、壓力無限,課題組成員決心勤奮努力、扎實工作,無愧於使命,無憾於自心。
盲文語料庫不僅建成以后可以為盲文研究服務,在建設初期已經能夠為盲文標調提供實証數據的基礎,建設過程也是盲文研究深入的過程,並且與傳統研究的維度可以互補。
這些年從事盲文研究,動力來自國家的重托和盲人的感動。從2004年第一個國家社科基金項目,我們的團隊和盲人群眾一直互相感動著。本重大項目立項以來,首席專家和許多核心成員的身體健康指數、心理幸福指數大幅度下降。但是,為了弱勢群體語言文字權益平等、為了盲人文化的發展大業,為了國家的重托和盲人的期望,誓將無怨無悔地把冷板凳坐到底。
在沒有管理國家重大項目經驗、沒有研究重大項目學術氛圍的單位,沒有博士點的學科設立重大項目確實應慎之又慎。大家都有為國出力的良好願望,重大項目是無尚光榮的任務,同時也可能是超限的壓力。
二、 研究成果情況
三、 盲文語料庫建設工作網站
盲文語料庫建設網站基本架構及研究資源
元數據採集界面
盲-漢語料採集上傳過程
盲文—拼音—漢語三重對齊信息化標注
盲文—拼音—漢語語料人工校對
問題討論與交流專區
通過漢語盲文語料庫建設專用網站,可以跨時空作業。實現了網絡與單機的互通,可以利用全國各地的盲文人才資源,滿足不同空間課題組成員同時、異時研究盲文語料庫建設的需要,開拓了課題研究的時間與空間。
2.《漢語盲文語料庫建設方案》(論文)
本論文闡明了現行盲文的文字地位。現行盲文在詞匯層面與漢語拼音有顯著差別,它的分詞連寫和標調(技術方案)與漢語拼音有本質的不同,現行盲文還具有了流通性和法定性,參照周有光先生的觀點,現行盲文應該說是一種(拼音)文字。它既有別於漢語拼音,又與漢語拼音有密切的聯系。可以認為現行盲文與漢語拼音是同源異構體。作為記錄漢語的漢字,現行盲文與它的距離很遠,他們分屬性質不同的技術方案。
《漢語盲文語料庫建設方案》從現行盲文分詞連寫和標調方面的特點論述了建設專門漢語盲文語料庫的意義與價值。論証了盲文語料庫應該是具有較大規模(約1000萬方盲文)、經過語言信息和觸覺信息多層級對照標注的語料庫。該語料庫的建設可促進對我國盲文發展全貌的把握和了解,促進盲文基礎研究、信息化、規范化研究,助力盲文信息無障礙水平提升。論証了語料庫選材原則、樣本採集、語料標注規范、標注方案、輔助軟件研發計劃等關鍵問題,詳細說明了盲文語料庫建設的主要內容和初步方案,並確定了攻克盲文語料庫建設重點和難點問題的路徑和方法。
3.《漢語盲文的升級之路》(論文)
從我國盲文坎坷的發展歷程探討了盲文語料庫在漢語盲文未來升級的裡程碑意義,介紹了盲文語料庫的功能與作用。通過對盲文語料庫中的語料進行觀察、比較,在統計分析的基礎上尋找漢語盲文使用的規律,並對先前盲文規范的執行情況進行驗証或總結。通過盲文語料庫可以直接對盲人實際讀寫的盲文語料進行客觀的定量研究,全面了解現行盲文方案頒行60年來我國盲人語言生活狀況。通過盲文語料庫提供的符號、詞匯、語音等大量的真實語料及統計數據,可以全面了解驗証盲文規則的實際執行情況,分析客觀存在的差異,作為修訂、構建新規則的基礎。盲文語料庫可為升級盲文規則,修訂使用規范提供堅實的基礎數據平台,面向未來的漢語盲文升級可以駛入快車道。
作為關鍵性基礎資源,盲文語料庫的建設將極大地助力盲文信息化,將為盲文信息化的研究提供高質量訓練數據和測試數據,可以促進面向盲文的語言科技的進步,讓盲人有更多獲得信息的渠道、溝通方式,分享社會科技進步成果。盲文語料庫能夠很好地服務於盲文教學,提升盲文出版的規范化水平,為盲文詞典編纂、盲文教材編寫服務。盲文語料庫可以引領盲文研究從抽象轉向實際使用,這將有力提升我國盲文基礎研究的水平,並且可以佔領國際盲文研究的制高點。
本文受到了中國殘疾人聯合會領導的高度重視。
4.《基於盲文語料庫的現行盲文標調研究新進展》(論文)
由於盲文研究難度大,加之我國盲文研究力量薄弱,漢語盲文在很多領域缺乏實証性基礎數據,最迫切需要的是盲文出版物標調的實証數據。文獻中唯一能夠找到的數據是“所有出版物中平均大約隻有5%的音節標了調”,找不到得出這個數據的統計樣本、方法、過程。這個數據的科學性不得而知。沒有盲文語料庫,這成了無法驗証的數據。幾十年來,我國盲文研究領域一直渴望現行盲文出版物標調率的實証數據。這是現行盲文標調研究的基礎,是隱性標調研究、修訂標調規則、制定國家通用盲文標准的基礎。沒有科學的基礎數據,標調問題的其他研究就成了空中樓閣。
鑒於本次較大規模實証研究結果的平均標調率為11.35%,與以往結果差異很大。因此,有必要重新評估盲生的猜謎問題,可以嘗試用本研究成果解釋盲校教師、學生對現行盲文猜謎現象的觀點與專家迥異的原因。基於實証標調數據,展望未來現行盲文標調規則修訂,標調率上浮空間比原先的估計要大得多,篇幅增加的幅度小。未來國家通用盲文標准標調率的上升,對盲校師生的沖擊比原先估計的更小,新舊銜接的跨度更小,更容易適應和接受。
由於盲文出版物的特殊性,傳統的人工方式難以對現行盲文出版物標調進行大規模的實証統計。正在建設的漢語盲文語料庫發揮了重要作用,新世紀以來的盲文語料已經有足夠的代表性,能夠提供大量的第一手計算機統計數據,為現行盲文標調實証研究提供了可能。這是我國首次以語料庫為基礎的盲文實証研究,有盲文專家感慨盲文語料庫:“牛刀小試,大顯威力”。