舊版網站入口

站內搜索

藏文自動分詞研究

--《藏文自動分詞研究》成果簡介

2011年05月15日16:51

  西北民族大學於洪志教授主持完成的國家社會科學基金項目《信息處理用藏語分詞研究》(項目批准號為02BYY038),最終成果為專著《藏文自動分詞研究》。課題組成員有:祁坤鈺。

  藏語屬於漢藏語系的藏緬語族下的藏語支,與漢語相比較,藏語的語法特點體現在:詞的形態曲折變化主要表現在動詞的時態上(三時一式)﹔名詞沒有單、復數之分,沒有黏著現象,也不具有曲折變化﹔形容詞沒有程度級的變化,級是由程度副詞來限制﹔藏文有六種形式邏輯格,格助詞豐富有黏著現象,且具有明確的語法功能﹔語序相對穩定,是典型的SOV語言﹔沒有像漢語那樣豐富的量詞,個別存在﹔書寫過程中,詞與詞之間沒有明顯的邊界標志﹔動詞和虛詞是表達句法結構的主要手段﹔藏語中詞與詞之間的界限靠語義來區分,從形式上無法區分。因此,藏語與漢語有很大差異,應建立面向信息處理用的藏語詞類語法體系。該成果主要內容如下:

  一、制定了藏語詞性標記集規范

  為了使藏文與漢文信息處理同步,建立統一的中文多文種信息處理平台,本項研究借鑒北京大學現代漢語詞類及詞性標記集規范、語料庫詞性標記集,制定了藏語詞性標記集規范。包括:名詞n(普通名詞ng、專有名詞np、人名nph、團體機構名npi、地名npp、辭藻nm),處所方位詞f,時間詞t,數詞m(基數詞mc、序數詞mo、分數詞mf、陪數詞mi、5概數詞ma、總數詞mg、點數詞md),量詞q(名量詞qn、動量詞qv),代詞r(人稱代詞rp、指示代詞rd、疑問代詞ri、不定代詞rin),形容詞a(性質形容詞aq,形狀形容詞as,顏色形容詞ac,數量形容詞am),擬聲詞o,副詞d(程度副詞de、時頻副詞d、范圍副詞db、情態副詞dm、否定副詞dd),動詞v(及物動詞vt、不及物動詞vi、助動詞vu、斷詞vp、形動詞vx、名動詞vd),簡別詞b,狀態詞z,助詞u(時態助詞ut、語氣助詞uy、原因助詞uc、目的助詞ui、終結助詞ue、祈使詞um),嘆詞e,介詞p,連詞c,成語i,習慣語l,簡語略j,前接成分h,中接成分zh,后接成分k,首飾符號sh,標點符號x,非藏文字符w。

  二、研究了藏文切分特征

  1、藏文字切分特征

  音節特征:藏文是拼音文字,由30個輔音字母、4個元音字母以及上、下加字組成。藏文字以音節為單位,每個音節最少可由一個輔音字母構成,最多可由7個字母拼合而成,各音節間用音節點分隔。

  拼寫特征:藏文自左向右書寫,組成音節時以基字為中心分為前加字、后加字和又后加字,基字可橫向和縱向雙向拼寫,而前加字和后加字隻能橫向拼寫。

  形態特征:藏文由確定的10個輔音字母作后加字,其形態特征都發生在這10個確定的后加字上。

  標點符號特征:藏文有一套獨立而完整的標點符號體系,主要在篇章、段落、句子和字之間起分界符作用。

  2、藏文詞切分特征

  藏語詞從總體上分為實詞和虛詞兩大類。從藏文詞語的形態特征來看,明顯的切分特征主要有以下幾點。

  格助詞接續特征:藏文格助詞的個數不多,但使用頻率極高。大多數藏文格助詞在添接時,要嚴格按前一詞(或字)后加字的黏著性形態變化規則添接。

  動詞的曲折形態特征:現代藏語隻有動詞還保留著時、式、態等曲折形態變化。這是動詞有別於其他詞類的重要特征。

  名物化詞綴特征:藏文動詞、形容詞在句子中修飾名詞性成分或作非謂成分時,一般都要進行名物化轉換,即要添接名物化后綴。

  重疊結構特征:藏文的重疊結構主要發生在形容詞當中,常見的重疊形式有AA式、ABB式、ABCB式等三種。

  動名詞的動詞性詞綴特征:藏文動名詞兼有動詞和名詞兩種語法功能,是藏文特有的一類詞。其特點是通過后接固定的幾個動詞性詞綴實現詞性轉化。

  3、句切分特征

  藏語語序特征:藏語是SOV型語言,即謂語動詞后置型語言。動詞是句子的核心,決定著格助詞的添接類別。

  借助格助詞來表達句子含義的作格特征

  藏語短語的后修飾特征:一般情況下,藏語形容詞、數詞、代詞等與名詞結合構成短語以及動詞與助動詞結合構成短語時,其中心語在前,修飾語在后。

  三、研究了藏文分詞的單位與原則

  分詞系統可以面向解決實際問題的需求和真實語料中使用的頻繁程度來規定“分詞單位”。

  1、分詞既要符合語言學的一般規則,同時也要便於詞類和句法分析,不能分得過細,也不能分得過粗。

  2、分詞單位必須是在藏語言中出現的,而不是憑空臆造的任何字符串。

  該成果採用《信息處理用現代漢語分詞規范》和《資訊處理用中文分詞規范》兩者之長,為藏文分詞單位確立兩條基本原則和諸多輔助原則。

  四、藏文自動分詞研究

  1、藏文分詞方法

  一是格分析法:這是藏語語法理論體系中固有的語法規律,藏語有比較完善的形式邏輯格語法理論體系。格關系理論和方法可以分析藏文句子的語義邏輯關系﹔可以做格關系的逆過程,就是通過格助詞與格關系來判斷通過格切分后詞匯的准確度。

  二是HNC(Hierarchical Network Concepts)概念層次網絡理論。HNC主要應用在藏文詞匯概念的語義網絡中,藏文詞匯語義網絡用手工加統計的方法創建,其核心是聯想意義和上下位所屬關系。

  三是二元屬性描寫方法。

  四是匹配方法:在藏文中將格分析之后的藏語短語作為匹配的對象。根據匹配單位的需求可分為最大匹配法和最小匹配,根據消歧需求可分為正向匹配和逆向匹配等。

  五是統計方法:主要應用在獲取先驗知識方面,如:藏文大丁字符信息表、藏文音節(擦青)表,藏文各種語言單位的二元模型、藏文格助詞的配價概率、藏文動詞詞表等。

  2、分詞系統模塊

  藏文自動分詞系統,在基於規則和統計的基礎上,增加了聯想回溯算法,引入了句法、語義信息。系統包含預處理模塊、分割模塊、匹配識詞和規則識詞四個模塊。

  預處理模塊:包括切分句子和語言分類兩個部分。切分句子是將源藏文文本語料依據藏文分句形態標志信息(主要是藏文分句符號)分解成相對獨立的藏文句子,這個過程要考慮英、藏、漢多語種混排文本,即切句要考慮多語言的句子邊界信息。同時要保留原始文本的所有信息,保証文本的原貌不發生變化。語言分類是以句子為處理單位,把句子按不同的語言分割成若干不同的語塊。在以后的處理過程中,根據不同的語言塊進行處理。

  分割模塊:以預處理后的藏文語塊為對象識別藏文詞。此模塊分詞邊界特征識別和改進的MM算法。詞邊界特征識別是以特征詞庫中的詞作為詞切分標志,依靠聯想規則將一個音節串語塊分割成更小的語塊,對每個特征詞建立不同的規則來處理特征詞的左右邊界。改進的MM算法是依據分詞詞表將藏文語塊識別成詞,MM方法中正向和逆向合一進行,然后判斷並確定歧義結構,將歧義結構交付排歧模塊處理,以便修改錯誤的分詞結果。該分詞系統可以對藏文文本分詞正確率已經達到了95%以上。

  3、藏文分詞測評

  一是開放性:易擴充性、可維護性和可移植性等特點。要求在開放環境下切分精度和處理速度穩定在實用的程度。

  二是通用性:藏文自動分詞是高層藏語言信息處理的共同基礎。分詞系統應該支持不同的應用領域﹔支持不同學科領域的應用﹔支持不同地區的語言處理需要﹔要適應不同地區的語言風格。

  三是獨立性:不同的應用系統對分詞系統的要求不同,因此分詞系統要有不同的版本,系統內部的各種信息資源,以及處理信息資源的各個模塊要具有較高的獨立性,方便裝入系統或者從系統中卸載,提高系統處理精度和處理速度。

  該成果從藏文字的產生,藏文的文字、音節、結構、語法特征,討論了藏語詞類劃分,詞與其語言單位的區別,信息處理用藏語詞類,藏語詞性標記集,研究了藏文分詞規范的設計,藏語分詞的基本特征,使用范圍,用途,參考標准、藏語分詞用術語、藏語分詞單位、藏語分詞原則,這些工作在國內學術界相關研究較少。藏文自動分詞是藏文自然語言理解的一項基礎性工程,藏語自然語言理解在機器翻譯、信息檢索、智能輸入、校對、自動摘要、自動分類和詞典編纂等領域有著廣泛的應用價值。
(責編:陳葉軍)