舊版網站入口

站內搜索

計算語言學方法研究

——《計算語言學方法研究》成果選介

2011年05月15日16:51

  教育部語言文字應用研究所馮志偉教授主持完成的國家社會科學基金項目《計算語言學方法研究》(批准號為03BYY019),最終成果為同名專著。課題組成員有:楊泉、胡鳳國、張和友。

  計算語言學(computational linguistics)是用計算機研究和處理自然語言的一門新興邊緣學科,涉及語言學、計算機科學、數學、心理學等部門。在計算語言學的發展過程中,提出了很多方法,這些方法,在理論上有一定的深度,在實踐上有實用價值,值得引起我們語言學研究者的重視。但是,國內計算語言學界對於這些方法的研究基本上是支離破碎的,缺乏系統的總結,更缺乏理論上的分析。本課題在全面調查國內外計算語言學各種方法的基礎上,對這些方法進行了系統的描述,並在理論上進行了深入的分析和概括,總結出規律性的具有方法論意義的認識。其主要內容分為七個部分。

  一、計算語言學的學科定位和主要方法

  這一部分首先從計算機處理自然語言的過程、計算語言學的范圍以及計算語言學的歷史三個角度來考察計算語言學的學科定位問題。從計算機處理自然語言的過程來考察它的學科定位,是從縱的角度來討論﹔從計算語言學的范圍來考察它的學科定位,是從橫的角度來討論。通過這種縱橫交錯的考察,我們對於計算語言學的學科定位就可以在共時的平面上得到比較清晰的認識。然后,我們再從計算語言學的歷史來考察,也就是從發展的角度來討論,這樣,我們對於計算語言學的學科定位就可以在歷時的平面上得到比較清晰的認識。

  對於計算語言學方法的研究,可以從方法論的角度來論述,也可以從語音、詞匯、形態、句法、語義、語用研究中使用的方法來論述。

  從方法論的角度,計算語言學方法可以分為基於規則的方法(rule-based approach)和基於統計的方法(statistics-based approach)兩個方面。基於規則的方法是理性主義的方法,基於統計的方法是經驗主義的方法。這兩種方法實際上並不是完全對立的,它們各有利弊,而且目前這兩種方法有合流的傾向,它們正在相互結合起來,取長補短,相得益彰。本項目如果把基於規則的方法和基於統計的方法分割開來研究,很多問題將會糾纏不清,不便於論述。因此,本項目不採取這樣的論述方式。

  本項目採取按照語言學學科分類的方式,從語音、詞匯、形態、句法、語義、語用研究中使用的計算語言學方法來加以論述。分別討論語音的自動處理方法、詞匯的自動處理方法、形態的自動處理方法、句法的自動分析方法、語義的自動處理方法、語用的自動處理方法。

  在論述時,首先對於各個領域內計算語言學方法的發展歷史進行簡要的回顧,然后,再對各種具體的方法進行論述和分析。這樣,計算語言學方法的研究便有了一個可靠的歷史背景,我們對於各種方法的來龍去脈也就更加清楚了。

  二、語音的自動處理方法

  文本-語音轉換(Text-to-Speech簡稱TTS)的核心任務是以文本中詞的序列作為輸入,產生聲學波形作為輸出。自動語音識別(Automatic Speech Recognition,簡稱ASR)的核心任務是以語音的聲學波形作為輸入,產生單詞串作為輸出。

  這一部分詳細討論了語音自動處理的主要方法:貝葉斯公式(Bayes formala)、噪聲信道模型(Noisy Channel Model)、N元語法(N-gram Grammar)、隱馬爾可夫模型(Hidden Markov Model,簡稱HMM)等。這些方法成為了計算語言學中各種統計方法的基礎。

  三、詞匯的自動處理方法

  語言中的詞匯具有高度系統化的結構,正是這種結構決定了單詞的意義和用法。這種結構包括單詞本身的固有的與上下文無關的語義特征以在文本中單詞與單詞之間語義關系特征。前者是單詞的靜態語義特征,后者是單詞與單詞之間的動態語義特征。

  對於單詞的靜態語義特征,這一部分從知識本體(ontology)的高度出發,分析了美國普林斯頓大學研制的詞網(WordNet),指出了其優點和不足之處,並介紹了我國學者提出的Ontol-MT通用知識本體系統,說明了Ontol-MT在機器翻譯和歧義消解中的應用。

  對於單詞與單詞之間的動態語義特征,這一部分介紹了美國語言學家Fillmore研制的框架網絡(FrameNet)。框架網絡的中心思想是詞的意義的描述必須與語義框架相聯系。框架是信仰、實踐、制度、想象等概念結構和模式的圖解表征,它為一定言語社團中意義的互動提供了基礎。

  由於多義詞是任何語言中都普遍存在的現象,而多義詞中諸多的詞義分布又很不容易找到一般的規律,多義詞的自動排歧涉及到上下文因素、語義因素、語境因素,還涉及到甚至日常生活中的常識,而這些因素的處理,恰恰是計算機最感棘手的問題。所以,詞義排歧(Word Sense Disambiguation,簡稱WSD)是計算語言學中的一個特別困難的問題。這一部分分析了英語中的詞匯歧義現象,介紹了幾種重要的詞義排歧方法。

  四、形態的自動處理方法

  不論是分析型語言、屈折型語言還是黏著型語言,都有形態自動分析的問題。形態分析主要採用有限狀態自動機和有限狀態轉移網絡來進行。這一部分詳細地介紹了有限狀態自動機和有限狀態轉移網絡的基本原理,通過大量實例來具體地說明自動形態分析的方法。

  漢語書面文本是連續的漢字串,單詞與單詞之間沒有空白,因此,漢語形態分析的主要任務就是自動切詞和自動詞性標注。這一部分還分析了漢語書面文本中確定切詞單位的某些形式因素,為自動切詞提供了比較可行的方法論基礎。

  五、句法的自動分析方法

  句法自動分析在計算語言學中叫做剖析(parsing)。所謂剖析,就是取一個輸入並產生出表示這個輸入的結構的過程。所謂句法剖析(syntactic parsing),就是計算機識別一個輸入句子並且給這個句子指派一個句法結構(例如,樹形圖,線圖)的過程。

  這一部分分別討論了目前在計算語言學中廣泛使用的基於轉移網絡的自動句法分析方法、基於上下文無關語法的自動句法分析方法、基於特征結構的自動句法分析方法、基於依存語法的自動句法分析方法。

  六、語義的自動處理方法

  語言的意義可以使用形式化的方法來捕捉,這種形式化方法叫做“意義表示”(meaning representation)。之所以需要這樣的意義表示,其原因在於:不論是沒有加工過的語言輸入,還是用自動句法分析方法推導出來的結構,都不能形式化地表示出語言的意義。因此,這樣的“意義表示”能夠在從語言輸入到與語言輸入意義有關的各式各樣的具體任務所需要的非語言知識之間架起一座橋梁。我們取語言的輸入來構造意義表示,這樣的意義表示要使用那些與表示日常生活中的常識性的世界知識同樣的材料來構成。產生這樣的意義表示並且把它們指派給語言輸入的過程叫做“語義分析”(semantic analysis)。

  這一部分分別討論了語言意義的四種表示方法:一階謂詞演算(First Order Predicate Calculus,簡稱 FOPC)表示法,語義網絡(semantic network)表示法,概念依存圖(Conceptual Dependency diagram)表示法,基於框架的表示法(Frame-based Representation)。這些意義表示方法都可以把語言輸入同外界世界和我們關於外界世界的知識聯系起來。

  這一部分還討論了句法驅動的語義自動分析方法、結構語義學、優選語義學、孟塔鳩語法以及意義文本理論。

  七、語用的自動處理方法

  語用學是對語言與使用環境之間關系的研究。使用環境包括像人和物這樣的本體,因此語用學涉及如何將語言用於指示(以及回指)人和物的研究。使用環境也包括話語的上下文,因此語用學也涉及話語結構的形成以及會話時聽話人如何理解談話對象的研究。

  語用的自動分析才剛剛開始,國外已經取得初步的成果,國內的研究還做得不多。這一部分主要討論所指判定和文本連貫的自動分析方法。

  本課題的目的在於總結國內外的計算語言學方法,使之系統化,理論化,具體化。由於方法的研究是自然語言處理系統(諸如機器翻譯、語料庫、信息檢索、信息抽取、文本分類等)的開發的關鍵問題,因此,本課題的研究成果,對於各種類型的自然語言處理實用系統的開發,在方法上具有普遍的指導意義,對於解決我國當前在自然語言信息處理中的理論和現實問題,具有重要的推動作用。
(責編:陳葉軍)