舊版網站入口

站內搜索

主題圖的語義相關度評價方法研究

——《主題圖的語義相關度評價方法研究》成果簡介

2011年05月15日16:54

  大連理工大學裘江南副教授主持完成的國家社會科學基金項目《主題圖的語義相關度評價方法研究》(項目批准號為07CTQ006),最終成果為同名研究報告和論文集。課題組成員有:王寧、葉鑫、曲剛、李麗冬、王帶弟、羅志成。

  當前,由於信息與知識類型的多樣性、存在方式各異、對知識整合與檢索需求的提高等因素,導致知識組織的理論和方法日益復雜化,傳統的知識組織技術的缺陷也逐漸顯露,而有效的知識組織方法需要調和日益豐富的語義內涵與易於計算機進行信息處理兩者之間的矛盾。

  作為一種新興的數字化本體類知識組織技術,主題圖是一種語義中度的概念關聯類知識組織方法,它的語義適度性既確保了組織知識的語義特征,又提供了易於計算機理解的表示方式,有效調和了知識組織中的兩個矛盾,因此對主題圖等概念關聯類知識組織體系的研究與應用成為新的焦點,但主題圖的技術存在下列局限:一是主題圖技術框架中雖然可定義主題之間的各種關聯,但並沒有給出主題間、主題和資源間的相關度評價方法,特別是缺乏主題間的語義相關度評價研究。二是現有的主題間關聯隻局限在彼此有直接關聯的主題之間,並沒有定義間接關聯,即對非直接關聯的主題之間的語義相關性傳遞問題缺乏系統研究。三是引文分析中採用“關鍵詞共現方法”也可用來評價主題間的相關程度,但該方法的准確程度有賴於語境的質量及文獻樣本的數量,具有一定的局限性。綜上所述,有必要通過對主題圖語義元素、語義結構及語義傳遞的基礎研究工作,探討基於計算語言學的方法來評價主題圖的語義相關度。成果的基本思路和主要內容如下:

  研究目的和意義

  研究目的有以下幾個方面:一是構造主題圖中主題間及主題與資源間的語義相關度評價方法,實現主題圖中主題間及主題與資源間的關聯量化﹔二是發現主題圖中間接關聯主題間的語義傳遞規律,並構建語義傳遞體系,實現語義傳遞的計算機模擬,並將其嵌入語義相關度評價方法﹔三是採用主題圖的語義相關度評價方法成果研究基於關聯量化的主題圖知識組織方法,將其應用於知識導航系統並對評價方法進行完善。

  研究的意義在於:一是通過系統分析主題圖的語義結構和主題間的關系類型的基礎上,建立各種類型關系的語義相關度評價算法。這種基於主題圖語義結構的評價方法,能夠依據主題圖的結構快速對主題間的語義關聯進行量化。同時,也可克服關鍵詞共現方法的准確程度有賴於語境的質量及文獻樣本的數量的缺點﹔二是通過分析主題圖中各種關系類型的語義傳遞特性,建立非直接關聯的主題間的語義相關度評價方法,有利於揭示主題圖中語義傳遞的變化規律﹔三是為主題圖引入量化的語義相關度評價方法,完善基於主題圖的概念關聯類知識組織的方法和技術,並有利於更清晰地理解主題圖和相應資源實體的語義結構,進而提高知識檢索和導航的精確程度。

  成果的主要內容

  研究中,首先,對現有的基於本體的語義相關度算法進行了系統分析和比較。從各種語義相關度算法的實驗測試結果中可以觀察到:語義相關度評價方法中考慮的關鍵要素越多,效果越好﹔在各種語義相關度評價方法中Jiang&Conrath評價方法的效果最好。在研究中選擇Jiang&Conrath方法作為項目組提出的主題圖語義相關度評價方法的比較標准。

  其次,對主題圖的語義元素及語義結構進行了系統分析,研究總結了主題圖的語義元素特點,給出了語義元素的形式化定義,並對語義關系的屬性和性質進行了深入分析,歸納出主題圖中六大類經典型語義關系的屬性和性質。同時以主題圖構成及其包含的關系類型特點為基礎,分析了主題圖語義結構,進而指出其具有兩層、連通及類樹狀特征,並給出了主題圖中主題圖樹提取方法。

  再則,針對主題圖中間接關聯主題之間的傳遞相關性問題,首次研究了主題圖語義傳遞規律,並構建了主題圖中的語義傳遞規則。具體包括語義傳遞符號定義、影響因素及判斷過程等三個基本方面,以及運用關系性質的研究成果和因子匹配理論等方法得出語義關系的傳遞規則,並通過人工認知實驗進行了語義傳遞規則的認知度測試,驗証其有效性,從而實現了語義傳遞判斷的計算機模擬。進而,對主題圖的語義相關度評價方法進行系統研究,提出了主題間的語義相關度評價方法、主題與資源間的語義相關度評價方法。其中,通過對主題圖語義元素、語義結構及語義傳遞的分析,同時參照語義相關度已有研究基礎,提出了考慮主題節點密度、深度、語義關系類型、路徑及語義傳遞因素的主題間語義相關度評價方法,進而以《知網》本體資源作為實驗環境,以人工判斷為基准,通過與Jiang&Conrath方法進行了對比分析進一步改進該評價方法。實驗結果也表明語義傳遞要素引入可以提高語義相關度算法的精度,並最終實現了基於語義關系的主題間語義相關度算法。此外,對主題與資源間的語義相關度評價方法進行研究。根據主題圖語義結構及其資源特點,分析了主題與資源間的語義相關度影響因素,提出了基於多相關主題的主題與資源相關度算法。該算法引入主題間語義相關度值及多相關主題IFIDF 詞頻權重法,並與傳統文本資源排序方法作對比分析,驗証了主題與資源間語義相關度評價方法的優勢。

  最后,系統研究了基於關聯量化的主題圖知識組織方法。以台風應急管理為背景,設計並實現了嵌入主題圖語義相關度評價方法的台風知識導航原型系統。通過構建台風知識主題圖,在導航機制設計中嵌入主題圖關聯量化機制,克服了傳統導航查全率和差准率低的問題,實現了基於關聯量化的主題圖知識組織方法的應用研究。

  成果的重要觀點

  充分利用語義相關性的已有研究成果,以主題圖語義元素及語義結構等為基礎,對主題圖的語義相關度評價方法進行了研究,研究的重要觀點如下:一是首次提出了主題圖的主題間、主題和資源間的定量化的相關度評價方法。完善了基於主題圖的概念關聯類知識組織的方法和技術,並有利於更清晰地理解主題圖和相應資源實體的語義結構,進而提高知識檢索和導航的精確程度﹔二是提出了主題圖的主要關系類型的語義相關度評價算法。能夠依據主題圖的結構快速建立量化的語義相關度,可彌補關鍵詞共現類方法的准確程度有賴於語境的質量及文獻樣本的數量的不足﹔三是發現了主題圖中間接關聯主題間的語義傳遞規律,並構建了語義傳遞體系,實現了語義傳遞的計算機模擬,並將其嵌入語義相關度評價方法﹔四是提出了基於多相關主題的主題與資源相關度算法。該算法引入主題間語義相關度值及多相關主題IFIDF 詞頻權重法,並在相關算例實驗過程中,獲得了較好的計算結果。

  成果的學術價值和社會價值

  成果的學術價值在於:系統分析了主題圖的語義元素和語義結構,發現了語義傳遞規律,並建立了語義傳遞模型。這些研究結果一方面為主題圖語義相關度的評價方法研究提供了理論基礎,另一方面豐富了主題圖的語義結構的理論研究,並對語義傳遞領域進行了拓展研究﹔同時本研究重點設計了主題圖的語義相關度評價方法,解決了主題圖關聯量化的問題,這些成果一方面完善了主題圖的概念關聯類知識組織的方法和技術理論體系,另一方面有利於更深刻揭示主題圖與資源實體間的語義結構。

  成果的社會價值在於:研究提出的主題間、主題與資源間的語義相關度評價方法,可以用來指導信息和知識資源的組織系統的分析與設計。將提出的評價方法可應用於信息或知識組織與檢索系統,能夠提高信息與知識組織的質量、檢索的查准率和查准率,大大提高了人們獲取信息的質量與效率,具有較大的社會效益。
(責編:陳葉軍)