舊版網站入口

站內搜索

11&ZD189 蕭國政、姬東鴻:項目簡報-第12期--2017

2017年12月14日10:58來源:全國哲學社會科學工作辦公室

基於本體演化和事件結構的語義網模型研究

——子課題“面向事件的本體結構資源建設”新的階段性成果

以武漢大學蕭國政、姬東鴻為首席專家的國家社會科學基金重大招標項目《基於本體演化和事件結構的語義網模型研究》(項目批准號:11&ZD189),2017年第一季度主要抓了三件事:1、進一步系統梳理和總結現有成果(包括數據等),組織部分力量和精力結集出版和組織發表成果﹔ 2、部分子課題側重升級和應用拓展﹔3、在學科交叉、學科前沿和社會服務方面做新的探索。由於本課題涉及學校多、人員多,發揮首席專家和子課題組的共同作用,是本項目扎實推進,保持前沿、高端、重大的主要措施之一。本期簡報著重報告第一子課題組舊年的基礎和新的進展,以便領導和專家掌握我們的工作狀況。

子課題一的目標是:建立涵蓋實體(屬性、屬性值)、事件及其上下位關系的基礎本體結構,建立涵蓋事件和事件鏈的語義標注資源,通過在本體結構中增加事件和事件鏈的描述,豐富本體結構的內涵,為文本的深度語義標注、上下文理解和語義查詢及推理奠定基礎。前期的研究工作已完成了對“事件”內涵的界定,簡單事件結構描寫以及外延事件類別描寫。近半年來,在首席專家的指導和參與下,該子課題在事件本體建構及其應用研究方面取得的階段性新成果匯報如下。

在理論探索上,主要有三個方面的進展:

一是關於事件研究的價值,課題組突破了語句形式的局限,以事件作為語義研究對象和觀察視角,對事件元素、事件框架、事件關系、事件本體與篇章事件結構進行分析和本體建構,探索篇章的語義分析、語義理解,以服務於大規模的語義計算。

二是關於事件的性質和特點。研究發現作為語義研究對象的事件,具有以下五個基本特點:1)事件是一種基本語言單位,詞、短語、句子各個不同層級的語言單位中都存在事件﹔2)事件遵循統一的結構規則,同類事件具有統一的內部結構規則﹔3)事件的跨語法實體的嵌套性和遞歸性,復雜事件由多個簡單事件構成,事件組合構成具有因果、條件、目的等語義關系的遞歸結構﹔4)篇章中的事件演化,沿著一定的拓扑結構推進,主要有向心結構、離心結構、三角形結構、菱形結構和蝶形結構﹔5)事件具有全息結構。總之,從要素與整體、靜態構成和動態組合多個方面對“事件”進行了全方位的理論思考。

三、關於事件關系和事件運算,發現以事件知識為基本內容的語義分析和語義推理研究,還需要定義一些基本的事件本體公理,而這些描寫為運算規則的事件公理可以直接用於事件語義分析和推理。在事件類屬關系方面,對事件之間的領屬關系和聚合關系進行了邏輯運算規則的描寫。在事件鏈方面,運用邏輯運算規則對事件的原因關系、結果關系、條件關系和時序關系進行了描寫。在事件拓扑結構方面,分別對構成離心拓扑結構、向心拓扑結構、三角形拓扑結構和菱形拓扑結構的事件進行了邏輯運算規則的描寫。

在事件語義資源建設上,在定義事件由六元組(即E (B, P, T, Sp, N, S))構成的基礎上,基於特定領域的真實文本建立了部分領域的事件本體知識庫,目前主要完成了物流、軍事、刑事訴訟三個領域的事件本體構建的第一期工作。

以物流領域為例,事件本體知識建構的語言材料主要來源於物流領域的相關文獻、標准規定、專業教材和物流專業詞典,具體方法是先從文檔信息中篩選事件詞條,然后通過同義詞詞林擴展詞條,最終得到了一個包含960條詞條,95個概念節點的物流事件概念集。以物流活動的相關流程和時空特征為主要線索,對該概念集中的事件概念進行分析歸類,得到了六個事件概念類別,分別是:倉儲事件、裝卸事件、運輸事件、審核和貨損事件、包裝事件、綜合事件。同理,以各大軍事網站、同義詞詞林、軍事新聞報道為語料來源,構建了總詞數為2749個的軍事領域事件本體,以中國刑法法典、各種刑事司法參考書、刑事案件新聞報道、中國裁判文書網為語料來源,構建了總詞數接近1000的刑事訴訟領域事件本體。

基於事件的理論探索和本體資源建構,是語義網和語言信息處理智能化的重要基礎,應用前景廣闊,同時對於詞典編撰、語言教學系統開發、深度機器學習、智能人機交互以及情報分析等都有著令人期待的應用價值。

(課題組供稿)

(責編:王瑤)