編者按:
作為人類交流的工具和人工智能理解世界的基礎,語言與推動人類文明進步的創造力共同構成人類智慧的核心要素。人工智能在語言處理和問題分析方面展現出的卓越能力,引發了對其理解力和創造力是否等同於人類能力的思考,這一問題對人工智能與人類社會的發展有著深遠影響。姚從軍基於組合范疇語法的研究指出,盡管人工智能展現出較強的語言理解能力,但人類仍在知識生產中保持著核心地位﹔與此同時,高新民、張舟從心靈哲學視角進行論証,強調人類創造力的獨特性不可替代,並指出人工智能要實現真正的創造力,必須首先深入理解人類心智的本質特征。
作者系國家社科基金后期資助項目“‘廣義斯科倫項理論+多模態組合范疇語法’模式下的漢語研究”負責人、2024年度《國家哲學社會科學成果文庫》入選者、湘潭大學哲學與歷史文化學院教授
當我們和聊天機器人對話,驚嘆於它們能“聽懂”人類語言並機智應答時,其背后隱藏著一位功不可沒的“幕后英雄”——組合范疇語法。作為一種源於邏輯語言學的語法理論,組合范疇語法為機器提供了“語言大腦”,讓人工智能能夠從雜亂的文本中讀出人類語言蘊含的意義與邏輯。近年來,語言哲學對意義的探討與這一技術在自然語言處理中的應用相結合,正推動著人工智能邁向更深層次的語言理解。然而,人工智能通過模擬人類設定的組合規則進行“模仿性語言生成”,並非自發地“創造語言”,本質上是在人類設定的語義框架內運作,不能脫離人類對語言和知識的把控。
組合范疇語法的基本原理
組合范疇語法誕生於20世紀80年代,是一種類型驅動的詞匯化文法。它的核心思想是:句法即語義的驅動器。具體而言,每一個詞被賦予一個范疇,該范疇指明了該詞可與什麼類型的成分結合,以及結合后生成何種更大成分。例如,在英語句子“The cat sits”中,“the”具有范疇NP/N,表示它期待右側有一個名詞(N)來組成名詞短語(NP)﹔“cat”的范疇是N(名詞),正好滿足“the”的需求﹔動詞“sits”具有范疇S/NP,表示它需要一個位於其左側的充當主語的名詞短語NP來形成完整句子S。通過一系列函數式應用和組合規則,這些詞匯范疇逐步結合,構成句子的句法樹和語義結構。因為大部分語法信息蘊含在詞匯的范疇中,所以組合范疇語法僅需少量的組合運算(如應用、組合、類型提升、替換)就能完成解析。這樣的特征不僅使組合范疇語法具有極高的解析效率,而且具有很強的表達能力,能夠處理自然語言中的長距離依存和非連續成分等復雜現象。
值得一提的是,組合范疇語法與邏輯學家柯裡的組合邏輯一脈相承,其組合規則對應於柯裡的組合子,這意味著每一個句法組合都伴隨著語義函數的組合。這樣,當句法分析生成一個完整句子S時,語義分析也同步得到該句子的謂詞—論元結構乃至邏輯表達式。這種句法與語義的透明接口使組合范疇語法非常適合作為自然語言理解的工具——機器不但“看”到了句子結構,而且“懂”得了句子大意。
語言哲學視角下的組合與意義
語言哲學素有“組合原則”之說,即復合表達式的意義由其組成部分的意義及組合方式決定。這一由弗雷格提出的原則在組合范疇語法中得到了充分體現:組合范疇語法嚴格遵循語義的組合性原則,任何復雜句子的含義都是由詞匯語義通過規則推導出來的。蒙太格曾主張用形式邏輯的方法處理自然語言語義,組合范疇語法正是沿著這一路徑發展而來的現代成果。組合范疇語法在自然語言的表層語法結構與深層語義表示之間建立起透明映射,謂詞—論元關系、量詞轄域以及信息結構等都可以通過組合范疇語法的解析直接讀出。對語言哲學而言,這意味著我們有可能像研究邏輯命題那樣精確地研究日常語言的含義,實現對“意義”的形式化刻畫。
值得注意的是,組合范疇語法的研究融合了邏輯學和語言學思想,體現出方法論上的創新。一方面,借鑒形式邏輯(如λ演算)的嚴謹計算特性﹔另一方面,結合語言學語境理論(如話語表征理論)的靈活語用分析。二者相互補充,孕育出了投射話語表征理論等新成果。投射話語表征理論綜合了邏輯的可計算性和語用分析的靈活性,能夠處理諸如時間關系、語義預設等復雜現象。例如,對於句子“老王沒來開會,大家很驚訝”,形式邏輯難以直接捕捉其中的隱含前提“老王原本應該來”。然而,在組合范疇語法框架下引入投射話語表征理論,能夠精准捕捉到“很驚訝”所依賴的語義預設,揭示隱藏的信息。這種將哲學邏輯引入計算語言學的方法,使得機器對語義的理解更加接近人類的理解方式:既嚴格又靈活。
此外,語言哲學長期關注的量詞轄域歧義問題,在組合范疇語法的框架下也找到了破解之道。經典例句“每個男孩都喜歡一個女孩”有兩種解讀:“每個男孩各自喜歡不同的女孩”﹔“所有男孩喜歡同一個女孩”。這類量詞轄域歧義在邏輯上可能產生組合爆炸——量詞稍一增多,可能出現天文數字般的解讀數量。組合范疇語法的語義學家引入了廣義斯科倫項量詞理論等新方法,將復雜的量詞互動轉化為較簡單的邏輯表示。通過這種策略,含有多個量詞的語句的解讀數量可能從原先的數萬種大幅減少到幾千種。這些哲學邏輯層面上的精耕細作,大大緩解了人工智能在語義歧義處理上的計算壓力,使機器對復雜句子的理解更加精准。
在自然語言處理中的作用與價值
組合范疇語法已被廣泛應用於自然語言處理的各個領域,其中包括用於構建大規模的樹庫與語義庫資源,為機器學習算法提供豐富的訓練數據。例如,愛丁堡大學的研究者將數萬個英文句子的語法樹轉換成組合范疇語法衍生樹,編制了著名的英語組合范疇語法樹庫,該樹庫涵蓋了《華爾街日報》語料中99%以上的句法結構。基於此樹庫,邏輯學家開發了性能優異的組合范疇語法解析器,如Clark和Curran的C&C解析器,以及后續的EasyCCG等,這些解析器能夠將真實文本轉化為組合范疇語法的句法結構和邏輯形式。經由組合范疇語法解析,計算機可直接獲取句子的語法依存關系和語義角色信息,從而在問答、信息抽取和機器翻譯等任務中有更精准的表現。
令人振奮的是,組合范疇語法正在推動構建語義層面的大型知識庫,荷蘭格羅寧根大學牽頭開發的格羅寧根意義庫及其升級版平行意義庫就是其中的杰出代表。這些“語料工廠”利用組合范疇語法表示句子的組合生成過程,並結合投射話語表征理論來記錄豐富的語義信息。在這兩個意義庫中,每個語句文本首先通過組合范疇語法進行句法分析,獲得高質量的范疇結構,然后再映射成形式邏輯表示,如投射話語表征結構。由於組合范疇語法提供了透明的句法—語義接口,這種從句法到邏輯語義的標注過程可以部分自動地完成。平行意義庫更是邁出了構建多語種語義庫的步伐:它將英文語句的語義作為“種子語義”,通過與其他語言的平行文本對齊,將語義解析結果投射到德語、荷蘭語、意大利語等多種語言上。這種方法充分利用了組合范疇語法衍生樹的可投射性和組合語義,使得不同語言的語句共享統一的意義表示。如今,這兩個意義庫已成為測評語義解析的重要基准資源,極大地促進了機器對自然語言“理解”的深入。
在中文信息處理領域,研究者也在建設類似的資源庫。例如,微軟、清華大學合作開發的清華中文組合范疇語法樹庫和中國社會科學院的社科漢語組合范疇語法樹庫等,收錄了大量中文新聞文本的句法—語義分析成果。可以預見,隨著這些資源的不斷豐富,基於組合范疇語法的自然語言處理模型將能更全面地學習語言的內在規律,並將語言哲學中的精妙思想融入機器算法之中。
邁向更深層次的人工智能語言理解
有了組合范疇語法這樣的“哲學底蘊”深厚的工具,自然語言處理正逐步從“能講話”走向“會思考”。當前,大型預訓練語言模型(如ChatGPT)已經展示出驚人的對話能力,但也常被質疑是否真正理解了語言。組合范疇語法等形式語法的語義理論的引入,能夠回應這一質疑,賦予人工智能符號推理和邏輯理解的能力,彌補數據驅動方法的短板。通過將組合范疇語法解析產出的邏輯結構融入神經網絡模型,研究者希望機器不再只是基於表面模式生成回答,而是能夠基於對句子深層含義的把握進行推理和響應。
一個顯著的趨勢是“人機共訓”:利用人類專家知識來輔助機器學習。組合范疇語法語義庫的建立本身就是這一思路的體現——開發者通過眾包和游戲化標注等方式,讓人類為機器提供高質量的語義標注,這些由人類智慧積累的知識庫已經成為訓練先進人工智能模型的重要參考。盡管大型語言模型主要依賴海量數據進行自我學習,但融合符號知識可以顯著提升它們的能力,使它們不僅會“說”,還會“想”。可以預見,當人工智能同時具備大數據統計推斷和邏輯語義推理這兩方面能力時,我們與機器的交流將真正邁入“意義的對話”。機器將能理解言外之意、進行常識推理,甚至對人類提出的問題給出更有依據的回答。
展望未來,組合范疇語法代表的語言哲學與人工智能技術的結合將繼續深化。一方面,語言哲學的理論框架幫助我們洞察語言背后的規律與邏輯,使人工智能擺脫對純粹數據相關性的依賴﹔另一方面,人工智能的強大計算能力和應用需求又推動哲學理論走出書齋,在實踐中不斷演化。可以預見,在不久的將來,我們將看到更聰明的人工智能,它既掌握語言的規則,也能領會語言的深層含義。在組合范疇語法等橋梁的連接下,人工智能終將跨越“能言”與“會意”的鴻溝,在理解人類語言的道路上走得更遠。
人工智能並未取代人類在知識生產中的主導地位
隨著人工智能逐漸深入人類社會的各領域,一個關鍵性問題日益受到關注:人工智能是否正在挑戰人類在知識生產中的主導地位?從組合范疇語法的視角看,人工智能在語言生成和知識建構中的行為仍然受制於人類意識,人類從根本上掌控著知識生產機制。
組合范疇語法是一種強調語言結構與語義組合平行性的形式語法理論。它之所以具有解釋力,是因為它將自然語言的生成過程形式化地描述為一種可計算、可組合的認知行為,這種行為從根本上反映了人類意識對語義秩序的掌控。語言是知識生產的基礎,知識的表達、組織和傳播都依賴語言的結構性。在組合范疇語法框架下,語言結構並非任意堆砌的產物,而是表現出高度規則化的組合秩序。這種秩序源於人類認知對意義結構的建構:我們決定哪些表達式可以組合,以及哪些組合是有意義的。人工智能只能在這一認知秩序中重復、模擬和變形,而非顛覆。
人工智能在生成語言時,表面上似乎也在進行某種“組合”。但這種組合並非出自機器的意識選擇,而是基於人類設定的規則與訓練數據。無論是顯式採用組合范疇語法等語法框架的自然語言處理模型,還是深度學習模型中隱含的結構假設,語言的“合法組合”邊界始終由人類設定。因此,人工智能在語言生成中不是自主的知識生產者,而是模擬者,它運行在人類認知范疇構建的框架內。
語言表達式的合法性不僅取決於句法上的可組合性,還取決於語義上的可解釋性。而語義解釋的體系,正是人類意識中對世界經驗的結構化呈現。即便人工智能可以通過統計模型或大語言模型學習到一定的語言分布規律,但在語義層面依舊無法越界——它無法為一個前所未有的語詞賦予創造性解釋,更無法生成脫離人類經驗語義場的新概念。
從組合范疇語法的視角看,人工智能的“語言能力”不過是基於人類設定的范疇結構的計算過程,人工智能的語言生成行為受人類意識的支配。因此,人工智能並未對人類在知識生產中的主導地位構成挑戰。它無法脫離人類設定的語言范疇和組合規則,也無法離開人類提供的語料和意義解釋空間。這一事實不僅重新確立了人類在知識建構中的中心地位,而且提醒我們:即便工具變得越來越智能,知識的意義與目的依然屬於人類自己。