舊版網站入口

站內搜索

曾楠:推動人工智能安全可靠可控發展

曾楠2025年09月12日09:24來源:光明日報

原標題:推動人工智能安全可靠可控發展

作者:曾楠,系廣東省習近平新時代中國特色社會主義思想研究中心特約研究員,南方醫科大學馬克思主義學院院長、教授

習近平總書記指出:“要把握人工智能發展趨勢和規律,加緊制定完善相關法律法規、政策制度、應用規范、倫理准則,構建技術監測、風險預警、應急響應體系,確保人工智能安全、可靠、可控。”國務院近日印發的《關於深入實施“人工智能+”行動的意見》提出,“共同研判、積極應對人工智能應用風險,確保人工智能發展安全、可靠、可控”。當前,人工智能正以前所未有的深度與廣度重塑著社會運行方式。同時,從大型語言模型的“幻覺”輸出到自動駕駛系統的決策偏差,從深度偽造技術對社會信任的侵蝕到算法黑箱導致的不透明與偏見……人工智能系統在性能飛躍的同時,其內生性安全與可靠性問題成為制約其健康發展的不容忽視的因素。傳統的事后補救、外挂防護式的治理模式,如同在高速運行的列車外部進行修補,不僅效率低下,也難以觸及復雜系統內部深層結構性問題。因此,探索以系統治理推動人工智能安全可靠可控發展,具有實踐上的緊迫性。

從“外挂補丁”到“免疫系統”的范式更新

“外挂補丁”模式承襲傳統網絡安全思路,其特征表現為事后補救、外部附加和局部修正,其在人工智能治理初期發揮了重要作用。例如,當發現人工智能系統學會了偏見和歧視,我們試圖用“過濾網”去篩查它的回答﹔當發現它容易被“誤導”或“欺騙”,我們再為其額外增加一道防護程序﹔當人工智能系統的決策過程像一個黑箱難以理解,我們再開發一個外部工具去試圖解讀它。然而,這種模式存在固有局限性:其預警響應往往滯后於風險顯現,難以覆蓋長鏈式、跨模態的新型風險﹔附加的安全模塊可能與原生系統存在適配沖突,影響模型性能的同時產生新的脆弱點﹔規則化的應對方式無法適應快速迭代的攻擊手法。正如修補漏洞無法替代建設堅固的城堡,依賴外部打補丁難以形成系統性的安全韌性。

確保人工智能系統安全可靠可控,需要從系統設計的底層邏輯出發,將安全與可靠目標內化為技術架構、算法模型、數據流程乃至開發范式的核心基因,使其具備類似生物免疫系統的自我識別、動態適應和協同防御功能,隨系統演化而自適應進化,進而降低安全風險發生的概率與危害。這一范式涵蓋三個核心維度:架構安全、過程安全與價值安全。具言之,筑牢架構安全防線,將安全屬性嵌入模型底層,使其天生具備更強的抗干擾、抗欺騙能力,不易被“病毒”入侵,並能更好保護數據隱私﹔構建過程安全監控系統,在模型訓練、部署、運行的全流程實施動態風險監測與反饋調節﹔設置價值安全指引,將價值觀、倫理准則與社會規范內化為人工智能系統的行為指引,通過價值觀對齊,使系統不僅能正確執行任務,更能理解行動的倫理意涵與社會影響。

從“概率正確”到“可知可控”的信任構建

當前,大多數人工智能系統基於大數據和概率模型運行,通過分析大量數據找出重復出現的模式,進而做出判斷,這通常表現為“概率正確”。這種方式雖然高效,但也存在明顯的局限和風險。一是結果的不確定性。模型可能會產生“幻覺”,即編造看似真實實則虛假的信息。在醫療診斷、司法輔助等嚴肅場景中,模型“幻覺”的代價是難以估量的。二是決策的不可溯性。當系統做出某個決定時,使用者往往無法了解其具體推理過程,這既影響了對結果的驗証,也阻礙了錯誤發生后的糾正和改進。三是風險的不可預見性。系統在常規環境下可能表現良好,但在面對新情況或受到干擾時,可能出現無法預見的錯誤,給實際應用帶來隱患。

人工智能系統的可靠性不能停留在統計意義上的“高概率正確”,而應追求在復雜、開放、動態環境下的“高置信可靠”。其核心在於建立可知、可控、可信的技術閉環,使人工智能系統不再是神秘莫測的“黑箱”,而是行為可預期、風險可管理、決策可追責的“透明箱”或“玻璃箱”,具有以下特性:可解釋性,即系統不僅能輸出結果,更能提供清晰、可理解的決策依據和推理路徑,使其行為對開發者與使用者而言是透明、可追溯的﹔預期一致性,即系統的行為表現嚴格處於其聲明的能力邊界和設計目標之內,不會產生無法預知的、超出其功能范圍的行為,確保其行動結果與人類預期高度吻合﹔可驗証性,系統的性能、邏輯和輸出結果可通過獨立的、系統化的方法進行測試、檢驗與審計,確保其行為始終符合預設的技術規范和倫理標准﹔可干預性,即在關鍵決策點或系統表現異常時,人類能夠進行及時干預、修正或中止,始終將最終控制權置於人類手中。

推進融合技術、標准、倫理的系統性“治理工程”

推動人工智能安全可靠可控發展,絕非單純的技術優化,而是一項深度融合技術創新、標准規范、倫理准則的系統性“治理工程”,即將治理要求結構化、自動化地嵌入人工智能系統的設計、開發、部署、運行、迭代全過程。

以技術創新為治理根基,筑牢安全可控的底層支撐。技術是實現有效治理的根基。應重點發展以可信人工智能為核心的關鍵技術,從設計之初就內置安全特性,確保系統行為的可靠性,為治理提供堅實基礎。主要包括以下幾個方向:研發具有高穩定性和抗干擾能力的算法模型,使系統在面對惡意攻擊或異常數據時仍能保持正常運行﹔推進可解釋人工智能技術,讓系統的決策過程變得清晰可見;構建測試驗証和持續監測體系,實現對系統風險的實時預警和動態防護。

以標准規范為治理准繩,確立清晰一致的行業標尺。標准是治理體系的尺度,為技術創新和產業應用提供統一規范。應加快構建覆蓋人工智能全生命周期、多維度的標准體系。在基礎共性方面,建立術語、架構、評估基准標准﹔在關鍵技術領域,制定可解釋性、隱私保護等技術標准﹔在行業應用層面,推出面向醫療、交通、金融等重點領域的應用規范和管理指南。這些標准不僅為產品研發和質量評價提供依據,也為監管執法和社會監督提供可靠參照,有助於推動產業形成共識,避免無序發展,實現在規范中創新、在標准下落地。

以倫理准則為治理靈魂,引領負責任的創新方向。倫理准則能夠為技術發展提供價值引導。倫理治理的目標,是確保人工智能的發展始終遵循人類價值觀和共同福祉,實現科技向善。為此,應當將以人為本、公平包容、責任明確、可控可信等倫理原則深度融入人工智能研發與應用全過程。具體而言,建立倫理審查和風險評估機制,對可能產生的倫理影響和社會后果進行前瞻性研判﹔推動算法公平性研究,努力消除數據偏見和歧視﹔明確研發者、使用者、監管者等各方責任,建立健全問責機制﹔鼓勵開展人工智能倫理教育和公眾討論,提升全社會倫理意識。

當前,人工智能正以磅礡之力塑造人類文明新圖景。唯有將安全、可靠、可控深植其技術生命基因,使其生長出強大的內在免疫系統,並輔以技術治理這一系統工程的精心雕琢,才能使人工智能真正成為驅動高質量發展的引擎而非脫缰野馬。治理邏輯與技術邏輯實現有機融合之際,一個可知、可控、可信、可持續的人工智能時代才能真正到來。

(責編:金一、張雯)