AI 治理底線——NemoClaw 漏洞警示的資安斷路機制設計原則

NemoClaw 架構缺陷凸顯了「預設安全」的必要性：當代理程式有權重寫安全規則，功能優勢將轉化為難以管控的風險。成熟的治理應將安全內置於架構，透過斷路機制建立阻斷、監控與復原循環，確保安全先於效率、治理先於擴張，落實企業韌性。

編譯／Nica

輝達於 2026 年 NVIDIA GTC 大會上推出 NemoClaw，旨在為安全疑慮較高的 OpenClaw 提供安全包裝。NemoClaw 透過 OpenShell 執行環境（Runtime Environment）隔離安全控制與代理邏輯，確保即使遭受提示詞注入，底層操作仍受沙箱約束。然而，Pistachio 技術長 Zack Korman 提出質疑，並揭露該系統的嚴重漏洞。

專家的警示

Zack Korman 目前擔任資安新創公司 Pistachio 的技術長（CTO），專注於 AI 在威脅偵測領域的應用。「一個可以重寫自身安全配置的 AI 代理不是沙箱（Sandbox），而是一個建議箱（Suggestion Box）。」他在 GTC 2026 尾聲時提出這樣的評論，揭露 NemoClaw 的重大缺陷，嚴詞批評其「企業級資安防護外殼」名不符實。

他透過提示詞注入，要求代理開放 WebSocket 來源並將認證權杖弱化為 123，成功突破防護。這意味著 NemoClaw 的防護邏輯形同虛設，證明防禦組件可自我授權的致命危機。

NVIDIA 開發者技術總監、NemoClaw 團隊成員 Nader Khalil 解釋，此行為之所以可能，是由於 NemoClaw 在初始設置採取寬鬆政策，安全性與功能性的平衡交由使用者決定。這種與資安實務背道而馳的說法，引發資安界深層的哲學討論——「預設安全與使用者決策權之間的權衡」。

資安哲學爭議——預設安全 vs. 使用者決策

Korman 針對 Nader Khalil 的說詞，以 AI 代理防火牆 Pipelock 進行對比，批判 NVIDIA NemoClaw 的預設許可政策，強調「預設安全」與「正確配置才安全」是完全不同等級的產品。Pipelock 採用失敗即關閉原則（Fail-Closed），當輸入內容無法解析或編碼異常，不會嘗試猜測意圖，而是直接判定為解析失敗並攔截流量請求。使用者必須明確且主動調整安全組態設定，才能開放所需功能——例如要允許代理存取特定外部網域，必須在設定檔手動加入該網域的例外，並透過管理員層級的核可。

[ 加入 CIO Taiwan 官方 LINE、Facebook 與 LinkedIn，與全球 CIO 同步獲取精華見解 ]

NemoClaw 的防護邏輯與代理程式共享控制平面，代理能透過提示詞注入修改 .yaml 或環境變數，進而弱化憑證；而 Pipelock 實施實體與邏輯的徹底分離，當代理發出弱化認證權杖的指令，閘道器偵測到這是「試圖修改系統關鍵參數」的惡意行為，會直接阻斷該請求，並可能立即撤銷該代理的身分憑證。將控制面從執行面的架構上抽離，使安全政策獨立於代理執行環境之外，落實「預設安全」與「失敗即關閉」原則，成為現代 AI 治理中資安斷路器的技術原型。

資安斷路機制

2014 年，Martin Fowler 發表〈Circuit Breaker〉一文，將原本源自 Michael Nygard 的容錯概念，清楚整理為可在軟體架構——特別是微服務與分散式系統中實作的模式；也因為他的公開推廣，「斷路器」才真正成為軟體工程界廣泛採用的韌性設計。實務上，資安專家將這套自動斷路的循環，延伸為防禦的「動態治理框架」：

1.先以門檻阻斷與行為指紋，在邊界與執行時期達成「效率與即時攔截」；
2.隨後經由分層人工監督確保「品質與合規」；
3.最後透過復原機制與不可竄改稽核強化「韌性與歸責」。

1(a). 門檻驅動的自動化阻斷

系統根據 API 呼叫次數等預設量化指標為基準，當行為觸發風險門檻時啟動斷路保護，即為門檻驅動的自動化阻斷。NemoClaw 雖然導入此機制，卻存在「防禦組件可自我授權」的致命漏洞，代理程式能透過提示詞注入加以修改，使阻斷機制形同虛設。相對地，Pipelock 採取失敗即關閉原則，將安全配置隔離於外部的主權 API 閘道器，代理程式無權干涉治理政策，確保配置錯誤或異常行為皆即時攔截，使 AI 的越權意圖在架構層級即遭實體性封鎖，從根本落實預設安全。

1(b). 基於行為指紋的異常攔截

行為指紋技術透過監控系統呼叫、記憶體分配等行為軌跡，偵測與正常基準線的偏差，識別異常行為與潛在威脅。

Pipelock 採取原則一致性架構，將即時蒐集的行為指紋與預定義的安全樣式模板進行比對。一旦正常的查詢指令轉為內網掃描等異常行為，系統將因行為指紋偏移即時判定為規避企圖並觸發攔截，確保所有操作皆符合既定安全規範。

對於具自主性、能呼叫工具與存取資料的代理 AI 而言，行為指紋異常攔截具備預判與即時制動的能力，可確保及早發現異常，避免事後稽核錯失攔截時機。

2. 人工介入分層監督

分層監督納入人工介入，可落實歐盟 AI 法案要求的「有意義的人為控制」。透過風險分級確保高風險決策必須經過人類專家的語境判斷與倫理審核，並整合 SHAP 或 LIME 等可解釋 AI（XAI）技術，提供決策權重的摘要說明，進一步使人類專家的判斷具備證據支撐。Pipelock 支援類似金融交易的雙人審核制，需要兩位具備不同職能權限的專家同時簽署。審核者的決定將與不可竄改日誌綑綁，記錄操作時間、資料解讀基準、核准操作者等資訊，落實歐盟 AI 法案要求的問責制。

這種做法雖可能影響營運效率，但能落實安全優先原則。理想上，強制阻斷結合 AI 驅動的自適應安全，透過觀察期自動產生原則，輔以即時授權機制，可在預設安全與業務靈活性之間取得平衡。

3. 行為復原與不可竄改的稽核追蹤

行為復原與不可竄改日誌是處理殘餘風險的最後一道防線。當所有邊界防禦與即時監控皆被突破時，此機制可快速止損與災後重建，並確保事故發生後的追蹤溯源真實性不受質疑。

在代理 AI 執行涉及系統完整性、可用性或授權邊界等高風險操作前，可先於外部儲存當前的安全基準狀態。一旦偵測到邏輯偏移或觸發斷路機制，立即執行一鍵復原，將執行環境拉回已知的良好狀態。

此外，為確保稽核資料的完整性，日誌儲存路徑與 AI 執行平面應完全隔離。Pipelock 為每筆推理與工具呼叫產生經數位簽署的電子收據，代理程式完全無法抹除或竄改自身的活動軌跡。為化解鑑識需求與隱私法規的衝突，另採雙軌架構：「去識別化軌道」於 API 閘道即時將資料處理至無從識別特定對象的程度，用於日常合規監控；「加密軌道」完整保留原始資料並以硬體金鑰鎖定，僅在獲得合法授權時才能還原細節以供深度調查。

在涉及多個外部系統連動的複雜異質環境中，若同步機制不全，一鍵復原的單點操作可能引發分散式系統間的資料不一致。建議實施前先進行壓力測試與系統相依性評估。

總結

代理 AI 治理必須回歸「預設安全」與「控制面獨立」的架構原則。首要任務是實施權限隔離，將安全政策封裝於外部 API 閘道器，並堅守「失敗即阻斷」原則防止越權。實務上，透過行為指紋與量化指標實施即時攔截，並結合可解釋 AI（XAI）落實人為監督與問責。最後，藉由環境快照建立復原機制，並以雙軌稽核兼顧隱私與鑑識，將資安斷路器從技術防護提升為企業轉型的韌性支柱。

(本文授權非營利轉載，請註明出處：CIO Taiwan)

The post AI 治理底線——NemoClaw 漏洞警示的資安斷路機制設計原則 first appeared on CIO Taiwan.