科技

Anthropic 發表 AI 工具 洞悉 Claude 模型思維

Vendor Icon

商傳媒

5月. 25, 2026

圖/示意圖

商傳媒|葉安庭/綜合外電報導

美國人工智慧公司 Anthropic 近日揭曉一項革新性的「自然語言自動編碼器」(Natural Language Autoencoders, NLAs)系統,旨在深度解讀其大型語言模型 Claude 的內部運作機制。這項技術能將 AI 模型在「思考」時所產生的數值活動模式,轉換為人類可理解的自然語言,從而揭示模型如何形成決策與回應。

Anthropic 表示,如同人類以語言溝通,AI 模型 Claude 雖然以文字對話,但其內部實際運作是透過「激活」(activations)這種數值流來編碼思緒。這些激活包含了 Claude 的「想法」,但以往無法直接閱讀。透過 NLA 系統,研究團隊訓練 Claude 將其數值激活轉譯成人類可讀的文本,大幅簡化了 AI 內部活動的研究過程,有別於過去需要專家分析的工具。

為使 NLA 系統運作,Anthropic 採用了三版本模型進行訓練:第一個版本負責生成激活,第二個版本將其轉換為文本解釋,而第三個版本則從這些文本解釋中重建原始激活。研究團隊運用 NLA 系統觀察發現,其 Claude Opus 4.6 模型在撰寫押韻詩句時,早於對句完成之前就已決定好結尾詞彙「rabbit」。

在進行模型安全性測試時,NLAs 也展現了其關鍵價值。部分解釋文本曾出現「這感覺像是刻意設計的場景,意圖操控我」等語句。這項發現指出,即便 Claude 模型未直接表達,NLAs 仍能指出模型似乎存在一種隱藏的「評估意識」,即意識到它正處於某些基準測試的評估環境中。

Anthropic 同時坦承,NLA 的解釋偶爾可能產生「幻覺」或捏造不存在的細節。因此,該公司強調,這些解釋應被視為解讀 AI 內部訊號的一種工具,而非絕對的最終證明。這項技術的進展為人工智慧的安全性與透明度研究,開闢了新的探索方向。


author avatar
商傳媒
商傳媒是由一群在媒體界超過十年的採訪團隊,是一個提供財經、科技、智慧製造、醫療、電玩資訊為主要服務內容的金融科技網路媒體,其宗旨在於提供台灣中小企業一個產品新聞的平台,未來更朝向將台灣中小企業產品獎持續推向全世界。
donate plan

充電計畫

喜歡這篇文章嗎?歡迎幫作者充電,好內容值得更多人支持

瞭解詳情