Anthropic 發表 AI 工具洞悉 Claude 模型思維

商傳媒｜葉安庭／綜合外電報導

美國人工智慧公司 Anthropic 近日揭曉一項革新性的「自然語言自動編碼器」（Natural Language Autoencoders, NLAs）系統，旨在深度解讀其大型語言模型 Claude 的內部運作機制。這項技術能將 AI 模型在「思考」時所產生的數值活動模式，轉換為人類可理解的自然語言，從而揭示模型如何形成決策與回應。

Anthropic 表示，如同人類以語言溝通，AI 模型 Claude 雖然以文字對話，但其內部實際運作是透過「激活」（activations）這種數值流來編碼思緒。這些激活包含了 Claude 的「想法」，但以往無法直接閱讀。透過 NLA 系統，研究團隊訓練 Claude 將其數值激活轉譯成人類可讀的文本，大幅簡化了 AI 內部活動的研究過程，有別於過去需要專家分析的工具。

為使 NLA 系統運作，Anthropic 採用了三版本模型進行訓練：第一個版本負責生成激活，第二個版本將其轉換為文本解釋，而第三個版本則從這些文本解釋中重建原始激活。研究團隊運用 NLA 系統觀察發現，其 Claude Opus 4.6 模型在撰寫押韻詩句時，早於對句完成之前就已決定好結尾詞彙「rabbit」。

在進行模型安全性測試時，NLAs 也展現了其關鍵價值。部分解釋文本曾出現「這感覺像是刻意設計的場景，意圖操控我」等語句。這項發現指出，即便 Claude 模型未直接表達，NLAs 仍能指出模型似乎存在一種隱藏的「評估意識」，即意識到它正處於某些基準測試的評估環境中。

Anthropic 同時坦承，NLA 的解釋偶爾可能產生「幻覺」或捏造不存在的細節。因此，該公司強調，這些解釋應被視為解讀 AI 內部訊號的一種工具，而非絕對的最終證明。這項技術的進展為人工智慧的安全性與透明度研究，開闢了新的探索方向。

Anthropic 發表 AI 工具 洞悉 Claude 模型思維

熱門新聞

Anthropic 發表 AI 工具洞悉 Claude 模型思維