Harness Engineering 奠定 AI 基礎設施

你的 AI 預算，有多少花在真正讓 AI 能運作的地方？模型之外，還有一層決定成敗的協調架構——管理記憶、工具、錯誤復原與跨階段狀態——多數企業從未認真投資它，卻期待 AI 交出企業級的成果。

文／洪為璽

洪為璽 200x300 — ◤ 洪為璽博士，現為國立政治大學資訊管理學系教授兼CINTES研究中心主任，專長為資訊策略管理、資訊安全管理與大型資訊系統導入與應用。

科技圈過去這幾年的注意力幾乎集中在哪一個 AI 模型更強大，因此無數企業投入鉅資訂閱最強的基礎模型，彷彿商業問題便能迎刃而解。然而，今年二月 OpenAI 的工程團隊發布了一篇驚人的報告：AI Agent 建構了一套超過一百萬行程式碼的應用系統，其中沒有任何人類工程師手寫的程式碼。不過若仔細閱讀報告後便會發現，工程師們是在設計一套讓模型能夠可靠運作的外部系統，業界稱這套系統為 Harness Engineering。

這個案例傳遞了一個訊息：決定 AI Agent 成敗的不是模型本身，而是包圍模型的基礎設施。對每一個正在布局 AI 戰略的企業而言，這轉變將直接影響未來在技術投資上的方向。

什麼是 Harness Engineering？

在了解 Harness Engineering 之前，必須先釐清一個誤解：AI 模型其實不等同於 AI 系統。一個大型語言模型（Large Language Model，LLM），是一台文字預測機器，擅長在對話中生成連貫、有邏輯的輸出。若希望此模型在企業環境中能實際執行任務，比如分析財務報表、處理客服流程或監控 IT 基礎設施，單憑模型本身往往是不夠的。

Parallel AI（2025）提出了對 Harness Engineering 的清楚定義：Harness Engineering 是包裹在大型語言模型（LLM）外側的軟體，處理模型以外的所有事務，包含工具執行、記憶儲存、狀態持久化，以及跨多個工作階段的錯誤復原。

Anthropic（2025）於 11 月所發表的《Effective Harnesses for Long-Running Agents》中，描述一個開發專案由輪班工程師所組成，新上班的工程師對前一班的事務毫無所知。

大型語言模型（LLM）的上下文窗口（context window）就是此困境的寫照，面對新的工作階段，模型就需重新開始，無法銜接之前的進度。這正是 Harness Engineering 工程需要解決的核心挑戰。

此外，Augment Code（2026）的技術文件針對 Harness Engineering 有一個補充：Harness Engineering 工程的本質是將組織期望從「語言建議」轉化成「系統約束」。

Harness Engineering 的三大核心能力

Harness Engineering 需具備哪些能力呢？根據 NxCode、Anthropic、Vercel 以及 LangChain 等機構的技術文件，歸納成以下三大核心能力：

1. 情境工程

情境工程是確保 AI Agent 在推理步驟中獲得正確的資訊，並以正確的形式呈現，OpenAI 將其列為 Harness Engineering 工程的三大核心之一。NxCode（2026）指出 OpenAI 工程師在專案中的主要工作在於設計情境傳遞系統—說明意圖並提供回饋。此外，Anthropic（2025）的研究揭示了情境管理失敗的模式，當 AI Agent 被要求建立完整的 Web 應用時，若只給一個指令，AI Agent 通常試圖一次性地完成整個專案，最終在上下文窗口耗盡之前宣告完工。

因此，解決方案是在第一個工作階段中，撰寫一份具體功能需求的文件，讓後續的程式碼代理有清晰的地圖，每項功能完成即更新狀態，累積可量化的進度。

2. 工具與權限管理

AI Agent 需連接企業的資料庫、API、程式碼庫等相關系統，但每次連接都帶來潛在的風險。Vercel（2025）提供了 AI Agent 反直覺的成功案例，其軟體主管表示他們移除了 AI Agent 工具箱中 80% 的工具，結果表現反而提升。由此案例顯示，其實更少的工具意味著更少的推理步驟、Token 消耗，讓任務成功率更高。因此工具管理的原則不是給越多越好，而是在對的時候給對的工具。

另外，Replit（2026）指出 Replit Agent 在生成程式碼之後，須等待人類確認才能部署，這是人在回路中（Human-in-the-Loop）的設計，確保高風險操作不會在沒有人類監控的情況下自行執行。

Claude Code Doc 的 Harness Engineering 則精確控制模型能夠執行的檔案及系統操作範圍，確保代理不會接觸到系統核心的文件。

3. 驗證與可觀測性

LangChain（2026）於《Terminal Bench 2.0》的案例中帶來效能上的改變是引入自我驗證迴路（Self-Verification Loop）。工程師發現，代理常見的失敗模式是撰寫解決方案、回顧程式碼，然後宣告完成但沒有實際執行測試。若在 Harness Engineering 的系統中明確指示代理：「你的工作將被程式化測試驗證」，並在工作流中加入強制測試的執行步驟，代理成功率才會明顯出現提升。

此外，可觀測性是驗證能力的前提。LangChain 在 Harness Engineering 的改善中依賴 LangSmith 追蹤系統，記錄代理的每次行動並分析失敗模式的分佈，再透過迭代優化針對高頻率的失敗點進行後續修復。

AI 投資重點從模型轉向基礎設施

如今，一個產業趨勢正在成形：AI 組織正在將投資重心從模型層轉向基礎設施層。

根據 BCC Research 於 2026 年所發布的《人工智慧技術產業報告》，全球 AI 創投資金於 2024 年達到約 2,970 億美元。然而，其中最值得關注的並非規模本身，而是投資方向的結構性轉變：從「購買更聰明的模型」到「建立可靠運作的基礎設施」。

除此之外，Anthropic 於今年度趨勢報告中也點明了這一轉變，基礎設施配置是最佳化變數，Harness Engineering 設定能在基準測試上產生 5% 以上的差異。且該報告中描述引入代理工程平台（Agentic Engineering Platform），正式定義了介於代理框架與生產部署基礎設施之間的中間層。

[ 加入 CIO Taiwan 官方 LINE 、 Facebook 與 LinkedIn，與全球CIO同步獲取精華見解 ]

其實這場投資重心的轉移，在市場上已有跡可循。Baseten 於今年一月以「AI 推理基礎設施（AI 推理的 AWS）」，鞏固市場的龍頭地位。其合作由 IVP 和 Google 旗下的 CapitalG 領投，並吸引 NVIDIA、Greylock 等頂尖機構大舉跟投，完成 3 億美元，估值達 50 億美元的 E 輪融資。這顯示資本在 AI 商業化的下一個階段，勝負的關鍵在於部屬基礎設施層。

企業如何開始布局 Harness Engineering？

面對這波 Harness Engineering 趨勢，企業最實際的問題是該從哪裡開始？

根據 Anthropic （2026）AI Agents 現況報告指出 57% 的組織已在部署多步驟代理工作流，81% 計畫在 2026 年擴展至更複雜的代理應用場景。46% 的受訪者列為首要的挑戰的是「與現有系統整合」，此顯示技術難題的核心不在模型選擇，而在整合架構。以下提供三個在實際部署中的布局策略：

建立 Harness Engineering 原型

成功的導入，需選定具有高度重複性、流程邊界清晰、且失敗成本可控的工作流，例如財務報表對帳或 IT 服務台工單分類。在這個場景中，企業能在有限的風險下，完整走過 Harness Engineering 所設計的核心決策：定義代理的工具邊界、設計情境傳遞機制，以及建立驗證迴路。

自建整合層

成熟企業的 AI 策略須具備受管理的執行環境、基本遙測系統、雲端或開源框架所提供的控制平面，同時也須自建有差異化的整合層領域特定工具、客製化評估資料集，以及自有系統的環境地圖。

在平台層，目前生態系有一些明確的選擇，比如：

LangChain 推出的 LangGraph 提供多步驟代理工作流有狀態協調（Stateful Orchestration）。
CrewAI 推出的 Flows 提供多代理協作的架構（事件驅動 Event-driven）。
Anthropic 推出的 Claude Agent SDK 具備內建權限模型及跨工作階段（Cross-session）上下文橋接的能力。
Google 的 ADK（Agent Development Kit）於今年擴展了 Hugging Face、GitHub 與 Notion 的生態系整合。
微軟的 AGT （Agent Governance Toolkit）則提供了七個核心套件的運行期安全監管工具，能鉤入主流框架的擴展點，適合金融、醫療等受監管行業的企業快速落地。

建立 AGENTS.md 規範

建立可靠及有效的 AI 代理路徑是需部屬至基礎設施層。AGENTS.md 是一個開源開放格式（Open Format），能讓工程師在程式碼庫中的規則寫入「版本控制文件」，由 Harness Engineering 在代理啟動時自動注入，包含程式碼風格要求、禁止操作清單、測試覆蓋率門檻及人類審核的操作類型。

結語

對正在制定 AI 轉型策略的企業，未來有三個核心項目值得內化。

第一，將基礎設施從「計算層」延伸到「代理協調層」。通常在購買 GPU、選擇雲端供應商、確保 API 存取雖然是必要條件，但不是充分條件。真正決定投資回報的是包裹在模型外側、負責管理上下文、工具、驗證與治理的「Harness Engineering 架構」，這層架構的品質遠比模型本身更直接地決定 AI 系統在企業環境中的可靠性。

第二，將治理建立在擴展之前。在尚未建立適當 Harness Engineering 治理框架的情況下擴展代理自主性，最終付出的代價遠遠高於一開始就建立治理基礎設施。Agent Governance Toolkit 以及 AGENTS.md 規範不是減緩創新速度的障礙，而是讓創新能夠安全地規模化的加速器。

第三，將環境工程納入數位轉型的核心。如果企業內部的 API、資料系統與業務流程對 AI 代理是難以導航的叢林，Harness Engineering 也只能發揮部分效用。真正的 AI 轉型需要企業將系統重新設計成為對自主代理可讀的環境，這是比選擇模型、購買 SaaS 工具更深層的組織轉型工程，也是決定未來競爭性的長期投資。

正如 OpenAI 在策略宣言中所描述的，AI 轉型的核心點是須建立「從基礎設施、模型到員工日常工作介面的堆疊」。那些理解「人類駕馭，AI 執行」的分工模式，並建立適當基礎設施的企業，將在 AI 競爭中擁有難以複製的結構性優勢。

Harness Engineering 不只是一個技術概念，而是企業 AI 的作業系統，也是在這個時代最重要的戰略之一。

(本文授權非營利轉載，請註明出處：CIO Taiwan)

The post Harness Engineering 奠定 AI 基礎設施 first appeared on CIO Taiwan.