科技

AI Agent表現不如預期 新研究揭不到5%任務能獨力完成

Vendor Icon

商傳媒

6月. 17, 2026


商傳媒|責任編輯/綜合外電報導

一份由數據標註公司 Scale AI 與 AI安全中心共同發布的最新研究指出,目前最先進的 AI Agent(人工智慧代理)在獨立完成真實世界數位工作任務方面的成功率低於 5%。這項名為 Remote Labor Index(RLI)的基準測試,旨在評估 AI Agent 是否能像人類專業工作者一樣,從頭到尾可靠地完成有償任務,並達到客戶要求的水準。

RLI 的任務來源涵蓋 Upwork 等自由工作者平台,橫跨影片剪輯、標誌與傳單設計、建築、資料分析、珠寶設計及遊戲開發等 23 個不同領域。評估人員會將 AI 生成的成果與人類產出的成果進行比較,並判斷客戶是否願意為此付費。

根據研究數據,RLI 於 2025 年底推出時,表現最佳的 AI Agent 僅能將 2.5% 的專案自動化至專業水準。截至 2026 年中旬,此成功率變化不大,仍在 5% 以下。目前排名最高的 AI Agent 為透過 CoWork 平台運作的 claude-opus-4-6,成功率約為 4.17%。研究發現,AI Agent 的低自動化率並非由於其產出品質差,而是無法可靠地完成端到端的任務。

Scale AI 資安與政策研究主管 Udari Madhushani Sehwag 指出,AI Agent 的關鍵瓶頸在於可靠性。她表示,Agent 可以完成任務中的部分環節,但大部分情況下無法獨立可靠地完成整個任務。她提到,AI Agent 仍存在三大能力缺口:理解任務簡報、完成所有組成部分,以及將這些部分組合成一個連貫的整體。Sehwag 預計 AI Agent 的能力不會快速提升,並強調這與 2025 年底以來的觀察一致。

儘管有這些限制,根據 Salesforce 對 200 位人力資源長(CHRO)的調查,有高達 89% 的受訪者相信 AI Agent 將有助於重新分配員工職責,並預期約 23% 的員工將因此技術而重新部署。然而,Sehwag 建議組織應基於現有證明來制定 AI Agent 決策,而非過度依賴對其未來能力的預測。她強調,AI Agent 應被視為「協作工具(copilot)」,協助人類更有效率地完成任務,而非取代人類來實現完全自動化。目前,AI Agent 的最佳用途仍是「增強輔助(augmentation)」,而非「自動化(automation)」,且在客戶端流程中,人類監督在每個階段都至關重要。RLI 的數據為企業在人力規劃上提供了實質的參考,幫助組織更理性地看待 AI Agent 的實際能力。


author avatar
商傳媒
商傳媒是由一群在媒體界超過十年的採訪團隊,是一個提供財經、科技、智慧製造、醫療、電玩資訊為主要服務內容的金融科技網路媒體,其宗旨在於提供台灣中小企業一個產品新聞的平台,未來更朝向將台灣中小企業產品獎持續推向全世界。
donate plan

充電計畫

喜歡這篇文章嗎?歡迎幫作者充電,好內容值得更多人支持

瞭解詳情