科技

OpenAI 模型 o3 評測起爭議 業界籲 AI 基準測試需揭露真實運算條件

Vendor Icon

商傳媒

4 月. 21, 2025


商傳媒|記者責任編輯/綜合外電報導

科技媒體《TechCrunch》最新報導,人工智慧領導企業 OpenAI 推出的 o3 模型,遭爆實際表現與測試數據不一致的爭議。根據外部研究機構 Epoch AI 公布第三方測試結果顯示,OpenAI 去年底宣稱,o3 模型在高難度數學測試集 FrontierMath 上的正確率達 25%,結果實際表現僅約 10%,遠低於當初直播中宣傳的成績,引發產業對其測試透明度與評估標準的質疑。

OpenAI 技術人員回應表示,當時展示的是以「高運算設定與內部強化腳本支援」的版本,而近期公開推出的 o3 模型則為專為「實用性與運行效率優化」的產品版本,因此在標準測試上表現有所差異。

根據 Epoch AI 近日公布的測試結果,o3 模型在更新版本 FrontierMath-2025 測試集的答對率約 10%,與 OpenAI 去年直播中聲稱的「超過 25%」相距甚遠。研究團隊強調,該差異可能來自於:

  • OpenAI 當時使用較小範圍(180 題)舊版測試集
  • 測試使用更高階、具高推論能力的模型架構
  • 內部運行環境使用強化運算(aggressive test-time compute)與模型腳手架(scaffold)

然而,即便如此,OpenAI 並未在最初發布成果時,明確標註上述限制,導致部分用戶、開發者對於產品真實性能產生誤解。

針對評測爭議,OpenAI 技術團隊成員 Wenda Zhou 在上週的直播中回應指出,公開的 o3 版本已做過優化以適應產品實際需求,「我們希望這個版本更快、更省資源,也更貼近真實使用情境」。Wenda Zhou 補充說明:「[o3 的公開版本] 雖非最強運算配置,但在效率、應用層面具備更好平衡,用戶不需等待數十秒才能得到答案」。

OpenAI 也指出,目前旗下 o3-mini-high 與 o4-mini 模型,在 FrontierMath 測試中的表現已優於原始 o3,且預計未來數週內將推出的 o3-pro 進階版本,應可填補此一性能落差。

實際上,這並非 AI 業界首次爆發基準測試爭議。例如:Meta 近期承認其部分測試數據來自尚未公開版本,馬斯克旗下 xAI 則因「誤導性基準圖表」遭批,另外,Epoch AI 也曾被質疑延後公開其與 OpenAI 的資金關係。

專家認為,隨著生成式 AI 市場競爭白熱化,企業為爭取媒體曝光與投資信心,往往選擇在最佳情況下公開模型成績,造成評測數據與實際使用體驗不一致。對於仰賴 API 或 OEM 應用 AI 模型的新創與企業來說,模型表現真實性影響決策甚鉅,因此業界呼籲:

  • AI 模型商須揭露測試設定與推論資源條件
  • 第三方基準測試機構需保持獨立性與資金透明
  • 投資人與用戶應要求「實測效能報告」而非行銷報表

author avatar
商傳媒
商傳媒是由一群在媒體界超過十年的採訪團隊,是一個提供財經、科技、智慧製造、醫療、電玩資訊為主要服務內容的金融科技網路媒體,其宗旨在於提供台灣中小企業一個產品新聞的平台,未來更朝向將台灣中小企業產品獎持續推向全世界。
donate plan

充電計畫

喜歡這篇文章嗎?歡迎幫作者充電,好內容值得更多人支持

瞭解詳情
  • 複製
  • 贊助
  • 稍後閱讀