期待與真相：真實世界裡生成式 AI 的考察

藉著參考實務累積的經驗，現在各組織更明瞭必須謹慎行事以確保生成式 AI 確實帶來好處，而不是只讓人失望。

文／Mary Branscombe·譯／高忠義

生成式 AI 是否重要到讓你必須購買專用的鍵盤或聘用新的人工智慧長呢？或者只是大家過度亢奮，這種投資並不能為組織帶來多大的回報？生成式 AI 帶領我們從單一功用的機械學習模型 (ML) 轉向據稱符合多重領域用途的平台，但是你仍然需要謹慎驗證那些工具是否適合於你想要解決的問題，而且你的使用者知道如何有效地運用 AI 。

[ 熱門精選：生成式 AI 企業應用與導入現況 ]

不論預測結果有多樂觀，仍然提醒不要匆促啟用。許多的研究顯示很多人經常使用 AI 同時處理個人事務與工作事務，根據近期由 PageDuty 進行的一項研究顯示，財星一千大企業中有 98% 的公司試用生成式 AI 。但現在各組織在考慮正式部署時會用更謹慎的方法。

舉例來說，依據 Foundry 的 2023 年 AI 優先方案調查，有四分之一的 IT 決策者正試行 AI 科技方案，但只有 20% 正式部署。資深主管們在 CCS Insight 的員工科技與勞力轉型調查也給了類似的回應：在 2023 年底，18% 已準備為全體員工部署生成式 AI ，而有 22% 計畫部署。「人們預期今年會看到這件事的實現，」CCS Insight 的企業研究長 Bola Rotibi 如此表示。但如果就 IT 團隊來說，例如在英特爾 2023 年 ML Insider 調查中受訪的 AI 專業人士，則顯示只有 10% 的組織會在 2023 年將 AI 解決方案投入生產。

準備好啟動

若要列出哪些組織尚未發布他們的生成式 AI 投資、試行方案與計畫，可能不會花多少時間，但是討論 AI 的生產力效益或投資報酬率的具體細節的組織就不多見了。但這種情況除了因為缺少成功經驗之外，也可能是為了要保護競爭優勢而保密。

舉例來說，許多 Google 的客戶，例如高盛、洲際酒店集團、與賓士汽車、都在近期的 Google 次世代雲端會議上討論用 Gemini 生成式 AI 工具建構新方案，但他們都還在試行階段，而未正式部署。

當然試行方案可能在實驗功能外創造其他價值。麥肯錫報告其工業設計團隊運用以大型語言模型驅動的使用者研究摘要功能，以及用 AI 生成影像進行觀念構成與實驗的工作，這些做法減少產品開發循環的時間可能高達 70% 。但它也強調那些設計團隊需要對生成式 AI 的產出結果進行重要的評估與審慎操作，才能得出務實且可真正生產的產品，而他們的建議還是在於制訂政策、教育員工，並執行試行機制。

與此類似的，亞詩蘭黛也從試行方案中得到價值，像是採用內部的聊天機器人，對其進行顧客觀點、行為研究與市場趨勢的訓練，以獲得有關該行業可更廣泛適用的分析功能，但他們仍努力找出實現這些價值的方法。

[ 加入 CIO Taiwan 官方 LINE 與 Facebook ，與全球 CIO 同步獲取精華見解 ]

如果將生成式 AI 工具區別為特定任務與具體角色的垂直應用，以及可廣泛適用於知識型工作者的通用工具，組織似乎可以更快地採用後面這種工具。

如同預期的，微軟聲稱它自己的員工從它投入市場的生成式 AI 工具中得到顯著的價值，像是適用於微軟 365 的 Copilot。「我們的使用者最多一個月能節省十個小時，」微軟現代工作與商業應用企業副總裁 Jared Spataro 如此表示，而 70% 的 Copilot 使用者表示那項工具提升了他們的生產力，速度提升了三分之一。

像特斯拉那樣的顧客也表示該公司的早期採用者得到類似的時間節省效益，然而，Forrester 負責微軟 365 Copilot 工具的首席分析師 JP Gownder 表示更常見的情況是一個月節省五個小時。另一個問題則是這種效益能夠在企業內部多廣泛地實現。舉例來說，電通這樣的日本大型廣告代理商，對微軟 365 的 Copilot 非常熱切，宣稱員工每天在工作上可節省最高達到三十分鐘的時間。

目前看來，Copilot 的採用確實可能產生他所說的錢包效益，而這也符合麥肯錫報導在某些特定部門中大部分生成式 AI 部署個案的成果：市場與銷售、服務與支援，以及產品開發等部門。

接受麥肯錫訪調的 Telcos 展現出與其他行業同樣夾雜著樂觀與節制的心態，就像其他行業那樣，多數受訪者一方面宣稱已經利用生成式 AI 節省成本，而且客服中心人員的生產力也獲得提昇，而因為個人化的內容，行銷的轉換率也有改善，而且幾週就能部署新的模型，而不是幾個月才推出。但另一方面，也因此造成外部客戶服務或網路映射基礎設施減少。

有機成長

微軟一些最初的測試客戶已經由試行方案轉向更廣泛的部署。有家全球性的法律事務所 Clifford Chance 是微軟 365 Copilot 最初的試用者之一，而該事務所現在為全體員工部署這項工具，同時也使用客製的 AI 工具，Clifford Chance Assist，那是建立在 Azure OpenAI 的基礎之上。該事務所很謹慎地表示生成式 AI 的任何法律產出都會明確地加以標示，並且由一位有堅實能力的律師加以檢查，但同樣的，這項工具的主要好處在於提升知識型工作者的生產力：同步筆錄、會議摘要，以及由這些會議摘要彙整出的默示承諾與合意的待辦工作。

「這是個好到難以置信的科技，它可以提升生產力、節省時間，而且成為人類即優秀的助手，」Gownder 如此表示。「但那不同於我們過去四十年推出的運算工具。如果你想要獲得真正的成功，那樣的工具有你需要的特性。」

他提供一串的問題清單協助你的組織評估自己的 AI 商數：
·你對於 AI 與提示工程運作的方式有無基本認知？
·你是否已得到訓練？
·你有沒有自信具備學習這些事物的能力？
·你有無動力參與其中？
·你是否瞭解什麼部分可能出錯，以及如何以合乎倫理的方式利用這些事物？

另一個議題則是如何讓員工願意使 AI 工具成為他們工作流程中的一環。「有些人確實對 Copilot 充滿信心，而表示他們利用這項工具的經驗非常棒，」Gownder 如此表示。但另外一些員工則覺得那為他們帶來一些小麻煩，雖然有半數的員工覺得生產利獲得提升，但另外半數的員工則不使用那樣的工具。此種情況的原因常是因為企業對訓練的投資呈現數量級的短缺。

正評估微軟 365 Copilot 的大公司中幾乎每一家都只規劃提供員工一小時的訓練，而不是他建議的十小時訓練。「這是核心技能，而你需要為此投資做訓練，因為若不這樣做，你終究會被反噬」。這樣的訓練對於生成式 AI 的部署要獲得成功，以及從商業軟體（從 Photoshop 到 Zoom）間日益普及的生成式 AI 的特長與自然語言界面中得到最大效益來說，都是很關鍵的。

非常具體的成功案例

在垂直應用裡生成式 AI 有些成功的故事，像是文件工程，在此 Docugami 提供客製化小型語言模型，能從客戶自有的複雜文件中建構知識圖，而且可同時用於生成文件與摘取資料。

商業保險也是個垂直應用，而 Docugami 的執行長 Jean Paoli 表示這個行業也是很早期的採用者，包括估價書、保險憑證，以及有更新日期、違約罰則與責任等內容的保單文件。那是描述個別客戶風險與整個保險組合風險的關鍵資訊，需要用在產生新的報價，或者向再保險公司呈現保險組合情況，而難以用人工摘取並整合。「這些是可以為你節省幾百萬元的真實情境，而不只是省下幾百塊，」Paoli 如此表示。

就像其他組織那樣，Docugami 的一些大客戶在 2023 年設立了生成式 AI 委員會並開始試行方案，但有許多組織已從探索階段前進到採用階段，至少從六個月前就開始生產上的部署，而且也得到真實的回報，業務長 Alan Yates 如此表示。在生命科學界，有個客戶使用平台處理臨床實驗文件、遵循與數據探索。他說，「他們以前需要花六個月時間進行這些工作，而現在只需要一週。」

編碼是另一個垂直應用，愈來愈多事業在生產過程中採用生成式 AI ，無論是 GitHub Copilot，還是 Google 新的 Gemini Code Assist、AWS CodeWhisperer 或者不限定開發人員使用的工具，像是 ChatGPT。

[ 推薦閱讀：隱私 AI 發展應受重視 ]

然而，生產力的改善一開始可能很小。思科第一次推出 GitHub Copilot 供 6,000 位開發人員使用時，他們當時只接受了 19% 生成的編碼。現在有將近半數的編碼建議都被接受了。根據 Redfin，為開發人員在一個月內節省六分鐘就足以支應部署的成本，雖然各組織可能還想追蹤其他參數，像是編碼品質。

但是生成式 AI 可能為低度編碼平台產生更大的效益，在那樣的平台裡，專業度較低的公眾開發者，更能從 AI 的協助獲益。數位保險代理商 Nsure.com 也正廣泛利用 Power Automate，而他們表示用自然語言編寫自動化流程甚至比拖拉式的介面還快。原本需要花四小時編寫然後調校的工作流程，利用專為 Power Automate 調整後的 Copilot，可以減少到將近四十分鐘，改善的幅度超過 80% 。

接著則是微軟客戶 PG&E 的親身體驗，該公司建立一個IT 服務台聊天機器人，名字是 Peggy，那是在 Power Platform 上採用低度編碼建構的 Copilot Studio 生成式 AI 工具，藉此處理 25 到 40% 員工要求，每年可節省超過一千一百萬元的成本，微軟的 Copilot AI 主要程式經理 Noa Ghersin 如此表示。而且，僅僅藉著讓 Peggy 引導員工解鎖以連線 SAP，服務台團隊一年就能省下 840 小時。

已經採用 Power Platform 進行低度編碼與機器人流程自動化的組織發現如果同時有多個工作流程備選，他們可以利用 Copilot Studio 整合協調各個流程，像是用 Cineplex 進行退票作業，而這種特點讓自動化更加強大。代理商過去即使用了自動化流程也要花十五分鐘才能處理退票作業，現在只需要 30 到 60 秒。

計算成本

如果是每月訂購，費用看起來可能很昂貴，但是隨選訂閱生成式 AI 的成本很難精確計算，這也限制了企業部署的決定。個別生成式 AI 工作的成本可能不高，但即使小小的成本累積起來也很可觀。

「關於生成式 AI ，成本是你必須考量的主要因素，無論你要找第三方供應商協助，或內部自己做，」領英的員工軟體首席工程師 Juan Bottaro 如此表示。他的團隊最近推出一項新的生成式 AI 功能，讓優質用戶可以利用個人的檔案得到是否適合某項招募工作的建議，並瞭解哪些技能或資格可能提升你獲聘的機會。

「有好幾次，我們原本想要加快速度，因為我們覺得經驗已經比較成熟了，但是我們卻必須等待，因為沒有足夠的產能，也沒有可用的圖形處理器，」他這麼說。新工作流程的成本很難預測，而你關於使用量的任何推定都可能是錯誤的，因為人們用這項新流程進行互動的方式可能有重大差異，他如此補充。相對的，可以只對小部分使用者部署，再由那些使用者的行為做更廣泛的推論。

一開始，你可能看到成本節省的效果，因為原型設計的速度急遽改善，改善的數字甚至可能欺騙了你。訓練並測試一個分類器以瞭解使用者的意圖，通常就要花上一到兩個月，但他的團隊只要幾天就可以完成他們想要的原型。「一週之內，你就可以看到一個像是成品的東西，」Bottaro 如此表示。「我們試著在一到兩個月內建立某種看起來很像你今天看到的優質體驗」。

但是要讓某種達到你 80% 想望的東西轉變成你需要部署的品質，通常需要更久的時間。在這樣的情況，還需要四個月。CCS Insight 的 Rotibi 表示，現在要從生成式 AI 試行方案在技術或成本控制上的失敗例子得到經驗尚為時過早，但使用者可以考慮透過 API 管理閘道用配額與限制對外需求費率的方法控管雲端 AI 服務使用成本。大多數組織採用的方法是限制生成式 AI 的使用權，只開放給特定角色、個人或團隊，因為費用很高。「如果你想要讓整個組織都採用，成本非常高，」她如此表示。

你的衡量指標是什麼？

Gownder 表示，要衡量生成式 AI 部署的成效，使用者自己報的生產力改善未必是最佳的指標，而成功的部署甚至可能改變指標的重要性。「如果你催促第一階的支援能量全部都投入生成式 AI，而你確實有非常好的自然語言，那麼成功率會提升，因此涉及到人類的事情確實是更難的問題，」他這麼說。「這更像一種冗長而辛苦的過程，而該衡量的指標應該是顧客滿意度，而不是反映需求的時數」。

光是要衡量生成式 AI 結果的品質與準確度就很難了，因為那種結果往往是不確定的；同樣的輸入可能每次都讓你得到不同的結果。那未必是一種瑕疵，如果差異是正確而且一致的，但那確實讓人更難評量，除非你已經有適當的工具可以比較每次的結果，需要建立標竿數據才能評量績效。
「關於什麼是對的，什麼是錯的定義愈來愈主觀，也更難衡量，」Bottaro 如此表示。

為了評量工具，團隊建立了共用的指南以定義好的回應像什麼樣子。與此類似的，對於適用在 Azure 平台上，而由 Ask Learn API 驅動的 Copilot，微軟建立了一項「黃金資料集」以提供具代表性，而且有註解的問答集，還有基礎事實的參考資料，藉此測試回答的品質，而且也顯示答案的衡量指標。

Rotibi 提到，組織時常感興趣在是否賺更多錢，而不是部署生成式 AI 來省錢。「我可以將這點看作我的工作團隊的生產力總量與效益的改善，」她如此表示。「但我該怎麼做才能讓整個組織賺更多錢？」

Gownder 補充，也有壓力要求展現真正投資報酬率的效益，但他警告我們還不能那樣做。也許適用於具體角色的工具，像是供銷售人員使用的 Copilot 比較能連結到轉換率、交易流程或者解決客互服務需求平均時間等指標，但他警告，如果有許多的變項，不應率然地推定這之間的因果關係。

縱使如此，較難量化的效益仍然可能頗具價值，例如總體擁有成本。Gownder 表示，「我們可以說提供員工 Copilot 不僅可以節省他們的時間，甚至可以直接移除他們原本負擔的乏味任務」。我們知道員工體驗上的效益往往可以降低人事耗損，讓人更有動力也更積極投入。從心理層面來說，那有很多正面的生產力。

然而一頭熱地投入生成式 AI 與大型語言模型會讓事情更複雜化，Bottaro 表示：「我們面對的問題之一在於『讓我們找出方法來衡量價值，因為我真的想要建立這種新系統』那就是要人用錯誤的方法繞過去」。他建議我們回到你原先用來衡量任何產品的客觀功能成效指標，並且抱持開放態度接受某些使用個案的可能性，也就是原有的 AI 效果已經夠好了。

生成式 AI 是否正走向失敗？

什麼情況才適合採用生成式 AI，如何阻止員工將不正確的答案當做無可反駁的真相，以及訓練資料中可能含有侵害著作權與不適當的資料，這些確實是該提出的問題。但是負面新聞事件與製造恐慌的謠言可能誇大了風險，並忽略了如果用負責的態度採用生成式 AI，你已經可以做而真正有用的事。

報導中的生成式 AI 失敗事件時常是有關使用者挑戰界線的不負責任行為，或組織疏忽未啟用以 AI 驅動的工具以做好防護，因為那是那些模型本身固有的問題。讓人困窘地，在 2023 年時，OpenAI 自己的一億七千五百萬元創投基金就是用假身分持有，而事後暴露那就只是另一個例子顯現有人用 AI 帶動的工具以幫助他們進行自古以來都有的商業詐欺。

生成式 AI 的其他疑慮則涉及深偽或較簡單的數位偽造技術，有關訓練集中有些資料可能具有著作權潛在法律風險，以及使用生成式 AI 處理敏感或機密資料時的法遵問題。

就像任何雲端模型那樣，共同負責的主張是關鍵。 AI 供應者需要提供可安全使用的模型與服務，但採用 AI 服務的組織必須自己讀取模型說明以及透明度指示，而且要測試自己是否適當地約束使用者的用法。

「有些組織花太多錢讓顧客使用聊天機器人，最後發現顧客得到的答案並不一致，」Gownder 如此表示。但通常那不表示要放棄整個專案。他補充「也許在對客戶啟用之前，要先拉回來，試著釐清什麼情況該退出」。

在生成式 AI 的採用過程，組織的成熟度跟 AI 的成熟度傾向於呈現正相關，而採用 AI 的公司中大部分都表示那有助於他們做其他的投資。「他們正擴大在預測性 AI 、電腦視覺與機械學習等領域投資，」Gownder 如此表示。正自行建構 AI 工具的事業也正運東多種科技並將生成式 AI 當作要素之一，而非單一的解決方案。

Bottaro 提到，對於生成式 AI 的狂熱，最好的解方就是既將它看作開創性的科技，也同時將它當做只是工具箱裡的一項工具。

(本文授權非營利轉載，請註明出處：CIO Taiwan)

The post 期待與真相：真實世界裡生成式 AI 的考察 first appeared on CIO Taiwan.

內容來源