Technology

正確打造生成式 AI 的基礎架構

Vendor Icon

CIO Taiwan

7月. 30, 2024

1200x630 I240660 (1)

確保以經濟效益方式交付生成式 AI 所需的大量儲存、頻寬與運算資源並非易事。本文將說明具獨創性的 IT 領導者如何因應。

文/Stan Gibson·譯/Nica


這麼一說:事實勝於雄辯。對生成式 AI 而言,堅定不移的事實,就是它會消耗非常大量的運算生命周期、資料儲存、網路頻寬、電力與空調。為回應公司要求用生成式 AI「做點什麼」,許多 CIO 啟動以雲端為基礎或本地佈署的舉措,然而許多生成式 AI 專案承諾的回報模稜兩可,執行它們的基礎架構成本卻是限定範圍,且通常高到令人難以接受。

無論是否基礎架構密集,生成式 AI 都在持續成長。據 IDC 指出,生成式 AI 工作負載從 2022 年佔整體 AI 伺服器市場 7.8%,在 2027 年會成長到 36%。儲存方面曲線類似,將從 2022 年 AI 儲存的 5.7%,到 2027 年增長到 30.5%。IDC 調查發現 2024 年全球生成式 AI 開支中約有一半用於數位基礎架構。IDC 預計針對所有型態 AI 的全球基礎架構市場(伺服器與儲存)將從 2022 年 281 億美元,到 2027 年翻倍為 570 億美元。

[ 熱門精選:得安全 AI 系統者 得天下 ]

只是處理生成式 AI 大型語言模型(LLMs)所需的基礎架構,加上電力與冷卻設備的絕對數量,很快變得難以持續。「你將耗資於高頻寬網路叢集,建置近乎 HPC(高效能運算)式的環境。」IDC 效能密集運算研究副總裁 Peter Rutten 警告。「所有企業組織都應該審慎思考投資大型 GPU 節點叢集。」Rutten 接著問道:「你的使用案例為何 ? 你是否擁有資料中心與資料科學技能組合?」

轉向小型語言模型、混合基礎架構

聰慧的 IT 領導者們意識到在生成式 AI 基礎架構上過度花費的風險,無論本地佈署或雲端都是。在仔細研究實際操作與員工能力以及雲端合約細節後,部份領導者提出能交付積極投資報酬率的策略。

想增加長期以來人手不足放射科團隊生產力的 Mozziyar Etemadi(Northwestern Medicine 先進技術醫學總監),採用為加速 X 光影像判讀所設計的生成式 AI 專案。但 Northwestern Medicine 沒有打造運算、儲存與網路基礎架構處理大量 LLM,而是以小型語言模型(SLMs)處理,減縮基礎架構需求。

Etemadi 從以雲端為基礎的服務開始實驗,發現它們笨重又昂貴。「我嘗試過它們,發現無法讓『生成式 AI』在有利成本範疇運作。」這令 Etemadi 意識到他必帶頭投入工程任務。

Etemadi 帶領十多個醫療技術人員的團隊,建置了帶有八顆 NVIDIA H100 Tensor Core GPUs 的 Dell PowerEdge XE9680 伺服器四節點叢集,與 NVIDIA Quantum-2 InfiniBand 網路連結。在主機代管設備中運作的叢集,匯入多重模式的資料,包括影像、文字與影片,用以訓練 SLM 如何判讀 X 光影像。此舉產生的應用最近取得專利,能對相片產生高度精準的詮釋,再餵給人機迴圈(HITL)進行最後判斷。

Etemadi 表示,「雖是多重模式,但精巧,參數量約三億。相較之下,ChatGPT 參數量約一兆。」他希望以初始 X 光應用為基礎,能解讀 CT 掃描、MCI 影像與結腸鏡檢查。

[ 熱門精選:真實世界裡生成式 AI 的考察 ]

他估計相同工作使用以雲端為基礎的服務,將耗費執行 Dell 叢集的兩倍成本之多。「在雲端,你依小時付費而且是較高價格。」相比之下,他認為「美國幾乎所有醫院都買得起四台電腦,這完全在預算內。」

就資料儲存方面,Northwestern Medicine 在暫時與永久性儲存皆同時使用雲端與本地佈署基礎架構。 「關鍵在於選對工具執行任務。就儲存來說,其實沒有通用的選擇。」Etemadi 補充說道,「一般來說,儲存通常是雲端費用最高的部份。」

Northwestern Medicine 的本地佈署,混合了 Dell NAS、SAN、安全與超融合基礎架構設備。「我們檢視需要多少資料與需要多久。多數情況下,雲端絕對不便宜。」Etemadi 表示。

GPU 叢集成本計算

面對類似挑戰,Papercup Technologies 採取不同的處理方式,這是一間開發以生成式 AI 為基礎的語言翻譯與配音服務的英國公司。Papercup 客戶使用該公司服務,產生商業影片上的多種語言,產生令人信服的旁白以便讓自身產品吸引力全球化。任務完成前,人在迴圈(HITL)檢查輸出結果的準確度與文化相關性。LLM 工作始於倫敦辦公大樓,但很快就因為生成式 AI 基礎架構需求快速成長而無法滿足。

「一開始購買自有硬體確實相當具有成本效益,我們擁有四 GPU 叢集。」Papercup 工程部主管 Doniyor Ulmasov 表示,他估計與雲端為基礎服務相較之下,初始節省約 60% 至 70%。「但當我們添加另外六台機器,電力與冷卻需求在這樣的建築裡無法滿足。我們付錢買機器但無法使用,因為無法冷卻它們。」他如此詳述。

[ 加入 CIO Taiwan 官方 LINE Facebook ,與全球 CIO 同步獲取精華見解 ]

而電力與空調並非唯一阻礙。「伺服器級的設備需要網路設定與遠端管理這類知識。我們花費許多人力資源維護系統,所以並沒有真正節省下來。」他補充道。

因此,Papercup 決定雲端有其必要。該公司如今使用 Amazon Web Services(AWS)為客戶處理翻譯與配音的工作負載,再由 HITL 審查。簡單訓練工作負載依然在混用 NVIDIA A100 Tensor Core、GeForce RTX 4090 與 GeForce RTX 2080Ti 硬體的伺服器在本地佈署運作。較資源密集的訓練則在 Google Cloud Platform 代管的叢集上處理。Papercup 正以現有服務為基礎,探索為運動賽事與電影進行語言翻譯與配音,Ulmasov 表示。

對 Papercup 來說,基礎架構的決定取決於地理位置,也取決於技術需求。「若我們在『倫敦』都會區外擁有大型倉庫,就有充份的理由『讓工作保持在本地佈署。』但我們處於市中心。若空間、電力與冷卻不是問題,我依然會考慮本地佈署。」Ulmasov 表示。

超越 GPUs

到目前為止,以 GPU 為基礎的叢集絕對比 CPU 為基礎的設定還快,這很重要。Etemadi 與 Ulmasov 都認為,使用 CPU 為基礎的系統會引發難以忍受的延遲,讓 HITL 的專家乾等。但 GPUs 如今的高耗能需求只會增加,IDC 的 Rutten 如此表示。

「NVIDIA 現行 GPU 有 700 瓦功率耗能,下一個 GPU 會加倍,就像空間加熱器,我不認為這個問題能輕鬆解決。」分析師表示。GPUs 在生成式 AI 與 AI 其他型式的統治地位,可能會受到新興 AI 協同處理器代管的威脅,最終可能遭受量子運算的挑戰。

「GPU 的發明是為了圖形處理,所以並未 AI 最佳化。我們將逐漸看到 AI 專屬的硬體。」前 CIO 與 CTO,現為技術顧問的 Claus Torp Jensen 如此預測。雖然他預計 GPUs 不會消失,但認為未來 AI 演算法,無論本地佈署或是在雲端,將混合 CPUs、GPUs 與 AI 協同處理器處理。

[ 熱門精選:AI 治理與網路安全認證 ]

阻礙無限制電力消耗的另一個因子就是永續性。許多企業組織採取永續性目標,對電力渴求的 AI 演算法會譠這個目標難以達成。Rutten 表示,使用 SLMs、以 ARM 為基礎的 CPU,以及主張零排放政策或以可再生能源發電運作的雲端供應商,全是永續性為先時值得探索的方式。

需要大規模工作負載的實作,使用以現場可程式化閘道陣列(FPGAs)建置的微處理器,或特殊應用積體電路(ASICs),都是值得考慮的選擇。「他們更有效率,功能也更強大。你必須先對它們進行硬體編碼,會花點時間與精力,但與 GPUs 相比顯然可以節省成本。」Rutten 表示。

在執行明顯更快但功耗低且產生較少熱能的處理器出現前,GPU 是生成式 AI 無可避免的既定選項,執行具成本效益的生成式 AI 實作,會需要獨創性與努力不懈。但正如 Etemadi 與 Ulmasov 體現的實例,利用小型語言模型與巧妙混用本地佈署與雲端為基礎的服務,並非無法克服挑戰。


(本文授權非營利轉載,請註明出處:CIO Taiwan

The post 正確打造生成式 AI 的基礎架構 first appeared on CIO Taiwan.

內容來源

author avatar
CIO Taiwan
IDG集團的媒體品牌CIO於1987年創刊,為國際性最權威的IT管理專業雜誌。擁有全球最頂尖的IT管理專家作者群,因此能寫出最權威的分析評論、最先進的IT管理觀念。
donate plan

充電計畫

喜歡這篇文章嗎?歡迎幫作者充電,好內容值得更多人支持