企業生成 AI 檢索查詢
還在煩惱如何將 AI 應用導入企業嗎?本文深入淺出地介紹了 RAG(檢索增強生成)技術。RAG 結合了大型語言模型(LLM)的生成能力和外部知識庫,讓企業可以建構更精準、資料即時更新的 AI 應用,例如特定領域的 AI Chatbot。
文/王文泰
這一年多 ChatGPT 導引著 AI 發展,異常快速。企業面對這一波 AI 爆炸性發展則有點難以消化,無論是法規、個資管理、資料安全、超速發展等特性都不同以往。筆者在先前在 CIO 雜誌發表的〈企業導入生成式 AI Chat 之分析與建議〉,在發表後收到許多讀者的詢問,或是演講邀約,顯示企業對導入 AI 有強烈的需求也伴隨的許多問題,希望可以知道正確的導入的策略步驟、實作方式,以及需要的技術與資源,以避免時間、人力與金錢的浪費;另外,筆者也在 2024/7 月於台灣雲端大會上進行分享「檢索增強生成 RAG」(Retrieval-Augmented Generation);在現在這篇文章中,則針對企業導入 RAG 進行相關的規劃與實作說明。
什麼是 RAG(Retrieval-Augmented Generation)
LLM(大語言模型)可以使用自然語言處理(NLP)進行聰明 ChatBot 的應用,但可惜的是 ─ 還是有一定的比例產生了「不確定」或「幻覺」的回答;另外不同的大語言模型,因為預訓練的資料不同,產生的回答也不一樣,甚至每一次回答的結果也不同。無論是 OpenAI ChatGPT、Google Gemini(Bard)、Claude、Mistral、Llama 2/3、Grok…等,都有類似的問題。而這樣的「不穩定」,對企業內部或外部的應用是一個很大的致命傷。為此,RAG 就應孕而生。
RAG(檢索增強生成)是使用 AI LLM(大語言模型)的生成能力,結合外部的知識庫,讓使用者可以使用自然語言進行交互問答,這樣的結果會比直接使用 ChaGPT「更精準」以及「資料即時更新」的優點,很適合企業用在特定領域,經由訓練並產生 AI Chatbot(或稱為特定領域 AI 專家)。
RAG 的優點
對比直接使用 ChatGPT 等預訓練生成大語言模型(GPT LLM),RAG 有以下的優點:
1. 增加使用者的信任:
RAG 因為使用企業提供的資料進行 Embedding 處理,所以回答的產出會依照這些資料提供比較準確的答案。這一點非常重要!一旦使用者覺得這樣的工具是有實際的幫助,會開始信賴 AI 的回答,接著就會產生正循環,持續使用以及反饋改善。
2. 可以被開發者彈性控制:
開發者面對 RAG,會比直接使用 LLM(例如:ChatGPT 或 OpenAI 的 API)有更多的控制權,這些控制權來自於可控制的資料範圍產出的品質驗證。然後整合企業內部不同的系統與資訊,提供具備 AI 能力的應用系統。
3. 針對特定領域的需求訓練:
ChatGPT 等功能雖然強大,但最讓人詬病的是,有時候會一本正經的胡言亂語。透過 RAG,將資料的範圍限縮到企業餵入的資料範圍內,產生多個特定領域的 AI 專家。
4. 成本效益:
企業不需要花大筆的金錢與時間去訓練基礎的 LLM,透過 RAG 實際上是使用目前已經存在的 LLM。但是透過相關 Embedding 的技術 將企業的資料進行小數據的訓練。就可以享受到大語言模型(LLM)對企業特定領域的資料,進行分析、摘要、檢索等功能的使用。
5. 資料安全的控管:
企業分析不同資料安全等級,採取不同的 RAG 導入策略,風險低的資料可以放入雲端資料庫,風險高的則放入企業自己管理的資料庫中。
ChatGPT 與 RAG 架構比較
如圖 1 所示,ChatGPT 等 LLM 的使用(不只是 OpenAI 的 ChatGPT,也包含其他工具,如 Google Gemini(Bard)、Claude、Mistral…etc)。透過 Web 或 App 的連接,或者透過這些 LLM 企業組織提供的 API 進行程式的呼叫來整合企業的資訊系統。這些 LLM 透過大量的資料進行預訓練,提供了「廣泛」的知識能力。
而 RAG 的架構稍微複雜一點,如圖 2 所示。RAG 的架構分為兩部分:
‧第一部分:將小數據(組織的文件資料)透過 Embedding 產生向量資料。
‧第二部分:使用者輸入查詢的 Prompt,然後經過 Prompt Embedding 後,透過相似性查詢,將向量資料取出,傳給 LLM,並產生生成的回覆。
第一部分將企業的資料透過 Embedding 轉成向量資料,並儲存在向量資料庫中:(圖 3)
第二部分使用者輸入 Prompt,透過相似性搜尋,從向量資料庫中找出符合的內容,透過 Generative LLM 產出回答。(圖 4)
該理解的 RAG 架構及組成,包括了下面幾個部分:
- 企業文件提取與 Chunk:將組織內的文件切割成不同的 Chunk。
- Embedding Model:透過 Embedding model 將 Document chunk 轉化成向量資料 以及 Metadata。
- Vector Store:將產生出來的向量資料儲存在地端或是雲端。
- Generative LLM:生成式大語言模型, 透過 NLP 處理,針對使用者 Prompt 問題,進行生成回覆。
- 其他:包括網頁存取,資料庫存取等等。
RAG 商業應用
1. Google NotebookLM
2023/12月,Google 針對美國地區推出 NotebookLM,提供用戶可以將文件 upload 後,進行相關檢索查詢。(圖 5、圖 6)
2. Microsoft M365 Copilot
2023/11月,微軟推出付費版(M365 Copilot,將生成式 LLM 功能放入 Word、Powerpoint、Excel、Teams…等軟體中,除了生成式相關內容外,也可以進行相關內容的查詢。(圖 7)
RAG 的規劃與技術點
企業一旦決定要導入 RAG 這樣的 AI 系統,可以針對下面幾點進行思考與規劃:
- UI/UX:系統使用的操作介面,有些是 LLM 大語言模型公司提供內建的操作介面,有些企業可以自己開發自己的 UI/UX 介面,也有第三方已經提供標準的 AI Chatbot 介面(例如:Streamlit 或 Chainlit 等)
- API 呼叫大語言模型:若不是採用 LLM 公司提供的工具(例如:OpenAI ChatGPT、Google Gemini(Bard)),則可以透過這些 LLM 公司提供的 API 呼叫串接企業自己 開發的系統。
- Embedding Model:採取哪一個 Embedding Model 進行 split、chunk、embedding…等。
- Vector Store:Embedding 後的資料,存放的地方。目前常見的有:Chroma、Pinecone、Weaviate、Faiss,Qdrant…等。
- 生成式 LLM:使用自然語言處理(NLP)生成答案。無論是雲端的 OpenAI ChatGPT、Google Gemini(Bard)、Claude、Mistral、Grok…,或是使用 Open source LLM 如:Llama 2/3、ChatGLM、Mistral、Phi-2/3、Gemma 等。
針對第 3 項「Embedding Model」,這裡補充說明,它是 RAG 解決方案的核心,目前有許多 Embedding model,本文提供一個參考資料(圖 8),讀者可以去 Huggingface 網站上參考比較。這個表格依照不同 MTEB(Massive Text Embedding Benchmark)進行測試排行。MTEB 涵蓋 8 個嵌入任務,涵蓋總共 58 個資料集和 112 種語言。透過 MTEB 上 33 個模型的基準測試。值得注意的,不同的任務、不同的語言,排名分數不盡相同。選擇 Embedding Model 時,需要注意 RAG 的使用情境。
Embedding 通常可以用作:
- (a)Search(相關性排序查詢)
- (b)Clustering(相似性群組化)
- (c)Recommendations(相關字串推薦)
- (d)Anomaly detection(找出相關性很小的異常值)
- (e)Diversity measurement(分析相似度分布)
- (f)Classification(字串依照相似進行標籤分類)
針對第 4 項「Vector Store」,這裡補充說明,它是企業資料向量化後放置的地方。這和企業的資料安全 Policy 有關係。這裡列出常用的向量資料庫方案(圖 9)。
針對第 5 項「生成式 LLM」,這裡也補充說明。經過一年,大家普遍比較熟悉這些大語言模型。本文這裡要提醒的是,大語言模型不只有 ChatGPT(GPT),還有其他業者在急起直追。另外,除了在雲端封閉的這些大語言模型外,現在也有一個 Open Source 的 LLM 可以參考使用(圖 10)。
RAG 實作
本文前面已經說明了 RAG 規劃時需要考慮的幾個技術點,接下來,針對 RAG 實作,規劃幾個方案如表 1,供讀者參考。這些實作的方案,本文作者自己都實際完成開發/測試驗證。
1. GPTs 的 RAG
OpenAI 已經在 2023/11 月提供了 RAG 方案,允許使用者將企業的資料進行處理,並使用 OpenAI 的網站或 App 進行查詢(圖 11)。
筆者將「The state of AI report 2023」的檔案轉為 PDF,並 upload 處理後(https://lihi1.me/A9zpq 或 https://docs.google.com/presentation/d/156WpBF_rGvf4Ecg19oM1fyR51g4FAmHV3Zs0WLukrLQ/edit#slide=id.g24daeb7f4f0_0_3373),詢問 GPTs,實作得到的回覆(圖 12),無論是正確性,答案結構,參考文件等,都比直接詢問 ChatGPT 好得多。
2. 客製化系統介面,使用 API 呼叫 LLM
如果企業希望有自己的系統操作介面,或是 將原來的資訊系統增加 AI 生成的功能,但又希望生成的答案是在資料範圍(Data Scope)內,則可以採用這個方法。企業將文件上載進行 Embedding 處理(圖 13 架構,圖 14 系統)。然後將企業的資訊系統進行串接,這裡的串接包括了 RAG API,Embedding Prompt & 生成式 LLM 的答案生成(圖 15 為架構,圖 16 為筆者資訊系統 實作的詢問與 RAG 回覆)。
3. 企業文件 Index & Local 儲存 & 資訊系統串接
上面的方式,企業的文件資料是儲存在雲端,不是放置在企業本地,如果資料比較敏感,有資料安全上的考慮,上面的方式就不合適。這時候,就可以參考此一方式。 首先,企業將相關文件進行 Embedding 向量化 & Index(這裡的資料為網路上投影機的範例資料),並儲存在本地(圖 17 架構,圖 18 向量化/Index 檔案),這裡採用的是 LlamaIndex(GPTIndex)的方案,有興趣的讀者可以參考(https://github.com/run-llama/llama_index)。然後串接資訊系統讀取這些文件的向量資料庫 & Index,並透過生成式 LLM 生成回覆(圖 19 架構,圖 20 筆者系統實作結果)。
4. 企業文件 Embedding & 雲端儲存(Pinecone)& 資訊系統串接
有些企業已經有了雲端的向量資料庫,為了統一管理 & 全球性系統的存取,則可以考慮使用這個方式。這個方案是使用 Langchain(https://github.com/langchain-ai/langchain)去串接不同的技術,包括大語言模型,Embedding model,向量資料庫…等,加上企業實際運作的資訊系統包含很多流程的串接,這裡可以透過 Flowise AI 進行開發與控管(https://github.com/FlowiseAI/Flowise)(圖 21 架構,圖 22 Flowise AI 實作畫面)。這個展示,企業可以上傳 TXT 與 PDF 檔案,經過 OpenAI Embedding 處理後,將資料儲存在 Pinecone Vector Store。並透過 Langchain Retrieval QA Chain 串接 OpenAI ChatGPT 進行回答生成。
5. Local LLM 與 企業資訊系統串接,並處理企業文件 Embedding(Faiss Vector Store)
將 LLM 安裝在地端外,也同時增加 RAG 的功能,舊式將企業的文件資料 Embedding,並儲存在企業可以控管的地方。圖 23 為系統架構。圖 24 為管理者系統介面,可以將文件 upload 並進行 Embedding&向量資料的儲存。
結語
1970 年 MIT 成功開發 email 系統,1973 年 ARPA(後來的 Internet)從美國連接英國,挪威成為國際互通的網路。1984 年美國國防部將 TCP/IP 作為電腦網路的標準。1988 年 WAIS(Wide Area Information Server)廣域英文全文檢索在圖書館進行檢索查詢。1990 年Tim Berners-Lee 發明了第一個Hypertext Transfer Protocol(HTTP)資料查閱系統,1993 年視窗介面的 Mosaic 瀏覽器推出。1994 年台灣學術網路(TANet)專案」廣域網路資訊源之文字檢索」(王文泰,范錚強教授,曾健民,蘇建益等人針對中文斷詞與英文斷詞不同做法進行研究)搭配中研院的中文詞庫(簡立峰老師時任中研院提供中文詞庫與協助,簡老師後來擔任 Google台灣區總經理),開發出中文版的 WAIS(CWAIS)系統,並第一次運用在 當年」國際資訊管理學術研討會」,提供 WWW base 即時線上中英文雙語全文檢索。
2003 年 Bengio 提出神經語言模型,根據單詞上下文預測下一個單詞。2013 年 Word2Vec 發表。2017 年 Transformer 論文橫空出世,改變了整個 AI 發展的領域。 2018 年 OpenAI GPT-1 發表,Google 發表 BERT。2022 年 11 月 OpenAI 推出 ChatGPT(GPT3)引爆生成式 AI 的應用。這些 AI 的發展,包含了 Embedding 的研究,這些 Embedding 的技術,可以更好的擷取單詞與進行檢索,另外也擴及到文字的語義。至此,「查詢檢索」相關的發展,進入 AI 驅動的時代。
筆者經歷了工作站、PC、Internet、TANet、WAIS/CWAIS、智慧型手機,進行資訊查詢與檢索,到 AI 時代的演進發展,「RAG」很適合作為企業評估與導入進行查詢檢索的應用需求,提供給企業與學界先進們參考。
(本文授權非營利轉載,請註明出處:CIO Taiwan)