◎由於某些文章的內容在 Blog 裡面較不好呈現,請此會將連結導到 notion 的頁面上。
完整安裝流程與技術細節請參考文章:
https://hsuanwei.notion.site/AI-19fde4d95a6780088945ed0a46252014
在 AI 技術飛速發展的今天,開源 LLMs(大型語言模型)為我們提供了前所未有的機會,讓企業與個人都能建立 本地端 AI 知識庫,有效管理專業知識,並優化資訊檢索與應用流程。
為什麼 AI 知識庫是企業與個人的最佳 AI 入門應用?
知識庫在企業內部的應用場景廣泛,例如:
◼︎ 員工訓練與技術支援
◼︎ 內部文件檢索與問答
◼︎ 自動化客服與企業 FAQ 系統
◼︎ 業務文件與專案知識管理
對個人來說,則可用於:
◼︎ 個人學習筆記與研究資料整理
◼︎ 專業領域(如攝影、程式設計)的知識累積
◼︎ AI 助手,協助快速檢索與整理資訊
相較於傳統的關鍵字搜尋,結合 RAG 技術(檢索增強生成)與 AI 代理(AI Agent)的知識庫,能提供更直覺的 對話式資訊檢索,減少手動篩選文件的時間。
如何打造本地 AI 知識庫?
在這篇文章中,我分享了如何透過 Ollama + Dify 建立自己的 AI 知識庫,並記錄了安裝過程與應用測試結果。
◼︎ Ollama:在本機端運行開源 LLM,如 Mistral 7B、Deepseek 8B、Qwen
◼︎ Dify:提供簡潔的 AI 應用框架,輕鬆管理 LLM 與知識庫
文章內含完整安裝指南(Mac 環境),包含:
◼︎ Ollama 安裝與測試(Homebrew + Docker)
◼︎ Dify 設定、容器啟動與 HTTPS 配置
◼︎ AI 知識庫應用場景與企業應用優勢分析
AI 知識庫不僅是 企業 AI 化的最佳切入點,也是個人能夠實際應用 AI 技術的良
好實驗場域。如果你正在思考如何開始使用 AI,或是希望在企業內導入 AI,這是一個很值得探索的方向!
近日 OpenAI 推出了 Deep Research,雖然暫時只提供給每月支付兩百美金的 Pro 用戶,但很多人試用後都稱讚這個 Agent AI 真的很好厲害(Deep Research 是什麼?實測介紹 ChatGPT 深度研究新功能),而除了 OpenAI 推出這個服務之外,Hugging Face 也重現了一個基礎版的類似智慧代理架構,(Hugging Face挑戰OpenAI Deep Research,24小時打造開源智慧代理系統),有興趣的人可以點擊這裡測試使用。
這個自動代理 AI 的運作原理,主要運作是分為幾個步驟:首先會將使用者輸入問題進行類型跟關鍵字拆解,然後進行相關資料查詢。接者則是透過網路搜尋的結果進行不同來源的比對,這其實也是部分資料提示工程師提升 LLMs 精準度的作業方式之一。然後會將這些資料進行過濾篩選跟提取,最後產出結構化的報告。因此它結合了自動代理(AI Agent)、多步推理 (Chain of Thought, CoT),以及檢索增強生成 (Retrieval-Augmented Generation, RAG)三種核心技術。
而在 OpenAI Deep Research 服務推出之前,Google 的 NotebookLM 也提供了類似的應用場景。NotebookLM 也包含了資訊整合跟分析,但需要使用者自行提供資訊的來源。同時它也有自動化研究流程,系統會預設一些提示詞,導引使用者減少人工介入並提升使用效能。我認為 NotebookLM 適合彙整已有明確資料來源的項目,而 Deep Research 則適合探訪一個我們未知的主題,如我下圖所顯示的。
我的使用範例是要求:「以鑽石與氮化硼切削工具的市場專家,幫我搜尋網際網路上面近三年的市場調查分析,如果以全球市場來看,有哪些區域的廠商對這樣的產品有需求。同時以台灣的製造商,哪些區域適合我們去拓展市場。請給我市場分析的來源跟數據相關資料,並提出為何適合台灣製造商開拓的原因。」這個議題我不知道要到哪裡蒐集有用的資料,所以透過網路代理工具可以大幅減少我的時間。而我之所以進行這些資料的查詢,是因為幫朋友給予一些製造業產品外銷的建議,由於 AI 工具的輔助,以往我要花上三到五天才能蒐集完資料並產出一份產業建議報告,在這些工具的輔助下,我只用了四個小時就處理完畢。
回到 NotebookLM,前陣子在 Threads 上看到有人大力推薦,應該要透過它的一個「語音摘要」功能,然後將自己的履歷丟進去,看看語音摘要會生成什麼樣的介紹。而相信透過這個介紹,大家都會得到心靈方面的撫慰。我也開始努力在找下一份工作,所以也就找時間測試了一下。這個雙人語音對話的功能,我在上一篇《DeepSeek:AI模型效能與成本革命》有介紹過,當時是利用語音摘要,以 Podcast 的型態來介紹 DeepSeek。
在農曆春節假期前,Deepseek-R1 的推出,加上前對沖基金投資分析師、現任 Pastel Network 創辦人兼 CEO Jeffrey Emanuel 發表的《The Short Case for Nvidia Stock》一文,導致輝達市值大跌,連帶影響了 AI 相關概念股與科技股。過年期間,我的社群平台上充斥著 DeepSeek 相關報導。面對如此龐大的資訊量,加上部分訊息難以求證,我先將它們標記起來,再透過 Google NotebookLM 和 OpenAI 的 ChatGPT 進行彙整。
NotebookLM 不僅能集中管理文件、彙整文意,還能透過問答來延伸議題討論。特別的是,它提供了 AI 語音生成功能,能模擬廣播訪談的形式,以兩位主持人對話的方式呈現主題內容。正因我在規劃一份關於生成式 AI 在工作與生活應用的講稿,同時也在研究 AI 應用如何廣泛落地於各產業,我便以 DeepSeek 系列文章為基礎,透過 NotebookLM 和 ChatGPT 製作了一集 Podcast - Deep Dive:DeepSeek 崛起與 AI 變革(目前僅支援英文輸出)。在這集節目中,兩位 AI 生成的主持人分別被我命名為 Nic 和 Ann。
AI 在彙整大量資訊時有其優缺點。優點是它能快速產出架構,幫助我們理解龐大的內容。然而儘管現今的生成式 AI 宣稱具備推理能力,在處理多線資訊時,仍可能出現與事實和資料來源不符的情況。因此錄音檔中提到的某些人名或專家頭銜其實並不存在。另外像 Archerman Capital 對於 DeepSeek 的分析,我找不到原始出處,目前都只看到簡體版。
我的工作流程是先用 NotebookLM 彙整所需資訊,生成一個 Deep Dive 節目廣播,再使用 [PLAUD](https://tw.plaud.ai/products/plaud-note-ai-voice-recorder) 進行語音轉文字,最後透過 ChatGPT 彙整核實,並輔以 Google 手動查證。以下是這個 Podcast 的中文翻譯,我已針對內容做了修正,雖與原始語音檔有些出入,但不影響收聽體驗。
藉由這篇文章與廣播的結合,我想呈現當前生成式 AI 的具體應用,以及如何透過人機協作來確保資訊正確性。雖然大量討論 AI 的文章、節目、廣播充斥在我們的生活中,可能導致知識獲取的疲勞感並產生反效果。但正如 Podcast 中所強調的:『我們不能忽視 AI』、『我們必須超越死記硬背的學習方式,轉而培養那些 AI 無法輕易取代的技能』、『保持關注、積極參與、並持續保持好奇心』,這些都是面對 AI 時代必須具備的認知與應對方式。
Deep Dive:DeepSeek 崛起與 AI 變革
這兩年在不同的報章雜誌上常會聽到提示工程這個名詞,甚至很多報導都在談論現在「提示工程師」這個行業很吃香,是一種新興的專業項目。然而提示工程師到底是什麼?而提示本身又有哪些眉角與技術,本書就針對這個領域以十六個章節來呈現相關的內容。我所閱讀的是《AI提示工程師的16堂關鍵必修課》這本書的初版,在 2024 年 9 月底有發行第二版,本書的心得是以初版跟我個人的理解來分享的。
在生成式人工智慧(Generative AI)快速發展的時代,提示工程(Prompt Engineering)成為了運用 AI 技術的重要關鍵。這門技術不僅僅是一項工具,更是一種連結人類智慧與機器學習的橋樑,透過精心設計的提示(Prompt),能夠引導 AI 生成更準確、有效且具有創意的內容。本書深入探討了提示工程的核心概念、實踐方法與未來應用,是一本兼具技術深度與實用價值的專業指南。
《AI-Powered Software and System Design》是《Generative AI for Software Development》的第三部分課程,旨在幫助我們全面理解生成式 AI 在軟體設計與系統開發中的應用,並通過三週的學習,構建從資料序列化、配置驅動開發到設計模式應用的完整技術路徑。課程結合理論講解與實作練習,為我們提供了一個從基礎概念到高階應用的學習框架。
第一週的課程聚焦於資料序列化與配置驅動開發(CDD)。這週的學習從資料序列化技術(如 JSON 與 Pickle)開始,幫助我們掌握數據存取與共享的核心技能。課程進一步介紹了如何通過配置文件控制軟體行為,提升系統的靈活性與可擴展性。我們還學習了透過 LLM 去了解測試驅動開發(TDD)與行為驅動開發(BDD)的核心理念。課程範例以 CDD 結合 DALL-E API 的應用,實作配置驅動的開發流程。這些技術讓我們能夠快速生成動態配置並將其整合到系統設計中,提升開發效率與結構化程度。
第二週的課程重點轉向資料庫設計與優化。從基礎的 CRUD 操作教學開始,我們學習如何利用生成式 AI 工具(如 LLM)設計資料結構,並生成高效的查詢代碼。課程還包含除錯與效能優化的練習,幫助我們解決資料庫運行中的性能瓶頸與依賴性問題。透過設計並實作社交網絡資料庫專案,我們得以熟悉如何結合生成式 AI 提升資料庫的穩定性與效能,並應用於真實開發場景。
第三週的課程專注於設計模式的應用,特別是四人幫(Gang of Four)提出的 23 種設計模式。課程從設計模式的理論基礎入手,詳細講解了每種模式的適用場景及其解決的問題,涵蓋單例模式、工廠模式、模板方法模式與策略模式等。透過生成式 AI 的輔助,我們能快速生成設計模式的實作範例,並獲得優化代碼結構的建議。這些練習不僅讓我們理解設計模式的核心概念,還幫助我們提升應對大型系統設計與部署挑戰的能力。
這一段的課程相較於前面的《Introduction to Generative AI for Software Development》跟《Team Software Engineering with AI》又更為艱澀一點,且如果平時開發專案的規模不夠大,可能也不容易體會開發模式跟設計模式對於團隊開發跟產品的影響。不過順著課程的結構來進行,再加上可以不斷的詢問 LLM,相信應該可以架構出對這進階的開發概念有完整的理解。我自己花了八天的時間,完成了第三階段課程的認證,除了習作/測驗跟程式碼的撰寫外,第三門課程我花了很多時間去比較不同開發模式跟設計模式,對不同軟體產品的影響。這也是我在這整段課程收穫最大的地方,更進一步發揮了 LLM 的應用能力跟場景。
整體課程以實務應用為導向,注重生成式 AI 技術在開發流程中的價值與實際效能。從資料序列化到資料庫設計,再到設計模式的實作與應用,每一環節都幫助我們建立理論與實務的連結,快速掌握生成式 AI 的應用精髓。這是一門適合希望探索生成式 AI 在軟體開發中的潛力,並期望提升專業能力與開發效率的課程。












