陳縕儂教授為國立臺灣大學資訊工程學系教授,長期投入自然語言處理與對話系統研究,研究主軸涵蓋語言理解、口語對話系統、機器智慧與深度學習應用。她曾於美國卡內基美隆大學取得博士學位,並於微軟研究院從事研究工作,近年持續關注語言模型在實際應用場域中的可靠性與可控性問題。此次研討會即以「搜尋、驗證與決策」為主軸,聚焦大型語言模型在專業領域對話與決策任務中所面臨的結構性限制。
一、大型語言模型的訓練架構與限制
演講一開始,陳教授回顧 GPT 類大型語言模型的基本訓練方式。此類模型以序列預測為核心,透過大量語料學習詞與詞之間的條件機率關係,建立語言生成能力。這種訓練方式能有效掌握語言表面結構與常見語境,但本質上仍是機率模型,並未具備對事實正確性的內在驗證機制。
接著說明大型語言模型常見的三個訓練階段,包括以海量資料建立基礎能力的預訓練、透過人工標註資料學習任務指令的指令微調,以及利用人類回饋進行行為對齊的強化學習。這些訓練流程能改善模型回應的可用性,但並未根本解決模型對知識正確性的掌握問題。
在此架構下,長尾知識成為關鍵限制。高頻出現的通用知識較容易被模型記憶與重現,而專業、低頻或語意相近但差異細微的知識,則容易在生成過程中被錯誤拼接,形成幻覺。陳教授指出,這類結構性問題在醫療等高風險場域中特別需要被正視。
二、RAG 架構與資訊檢索在系統中的角色
在演講中,陳縕儂教授將檢索增強生成(Retrieval-Augmented Generation, RAG)視為回應大型語言模型幻覺問題的核心架構之一。RAG 的基本流程可拆解為三個步驟:使用者提出問題後,系統先進行外部文件檢索,取得與問題相關的文本資料,再將這些檢索結果提供給語言模型,作為生成回應時的參考依據。透過這種「先查資料、再生成回答」的方式,模型不再完全依賴內部參數中隱含的知識分佈,而是引入外部資訊來源,以提升回應的事實性。
然而 RAG 並非單純在生成模型前方加上一層檢索模組即可解決問題,其實際成效高度取決於資訊檢索的品質。當檢索階段未能找出真正相關的文件時,生成模型即使具備良好的語言能力,也可能基於錯誤或不完整的資料產生誤導性的回應。在這種情況下,RAG 不但無法降低幻覺風險,反而可能放大錯誤內容。因此資訊檢索並非生成模型的附屬元件,而是整個系統效能與可靠性的關鍵基礎。
在目前主流的實作方式中,RAG 多採用 Dense Retrieval(密集檢索/稠密檢索,意指利用神經網絡生成語義向量來進行檢索的技術)作為核心檢索技術。此方法會將問題(Query)與文件(Document)轉換為高維度向量表示,並透過計算向量之間的相似度,判斷語義上的相關程度。相較於傳統以關鍵字為基礎的檢索方式,Dense Retrieval 能捕捉語意層面的相近關係,對自然語言提問具有較高彈性。
不過 Dense Retrieval 的表現仍受限於預訓練模型本身的語料分佈。當應用場景進入專業領域時,若模型在預訓練階段缺乏相關語料,其向量表示可能無法準確反映專業概念之間的細微差異,進而影響檢索結果的精準度,這也是後續訓練與調校需要特別處理的問題。
三、檢索模型在資料不足情境下的訓練方法
在談到檢索模型的訓練時,陳縕儂教授指出,實務上最大的限制並非模型架構,而是高品質標註資料的取得成本。對於 Dense Retrieval 而言,理想的訓練資料需包含明確對應的 Query–Document 配對,用以拉近相關文本在向量空間中的距離,並推遠不相關內容。然而,這類資料往往仰賴長期累積的使用者行為或人工標註流程,一般研究團隊或應用開發單位難以負擔,形成與大型搜尋平台之間明顯的資源落差。
針對僅有問題、缺乏對應文件標註的情境,演講中提出 Query Likelihood 作為替代訓練策略。此方法不再直接判斷文件是否相關,而是利用大型語言模型估算「在給定某份文件的前提下,生成該問題的可能性」。若模型判斷某文件生成該 Query 的機率較高,便可視為潛在的正向樣本。透過這種方式,系統得以建立偽標籤(Pseudo Label),並在不依賴人工配對資料的情況下,逐步訓練檢索模型。演講中亦說明,此流程可透過反覆迭代進行,隨著檢索品質提升,偽標籤本身也會逐步改善,實驗結果顯示在特定場景下能達到接近甚至優於部分人工標註資料的效果。
另一種應對資料稀缺的方式為資料合成(Data Synthesis)。此方法假設系統僅掌握極少量高品質範例,透過這些範例引導語言模型,從既有文件中生成大量符合實際使用情境的訓練問題。在對話式檢索的應用中,模型不僅生成單一問題,還會依據對話脈絡產生後續追問,形成多輪對話資料。演講指出,這類合成資料在少樣本情境下具備實務價值,能有效降低對大規模人工標註資料的依賴。
四、對話系統中的策略建模與可控性
在對話系統設計方面,傳統任務型對話系統多依賴規則式流程與狀態轉移機制,雖能在明確任務範圍內穩定運作,但隨著對話情境與使用者行為變得多樣,規則的擴充與維護成本迅速上升,系統彈性亦受到限制。相較之下,直接以大型語言模型驅動對話,雖可降低規則設計負擔,但僅透過 Prompt 來約束模型行為,往往難以精準控制對話節奏與策略,容易出現過度積極或偏離目標的回應。
為解決上述問題,陳教授提出將「專家策略」納入模型訓練流程的作法。其核心概念並非只訓練模型產出回應文字,而是讓模型在生成回應之前,先顯式產生一段對當前情境的策略判斷,即所謂的 Thought 層。此設計使模型在訓練資料中同時學習「當下應採取的行為策略」與「對應的語言輸出」,將策略選擇與回應內容加以區隔。透過這種方式,模型的行為決策過程得以被觀察與調整,有助於提升整體對話行為的可控性與可解釋性。
在應用示例中,陳教授分享如何將專家在實務中的流程經驗轉化為可學習的對話策略。例如在服務或銷售情境中,專家往往不會立即進入任務核心,而是先透過社交對話建立互動基礎,再視使用者反應逐步切換至任務導向對話。透過將這類流程拆解為不同策略階段,並納入訓練資料,對話代理便能依據對話進展動態調整行為,而非僅依賴單一回應模式,從而在開放性與任務導向之間取得平衡。透過這類策略建模方式,對話系統的行為不再只是語言生成結果,而能被視為一個可分析、可調整的決策過程,這是本次演講在技術層面上的主要論述核心。
五、對話式 AI 的評估方法
在演講後段的聽眾問答中,陳縕儂教授進一步補充了對話式 AI(醫療現場利用 AI 來問診)在實務驗證上的挑戰,並說明現行研究中常用的評估方法與其限制。在對話式 AI 的評估議題上,真人測試雖能反映實際使用情境,但在研究與產品開發階段存在明顯限制。首先是真人測試的成本與規模問題,無論是招募受試者、安排測試流程或蒐集回饋,都需要投入大量人力與時間,難以支撐反覆且大規模的實驗需求。其次真人互動本身具有高度變異性,不同測試者在理解、回應方式與情緒狀態上的差異,使得測試結果難以標準化,進而影響不同模型或版本之間的可比較性。
為回應上述限制,演講中提出以使用者模擬(User Simulation)作為評估對話系統的替代或補充方法。此作法利用語言模型扮演具有特定背景設定的模擬使用者,與待測的對話代理進行大量互動,藉此在可控條件下產生足量的對話資料。透過使用者模擬,研究者可設計明確的評估指標,例如任務完成率、對話輪數、回應一致性或行為偏差程度,從量化角度分析系統表現,並支援不同策略或模型版本的比較。
在進一步的分析中,陳教授也說明將人格特質納入使用者模擬的評估方式。透過設定不同人格特徵的模擬使用者,可觀察對話代理在面對不同互動風格時的行為差異。實驗顯示,某些人格特質組合在互動過程中更容易接受引導,而另一些則需要更具體或結構化的回應。這類分析不僅有助於理解對話系統的行為特性,也為後續發展個人化對話策略提供參考依據,使評估結果能進一步回饋至系統設計與策略調整之中。
六、對照醫療衛教 LLM 開發實務的反思
我自己的開發項目,在目前的醫療衛教應用中,系統架構以 RAG 作為核心回應機制,知識來源主要來自經專業人員編輯與審校的衛教文章與醫療資訊,藉此降低模型自由生成所可能帶來的風險。由於回應最終需透過機器人以語音形式呈現,系統在設計上必須同時考量理解負擔與互動節奏,因此單次回應內容受到字數與語音時間的雙重限制,無法採用長篇說明或多段論述的形式。
在系統驗證與修正流程中,大量 QA 測試資料被用來檢視回應是否符合醫療衛教的語境與安全要求。這些測試題目由醫學院學生與護理師參與設計與檢核,並回饋至檢索內容與知識結構的調整過程。目前這類 QA 資料主要用於驗證與風險控管,而非直接參與模型參數層級的微調。
對照陳縕儂教授於演講中提出的研究方向,可以重新理解這些 QA 資料在系統中的角色。演講中所提及的檢索模型訓練方法,顯示在資料不足的情境下,測試與驗證資料本身亦可能轉化為檢索品質改善的素材,而不僅限於結果檢查用途。這使得檢索模組的調校,不必然與生成模型的微調綁定,仍能在相對可控的範圍內進行優化。
此外資料合成與偽標籤(Pseudo-labeling )訓練的概念(在缺乏人工標註資料的情況下,先利用一個現有模型,替未標註資料產生暫時可用的標籤,再把這些標籤當成訓練資料,反過來訓練或強化另一個模型),也為醫療場域中有限度的模型調整提供了另一種思考路徑。透過聚焦於檢索階段而非生成行為本身,系統可在維持既有安全邊界的前提下,逐步改善語義匹配與文件選取的穩定性。
而我目前在 Agentic AI 的開發方向思考的脈絡,這場演講也讓我重新檢視其在衛教應用中的定位。相較於讓系統承擔更高層次的自主決策角色,如何透過策略層設計,使對話系統清楚辨識可回應範圍與需轉介人工的情境,並在互動流程中維持可預期的行為邊界,仍是現階段較為關鍵的技術課題。
這場演講安排在清晨七點半進行,陳縕儂教授分享她當天清晨六點即需開始準備,而演講當日適逢寒流來襲,天候與時程都相當不易。能在這樣的條件下,仍完整地與現場聽眾分享研究脈絡與實務觀察,對我而言不只是一次技術交流,也是一個難得的學習機會。能夠聽到這些內容,本身就值得珍惜,非常感謝能有機會參與到這場研討會。
回應管理, Pingbacks:
這篇文章還沒有 回應管理/Pingbacks ...
讀者回應:
上一篇文章: Agentic AI 在產業應用的現況下一篇文章: 〈醫療場域中 LLM 與多模態系統的實務邊界:一場跨角色深度對談的問題與回應〉






