我太太本週飛到馬來西亞去授課。
這幾年因為少子化的影響,各大學其實都在尋找自己的出路。過去我們談大學的國際化,常常會想到交換學生、海外姊妹校、國際研討會之類的形式,但現在更實際的作法,是和海外學校合作,開設境外碩士班或相關課程。一方面可以把學校與系所的影響力延伸到海外,另一方面也能讓師資生在學習過程中接觸不同國家的教育環境與學生樣貌。這當然有招生與營運上的現實考量,不過從教育現場來看,也確實是一件一舉多得的事情。
在她出發之前,我一直建議她可以在課程裡多跟學生分享 Codex 與 Antigravity 在教育和研究上的輔助實作。這並不是要把原本的專業課程變成 AI 工具課,而是我覺得,現在的學生如果只學到原本的專業知識,已經有點不夠了。後來我太太從出發前的課程規劃、每堂課的備課,到課堂中實際操作讓學生理解 AI 可以怎麼協助學習,與學生作業透過 AI 協助審閱、整理回饋意見,這些都使用 AI 來輔助,同時也放進這次教學的流程裡。
重要的地方在於,學生要學會的不是「問 AI 一個問題,然後把答案拿來用」,而是如何讓 AI 有效達成我們給予的任務。這中間牽涉到目標設定、資料提供、提示方式、結果檢查,也牽涉到使用者自己對專業內容是否有足夠的判斷能力。AI 可以加速很多事情,但它不會替我們承擔最後的判斷。
上圖是我運用自己 Blog 的文章,打造出一個數位化的個人風格模型,並且已經完成封裝,整理成好幾種 AI 框架都能使用的 Skill。畫面中左邊的視窗是我的測試題目。我輸入問題讓它回答,再檢視回覆是否像我平常會說的話。這已經是這項功能最後一輪的測試了。在此之前,我經歷了許多測試題目的回答、標註、給分與修正。一開始我只是跟同事開玩笑說,有時長官很喜歡在很晚的時候傳訊息,所以我想做一個聰明的自動回覆系統。以後超過某個時間之後收到的訊息,就讓 AI 幫我回覆......
從聊天到工作流
近半年,我花了不少時間,在不同的 AI Agent 工具裡反覆折騰。
一開始的念頭很單純,一方面是工作上的需求,另一方面我想知道,Agentic AI 這些被稱為下一代工作革命的東西,到底是真正能幫研發團隊分攤工作,還是另一波被媒體包裝得很漂亮的新玩具。
三年半以前,我主要透過 LLM 的 Chat,或是 GitHub Copilot 來協助開發。當時主要的 IDE是 VSCode,工作方式也很直覺:我問問題,AI 回答;我寫程式,用 tab 補全;遇到 bug,我將錯誤訊息輸入,由 AI 推測原因。那時候的 AI像顧問,或是一個很懂語法的自動完成器。它可以提高速度,但真正決定工作如何展開的人還是我自己。
後來開始使用 Cursor、Windsurf,情況就有些變化了。AI 不再只是回答問題,而是開始處理整個專案脈絡。它會讀檔案、理解 repo、跨檔案修改,也可以承接較完整的功能開發。這時明顯感覺到,提示工程正在變成另一種東西。過去我們在意的是 prompt 寫得好不好,現在更重要的是任務是否被拆解清楚、上下文是否乾淨、驗收條件是否明確。
而從 Antigravity 推出之後,我就改用 Antigravity 來開發。同時我也混用了 Codex、Claude Code、Claude Cowork 等 coding agent。到這個階段,我已經很難只用「哪個工具比較強」來形容它們。它們比較像不同性格、不同工作習慣的工程師。問題不只是能力,而是我們要把什麼工作交給誰,以及怎麼讓它照著我們的期待前進。
Antigravity 的規劃感
Antigravity 很像一位習慣先把白板規劃好的人。接到工作需求之後,它通常不會立刻動手,而是先拆解問題、安排步驟、建立 task list,然後才往下執行。很多時候,它會停下來,需要我確認下一步。剛開始我覺得這樣有點慢,因為使用工具時,總會希望它愈快愈好,最好一句話,就能讓 AI 將整件事完成。
但真正把複雜任務交給它之後,這種需要我確認的節奏反而重要。當任務不只是問答,而是包含下載資料、閱讀論文、整理摘要、翻譯、建立文件,甚至跨 browser 與 terminal 操作時,AI 若沒有節制地一路往前衝,其實很容易偏離原本的目標,重點是 token 的消耗都要錢。
最早我曾讓它處理十五篇專業論文的工作流程。從下載、抽取內容、摘要、翻譯,到最後輸出整理過的文件,那種感覺很奇妙。它不只是執行而已,它會規劃,而這個能力很重要。真正的大型任務,會失敗往往不是模型看不懂,而是作業流程在某個地方開始偏掉,接著 token、上下文、檔案與工具呼叫混在一起變得難以控管。
對齊不只是一個好 prompt
我現在喜歡用「對齊」來說明我使用 AI 開發的方式。這裡說的對齊,不只是把 prompt 寫得漂亮,而是讓 AI 知道任務的方向、邊界、格式、停止條件,以及什麼事情需要跟我確認。
以前談提示工程時,很多重點放在角色設定、語氣、範例與輸出格式。這些當然還是有用,但 Agent 能做的事情變多之後,溝通方式也必須跟著改變。我會更明確地告訴它:先讀資料,不急著改;先提出計畫,不急著執行;遇到成本、權限、不可逆操作、或需要價值判斷的地方,要停下來;輸出之後,要用我指定的角度檢查,而不是只給一份看似完整的結果。而這些過程,我會混著雲地模型來使用,部分工作我先進行處理,才讓它接手後續作業。
這也是我現在使用 AI 的核心變化。它不再只是回答者,而是可以執行複雜任務的協作者。既然它會執行,就必須有工作準則;既然它會消耗 token,就須要有成本意識;既然它會接觸檔案與工具,就必須有邊界。不然它雖然會工作,但也同樣會製造難以收拾的災難。
在本次公開演講結束後,主辦單位安排了一場延伸的技術座談,作為對演講內容的進一步討論與交流。與會者包含學術研究者、醫療臨床人員、醫院資訊與 AI 團隊,以及實際參與系統開發的工程人員,討論重心聚焦於大型語言模型與多模態系統在醫療場域中的實際應用問題。這場座談以開放問答的形式進行,圍繞著模型角色定位、系統設計邊界、資料與評估方式等議題,延伸出多項具體而實務導向的技術討論,成為本次演講之外,另一段重要的交流內容。
一、LLM 在醫療系統中的角色定位與責任邊界
在這場延伸對談中,最早被反覆提出的問題,圍繞在大型語言模型是否適合直接參與醫療決策,以及一旦系統產生錯誤時,責任應如何界定。這類提問來自不同角色的共同焦慮,無論是臨床端、資訊單位或系統開發者,都意識到醫療場域與一般應用最大的差異,在於錯誤本身即可能帶來實質風險,而非僅是體驗不佳。當語言模型具備高度擬真的表達能力時,更容易讓使用者誤以為其具備判斷與決策資格,這也使角色定位成為設計初期無法迴避的問題。
對此陳縕儂教授提出她的看法:「LLM 在醫療系統中應被視為輔助工具,而非決策主體」。模型可以協助整理資訊、補充背景知識,甚至引導使用者思考,但不應被賦予做出診斷或臨床判斷的責任。這樣的定位並非限制技術能力,而是回到系統設計的初衷,確保最終判斷仍掌握在人類專業者手中。
在實作層面,關鍵不在於模型「怎麼說」,而在於系統是否能清楚界定「什麼情況下可以回應、什麼情況下必須拒答或轉介人工」。這種界線若僅仰賴提示詞或語氣調整,往往難以在複雜情境中維持一致性。相較之下,透過架構層面的設計,例如在生成前加入風險判斷、將高風險問題導向固定流程,才能建立較為穩定的防線。對於醫療這類高風險場域,結構性的限制遠比事後修正輸出內容來得可靠,這不僅是技術選擇,更是責任意識的體現。
陳縕儂教授為國立臺灣大學資訊工程學系教授,長期投入自然語言處理與對話系統研究,研究主軸涵蓋語言理解、口語對話系統、機器智慧與深度學習應用。她曾於美國卡內基美隆大學取得博士學位,並於微軟研究院從事研究工作,近年持續關注語言模型在實際應用場域中的可靠性與可控性問題。此次研討會即以「搜尋、驗證與決策」為主軸,聚焦大型語言模型在專業領域對話與決策任務中所面臨的結構性限制。
一、大型語言模型的訓練架構與限制
演講一開始,陳教授回顧 GPT 類大型語言模型的基本訓練方式。此類模型以序列預測為核心,透過大量語料學習詞與詞之間的條件機率關係,建立語言生成能力。這種訓練方式能有效掌握語言表面結構與常見語境,但本質上仍是機率模型,並未具備對事實正確性的內在驗證機制。
接著說明大型語言模型常見的三個訓練階段,包括以海量資料建立基礎能力的預訓練、透過人工標註資料學習任務指令的指令微調,以及利用人類回饋進行行為對齊的強化學習。這些訓練流程能改善模型回應的可用性,但並未根本解決模型對知識正確性的掌握問題。
在此架構下,長尾知識成為關鍵限制。高頻出現的通用知識較容易被模型記憶與重現,而專業、低頻或語意相近但差異細微的知識,則容易在生成過程中被錯誤拼接,形成幻覺。陳教授指出,這類結構性問題在醫療等高風險場域中特別需要被正視。
過去我們使用 AI 的方式,很像是在圖書館查閱資料:你問一個問題,它給你一個答案。但近年來技術的發展進入了 Agentic AI(代理型人工智慧)的時代,這不再只是技術的升級,而是一場工作模式的革命。它並非單一模型或特定技術,其核心特徵在於 AI 不再只是被動地回應指令,而是能在給定目標與限制條件下,自行規劃行動、拆解任務,並持續修正執行路徑。相較於傳統以單輪提示為主的使用方式,Agentic AI 更接近一個能長時間運作的執行者,而非即時問答工具。
這類系統通常具備幾個共通元素。首先是狀態感知能力,能記住目前的進度與未解決的問題,避免每一次操作都重新開始。其次是規劃能力,能在實作前先產出行動計畫,而不是直接生成結果。最後則是自我修正機制,當執行結果不符預期時,能回到前一步調整策略。這些能力往往是透過多階段提示、任務文件與工具調用組合而成,而非模型自發產生。
也正因為這樣,Agentic AI 的表現高度依賴人類提供的上下文品質。若目標模糊、限制不清,系統很容易在細節中迷失;反之當任務邊界明確、背景資訊完整,它便能展現高度一致且可預期的行為。這使人與 AI 的關係從單向下指令,轉為共同維持一套運作框架。需要注意的是,Agentic AI 並非萬能,它仍面臨資源消耗、上下文限制與錯誤累積的問題,需要人類介入驗證與判斷。從實務角度看,它更適合作為一種擴充工作能力的方式,而非取代決策責任的角色。理解它的能與不能,才是技術價值的關鍵。
在 Agentic AI 的運作框架下,各產業正經歷從「自動化」到「自主化」的轉變。以下是我自己將蒐集到的資訊,初分六種大項的應用實況、作業模式與成熟度分析:
1. 軟體開發與技術維護(成熟度:高)
軟體開發是目前 Agentic AI 最成熟的領地。早期的 AI 僅能提供程式碼補全,而現在的代理系統如 Cursor、Windsurf,以及 Google 最新發布的 Antigravity,已演變為「代理優先」的開發平台。這些代理能自主掃描整個專案庫、理解複雜邏輯,並產出「工件(Artifacts)」,包括任務清單、實施計畫與自動化測試報告。
具體作業上,開發者只需描述功能需求,AI 代理便能自主跨檔案修改代碼、執行終端指令、跑單元測試,甚至開啟內建瀏覽器驗證前端 UI。當測試失敗時,代理會進入自我修正循環(Self-correction loop),回溯錯誤原因並自動調整路徑。這使開發者從「編寫者」轉為「指揮官」,專注於架構審核而非細節 debug。目前此類工具已成為工程師的標配,顯著縮短了從 PoC 到上線的週期。
:: 下一頁 >>




![FireShot Capture 086 - Replit – Build apps and sites with AI - Replit - [replit.com]](https://live.staticflickr.com/65535/55013454571_e8c35ed8f0_c.jpg)




