近日 OpenAI 推出了 Deep Research,雖然暫時只提供給每月支付兩百美金的 Pro 用戶,但很多人試用後都稱讚這個 Agent AI 真的很好厲害(Deep Research 是什麼?實測介紹 ChatGPT 深度研究新功能),而除了 OpenAI 推出這個服務之外,Hugging Face 也重現了一個基礎版的類似智慧代理架構,(Hugging Face挑戰OpenAI Deep Research,24小時打造開源智慧代理系統),有興趣的人可以點擊這裡測試使用。
這個自動代理 AI 的運作原理,主要運作是分為幾個步驟:首先會將使用者輸入問題進行類型跟關鍵字拆解,然後進行相關資料查詢。接者則是透過網路搜尋的結果進行不同來源的比對,這其實也是部分資料提示工程師提升 LLMs 精準度的作業方式之一。然後會將這些資料進行過濾篩選跟提取,最後產出結構化的報告。因此它結合了自動代理(AI Agent)、多步推理 (Chain of Thought, CoT),以及檢索增強生成 (Retrieval-Augmented Generation, RAG)三種核心技術。
而在 OpenAI Deep Research 服務推出之前,Google 的 NotebookLM 也提供了類似的應用場景。NotebookLM 也包含了資訊整合跟分析,但需要使用者自行提供資訊的來源。同時它也有自動化研究流程,系統會預設一些提示詞,導引使用者減少人工介入並提升使用效能。我認為 NotebookLM 適合彙整已有明確資料來源的項目,而 Deep Research 則適合探訪一個我們未知的主題,如我下圖所顯示的。
我的使用範例是要求:「以鑽石與氮化硼切削工具的市場專家,幫我搜尋網際網路上面近三年的市場調查分析,如果以全球市場來看,有哪些區域的廠商對這樣的產品有需求。同時以台灣的製造商,哪些區域適合我們去拓展市場。請給我市場分析的來源跟數據相關資料,並提出為何適合台灣製造商開拓的原因。」這個議題我不知道要到哪裡蒐集有用的資料,所以透過網路代理工具可以大幅減少我的時間。而我之所以進行這些資料的查詢,是因為幫朋友給予一些製造業產品外銷的建議,由於 AI 工具的輔助,以往我要花上三到五天才能蒐集完資料並產出一份產業建議報告,在這些工具的輔助下,我只用了四個小時就處理完畢。
回到 NotebookLM,前陣子在 Threads 上看到有人大力推薦,應該要透過它的一個「語音摘要」功能,然後將自己的履歷丟進去,看看語音摘要會生成什麼樣的介紹。而相信透過這個介紹,大家都會得到心靈方面的撫慰。我也開始努力在找下一份工作,所以也就找時間測試了一下。這個雙人語音對話的功能,我在上一篇《DeepSeek:AI模型效能與成本革命》有介紹過,當時是利用語音摘要,以 Podcast 的型態來介紹 DeepSeek。
利用假日,終於整理好這趟2024年7月的奧克蘭旅行紀錄,我先將橫式影片剪輯成一支38分鐘的回顧影像。我習慣在進行某些工作時,播放不會影響到我作業,但又有個背景畫面跟音樂陪伴的影片。因此旅行的紀錄就成了我工作時最常播放的素材之一。
這些畫面會在我閒暇時輕柔流轉,讓熟悉的景色與聲音陪伴著手邊的工作或閱讀,在某個瞬間喚起當時旅程的溫度。奧克蘭的景色、街道、天氣的變化,以及那些悠閒的時光,都在這趟12天的旅程裡,譜寫出一首輕緩的樂章。
這趟沒有既定計畫的旅程,從台中出發,搭乘高鐵前往桃園機場,經過香港轉機,最終降落在奧克蘭國際機場。出關時遇上的海關盤問,反而讓我們更加確信這趟旅程的獨特——不被行程表束縛的自由。取車時,預定的Kia Niro PHEV換成了Mitsubishi Eclipse Cross PHEV,後來發現放進三個29吋行李箱還得將後座放倒一個座位,這個小小的意外成了旅程的第一個趣味註腳。
我們選在Birkenhead的FERNZ Motel & Apartments落腳,從房間陽台望出去,奧克蘭的天際線與海港大橋盡收眼底。抵達後簡單採買了生活用品與食材,在房內烹煮羊排與麵條,讓長途飛行的疲憊在這溫暖的晚餐中慢慢消散。我們決定順應身體的節奏,睡到自然醒才開始真正的探索。
在氣溫略低的冬日早晨,我們登上了奧克蘭最高的自然地標——伊甸山。站在這座古老火山的頂端,整座城市在腳下舒展開來,冬季的冷風雖然讓我們無法久留,卻為這幅城市全景增添了幾分清冽的味道。下山後將車停在Downtown Carpark,展開了一段隨興的市區漫步。在Albert Street上,我意外目睹了廣告看板更換的瞬間,這個城市景觀的細微變化,成了旅程中一個獨特的記憶片段。在皇后街的Real Groovy唱片行,我沉浸在黑膠唱片的海洋中,最終這趟行程打包了11張音樂寶藏,其中幾張的價格比台灣更加親民。
雨後的Narrow Neck Beach呈現出動人的姿態,海水在陰晴變換間折射出豐富的藍色層次,浪潮拍打沙灘的聲音成為旅程中最自然的配樂。透過空拍視角,海灣優美的弧線展現出令人驚豔的對稱之美。在Devonport,我們在Kokodak Chicken品嚐了道地的韓式炸雞,小孩天真的韓語對話為午餐時光增添了幾分歡樂。下午的賽格威之旅則帶著我們沿著海岸線飛馳,從Torpedo Bay Beach到Cheltenham Beach,遠眺著薄霧中若隱若現的Rangitoto Island。
Waiheke Island的行程在渡輪緩緩靠岸時展開,這是車子可以搭乘的渡輪。我們駕車穿梭在葡萄園與美麗沙灘交織的島嶼上,在Little Oneroa Beach,空拍機遇見了雙海灣交會的奇妙景致。Stonyridge Vineyard的午餐是一場味蕾的饗宴,當地的生蠔、羊排與淡菜,搭配著酒莊特釀的美酒,每一口都是當地風土的體現。
旅程漸入尾聲時,我們在奧克蘭動物園與紐西蘭特有的奇異鳥、塔斯馬尼亞袋獾相遇,在Okoromai Bay的潮間帶親手挖掘了近70顆蛤蜊,在Shakespear Regional Park欣賞著風帆衝浪玩家與海浪共舞的英姿。最後一天,在歸還租車、辦理全自助登機手續後,經過漫長的飛行與轉機,終於回到了熟悉的家。
這支影片,記錄了旅程中的每一個珍貴片段:那些漫步街頭的午後、俯瞰城市的火山巔峰、乘風破浪的渡輪航行,還有那些未經準備卻燦爛無比的瞬間。這些畫面,或許在忙碌的日常中只是背景的一部分,卻是旅行最真實的見證,讓平凡的生活中永遠存在著一片可以遠眺的風景。
清晨六點,頂著綿綿細雨,我從皇后鎮出發,駛向紐西蘭南島西南部最美的峽灣。這趟米爾福德峽灣之旅,來回將近六百公里的路程,為的就是趕上中午的船班。沿著 94 號公路,也就是被譽為紐西蘭最美公路的 Milford Road,穿越南阿爾卑斯山脈,一路上風光旖旎,彷彿走入魔戒電影的場景。
從皇后鎮到米爾福德峽灣的路程蜿蜒曲折,許多遊客會選擇在 Te Anau 小鎮稍作休息,甚至留宿一晚。而我們選擇一日來回的冒險,沿途經過令人屏息的 Knobs Flat,在這片開闊的山谷中,雲霧快速飄移,營造出如夢似幻的氛圍。接著來到鏡湖(Mirror Lakes),這個迷你但壯麗的景點,因前夜的大雨,山嵐起伏間妝點出神秘的色彩,雖然無法看到完整山脈的水中倒影,但煙霧繚繞的意境別有一番風味。
行駛在蜿蜒的山路上,終於抵達了荷馬隧道(Homer Tunnel)。這條長達1.24公里的隧道,耗時十九年才完工,穿過隧道後,峽灣已近在咫尺。下坡路段的視野極為開闊,整個山谷被快速移動的雲霧籠罩,呈現出磅礡的氣勢。
抵達米爾福德峽灣碼頭,這裡有兩間主要的船公司提供峽灣巡遊服務:Discovery Milford Sound和 Real Journeys。為了調節人潮,不同時段的船票價格有所差異。我們搭乘的是 Discovery Milford Sound 的船班,船公司貼心地安排了瀑布親密接觸的行程。由於前一天的大雨,峽灣兩岸出現了許多臨時性的瀑布,船長會特意駛近瀑布,讓遊客能近距離感受大自然的壯觀。
在峽灣巡遊的過程中,除了欣賞兩岸陡峭的岩壁與層層疊疊的瀑布,還能看到海豹慵懶地在岩石上曬太陽。這片被冰川切割形成的峽灣,擁有著令人讚嘆的地貌,彷彿進入了《阿凡達》的世界。純淨的水面倒映著巍峨的山峰,每個轉彎都帶來新的驚喜。
回程的路上,意外遇到了紐西蘭特有的路況-羊群擋道。大批的羊群正要返回農場,我們只好停下車,靜待約十分鐘,欣賞這趟旅程中的最後一道風景。看著牧羊人和牧羊犬忙碌的身影,以及緩緩移動的羊群,構成了一幅生動的鄉村畫面。
雖然一天往返米爾福德峽灣確實非常疲憊(皇后鎮也有一日來回的巴士行程可以選擇),但沿途的風光與峽灣的壯麗景色,都讓這趟旅程值得。從清晨到黃昏,跨越山脈,穿越隧道,最終抵達這片被譽為「世界第八奇蹟」的峽灣,每一刻都是值得珍藏的回憶。這趟旅程不僅是一次自駕探險,更是一場與大自然的親密對話,透過相機記錄下的每個畫面,都訴說著這片土地的純淨與壯美。
在農曆春節假期前,Deepseek-R1 的推出,加上前對沖基金投資分析師、現任 Pastel Network 創辦人兼 CEO Jeffrey Emanuel 發表的《The Short Case for Nvidia Stock》一文,導致輝達市值大跌,連帶影響了 AI 相關概念股與科技股。過年期間,我的社群平台上充斥著 DeepSeek 相關報導。面對如此龐大的資訊量,加上部分訊息難以求證,我先將它們標記起來,再透過 Google NotebookLM 和 OpenAI 的 ChatGPT 進行彙整。
NotebookLM 不僅能集中管理文件、彙整文意,還能透過問答來延伸議題討論。特別的是,它提供了 AI 語音生成功能,能模擬廣播訪談的形式,以兩位主持人對話的方式呈現主題內容。正因我在規劃一份關於生成式 AI 在工作與生活應用的講稿,同時也在研究 AI 應用如何廣泛落地於各產業,我便以 DeepSeek 系列文章為基礎,透過 NotebookLM 和 ChatGPT 製作了一集 Podcast - Deep Dive:DeepSeek 崛起與 AI 變革(目前僅支援英文輸出)。在這集節目中,兩位 AI 生成的主持人分別被我命名為 Nic 和 Ann。
AI 在彙整大量資訊時有其優缺點。優點是它能快速產出架構,幫助我們理解龐大的內容。然而儘管現今的生成式 AI 宣稱具備推理能力,在處理多線資訊時,仍可能出現與事實和資料來源不符的情況。因此錄音檔中提到的某些人名或專家頭銜其實並不存在。另外像 Archerman Capital 對於 DeepSeek 的分析,我找不到原始出處,目前都只看到簡體版。
我的工作流程是先用 NotebookLM 彙整所需資訊,生成一個 Deep Dive 節目廣播,再使用 [PLAUD](https://tw.plaud.ai/products/plaud-note-ai-voice-recorder) 進行語音轉文字,最後透過 ChatGPT 彙整核實,並輔以 Google 手動查證。以下是這個 Podcast 的中文翻譯,我已針對內容做了修正,雖與原始語音檔有些出入,但不影響收聽體驗。
藉由這篇文章與廣播的結合,我想呈現當前生成式 AI 的具體應用,以及如何透過人機協作來確保資訊正確性。雖然大量討論 AI 的文章、節目、廣播充斥在我們的生活中,可能導致知識獲取的疲勞感並產生反效果。但正如 Podcast 中所強調的:『我們不能忽視 AI』、『我們必須超越死記硬背的學習方式,轉而培養那些 AI 無法輕易取代的技能』、『保持關注、積極參與、並持續保持好奇心』,這些都是面對 AI 時代必須具備的認知與應對方式。
Deep Dive:DeepSeek 崛起與 AI 變革
這兩年在不同的報章雜誌上常會聽到提示工程這個名詞,甚至很多報導都在談論現在「提示工程師」這個行業很吃香,是一種新興的專業項目。然而提示工程師到底是什麼?而提示本身又有哪些眉角與技術,本書就針對這個領域以十六個章節來呈現相關的內容。我所閱讀的是《AI提示工程師的16堂關鍵必修課》這本書的初版,在 2024 年 9 月底有發行第二版,本書的心得是以初版跟我個人的理解來分享的。
在生成式人工智慧(Generative AI)快速發展的時代,提示工程(Prompt Engineering)成為了運用 AI 技術的重要關鍵。這門技術不僅僅是一項工具,更是一種連結人類智慧與機器學習的橋樑,透過精心設計的提示(Prompt),能夠引導 AI 生成更準確、有效且具有創意的內容。本書深入探討了提示工程的核心概念、實踐方法與未來應用,是一本兼具技術深度與實用價值的專業指南。