腳痛在家的休息日,把「機智醫生生活」給看完了。

這部片因為有樂團練習穿插,所以看起來特別有感觸,因為老婆以前在校,也是跟其他同事組了一個樂團,所以看劇集時就會有很強的代入感。

我看過不少醫療類的影集,最早是喬治·克隆尼演的急診室的春天(ER),之後看了很長一段時間的是實習醫生(Grey's Anatomy)。國內的醫療劇,最喜歡的是白色巨塔,麻醉風暴 1 跟 2 聽說也很好看,但還沒追。

韓國醫療影集數量就很驚人,我都是在 Netflix 上面看的,包含了名不虛傳、異鄉人醫生、D-Day。當然更早時有跟老婆一起看古裝片大長今。Netflix 上可以看的,隨便數數可能也有二十多部吧!

「機智醫生生活」的主題,我覺得是比較特殊的切入點,它強調的是同窗情誼。一般我看到的同窗,都是最菜的時候,一起面對醫療體系的蹂躪。而看到教授級的同窗情誼,這是第一部。

影集一開始步調有些慢,但是這些鋪梗,後面會帶來一波波的衝擊,很值得細細品味。有時候會想想,我也有過很好的同窗情誼,但步入了四十歲之後,還能像影片中這樣的,真的沒有。這也是影片讓人很羨慕的設計之一。

我覺得影片述說的是人性的善良面,儘管也有些特殊的人物角色設定,但良善與愛心是全片的主軸,這也是影片吸引我的地方。

本來以為會是十六集的長度,沒想到十二集第一季就結束了,下一季要等到明年。

之前不太認識曹政奭(조정석),我們家都叫他跑跑人,因為接觸到他的第一部片子是電影「極限逃生」,整部片他就跟潤兒一直在跑跑跑,所以我們家都說他是跑跑人。第二步片是「飆風特警隊」,片中他演壞人,也是演的相當壞。第三部就是這個劇集了,看了一些花序才知道本人就跟影片中的李翊晙一樣搞笑,很有才。
很推薦大家看這一部影集,可以讓人相信人性真善美的那一面。

※※※※※※※※※※※※※※

上回提到我很喜歡「機智醫生生活」這部韓劇,除了劇情的設定讓人感受到真善美之外,劇中人物的友誼,走向真實世界中的友誼,可以說是導演一手促成的。

這部片在十二集裡,每一集都會有一首代表歌曲,然後會有不少篇幅,聚焦在這五位主角所組成的樂團上。剛開始看時,我有點不解,想說樂團練歌的劇情步調有些慢,像我是因為老婆自己參加過樂團,我也跟拍了樂團很長一段時間,所以心有所感,很喜歡看樂團練習的劇情,但一般的觀眾難道也能夠看下去嗎?

實際上拍這部片之前的半年,五位主角就接受一對一的教學,包含了吉他、貝斯、電子琴、鼓的練習。所以從這三個花絮可以看到五個人一路走來的歷程,真的超級佩服的。也因為一起團練的關係,所以五人私底下感情特別好,也因為拍這部片,約定了第一季結束後,他們私底下會繼續練習。

五個人的樂團,被田美都命名為「美都與 Fa La Sol」(Mido and Falaso),還因此出道正式發行了兩張EP,在上週還在羅 PD (導演羅䁐錫)的「頻道十五夜」進行了七首歌曲的 Live 演出

在樂團演練的「花絮一」裡,飾演安政源的柳演錫曾開玩笑說:「我有個好奇的問題,明明是部醫療劇,有必要這麼拼嗎?」

一方面很感嘆節目可以這麼認真的拍攝,也很敬佩演員們的敬業與態度。另一方面,認為生活中的確需要這些溫馨的元素,尤其是在這個肺炎疫情肆虐的時刻。同時也告訴自己,做事就應該是要這樣。努力雖然不見得會有成果,但有時候可以化不可能為可能。

延伸閱讀:
【機智醫生生活】演員介紹(曹政奭、田美都、柳演錫、鄭敬淏、金大明)+ 拍攝花絮 & 劇照分享 !!!

【機智醫生生活】拍攝花絮、採訪、劇照、OST 總整理!!!(持更)

HOSPITAL PLAYLIST (Original Television Soundtrack)

機智醫生生活 Apple Music 歌單

2020-06-09  -  duncan Email  -  3458  -  影音手記 - 讀者回應

Queenstown Day 1 and Day 2

Day 1
Taichung to Hong Kong AE1817 1300-1430
Hong Kong to Auckland NZ80 1705-0750

Day 2

Hong Kong to Auckland NZ80 1705-0819(Delay)
Auckland to Queenstown NZ615 0930-1125(Miss)
Auckland to Queenstown NZ621 1205-1358(Change)
Thrifty Car Rental 1400-1430 Check Out
Supermarket - Raeward Fresh Queenstown 1520-1550
Accommodation - The Lairds Bothy 1000 Check In 1610
Dinner - Captain's Restaurant 1730-1840
Evening tea - Patagonia Chocolates(Queenstown) 1845-1900
Shopping - Aotea Gifts Queenstown 1915-1945
Supermarket - Church Street Night ‘n Day 1945-1950
Go home 2010

2019 Queenstown Day 3 and Day 4

Day 3

Experiences - Skyline Gondola 1140-1200
Lunch - Stratosfare Restaurant & Bar 1200-1330
Playing - Luge 1340-1600
Shopping - Skyline Gondola & Luge 1600-1620
Supermarket - Four Square Alpine 1620-1700
Go home 1715

Day 4

Experiences - Kiwi Birdlife Park 0940-1300
Shopping - Kiwi Birdlife Park 1300-1340
Shopping - Peregrine Wines 1420-1450
Lunch - Gibbston Valley 1455-1600
Shopping - Gibbston Valley Cheese 1600-1610
Supermarket - Countdown 1635-1720
Go home 1740

2019 Queenstown Day 5

Day 5

Experiences - Glenorchy Animal Experience 1100-1225
Lunch - The Sugar Loaf Cafe 1240-1350
Experiences - Glenorchy Wharf 1355-1435
Shopping - Mrs Woolly's General Store 1445-1510
Attraction - Bennetts Bluff 1535-1540
Attraction - Closeburn Beach 1550-1600
Playing - Playground, Lake Esplanade 1635-1650
Go home 1700

2019 Queenstown Day 6

Day 6

Experiences - Walter Peak Farm Tours 1000-1130
Lunch - Walter Peak Gourmet BBQ Lunch 1130-1235
Experiences - Walter Peak Farm Tours 1235-1330
Experiences - Feeding Ducks
Conference - Crowne Plaza Queenstown
Shopping - OK Gift Shop
Dinner - The Rees Hotel, True South 1800-1950
Go home 2005

2019 Queenstown Day 7

Day 7

Experiences - Coronet Peak 0850-1700
Lunch - Coronet Peak 1240-1400
Supermarket - FreshChoice 1720-1740
Go home 1800

2019 Queenstown Day 8

Day 8

Conference - Crowne Plaza Queenstown
Playing - Playground, Lake Esplanade
Lunch - Fergburger
Experiences - Feeding Ducks
Afternoon tea - Starbucks
Shopping - Global Culture
Shopping - Quiksilver
Supermarket - Asian Mart Queenstown
Supermarket - Shotover Night ‘n Day
Attraction - Sainsbury Rd
Go home 1720

2019 Queenstown Day 9

Day 9

Hiking - Matakauri Park
Experiences - Historic Arrowtown Chinese Settlement
Lunch - Postmasters Restaurant
Shopping - The Gold Nugget
Afternoon tea - Patagonia Chocolates(Arrowtown)
Supermarket - Kmart Queenstown
Shopping - The Warehouse
Go home 1730

2019 Queenstown Day 10

Day 10

Accommodation - The Lairds Bothy 1000 Check Out
Playing - Playground, Lake Esplanade
Lunch - Akarua Wines & kitchen by Artisan
Attraction - Lake Hayes
Shopping - Briscoes Queenstown
Shopping - Remarkables Park Town Centre
Thrifty Car Rental 1650-1700 Check In
Queenstown to Auckland NZ628 1955-2145(Move up)
Queenstown to Auckland NZ634 1815-1950(Change)
Auckland to Hong Kong NZ87 2345-0725(Delay)

Day 11
Auckland to Hong Kong NZ87 0045-0825
Hong Kong to Taichung AE1820 1010-1145

2020-06-09  -  duncan Email  -  904  -  浮雲遊子 - 讀者回應

課堂大綱
一開始提到自然語言處理(NLP,Natural Language Processing),處理的範疇很廣泛,包含了古文、白話文、論文、現今流行的用語,都是 AI 需要處理分析的。

而目前的機器已經知道詞彙在語意空間中的位置,舉了一個實例,跟好棒語意相近的詞彙。有超讚、真不錯、真好、好有趣、好感動。

但像好棒棒,機器已經能分辨是另一個詞彙,跟其類似的有不就好棒棒、阿不就好棒、好清高、好高尚、不就好棒。

接下來提到監督式學習,利用鳥類鳴叫聲的分辨為例,給予機器不同鳥類的叫聲,告訴機器這些資料集是哪一種鳥,機器會自動找出關連,就能夠進行辨識的學習。然後提到測試階段,去驗證機器學習的成果。

再來進入聊天機器人的主題,提到聊天機器人大致可分為「任務導向聊天機器人」、「閒聊式聊天機器人」、「閱讀理解聊天機器人」三種。

任務導向聊天機器人的運作,是將語音轉化為文字,然後再進行文字的理解,將其從非結構化資料轉為結構化資料。在進行對話管理時,將剛剛的結構化資料,帶入資料庫或知識庫查詢,最後給予回應,然後作回應的生成(轉換為口語回應)。

透過查詢電影的範例,來說明任務導向聊天機器人的運作細節。其中在語言理解區塊,會有「意圖分類」(Intent Detection)跟「槽填充」(Slot Filling)兩種模式。意圖分類是確認使用者需要哪種服務,然後透過槽填充來找出用戶所需的資訊。

在對話管理部分,有進行「槽填充」的細部說明,包含確認使用者的問題,以及模版式生成法。

閒聊式聊天機器人,舉了 Mitsuku 機器人為例。這部份介紹了 Mitsuku 的背景與豐功偉業,然後提到這樣的機器人,其實是採用雞尾酒式的技術,結合了AIML推論、記憶力、基於知識本體的推理能力、監督式學習等領域的技術,才能做到一個接近真人回應的聊天機器人。

中間有利用之前對話的範例,來說明 Mitsuku 可以做到哪些回應,以及哪些回應有點牛頭不對馬嘴。而 Mitsuku 厲害的地方,在於它可以記住對話人的一些背景資料。例如知道蔡宗翰教授來自臺灣。

另外舉了蔡教授自己閒時開發的川普對話機器人,其訓練的資料集來自川普的訪談、電視辯論、以及影集紙牌屋的對話文本。其作業方式是用 LSTM 的 Seq2Seq 模型,以一來一回的語句資料進行循環神經網路的訓練。但是沒有訓練過的資料,機器便無法回答。

閱讀理解聊天機器人,其特性有點像是在做閱讀測驗,這類機器人可以作為資訊輔助的工具。其使用的模型是 Google 推出的 BERT。訓練時需要資料集,英文的資料可以採用 Stanford 推出的 Question Answering Dataset - SQuAD

中文部分可以用科技部的「與AI對話競賽資料集」與台達研究院的「DRCD」。提到訓練與測試的資料格式,都是文章(需標出答案在哪裡)、問題,接著說明閱讀理解聊天機器人的系統架構。

彙整三種聊天機器人,並提到他們的應用,以及現在有雙模態(語言視覺識別)與三模態(語言視覺情緒)的聊天機器人。應用面部分有南加州大學推出的心理諮商的 AI 聊天機器人(同質性的還有 Standford 大學的 Woebot );以及 NTU IOX center推出的組裝教學的任務輔助機器人;北京清華大學的九歌NVIDIA 天氣聊天機器人 Misty

最後則介紹了 AI CUP,鼓勵大家參與人工智慧競賽。並在課程後回答聽眾的提問。

心得
在久大工作的期間(2007.11)我們單位曾開發了簡單的聊天機器人服務,是基植於 MSN 上的服務。當時的服務很簡單,是給予了一個對話指令,使用者輸入相關指令後,可以查詢到他想詢問的答案。

在這之後,目前較長使用的有 Line 上面的闢謠機器人「美玉姨」,查國字的「國語小幫手」。然後就是 Apple 家的 SIRI 服務,我自己有兩個 Homepod,也安裝了 HomeKit 套件,可以透過語音控制家裡的冷氣、風扇、電視、電燈、電源開關等。我們家兩小也常跟 SIRI 對話,最常用的是設定計時器與鬧鐘,還有閒聊。我自己較常用的是氣象與地圖查詢(CarPlay)。

所以原本所知的聊天機器人,就是上述這些,以及工作上有用過的公子小白機器人,與犀動的小犀管家

透過這次的演講,讓我更清楚聊天機器人的種類,以及其背後所使用的技術,可說是收益良多。最重要的是三模態的應用,與其所舉的案例,讓人無法小瞧聊天機器人的發展。舉凡像是測謊、消費輔助、醫療輔助、急救輔助等,其實未來都可以導入在生活中,提供我們許多的輔助。所以在收穫上,應該就是這個技術可以應用的層面,多了許多的觸發。

蔡宗翰教授的演講,可以說是結構鮮明,深入淺出,獲益良多。回答提問時,也花了不少時間,雖然部分問題淺顯的帶過,但都有回答到點上。很值得花時間聆聽。

速記
語言處理

知道詞語在語句中的位置

監督式學習

任務導向聊天機器人

語音轉文字

語音理解(非結構化轉結構化資料)

對話管理

回應生成(口語回應)

語言理解

意圖分類
槽填充

對話管理

狀態追蹤(找一部四星級以上的美國電影。2017年的)

(起點、發行地、評等、年份、終點)

決定回應動作(通知—答案、請求—槽、確認—候選槽值)信心值過低,AI會再次確認。

模板式生成法(語意框架、模板、生成口語回應)

閒聊式聊天機器人

Mitsuku機器人(Loebner五次圖靈獎)

圖靈測試

使用以下的技術(雞尾酒式技術結合)

啟發式模板

AIML推論(推論引擎框架)

記憶力

基於知識本體的推理能力

監督式學習

川普機器人

川普專訪

川普辯論

紙牌屋影集對話

LSTM的Seq2Seq模型(一來一回的語句資料)

循環神經網路

沒訓練過資訊無法回答

閱讀理解聊天機器人

閱讀理解任務

BERT(Google推出)

SQuAD資料集(英文)

與AI對話競賽資料集(科技部)

DRCD(台達研究院-中文資料集)

訓練資料格式

文章

問題

測試資料格式

文章

問題

深度語言理解模型

閱讀理解聊天機器人系統架構

訓練資料集

BERT-SQuAD訓練

模型檔案

BERT-SQuAD測試

語言視覺識別雙模聊天機器人

表情與語音

影像YOLO模型

BERT+YMCL 88%

NTU IoX Center

語言視覺情緒三模態聊天機器人

臉部情緒辨識

南加大AI心理治療師

NVIDIA聊天氣機器人

清華大學九歌

https://m.facebook.com/pages/category/School/AI%E7%95%8C%E6%9D%8E%E7%99%BD-333190044021877/

詠人工智慧-類神經
人工智慧正方興
事事皆求類審經
福洛天赦拍拓曲
開發利器必先明
蔡宗翰

AI CUP 2020

https://vocus.cc/AI_LiBai/home

https://medium.com/@prof.r.tsai

2020-06-09  -  duncan Email  -  1400  -  資訊工程, Furl網摘 - 讀者回應

你,認識 AI 嗎? - 深入淺出介紹 AI 原理及發展

課堂大綱
從圖靈的模仿遊戲說起,讓人類去判斷另一端的是人還是電腦,以及電腦是否具有思考能力的可能性?

簡述 Artificial Intelligence(人工智慧)一詞的由來,源於 John McCarthy 在 1956/8/31 舉辦的 Dartmouth workshop(達特矛斯會議),當時首次出現 AI,之後也以 AI 為名。

接著提到了 AI 的三波發展史,第一波 1956-1976,以邏輯推演為主(導入了數學處理問題),像是迷宮、棋類主題,都可以透過這些演算想辦法處理,但是生活類的問題,卻無法妥善處理,因此迎來首次寒冬。

第二波發展 1976-2006,此時著重於知識(專家系統),透過知識的資料累積,解決了不少問題。但是他還是無法處理過於複雜,以及常識性的問題。這讓人工智慧的發展,迎來第二次寒冬。

第三波發展 2006-至今,延續第二波發展就已經嶄露頭角的神經元網絡,第三波增加了大數據資料,以及機器學習。這個方式是讓機器學習取得一筆大量資料,告訴機器這是什麼東西,由機器去發現特徵。所以在課堂上簡述了 Convolution Neural Network(CNN,卷積神經網路模型的概念),同時也用流言終結者的片段,比較了 CPU 跟 GPU 運算的差異。

人工智慧的領域涵蓋了機器學習,而機器學習的領域,又涵蓋了深度學習。這是 AI、ML、DL 三者間的關係。

機器學習有幾種類別,Supervised(監督式)、Unsupervised(非監督式)、Reinforcement(強化式)。

監督式:資料被標註(Lable),然後告訴電腦相對應的數值,預測結果跟真實結果的差距越少,表示預測的水平越高。這時用 Gradient descent(梯度下降法)來解釋,如何透過這個演算法來取得最佳化的參數。

另外進階舉了一個 Binary classification(二元分類)的範例(判斷資料正或負),提到在三維狀態下,如何找出那個模型,來區別資料數正或負。

提到 XOR problem(互斥或問題),XOR 只有在 OR 的狀態下為 True(真),AND 狀態下為 False(否)。初期的 ANN(Artificial neural network,人工神經網路)無法處理多層神經網路訓練,會導致互斥或無法被有效分割。但多層處理出現後,兩個 Perceptrons(感知器)就能解決這個問題。(利用多層疊加來解決複雜資料的處理)

現今有第三波發展的原因,在於資料集夠大,以及運算處理的能力加強了很多。這讓 Neural Network(類神經網路)的處理結果,優於早先的機器學習方式。

這邊用了一個流言終結者的影片,說明 CPU 與 GPU 處理能力的差異,同時也提到了 Google 提出的 TPU(張量處理器),實際上 TPU 的效能與處理速度,較 GPU 跟 CPU 快了 15-30 倍。

再來提到了 CNN(Convolution Neural Network,卷積神經網路)的技術,這是一個影像識別很強大的深度學習模型。這個方式是將圖片經過各兩次的 Convolution、Pooling、Fully Connected,這就是 CNN 的架構。

實例是用美國 LeCun 手寫郵遞區號的辨識來做為案例(MNIST database),當時結果可以發現用 CNN 的方式錯誤率最低,不過傳統的 SVM 方式,表現也很不錯。

最後提到李飛飛,她啟動了 ImageNet 項目,2012 年的 ImageNet 挑戰賽,多倫多大學的 Geoffrey Hinton、Ilya Sutskever、Alex Krizhevsky 提出了一種 CNN 架構:AlexNet,奪得了冠軍。

課堂結束前,介紹了三本書籍,以及幾個線上課程。其中最有名的當數台灣大學李宏毅教授的機器學習課程

心得
在聽課的當下,不太容易建立起架構,需要在課堂結束後仔細整理,才能瞭解這堂課分享的 AI 脈絡。所以對於上課的學員來說,努力傾聽跟事後的複習是很重要的。而對於授課講師來說,若能利用一些大綱跟脈絡,來幫學員建立起架構,課程內容會更生動一點。

另外舉例的部份,後半段手寫郵遞區號跟圖形辨識的部份,我認為可以多增加一點。就是利用應用的實力,來帶入處理的方式與技術演變。這對於非技術背景的人來說,會更好進入狀況。雖然我自己是資工背景,但數學不是特別好,能聽懂多數內容,是因為前陣子已經被許多線上課程蹂躪過了。

利用數學公式來表達,是必不開的方法。但裡面有些專有名詞,若沒有先做些註記與說明,對數學基礎不好的人,聽到這邊應該是一頭霧水。這部份的建議,在課後問卷裡有提出,已經建議給講師。

對於沒接觸過,完全不懂的東西,要學習勢必會經過所謂的撞牆期。我的方法有點笨,就是多聽、多查、多整理、多吸收,累積久了,似乎也就懂了那一點點東西。而隨著實作增加,掌握度就會越來越好。所謂一步登天,是沒這回事的。

速記
從圖靈(Alan Turing)的文章切入介紹 Can Machines Think?

模仿遊戲

John Searle - Chinese room

strong AI & weak AI

John McCarthy

Dartmouth workshop - Artificial Intelligence

3 Waves of AI

1956-1976
1976-2006 專家系統面臨低谷(無法處理複雜或常識問題)
2006-now

AI 包含 ML(Machine Learning) 包含 DL(Deep Learning)

Machine Learing type

Supervised(監督式)從x找y
Unsupervised(非監督式)只有x沒有y,學到資料本身的特徵
Reinforcement(強化式)從環境當中學習
gradient descent

binary classification

梯度下降

XOR problem

Big Data 的影響,讓類神經效果(neural network)提昇

CPU GPU TPU

Convolution Neural Network 卷積神經網路

ML 與 DL 的差異

郵遞區號辨識案例

SVM CNN

李飛飛(CNN圖型辨識)

李宏毅-機器學習課程

2020-06-09  -  duncan Email  -  1289  -  資訊工程 - 讀者回應

Digital Cloud OnBoard: 大數據 & 機器學習

心得
模組 1 : Google Cloud Platform 介紹
第一節主要是在介紹 GCP 所提供的服務,包含 Google 在基礎建設上的強處,以及為何 GCP 可以提供可靠的雲端服務。然後本次技術分享課程,主要是針對資料工程的工作項目,後續幾節會說明機器學習的技術跟服務。

如果從沒使用過 GCP 服務的人,或是想要將 Local 端的伺服器服務,轉移到雲端服務的話,可以聽一下這一節的簡單說明。至於已經開始使用 GCP 的人來說,可以聽聽他裡面提到的案例,以及資料與運算分離的方式,尤其是純資料儲存可分為經常存取跟很久或很少存取的,在預算上有不少差異(少用比較便宜)。

另外對大公司的開發團隊來說,它有三層架構連接底層的運算服務跟資源,透過 Projects、Folder、Organization 三層,可以進行權限與工作管理上的劃分。這部份沒聽這堂課時,我只知道有 Projects,不知道還有 Folder 跟 Organization 的方式。

另外有提到將檔案上傳到 GCP 的方式,之前有去聽另外一個研討會,那場就有完整說明如何將本地端主機,轉移到雲端伺服器的作業流程。當然 Google 的說明頁面也會有,只是聽過別人介紹再看說明,理解跟實作會快很多。

另外雲端伺服器的好處,在於拓展性高、可用度高,企業如果使用傳統方式架設服務,勢必一開始就得投入主機、網路設備的硬體資源,而且還需要一個專職的管理者。但云端主機開啟一台虛擬機器,就一分鐘的事。在需要時,可以續速拓展,不需要時馬上關閉,以使用量來計費,這個彈性就不是自己管理主機所能處理的。

十年前,雲端主機的服務還不是那麼普及時,台灣的新創跟美國新創最大差異,就是在IT資源上,美國的環境便利很多,所以也才能造就那麼多網路服務的公司出現。目前雲端服務已經有多種選擇,同時有多加公司提供這類服務,但實際上導入雲端的企業,所佔比例也還不是太高就是。

另外也有提到機器學習應用的樣貌,這跟一般人的理解會有一些落差。花點時間看一下,還蠻值得的。

模組 2 : 推薦 (Recommendations) 與預測 (Predictions) 模型
第二節就正式進入資料分析的實作說明,他有提到最早的大數據框架(2006),是採用 Yahoo 所推出的 Hadoop 框架、MapReduce、Hive、Hbase,簡單說就是分散式運算的框架。

但之後因為移動式設備普及,資料量太大,加上需要即時處理跟運算,Hadoop 在即時分派這些運算工作的效率不佳,另一個 Apache Spark 在處理資料分析的工作,是在記憶體中以實時方式完成分析,所以它的處理效能是 MapReduce 的十倍。Google 透過 Spark 的技術,將資料跟運算分離,所以更能有效的處理即時分析的作業。

GCP 提供了雲端上的 Dataproc 的功能,結合了 Hadoop 跟 Spark,雲端的特性是新增任何資源都很快速,所以工作的組成就有很高的彈性。影片中有描述使用情境跟彈性架構,這部份值得觀看一下,會比較瞭解善用雲端服務的特性,來節省企業的主機架構與運算成本。

另外若本地端已經有 Hadoop 的環境跟作業項目,也可以快速移轉到雲端,基本上是相容的,只需要修改部分程式碼,就可以改在雲端上運作。

中間有提到一部分 Cloud SQL 的介紹,也有提到資料的正規化跟反正規劃的設計。原則上一般的關聯式資料庫,為了節省資料庫資源與空間,都採正規化設計方式。且關聯式資料庫一般都會建立索引,來提升資料查詢的效率。

但以大數據來說,資料本身無結構性,因此通常會採用 NoSQL,它的查詢跟輸出本身就是一致的,所以會使用非正規化的方式來設計,同時在搜尋時會透過機器拓展來增加搜尋效能。我們單位資料工程的面試題目,有一題就是詢問正規化跟非正規化的差異是什麼?以及正規化有哪些規則?(不要有重複群組、去除相依性、刪除不依賴索引的欄位、BCNF)

後半段直接講到 BigQuery 所提供的功能,講解時是使用推薦系統為範例,透過實機操作來做說明。這部份我覺得最重要的就是如何操作的過程,畢竟 GCP 上面服務很多,每個服務又有好多操作項目,自己摸索跟看文件都要花上很多時間。但實際看案例操作,可以依樣畫葫蘆,雖然服務跟功能不同,但系統面大抵上是接近的。

裡面也提到許多機器學習的概念,很可惜 Google 的慣例是不提供簡報,不然有簡報複習起來,會比看影片節省很多時間。

Day - 1 總結
講師 Browny 說有問卷跟小考,但是都沒有看到捏。有填問卷會送精美小禮物,我希望是送 T-Shirt 或 Polo 衫,感覺好像想太多......

明天還有課,就繼續聽下去。

模組3:即時儀表板
本節課程一開始以物聯網的例子當開頭,提到串流資料不斷湧進時,GCP 透過 Pub/Sub 來接收 Topic。然後利用 Dataflow 來處理串流數據的分析工作。這部份的技術,主要是處理大量即時的資料,進行分析代管的服務。所以數據資料處理時,系統會自動調度資源,自動處理擴容,將延遲的時間、處理時間、以及處理成本降到最低。它是利用Apache Beam SDK,這是一個開源的編程模型,用來定義資料處理的管道。

在利用 Apache Beam、Dataflow 的服務時,還可以利用 TensorFlow 來訓練機器學習的模型,並產生預測的結果。

後面一小部分,提到了 Google Data Studio,簡單說明了透過 Data Studio 將分析數據用視覺化的方式來呈現,但我覺得這部份只有簡單帶過,有點可惜。Data Studio 提供多種資料串接方式,但資料呈現到資訊圖表,有諸多限制,所以我想知道是功能本身上的限制,還是我知道的方式不夠多,但這部份沒提太多。

模組4:利用機器學習來獲得深度見解
這一節裡一開始提到哪些項目,適合來做機器學習的專案:包含人工不易判斷的事物、或者需要判斷的數量遠超過人工處理的能力、以及可以事先透過機器學習來篩選的項目,以上這些都適合導入機器學習的技術。舉出的範例包含了判斷一張空拍照片,裡面出現的白色塊狀是雲?還是積雪?以及一艘貨輪上面貨櫃的數量預估;跟醫療影像透過 AI 先篩選掉不需人工判斷的資料。

接著舉了 Quick Draw 與 AutoDraw 兩個範例,前者是給使用者一個題目,只有二十秒的時間來畫出那個主題,邊下筆的同時,人工智慧就會邊分析你畫的內容,成功的時候就會跳下一題。後者是使用者畫一個圖形,人工智慧會猜測你畫的內容,給你一個圖示。這兩個案例都是機器學習與人工智慧系統的範本。同時也說明這兩個案例處理的方式,簡單來說都需要將非結構性的資料轉為向量的數位資料來處理跟分析。

後半段提到貓的範例,說明機器學習的運作原理,並非是我們給予某個東西的特徵來去學習,而是我們給了大量的資料,告訴機器這是什麼,由機器學習自己去找出關連的因素,這才是機器學習真正的運作模式。所以給了機器學習一堆貓跟手繪貓的資料,告訴它這是貓。那麼有一張一般人辨識不出的貓的局部照片或手繪照片,機器學習一樣可以辨識出來。但我們可能無法得知,機器學習是透過哪個特徵認為它是貓。

這方面也顛覆了我的理解,雖然看了機器學習也有一年以上的時間,但基本的運作原理卻不是很清楚,透過這次說明更清楚知道它運作跟學習的方式。

最後有舉一個雲朵圖形辨識的實例,是透過 AutoML Vision 的功能。GCP 上已經提供了數個機器學習的模組,所以在先期的研究,可以利用 AutoML 的模組來進行,它的優點是只有少量資料還是可以進行機器學習,並給予一個結果。

從這個案例裡,我想到的是,現在的車牌辨識功能,就能夠利用 AutoML 的模組來完成。因為車牌的號碼是固定字型,如果是停車場所需的車牌辨識,在取得每台車的車牌照片時,角度跟方向差異是不大的。因此只要提供一定數量的車牌照片,就能夠訓練出一個系統能有效辨識車牌。同樣簡易的人臉辨識,例如手機的人臉跟機台的人臉辨識,也都可以利用類似的技術來訓練機器做識別。

總結
這邊簡單的歸納了第一天跟第二天的內容,提到 GCP 將運算跟儲存分離,仰賴的完整的底層服務架構。然後進行資料工程作業時,準備資料與處理資料才是最耗時間的部份,GCP 也大力去處理其他區塊所需的資源,讓開發者可以專注在前述的作業裡。

最後提到 GCP 提供了三種層級的AI:pre-built AI(使用已經建立的 Model 還可以透過 API 組合)、Custom Models(AutoML)、TensorFlow(自建ML)。

速記
Notification

Pub/Sub

pipelines

https://technews.tw/2020/03/12/google-launches-cloud-ai-platform-pipelines-in-beta-to-simplify-machine-learning-development/

https://blog.gcp.expert/gcs-notification-tutorial-3-cloud-pub-sub/

人不易判斷

判斷的量太大

醫療相關可以做篩選與過濾

https://quickdraw.withgoogle.com/

https://www.autodraw.com/

機器學習是提供資料讓其學習,而非我們告訴其特徵去過濾

給予一堆貓的照片,告訴他這是貓

而不是告訴機器,貓的特性是什麼

非結構性資料轉換為向量的數位資料

autoML試跑(不需要大資料)

AutoML Vision

https://blog.gcp.expert/cloud-automl-vision-quick-start/

運算與儲存分離,仰賴底層服務架構完整

準備資料、處理資料才是最耗時間的部份

三種方式訓練模型

瞭解問題選擇試用的工具來作業

2020-06-09  -  duncan Email  -  723  -  資訊工程 - 讀者回應