醫療人工智慧-診斷AI 第一週筆記 下

如何測試模型的好壞?以及可能會帶來的挑戰? 看看前面的筆記:診斷AI 第一週筆記 上 | 診斷AI 第一週筆記 中 一般來說機器學習會將我們所擁有的數據分做三組1.Training set 訓練組2.Validation set 驗證組 3.Test set測試組 Training set通常是用來做訓練模型;Validation set是用來做測試模型用的,不過這個測試的資料是由原先就已經掌握的測試資料分出來的。 Test set是用來實際測試用,是機器沒有看過的資料。 就好像考試一樣,準備時會使用練習卷(Training set)來訓練模擬考卷(Validation set)來測試讀書的效率以及最後是正式的考試(Test set)。(上圖三種不同的Dataset的下方是這些Dataset常用的其他別稱。) 然而Dataset應用在醫療人工智慧上面主要會面臨 三個挑戰: 1.重複的病人資料Patient overlap 如果今天重複的病人資料被分別使用在訓練組以及測試組的時候,機器可能會記憶該位病人的某項特殊特徵,誤將將這項特殊的特徵當作是一個可以判斷的依據,這種現象是Over-optimistic test set performance。就有點像是考試前你已經看過考題了一樣,機器就會像這樣子把答案記下來,並非像是你想讓他做的-倚靠其他更有依據的線索找到答案。 例如這張圖片所示,機器將這位病人的影像判定為正常,是依據病人穿戴的項鍊,而不是依據病人肺部的現象。 職業病碎念:請大家照X光的時候一定要把項鍊拿掉!! 這樣子的解決方式其實很簡單只要將同一位病人的數據放在同一個組別即可,例如同一個病人的多張影像同時放在訓練組或是測試組,所以以往在分數據的時候可能會從影像上直接拆分,但是醫學影像的話必須以病人作為拆分數據到不同組的根據。 2.數據集的分類Set sampling 前面有提到在醫學人工智慧當中,就舉醫學影像為例,正常病患的醫學影像數量會遠大於有病症的病人的醫學影像數量,所以在分數據到不同的三個不同的數據集時,很有可能測試組裡面沒有分到任何的不正常病患的影像。 解決的方式是在分數據的時候被設定至少有百分之X的不正常病患影像被放到測試裡面,常常這個X會被設成50%。 在測試組的數據確認之後接下來要設定的就是驗證組的數據,驗證組的數據設定策略和測試組的基本上一樣,當這兩組的數據設定完之後剩下的所有數據就會被用作是訓練組的數據。 3.Ground truth/Reference Standard 在醫學裡面數據label,也就是我們理解的「解答」,在機器學習裡面常被稱作Ground truth而在醫學上面同樣的東西會被稱作Reference Standard。 醫學裡面會常常會有沒有正確解答的現象,就舉胸腔X光來說,也許某一位放射科醫師認為某張影像是肺炎,但同樣的影像另外一位放射科醫生可能會有不同的意見,這個叫做Interobserver disagreement。 如此一來決定Ground truth的方法也變得很重要,常見的方法有:1.Consensus Voting就以胸腔X光來說,這個方式就是由一組放射科醫生可能是投票決定又或者是經由討論達到某個共識而決定最後的答案。 2.Additional Medical Testing例如就像剛剛舉例的胸腔X光,如果當放射科醫生無法從胸腔X光得到最後的Ground truth時這時病人會被建議去做其他的測試,例如CT,得到更精確的解答,驗證胸腔X光的Ground truth。除了X光影像之外,例如皮膚癌照片也通常會由組織切片的驗證結果才得到該照片的Ground truth。不過這個方法比較費時費力,所以目前研究大多都是用第一個方式。 螺絲碎念:第一週筆記結束!其實我已經看影片的進度到了第三週了,但筆記做的有點小慢…另外Coursera在昨天通過了我的助學金申請,所以我可以免費上這三週的課!老實說有點既期待又怕受傷害,因為雖然聽得懂,但實作是兩回事,希望之後可以以小白的角度和大家分享學習這堂課的心得。 …

醫療人工智慧-診斷AI 第一週筆記 下 Read More »