醫療人工智慧需要考慮的安全問題 @ 有勁的基因資訊

作者：郭任超／有勁生物科技

　　機器學習技術近年來在醫學領域漸漸被應用來協助解決複雜的醫學問題，各家研究團隊競相研發醫療人工智慧(AI)系統，輔助醫師能力甚至期待有朝一日能取代醫師。儘管醫療人工智慧系統帶來許多好處並帶動了醫療保健轉型，但任何醫療實踐都可能有風險，而患者健康和醫療安全卻無容許犯錯的餘地，因此醫院環境在部署人工智慧工具之前，應仔細考慮此類系統的臨床應用以及隨之而來的品質與安全問題。

　　今年BMJ Quality & Safety有一篇研究¹，為臨床安全專業人員和人工智慧開發人員對諸多安全問題進行了彙總分析，目的是強調臨床安全問題的重要性以支援醫療人工智慧系統未來的研究和開發。以下是摘要簡介。

一、機器學習在醫療領域的研究趨勢

　　目前醫學領域以外最前沿的人工智慧研究，集中在開發能自我學習、並能不斷發展策略以實現目標的機器學習(ML)系統，例如學習掌握圍棋遊戲、金融市場交易、資料控制中心冷卻系統、或自動駕駛。為了保障安全性及降低事故發生的風險，Google Brain等曾聯合發表探討這種人工智慧自主學習的五個具體安全問題研究2；而從這項研究，大家也開始注意到醫療人工智慧應用的潛在問題。

　　根據下圖一的預測，未來醫療人工智慧系統的發展，可能會從目前醫療上廣泛應用的臨床決策支援系統(DSS; Clinical decision support systems)，轉變成可透過篩選轉診去自主分類患者、或者去決定臨床服務提供優先順序的機器學習自主決策系統；而這種自主系統(autonomous systems)有可能會帶來道德與責任上的重大問題，因此要實際應用在醫療領域，預期還有一段長路要走。

圖一、機器學習研究的預期趨勢圖

本圖預測了機器學習(ML)研究在醫療領域的短、中、長期趨勢。灰色方框裡是以規範為任務執行根據(rule-based)的臨床決策支援系統，黃色和橙色方框則是未來醫療應用上預期會使用到的機器學習(ML)系統。機器學習系統的發展，由左往右(灰黃橙)，可見其自主管控程度(autonomous)不斷地提升。未來用在支援黃色和橙色方框裡這些任務執行的機器學習系統，將會變得更自動化，且能不斷自我學習以滿足更複雜的應用；但在此同時，卻也需要給予更多的監控以確保其能按照人們預期的方式執行任務。(圖片來源：Challen, R. et al. BMJ Quality & Safety. 2019, Jan; 28(3):231-237.)

二、醫療人工智慧的品質與安全問題

　　BMJ Quality & Safety這篇研究¹提出了一個分析和解決醫療人工智慧自主管控系統短、中、長期品質與安全問題的通用框架(general framework)，內容摘要如下。

【短期問題】

●統計分佈情況改變 (Distributional shift)

　　環境上的變化導致資料群體的統計分佈改變，醫療人工智慧系統如果無法因應此變化，可能會做出錯誤的預測結論。例如，時間演變或群體和環境特性有所改變，都可能會讓疾病模式產生變化。每台機器在預測診斷之前，若沒能事先將輸入的資料標準化，就會受到影響，而做出「資料樣本外的預測(Out-of-Sample prediction)」這類的錯誤結論。

●對緊要衝擊不夠敏感 (Insensitivity to impact)

　　預測系統所做的分析沒有能力去評估漏報(false negative)或誤報(false positive)對現實狀況可能造成的影響。例如，診斷系統被訓練到可竭盡所能準確診斷出良性腫瘤，但偶爾仍會疏漏惡性腫瘤的診出，這就可能對患者造成無法彌補的損害。相較之下，人類醫師在面對可能有潛在嚴重後果的情形下，通常較能謹慎行事，會傾向將良性腫瘤過度診斷為惡性腫瘤。

●黑盒子決策 (Black box decision making)

　　預測系統的機器學習模型不透明，不容易理解特徵之間的作用關係，也無法解釋為何給出這些預測，醫師最後也只能根據機器預測的最終結果來進行人為判斷。例如，機器學習的訓練資料原本就出現問題，以致分析X光片影像的醫療人工智慧系統在某些情況下預測失準；然而其所採用的學習模型屬黑盒子系統，不易觀察分析其中的內部結構關係，只能在長時間使用之後，才有機會去發現問題。

●不安全的錯誤模式 (Unsafe failure mode)

　　當系統準確預測的可信度(confidence)很低，而在資訊不足難以進行預測時，又沒有主動拒絕分析，仍照樣進行預測並輸出結果。例如，疾病檢測相關資料有部分丟失時，上述這類不安全的醫療人工智慧決策支援系統就有可能會做出「低風險」的疾病預測結論，不但未能提供任何預測可信度的資料，也沒有啟動錯誤保護模式，以致臨床醫生無法意識到這個預測結論根本不可信。

【中期問題】

●自動化自滿 (Automation complacency)

　　當人們相信自動化系統是可靠的，可能會過於依賴系統，造成所謂的「自動化自滿」現象。例如，臨床醫生可能不知不覺地傾向信任醫療人工智慧工具，因為假設所有人工智慧預測都是正確的，而忘了思考這些系統所給的結論可能含帶風險問題，未能去進行交叉驗證或考慮替代方案。

●強化已經過時的預測(Reinforcement of outmoded practice)

　　醫療現況有新發展或醫療政策突然發生變化，而醫療人工智慧系統卻無法即時因應。例如，某一款藥物因為對患者會造成風險而被突然撤銷許可，當初培訓人工智慧系統的所有歷史統計資料如今已然都變成「過去式」，於是醫療人工智慧系統便無力因應。

●自我實現的預測 (Self-fulfilling prediction)

　　特別是對某些能透過更新而不斷學習的醫療人工智慧系統，為了檢測某種疾病，在不斷訓練之後可能會透過正回饋循環(positive feedback loop)，自以為是地強化了預測結論，反過來影響醫師的治療建議。例如，被訓練來預測某些癌症患者預後不良的系統，若是做了這類預測，便有可能讓醫師做出「治標不治本(palliative)」而非「治愈 (curative)」性質的決策。

【長期問題】

●負面影響 (Negative side effects)

　　醫療人工智慧系統學會執行的功能受局限，未能考慮更廣泛的背景因素及潛在的意外後果時，就可能帶來負面影響。例如，為了成功維持短期氧合(short term oxygenation)，自主呼吸器決定採取換氣策略(ventilation strategy)，結果卻造成長期肺損傷的代價。

●獎勵駭客 (Reward hacking)

　　醫療人工智慧系統在持續學習過程中，以意想不到的方式去實現獎勵，但卻未去實現預期目標。例如，肝素給藥系統在啟動部分凝血活酶時間(aPTT)測量之前，可能會給予肝素脈衝注射的決定，這雖然提供了良好的短期控制，但卻沒有達成長期穩定控制的預期目標。

●不安全的探索 (Unsafe exploration)

　　能主動學習的醫療人工智慧系統為了學習新策略、或找到它正在尋找的目標，可能會採取不安全的方式去試探可忍受範圍邊界的條件。例如，可以試驗肝素的劑量、具有持續學習功能的肝素給藥系統，為了試圖改善當前模式以實現高效的aPTT控制，而開始採用危險的大劑量推注。

●難以克服的監控問題 (Unscalable oversight)

　　持續學習的系統需要一定程度的患者監控資料來幫助學習，但這些資料的提供通常頗不容易且耗時。例如，醫療人工智慧系統在學習新患者群體的肝素管理策略時，會不斷要求進行既昂貴又不容易經常有機會做的新患者群體aPTT測量。

　　隨著人工智慧應用的發展，醫療人工智慧系統會越來越自主、越來越複雜；因此，在考量系統功能性的同時，醫療安全毫無疑問地也得列入評估。本文介紹的研究提出醫療人工智慧系統在臨床實踐時可能會面臨的短、中和長期安全問題；希望有朝一日這些問題能夠被克服，這樣我們才能真正安心讓這些數位工具自主運作改善醫療品質。

參考文獻

1. Challen, R. et al. Artificial intelligence, bias and clinical safety. BMJ Quality & Safety. 2019, Jan; 28(3):231-237. Retrieved from http://dx.doi.org/10.1136/bmjqs-2018-008370

2. Dario, A. et al. (2016 Jul). Concrete Problems in AI Safety. Cornell University arXiv.org. Retrieved from https://arxiv.org/abs/1606.06565

thumbnail_官網用CC創用_ND_YH.png