AI輔助乳腺癌篩查再獲突破!這一關(guān)鍵難點(diǎn)就這么被新型算法解決了

以下文章來(lái)源于:藥明康德

近年來(lái),隨著生活水平的提高,人們對(duì)健康愈發(fā)重視,早期癌癥的篩查也在加速普及中。為了提高癌癥篩查的準(zhǔn)確性和效率,人工智能(AI)在癌癥篩查領(lǐng)域已做出了不少嘗試,尤其是在乳腺癌篩查場(chǎng)景中的應(yīng)用。


目前,F(xiàn)DA已經(jīng)批準(zhǔn)了至少16款乳房X光篩查算法,用于癌癥檢測(cè)、癌癥風(fēng)險(xiǎn)預(yù)測(cè)和質(zhì)控。但近期的一項(xiàng)薈萃分析顯示,AI似乎還沒(méi)能發(fā)揮出其在幫助癌癥篩查方面應(yīng)有的潛力——在乳腺癌篩查方案中使用AI進(jìn)行圖像分析,納入研究的36個(gè)AI系統(tǒng)中有34個(gè)(94%)的準(zhǔn)確性都低于單位放射科醫(yī)生作出的判斷,而且所有36個(gè)AI系統(tǒng)的準(zhǔn)確性都低于2位及2位以上的放射科醫(yī)生作出的共同判斷。

微信圖片_20220816144937.png


基于這項(xiàng)研究,學(xué)者們對(duì)目前輔助乳腺癌篩查的AI算法作出了如下總結(jié):“近期的證據(jù)顯示,現(xiàn)有的AI系統(tǒng)在乳腺癌篩查中無(wú)論是從質(zhì)量還是數(shù)量上來(lái)說(shuō),都遠(yuǎn)未達(dá)到臨床應(yīng)用的要求。

AI算法在乳腺癌篩查中的表現(xiàn)不佳,原因在哪兒?

來(lái)自華盛頓大學(xué)醫(yī)學(xué)院的放射學(xué)助理教授Aaron Mintz教授指出,盡管可能的原因有很多,但其中最重要的還是由于用于訓(xùn)練AI的數(shù)據(jù)集來(lái)源過(guò)于單一,缺乏不同種族、不同地域及不同社會(huì)經(jīng)濟(jì)地位人群的多樣化的高質(zhì)量數(shù)據(jù)。

目前大多數(shù)大型AI培訓(xùn)隊(duì)列的數(shù)據(jù)都來(lái)源于歐洲,這是因?yàn)闅W洲有國(guó)家性的注冊(cè)和篩查計(jì)劃。而美國(guó)用于AI培訓(xùn)的數(shù)據(jù)集往往是單中心的,在數(shù)量和多樣性上存在著嚴(yán)重的不足,這會(huì)導(dǎo)致?lián)擞?xùn)練的AI產(chǎn)生系統(tǒng)性的偏倚。

2020年,一項(xiàng)調(diào)查了用于深度學(xué)習(xí)算法的美國(guó)隊(duì)列的地理分布研究顯示,納入的76項(xiàng)用于圖像診斷的深度學(xué)習(xí)算法研究(涉及放射學(xué)、眼科、皮膚病學(xué)、病理學(xué)、胃腸病學(xué)和心臟病學(xué))中,有56項(xiàng)(76%)使用了至少1個(gè)地理上可識(shí)別的隊(duì)列來(lái)訓(xùn)練算法。在這56項(xiàng)研究中,來(lái)自加利福尼亞州的隊(duì)列出現(xiàn)了22次(39%),來(lái)自馬薩諸塞州的隊(duì)列出現(xiàn)了15次(27%),來(lái)自紐約的隊(duì)列出現(xiàn)了14次(25%)。56項(xiàng)研究中共計(jì)有40項(xiàng)(71%)使用了來(lái)自這3個(gè)州中至少1個(gè)州的患者隊(duì)列。在其余47個(gè)州中,有34個(gè)州沒(méi)有貢獻(xiàn)任何患者隊(duì)列,其余的13個(gè)州分別貢獻(xiàn)了1至5個(gè)隊(duì)列。

微信圖片_20220816144942.png

用于訓(xùn)練臨床機(jī)器學(xué)習(xí)算法的美國(guó)患者隊(duì)列表(按統(tǒng)計(jì))(圖片來(lái)源:參考資料[3])

也就是說(shuō),來(lái)自加利福尼亞州,馬薩諸塞州和紐約州的隊(duì)列被不成比例地大量用于訓(xùn)練臨床深度學(xué)習(xí)算法,而其余47個(gè)州的人群數(shù)據(jù)就像是“數(shù)據(jù)沙漠”地帶,基本上沒(méi)有被覆蓋到。

隨著越來(lái)越多的乳腺癌篩查中開(kāi)始應(yīng)用這種基于多樣性不足的數(shù)據(jù)集訓(xùn)練而成的AI算法,其在實(shí)際使用時(shí)的表現(xiàn)欠佳問(wèn)題也逐漸被突顯。尤其是乳腺癌的發(fā)病率在不同人種間存在著很大的差異,若用于AI訓(xùn)練的數(shù)據(jù)集缺乏對(duì)不同人群足夠的代表性,將會(huì)導(dǎo)致大量的漏診和誤診。

原因找到了,該如何解決?

構(gòu)建大型、多樣化的數(shù)據(jù)集的主要障礙之一是各醫(yī)療保健組織內(nèi)部的數(shù)據(jù)都是孤立的。出于信息安全的考慮,管理患者健康數(shù)據(jù)的機(jī)構(gòu)或管理者不會(huì)將這些數(shù)據(jù)分享出去。

然而,一種名為聯(lián)邦學(xué)習(xí)(federated learning)的新興AI訓(xùn)練技術(shù)有望突破這個(gè)困境。聯(lián)邦學(xué)習(xí)不需要原始數(shù)據(jù)在各個(gè)組織間傳送就可以讓研究人員在本地實(shí)現(xiàn)信息共享。這是怎么做到的呢?

原來(lái),聯(lián)邦學(xué)習(xí)是讓算法本身在各個(gè)數(shù)據(jù)提供點(diǎn)進(jìn)行“旅游”,AI在接觸到用于訓(xùn)練的數(shù)據(jù)后會(huì)進(jìn)行加權(quán)評(píng)分,將評(píng)分結(jié)果而不是原始數(shù)據(jù)本身發(fā)送給研究人員,從而既獲得了想要的數(shù)據(jù)結(jié)果,又保護(hù)了患者原始數(shù)據(jù),這被認(rèn)為是十分安全的。

如果所有的機(jī)構(gòu)都愿意敞開(kāi)他們數(shù)據(jù)庫(kù)的大門(mén),通過(guò)聯(lián)邦學(xué)習(xí)將建立起一個(gè)生物醫(yī)學(xué)數(shù)據(jù)合作研究的新世界——未來(lái)我們可以構(gòu)建一個(gè)巨大的多站點(diǎn)聯(lián)合乳腺影像學(xué)數(shù)據(jù)網(wǎng)絡(luò),除了標(biāo)準(zhǔn)的數(shù)字乳腺X線攝影和數(shù)字乳房斷層合成信息,同時(shí)還囊括了大量的必需參數(shù)例如年齡、種族、性別、社會(huì)經(jīng)濟(jì)地位、地理位置、乳腺攝影設(shè)備、乳腺攝影發(fā)現(xiàn)、癌癥診斷和患者結(jié)局等等不同的信息。

微信圖片_20220816144947.jpg

圖片來(lái)源:123RF


通過(guò)來(lái)自這個(gè)多站點(diǎn)數(shù)據(jù)網(wǎng)絡(luò)的數(shù)據(jù)集,可以確保目前處于邊緣化的群體的數(shù)據(jù)也能被覆蓋到。這種方法將解決“數(shù)據(jù)沙漠”問(wèn)題,確保開(kāi)發(fā)出來(lái)的AI能夠適應(yīng)多樣的患者數(shù)據(jù)。

通過(guò)引入聯(lián)邦學(xué)習(xí),AI開(kāi)發(fā)人員可以在大型真實(shí)數(shù)據(jù)集上驗(yàn)證他們的模型,來(lái)檢驗(yàn)算法是否存在偏差或性能上的缺陷。一旦發(fā)現(xiàn)存在此類(lèi)問(wèn)題,研究人員可以通過(guò)深入訪問(wèn)該模型應(yīng)用性能較差的隊(duì)列對(duì)AI繼續(xù)進(jìn)行調(diào)整,最終建立起能在不同患者特征下都表現(xiàn)良好的技術(shù)。

聯(lián)邦學(xué)習(xí)構(gòu)建數(shù)據(jù)網(wǎng)絡(luò)的現(xiàn)狀與展望

目前,不少開(kāi)源和商業(yè)數(shù)據(jù)平臺(tái)的用戶都參與搭建了這個(gè)多站點(diǎn)聯(lián)合網(wǎng)絡(luò)。當(dāng)前的計(jì)劃是,在城市和鄉(xiāng)村代表性不足的社區(qū)站點(diǎn)進(jìn)行推廣并招聘相關(guān)人員,然后對(duì)其進(jìn)行入職培訓(xùn)。

希望在不久的將來(lái),為AI研究人員提供數(shù)據(jù)的機(jī)構(gòu)能夠把他們的數(shù)據(jù)摘要上傳到類(lèi)似目錄的統(tǒng)一界面,研究人員可以通過(guò)瀏覽這種目錄來(lái)聯(lián)系想要的數(shù)據(jù)的持有者,最后通過(guò)聯(lián)邦學(xué)習(xí)獲取數(shù)據(jù)或是通過(guò)其他兼容的數(shù)據(jù)共享協(xié)議獲得數(shù)據(jù)使用許可。

這種創(chuàng)新模式可以通過(guò)獲取更多樣的數(shù)據(jù)矯正AI對(duì)某一類(lèi)人群的偏向性,加速AI適應(yīng)真實(shí)世界的應(yīng)用場(chǎng)景。在這種新形勢(shì)下,醫(yī)院必須認(rèn)識(shí)到他們所擁有的多樣化數(shù)據(jù)是一座尚待開(kāi)發(fā)的寶庫(kù),并利用各種機(jī)會(huì)讓這些數(shù)據(jù)發(fā)揮出更大的價(jià)值。

人們對(duì)AI幫助臨床醫(yī)生提高圖像診斷的工作效率和準(zhǔn)確性寄予了厚望,盡管目前還有很長(zhǎng)的路要走,但我們相信,只要找到了問(wèn)題的原因所在,有了明確的改進(jìn)方向,各類(lèi)機(jī)構(gòu)和研究人員將會(huì)不遺余力地去解決,使新的算法更完善。期待AI在醫(yī)療領(lǐng)域中的應(yīng)用和發(fā)展越來(lái)越好!