網(wǎng)絡消費網(wǎng) >  科技 > > 正文
        全球觀察:史上AI最高分!谷歌大模型創(chuàng)美國醫(yī)師執(zhí)照試題新紀錄 科學常識水平媲美人類醫(yī)生
        時間:2022-12-28 18:24:42

        史上AI最高分,谷歌新模型剛剛通過美國醫(yī)師執(zhí)照試題驗證!


        (資料圖片僅供參考)

        而且在科學常識、理解、檢索和推理能力等任務中,直接與人類醫(yī)生水平相匹敵。在一些臨床問答表現(xiàn)中,最高超原SOTA模型17%以上。

        此進展一出,瞬間引爆學界熱議,不少業(yè)內人士感嘆:終于,它來了。

        廣大網(wǎng)友在看完Med-PaLM與人類醫(yī)生的對比后,則是紛紛表示已經(jīng)在期待AI醫(yī)生上崗了。

        還有人調侃這個時間點的精準,恰逢大家都以為谷歌會因ChatGPT而“死”之際。

        來看看這到底是一個什么樣的研究?

        史上AI最高分

        由于醫(yī)療的專業(yè)性,今天的AI模型在該領域的應用很大程度上沒有充分運用語言。這些模型雖然有用,但存在聚焦單任務系統(tǒng)(如分類、回歸、分割等)、缺乏表現(xiàn)力和互動能力等問題。

        大模型的突破給AI+醫(yī)療帶來了新的可能性,但由于該領域的特殊性,仍需考慮潛在的危害,比如提供虛假醫(yī)療信息。

        基于這樣的背景,谷歌研究院和DeepMind團隊以醫(yī)療問答為研究對象,做出了以下貢獻:

        提出了一個醫(yī)學問答基準MultiMedQA,包括醫(yī)學考試、醫(yī)學研究和消費者醫(yī)學問題;

        在MultiMedQA上評估了PaLM及微調變體Flan-PaLM

        提出了指令提示x調整,讓Flan-PaLM進一步與醫(yī)學接軌,產(chǎn)生了Med-PaLM。

        他們認為「醫(yī)療問題的回答」這項任務很有挑戰(zhàn)性,因為要提供高質量的答案,AI需要理解醫(yī)學背景、回憶適當?shù)尼t(yī)學知識,并對專家信息進行推理。

        現(xiàn)有的評價基準往往局限于評估分類準確度或自然語言生成指標,而不能對實際臨床應用中詳細分析。

        首先,團隊提出了一個由7個醫(yī)學問題問答數(shù)據(jù)集組成的基準。

        包括6個現(xiàn)有數(shù)據(jù)集,其中還包括MedQA(USMLE,美國醫(yī)師執(zhí)照考試題),還引入了他們自己的新數(shù)據(jù)集HealthSearchQA,它由搜索過的健康問題組成。

        這當中有關于醫(yī)學考試、醫(yī)學研究以及消費者醫(yī)學問題等。

        接著,團隊用MultiMedQA評估了PaLM(5400億參數(shù))、以及指令微調后的變體Flan-PaLM。比如通過擴大任務數(shù)、模型大小和使用思維鏈數(shù)據(jù)的策略。

        FLAN是谷歌研究院去年提出的一種微調語言網(wǎng)絡,對模型進行微調使其更適用于通用NLP任務,使用指令調整來訓練模型。

        結果發(fā)現(xiàn),F(xiàn)lan-PaLM在幾個基準上達到了最優(yōu)性能,比如MedQA、MedMCQA、PubMedQA和MMLU。尤其是MedQA(USMLE)數(shù)據(jù)集,表現(xiàn)超過了此前SOTA模型17%以上。

        本項研究中,共考慮了三種不同規(guī)模的PaLM和Flan-PaLM模型變體:80億參數(shù)、620億參數(shù)以及5400億參數(shù)。

        不過Flan-PaLM仍存在一定的局限性,在處理消費者醫(yī)學問題上表現(xiàn)效果不佳。

        為了解決這一問題,讓Flan-PaLM更適應醫(yī)學領域,他們進行了指令提示調整,由此產(chǎn)生Med-PaLM模型。

        示例:新生兒黃疸需要多長時間才能消失?

        團隊首先從MultiMedQA自由回答數(shù)據(jù)集(HealthSearchQA、MedicationQA、LiveQA)中隨機抽取了一些例子。

        然后讓臨床醫(yī)生5人組提供示范性答案。這些臨床醫(yī)生分布于美國和英國,在初級保健、外科、內科和兒科方面具有專業(yè)經(jīng)驗。最終在HealthSearchQA、MedicationQA和LiveQA中留下了40個例子,用于指令提示調諧訓練。

        多個任務接近人類醫(yī)生水平

        為了驗證Med-PaLM的最終效果,研究人員從上文提到的MultiMedQA中抽取了140個消費者醫(yī)療問題。

        其中100個來自HealthSearchQA數(shù)據(jù)集,20個來自LiveQA數(shù)據(jù)集,20個來自MedicationQA數(shù)據(jù)集。

        值得一提的是,這里面并不包含當初用于指令提示調整以生成Med-PaLM的問題。

        他們讓Flan-PaLM和Med-PaLM分別對這140個問題生成答案,又請來一組專業(yè)的臨床醫(yī)生作出回答。

        以下圖為例,當被問到“耳朵疼得厲害意味著什么”時,Med-PaLM不僅會一條條列出患者可能感染的疾病,還會建議如果有以下幾種現(xiàn)象應該去就醫(yī)。

        耳部疼痛可能是幾種潛在疾病的征兆,包括:中耳感染(中耳炎)、外耳感染(耳部感染)、耳垢嵌塞。也可能是更嚴重疾病的征兆,比如腦瘤或中風。

        如果你有嚴重的耳朵疼痛,持續(xù)時間超過幾天,或者有其他癥狀伴隨耳朵疼痛,如頭暈、發(fā)燒、面部無力或麻木,你應該去看醫(yī)生進行評估。醫(yī)生可以確定疼痛的原因,并提供適當?shù)闹委煛?/p>

        就這樣,研究人員將這三組答案匿名后交給9名分別來自美國、英國和印度的臨床醫(yī)生進行評估。

        結果顯示,在科學常識方面,Med-PaLM和人類醫(yī)生的正確率都達到了92%以上,而Flan-PaLM對應的數(shù)字為61.9%。

        在理解、檢索和推理能力上,總體來說,Med-PaLM幾乎達到了人類醫(yī)生的水平,兩者相差無幾,而Flan-PaLM同樣表現(xiàn)墊底。

        在答案的完整性上,雖然Flan-PaLM的回答被認為漏掉了47.2%的重要信息,但Med-PaLM的回答有顯著提升,只有15.1%的回答被認為缺失了信息,進一步拉近了與人類醫(yī)生的距離。

        不過,盡管遺漏信息較少,但更長的答案也意味著會增加引入不正確內容的風險,Med-PaLM的答案中不正確內容比例達到了18.7%,為三者中最高。

        再考慮到答案可能產(chǎn)生的危害性,29.7%的Flan-PaLM回答被認為存在潛在的危害;Med-PaLM的這個數(shù)字下降到了5.9%,人類醫(yī)生相對最低為5.7%。

        除此之外,在醫(yī)學人口統(tǒng)計學的偏見上,Med-PaLM的性能超過了人類醫(yī)生,Med-PaLM的答案中存在偏見的情況僅有0.8%,相比之下,人類醫(yī)生為1.4%,F(xiàn)lan-PaLM為7.9% 。

        最后,研究人員還請來了5位非專業(yè)用戶,來評估這三組答案的實用性。Flan-PaLM的答案只有60.6%被認為有幫助,Med-PaLM的數(shù)量增加到了80.3%,人類醫(yī)生最高為91.1%。

        總結上述所有評估可以看出,指令提示調整對性能的提升效果顯著,在140個消費者醫(yī)療問題中,Med-PaLM的表現(xiàn)幾乎追上了人類醫(yī)生水平。

        背后團隊

        本次論文的研究團隊來自谷歌和DeepMind。

        繼去年谷歌健康被曝大規(guī)模裁員重組后,這可以說是他們在醫(yī)療領域推出一大力作。

        連谷歌AI負責人Jeff Dean都出來站臺,表示強烈推薦!

        有業(yè)內人士看完后也稱贊道:

        臨床知識是一個復雜的領域,往往沒有一個明顯的正確答案,而且還需要與病人進行對話。

        這次谷歌DeepMind的新模型堪稱LLM的完美應用。

        值得一提的是,前段時間剛通過了美國醫(yī)師執(zhí)照考試另一個團隊。

        再往前數(shù),今年涌現(xiàn)的PubMed GPT、DRAGON、Meta的Galactica等等一波大模型,屢屢在專業(yè)考試上創(chuàng)下新的記錄。

        醫(yī)療AI如此盛況,很難想象去年還一度唱衰的光景。當時谷歌與醫(yī)療AI相關的創(chuàng)新業(yè)務始終沒有做起來。

        去年6月還一度被美國媒體BI曝光正陷入重重危機之中,不得不大規(guī)模裁員重組。而在2018年11月谷歌健康部門剛成立時可謂風光無限。

        也不只是谷歌,其他知名科技公司的醫(yī)療AI業(yè)務,也都曾經(jīng)歷過重組、收購的情況。

        看完這次谷歌DeepMind發(fā)布的醫(yī)療大模型,你看好醫(yī)療AI的發(fā)展嗎?

        關鍵詞: med-palm flan-palm

        版權聲明:
            凡注明來網(wǎng)絡消費網(wǎng)的作品,版權均屬網(wǎng)絡消費網(wǎng)所有,未經(jīng)授權不得轉載、摘編或利用其它方式使用上述作品。已經(jīng)本網(wǎng)授權使用作品的,應在授權范圍內使用,并注明"來源:網(wǎng)絡消費網(wǎng)"。違反上述聲明者,本網(wǎng)將追究其相關法律責任。
            除來源署名為網(wǎng)絡消費網(wǎng)稿件外,其他所轉載內容之原創(chuàng)性、真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考并自行核實。
        熱文

        網(wǎng)站首頁 |網(wǎng)站簡介 | 關于我們 | 廣告業(yè)務 | 投稿信箱
         

        Copyright © 2000-2020 www.fnsyft.com All Rights Reserved.
         

        中國網(wǎng)絡消費網(wǎng) 版權所有 未經(jīng)書面授權 不得復制或建立鏡像
         

        聯(lián)系郵箱:920 891 263@qq.com

        備案號:京ICP備2022016840號-15

        營業(yè)執(zhí)照公示信息

        日韩亚洲国产高清免费视频| 亚洲av无码一区二区三区网站| 亚洲福利中文字幕在线网址| 亚洲人成色4444在线观看| 久久亚洲美女精品国产精品 | 亚洲国产成人精品久久久国产成人一区二区三区综 | 亚洲av日韩精品久久久久久a| 亚洲人成电影在线观看青青| 亚洲视频国产精品| 久久久亚洲裙底偷窥综合| 久久久久亚洲AV片无码下载蜜桃| 亚洲AV永久纯肉无码精品动漫| 国精无码欧精品亚洲一区| 久久亚洲国产欧洲精品一| 久久国产亚洲精品麻豆| 国产V亚洲V天堂无码| 无码久久精品国产亚洲Av影片 | 中文字幕亚洲精品无码| 亚洲欧美日韩综合俺去了| 亚洲欧洲免费无码| 亚洲国产成人精品无码区花野真一| 亚洲欧美中文日韩视频| 亚洲AV无码专区国产乱码不卡| 久久久久久久久无码精品亚洲日韩| 综合偷自拍亚洲乱中文字幕| 亚洲av无码成人精品区| 国产偷窥女洗浴在线观看亚洲| 亚洲五月综合缴情在线观看| 国产亚洲免费的视频看| 亚洲综合在线视频| 亚洲性69影院在线观看| 99999久久久久久亚洲| 亚洲精品无码少妇30P| 亚洲第一成人影院| 亚洲人成伊人成综合网久久久| 亚洲AV午夜成人片| 亚洲成年人免费网站| 亚洲色丰满少妇高潮18p| 青草久久精品亚洲综合专区| 亚洲综合久久夜AV | 亚洲国产精品无码AAA片|