全球觀察：史上AI最高分！谷歌大模型創美國醫師執照試題新紀錄科學常識水平媲美人類醫生

來源：鳳凰網

時間：2022-12-28 18:24:42

史上AI最高分，谷歌新模型剛剛通過美國醫師執照試題驗證！

(資料圖片僅供參考)

而且在科學常識、理解、檢索和推理能力等任務中，直接與人類醫生水平相匹敵。在一些臨床問答表現中，最高超原SOTA模型17%以上。

此進展一出，瞬間引爆學界熱議，不少業內人士感嘆：終于，它來了。

廣大網友在看完Med-PaLM與人類醫生的對比后，則是紛紛表示已經在期待AI醫生上崗了。

還有人調侃這個時間點的精準，恰逢大家都以為谷歌會因ChatGPT而“死”之際。

來看看這到底是一個什么樣的研究？

史上AI最高分

由于醫療的專業性，今天的AI模型在該領域的應用很大程度上沒有充分運用語言。這些模型雖然有用，但存在聚焦單任務系統（如分類、回歸、分割等）、缺乏表現力和互動能力等問題。

大模型的突破給AI+醫療帶來了新的可能性，但由于該領域的特殊性，仍需考慮潛在的危害，比如提供虛假醫療信息。

基于這樣的背景，谷歌研究院和DeepMind團隊以醫療問答為研究對象，做出了以下貢獻：

提出了一個醫學問答基準MultiMedQA，包括醫學考試、醫學研究和消費者醫學問題；

在MultiMedQA上評估了PaLM及微調變體Flan-PaLM；

提出了指令提示x調整，讓Flan-PaLM進一步與醫學接軌，產生了Med-PaLM。

他們認為「醫療問題的回答」這項任務很有挑戰性，因為要提供高質量的答案，AI需要理解醫學背景、回憶適當的醫學知識，并對專家信息進行推理。

現有的評價基準往往局限于評估分類準確度或自然語言生成指標，而不能對實際臨床應用中詳細分析。

首先，團隊提出了一個由7個醫學問題問答數據集組成的基準。

包括6個現有數據集，其中還包括MedQA（USMLE，美國醫師執照考試題），還引入了他們自己的新數據集HealthSearchQA，它由搜索過的健康問題組成。

這當中有關于醫學考試、醫學研究以及消費者醫學問題等。

接著，團隊用MultiMedQA評估了PaLM（5400億參數）、以及指令微調后的變體Flan-PaLM。比如通過擴大任務數、模型大小和使用思維鏈數據的策略。

FLAN是谷歌研究院去年提出的一種微調語言網絡，對模型進行微調使其更適用于通用NLP任務，使用指令調整來訓練模型。

結果發現，Flan-PaLM在幾個基準上達到了最優性能，比如MedQA、MedMCQA、PubMedQA和MMLU。尤其是MedQA（USMLE）數據集，表現超過了此前SOTA模型17%以上。

本項研究中，共考慮了三種不同規模的PaLM和Flan-PaLM模型變體：80億參數、620億參數以及5400億參數。

不過Flan-PaLM仍存在一定的局限性，在處理消費者醫學問題上表現效果不佳。

為了解決這一問題，讓Flan-PaLM更適應醫學領域，他們進行了指令提示調整，由此產生Med-PaLM模型。

△示例：新生兒黃疸需要多長時間才能消失？

團隊首先從MultiMedQA自由回答數據集（HealthSearchQA、MedicationQA、LiveQA）中隨機抽取了一些例子。

然后讓臨床醫生5人組提供示范性答案。這些臨床醫生分布于美國和英國，在初級保健、外科、內科和兒科方面具有專業經驗。最終在HealthSearchQA、MedicationQA和LiveQA中留下了40個例子，用于指令提示調諧訓練。

多個任務接近人類醫生水平

為了驗證Med-PaLM的最終效果，研究人員從上文提到的MultiMedQA中抽取了140個消費者醫療問題。

其中100個來自HealthSearchQA數據集，20個來自LiveQA數據集，20個來自MedicationQA數據集。

值得一提的是，這里面并不包含當初用于指令提示調整以生成Med-PaLM的問題。

他們讓Flan-PaLM和Med-PaLM分別對這140個問題生成答案，又請來一組專業的臨床醫生作出回答。

以下圖為例，當被問到“耳朵疼得厲害意味著什么”時，Med-PaLM不僅會一條條列出患者可能感染的疾病，還會建議如果有以下幾種現象應該去就醫。

耳部疼痛可能是幾種潛在疾病的征兆，包括：中耳感染(中耳炎)、外耳感染(耳部感染)、耳垢嵌塞。也可能是更嚴重疾病的征兆，比如腦瘤或中風。

如果你有嚴重的耳朵疼痛，持續時間超過幾天，或者有其他癥狀伴隨耳朵疼痛，如頭暈、發燒、面部無力或麻木，你應該去看醫生進行評估。醫生可以確定疼痛的原因，并提供適當的治療。

就這樣，研究人員將這三組答案匿名后交給9名分別來自美國、英國和印度的臨床醫生進行評估。

結果顯示，在科學常識方面，Med-PaLM和人類醫生的正確率都達到了92%以上，而Flan-PaLM對應的數字為61.9%。

在理解、檢索和推理能力上，總體來說，Med-PaLM幾乎達到了人類醫生的水平，兩者相差無幾，而Flan-PaLM同樣表現墊底。

在答案的完整性上，雖然Flan-PaLM的回答被認為漏掉了47.2%的重要信息，但Med-PaLM的回答有顯著提升，只有15.1%的回答被認為缺失了信息，進一步拉近了與人類醫生的距離。

不過，盡管遺漏信息較少，但更長的答案也意味著會增加引入不正確內容的風險，Med-PaLM的答案中不正確內容比例達到了18.7%，為三者中最高。

再考慮到答案可能產生的危害性，29.7%的Flan-PaLM回答被認為存在潛在的危害；Med-PaLM的這個數字下降到了5.9%，人類醫生相對最低為5.7%。

除此之外，在醫學人口統計學的偏見上，Med-PaLM的性能超過了人類醫生，Med-PaLM的答案中存在偏見的情況僅有0.8%，相比之下，人類醫生為1.4%，Flan-PaLM為7.9% 。

最后，研究人員還請來了5位非專業用戶，來評估這三組答案的實用性。Flan-PaLM的答案只有60.6%被認為有幫助，Med-PaLM的數量增加到了80.3%，人類醫生最高為91.1%。

總結上述所有評估可以看出，指令提示調整對性能的提升效果顯著，在140個消費者醫療問題中，Med-PaLM的表現幾乎追上了人類醫生水平。

背后團隊

本次論文的研究團隊來自谷歌和DeepMind。

繼去年谷歌健康被曝大規模裁員重組后，這可以說是他們在醫療領域推出一大力作。

連谷歌AI負責人Jeff Dean都出來站臺，表示強烈推薦！

有業內人士看完后也稱贊道：

臨床知識是一個復雜的領域，往往沒有一個明顯的正確答案，而且還需要與病人進行對話。

這次谷歌DeepMind的新模型堪稱LLM的完美應用。

值得一提的是，前段時間剛通過了美國醫師執照考試另一個團隊。

再往前數，今年涌現的PubMed GPT、DRAGON、Meta的Galactica等等一波大模型，屢屢在專業考試上創下新的記錄。

醫療AI如此盛況，很難想象去年還一度唱衰的光景。當時谷歌與醫療AI相關的創新業務始終沒有做起來。

去年6月還一度被美國媒體BI曝光正陷入重重危機之中，不得不大規模裁員重組。而在2018年11月谷歌健康部門剛成立時可謂風光無限。

也不只是谷歌，其他知名科技公司的醫療AI業務，也都曾經歷過重組、收購的情況。

看完這次谷歌DeepMind發布的醫療大模型，你看好醫療AI的發展嗎？

關鍵詞： med-palm flan-palm

延伸閱讀:

火速變現微軟開始在ChatGPT聊天中插廣告 2023-03-30
全球播報:美參議員反對封禁TikTok：不喜歡別用憲法沒有賦予封禁權 2023-03-30
一枚超2億元的腕表背后：“表王”百達翡麗的危機 2023-03-29
環球看點！3億個工作將被ChatGPT取代更要擔心的卻不是失業 2023-03-29
當前聚焦：賽博難民打響反AI第一槍 2023-03-29
天天實時：誰在取代老干媽？ 2023-03-29
天天新資訊：你現在聽的歌很可能是AI唱的 2023-03-29
每日速看!快手CEO程一笑：生成式AI與業務場景融合價值潛力大 2023-03-29

版權聲明：
凡注明來網絡消費網的作品，版權均屬網絡消費網所有，未經授權不得轉載、摘編或利用其它方式使用上述作品。已經本網授權使用作品的，應在授權范圍內使用，并注明"來源：網絡消費網"。違反上述聲明者，本網將追究其相關法律責任。
除來源署名為網絡消費網稿件外，其他所轉載內容之原創性、真實性、完整性、及時性本站不作任何保證或承諾，請讀者僅作參考并自行核實。

熱文

學好語文就選科大訊飛AI翻譯筆，多重使...
三個月內突圍而出，TVB識貨618告捷: GM...
玩轉穗澳特色就在琶洲！2023澳門·廣州...
玩轉穗澳特色就在琶洲！2023澳門·廣州...
環球報道:[今日關注] 南昌男科醫院男科...
環球報道:[今日關注] 南昌男科醫院男科...
錦繡良緣
vivo手機屏下的按鍵突然沒了怎么辦|天天...
vivo手機屏下的按鍵突然沒了怎么辦|天天...
證監會立案！此前剛遭上交所紀律處分！-...
證監會立案！此前剛遭上交所紀律處分！-...
志愿者化身“移動拐杖”：端午假期鐵路...
畫面溫馨！約60只海豚在海警艦艇附近跳...
畫面溫馨！約60只海豚在海警艦艇附近跳...
深圳中國國際旅行社有限公司（關于深圳...
深圳中國國際旅行社有限公司（關于深圳...
天天即時：欠了信用卡1萬如何申請延長分期
共話中國經濟新機遇丨綜述：中荷經貿人...
共話中國經濟新機遇丨綜述：中荷經貿人...
基金分紅：方正富邦穩豐一年定開債券發...
基金分紅：方正富邦穩豐一年定開債券發...
樹欲靜風而不止的意思_樹欲靜風不止什么...
樹欲靜風而不止的意思_樹欲靜風不止什么...
手扶梯_關于手扶梯的介紹
天天觀點：京津冀及山東多地超過40℃ 1...
天天觀點：京津冀及山東多地超過40℃ 1...
當前速看：大摩：維持MP Materials(MP.US)評級
當前速看：大摩：維持MP Materials(MP.US)評級
獨臂背山工穿梭懸崖絕壁，運125斤重的一...
獨臂背山工穿梭懸崖絕壁，運125斤重的一...
長城MV | 團結，就是力量！
世界滾動:鎮江中國獨角獸企業數量全國排...
世界滾動:鎮江中國獨角獸企業數量全國排...
世界播報:新疆挖掘南疆特色產業潛力
世界播報:新疆挖掘南疆特色產業潛力
欠了信用卡11年沒還，不還產生什么后果_...
欠了信用卡11年沒還，不還產生什么后果_...
天天精選！小區便利店怎么選擇位置
我的世界自動門感應門（我的世界自動感...
我的世界自動門感應門（我的世界自動感...
她曾經在23歲時走紅，卻被身高限制戲路...
她曾經在23歲時走紅，卻被身高限制戲路...
最新消息：老年人有性生活就是不害臊？...
羊湯怎么熬好喝? 快資訊
羊湯怎么熬好喝? 快資訊
如果你是說話容易緊張，還很自卑的人，...
如果你是說話容易緊張，還很自卑的人，...
焦點快播：美媒：失蹤潛艇副駕駛妻子是...
頭條焦點：離婚二審撫養權怎么判
頭條焦點：離婚二審撫養權怎么判
世界最新：杭州民辦東方中學教師待遇_杭...
世界最新：杭州民辦東方中學教師待遇_杭...
【天天播資訊】國際油價21日上漲天天觀天下
五彩繩原來是織女留下來的線基本情況講解
五彩繩原來是織女留下來的線基本情況講解
環球速讀：瘋狂！散戶大買15億，美股空...
環球速讀：瘋狂！散戶大買15億，美股空...
世界動態:首屆京津冀生態產業創新發展大...
世界報道:運動員該如何應對“飯圈文化”...
世界報道:運動員該如何應對“飯圈文化”...
“盛夏”（113） | 上游主題攝影征稿...
“盛夏”（113） | 上游主題攝影征稿...
港交所紐約辦事處開幕　提升北美地區服務
港交所紐約辦事處開幕　提升北美地區服務
韓媒：韓國環境部已批準“薩德”基地環...
看圖學習｜中華優秀傳統文化是中華民族...
看圖學習｜中華優秀傳統文化是中華民族...
當前觀察：郴電國際郴州分公司營業班獲...
當前觀察：郴電國際郴州分公司營業班獲...
天天新動態：三亞22日10時起發放一批旅...
呂梁市“三夏”麥收安排調度會要求：顆...
呂梁市“三夏”麥收安排調度會要求：顆...
比砒霜毒百倍！一顆就能致命！千萬別碰...
比砒霜毒百倍！一顆就能致命！千萬別碰...
全球要聞：光明日報刊文:為什么印度難以...
全球要聞：光明日報刊文:為什么印度難以...
紀檢監察機關統籌用好基層監督力量精...
紀檢監察機關統籌用好基層監督力量精...
總投資約36億元，惠州新材料產業園再引5...
觀焦點：魍魎魑魅怎么讀什么意思？它...
選流量卡如何避坑？這三步曲你都了解了嗎？
選流量卡如何避坑？這三步曲你都了解了嗎？
俠探杰克第一季豆瓣（影評下午茶之俠探...
俠探杰克第一季豆瓣（影評下午茶之俠探...
將于7月內上市新款榮威i5官圖發布
淘寶林彎彎是誰_林彎彎淘寶店
淘寶林彎彎是誰_林彎彎淘寶店
【天天播資訊】琿春市積極構建和諧勞動...
【天天播資訊】琿春市積極構建和諧勞動...
三終端上人難，邀約棘手。
GDR發行熱度持續上升多家龍頭企業扎堆...
GDR發行熱度持續上升多家龍頭企業扎堆...
國寶“體驗”端午文化當前焦點
國寶“體驗”端午文化當前焦點
【環球報資訊】OPPO A57打開飛行模式方法介紹
近親屬和親屬的區別_近親屬|當前看點
近親屬和親屬的區別_近親屬|當前看點
當前視訊！二建報名時間2021年_2021年二...
當前視訊！二建報名時間2021年_2021年二...
焦點熱訊:華中科技大學地址在哪個城市_...

科技

· 2023最建議買的二手手機推薦？2023最建議買
· 為什么懂手機的人都不用華為？為什么很多人
· 華為oppo手機同等價位哪個好？三千左右買華
· oppo和華為誰用久了可以不卡？oppo手機好還
· oppo萬能密碼6位數解鎖是什么？OPPO手機的
· 如何打開oppo手機鎖屏密碼？oppo手機密碼鎖
· OPPO手機怎么總是自己跳轉快應用？OPPO打開
· oppo手機像中毒似的彈出廣告？oppo手機老是
· oppo手機熱點資訊如何徹底關掉？oppo手機老
· oppo手機開發者選項在哪里能打開？oppo手機

熱文

環球報道:[今日關注] 南昌男科醫院男科收費高嗎排名公開
證監會立案！此前剛遭上交所紀律處分！-觀焦點
深圳中國國際旅行社有限公司（關于深圳中國國際旅行社有限公司介紹）|報道
基金分紅：方正富邦穩豐一年定開債券發起基金6月27日分紅
樹欲靜風而不止的意思_樹欲靜風不止什么意思是什么
當前速看：大摩：維持MP Materials(MP.US)評級
獨臂背山工穿梭懸崖絕壁，運125斤重的一筐粽子：想讓家人過上好日子-全球速看料
世界播報:新疆挖掘南疆特色產業潛力
欠了信用卡11年沒還，不還產生什么后果_全球最資訊
她曾經在23歲時走紅，卻被身高限制戲路，老公也是優秀的演員！|每日熱文