成人a片不需要播放器|无码高清欧美性爱|黄色三级片在线免费播放)2|超碰久操福利a级黄论片|国产一级婬片A片AAA情欲王朝|亚洲第一免费网页|看免费AV片av天堂1|国内成人一个色在线|青青艹在线观看色欧美性爱|黄色视频无遮挡免费观看

歡迎訪問智慧醫(yī)療網(wǎng) | 網(wǎng)站首頁
 

醫(yī)生 + AI大模型 = 診斷 “黃金搭檔”?普林斯頓大學最新研究揭示人機協(xié)同醫(yī)療臨床決策新范式

發(fā)布時間:2025-08-19 來源:Wolfgang知識圖譜科技 瀏覽量: 字號:【加大】【減小】 手機上觀看

打開手機掃描二維碼
即可在手機端查看

醫(yī)生與AI大模型的協(xié)同診療,正從技術概念走向臨床現(xiàn)實。普林斯頓大學團隊基于強化學習開發(fā)的ICU決策優(yōu)化模型,結合近期DeepSeek-R1、GPT-5等大模型在診斷環(huán)節(jié)的突破性表現(xiàn),共同勾勒出“人機協(xié)同”的新范式——人類醫(yī)生的全局經(jīng)驗與AI的高維計算能力互補,形成“1+1>2”的臨床決策升級。以下從核心技術、應用場景及未來挑戰(zhàn)三方面展開分析!


摘要

在高風險的醫(yī)療診斷領域,單純依賴大型語言模型(LLMs)或人類醫(yī)生都存在局限——LLMs 會幻覺、缺乏常識且有偏見;人類則受經(jīng)驗局限與知識覆蓋面的限制。本研究提出一種混合集體智能(Hybrid Collective Intelligence, HCI)方法,將醫(yī)生的臨床推理與 LLM 的信息處理能力結合,對 2,133 個真實感病例(含 40,762 份醫(yī)生診斷與 5 個最先進 LLM 的診斷輸出)進行加權融合。結果顯示,混合集體在所有專業(yè)與經(jīng)驗層級下的診斷準確率均顯著優(yōu)于人類單獨、AI 單獨及各自的集體形式。


微信圖片_2025-08-19_001257_128.png



背景

每年美國約 79.5 萬例死亡或永久傷殘與診斷錯誤相關。盡管 LLM 在自然語言處理與多領域問答中表現(xiàn)出色,包括醫(yī)學在內(nèi)的眾多場景,但它們的結構性缺陷(如幻覺、偏見、缺乏常識讓其在臨床高風險應用中存在安全隱患。
研究表明,“集體智能”能通過不同專家獨立判斷的組合提升整體準確性
。本研究創(chuàng)新地將人類專家與多個 LLM 視為“同臺評審”,利用各自優(yōu)勢與互補性,構建混合集體智能體系。


為什么 1+1>2?關鍵在于錯誤類型的差異性:


  • 當 AI 漏診時,醫(yī)生往往能給出正確答案(尤其在復雜病例中)
  • 當醫(yī)生判斷失誤時,AI 可能捕捉到被忽略的細節(jié)
  • 混合團隊的診斷 “容錯率” 顯著更高


舉個例子:在一例 “俄亥俄州建筑工人胸痛” 病例中,AI 更易聯(lián)想到真菌感染(當?shù)馗甙l(fā)),而醫(yī)生可能優(yōu)先考慮職業(yè)相關肺部疾病,二者結合最終鎖定 “組織胞漿菌病”。

研究方法

數(shù)據(jù)來源

  • Human Diagnosis Project (Human Dx)

     平臺
  • 2,133 個經(jīng)過執(zhí)業(yè)醫(yī)生審核的文本病例
  • 診斷來源:1,370 名主治醫(yī)師、139 名??婆嘤栣t(yī)師、2,160 名住院醫(yī)師(再加 1,037 名醫(yī)學生用于補充分析)

LLM 選擇

  1. Anthropic Claude 3 Opus
  2. Google Gemini Pro 1.0
  3. Meta LLaMA 2 70B
  4. Mistral Large
  5. OpenAI GPT-4
    每個模型需輸出前五個最可能的診斷

融合流程

  1. 標準化處理


    將所有人類與 LLM 的原始診斷映射至 SNOMED CT 唯一 ID,統(tǒng)一同義詞、縮寫、英式/美式拼寫等
  2. 加權多數(shù)投票

    • 根據(jù)訓練集表現(xiàn)為各 LLM 賦予不同權重;所有醫(yī)生共用一個權重值
    • 使用 1/r 規(guī)則 按診斷排名賦分
    • 采用加權多數(shù)投票合成最終列表
  3. 交叉驗證


    10 次重復五折交叉驗證,確保模型泛化穩(wěn)定

性能指標

  • Top-1 / Top-3 / Top-5 準確率
  • 平均倒數(shù)排名(MRR

主要研究結果

1. 多模型集成優(yōu)于單模型

將多個 LLM 輸出組合成 AI 集體,在 Top-5 與 Top-3 準確率上均優(yōu)于任何單一 LLM,并在多個專科中保持穩(wěn)定領先。


微信圖片_2025-08-19_001304_104.png微信圖片_2025-08-19_001308_442.png


2. 人機混合集體全線勝出

  • 向醫(yī)生集體加入一個 LLM,可超越純醫(yī)生組
  • 向 LLM 集體加入一位醫(yī)生,也能提升整體準確率
    即使加入表現(xiàn)最差的 LLM,也帶來輕微提升。
    微信圖片_2025-08-19_001312_154.png

3. 錯誤互補性是關鍵

  • 在 46%–51% 的病例中,醫(yī)生與 LLM 對正確診斷的排名不同
  • 當 LLM 完全漏掉正確診斷時,醫(yī)生在 30%–38% 的病例中能補上,大部分排在第一位
  • 這種低相關錯誤模式讓加權投票更易推高正確診斷排名

主要創(chuàng)新點

  1. 開放性答案的自動標準化

    基于 SNOMED CT 的全文匹配與向量搜索匹配,處理了同義詞、拼寫差異與縮寫等問題,實現(xiàn)精準對齊。
  2. 權重化人機投票機制

    通過 WMVE(加權多數(shù)投票)方式按歷史表現(xiàn)分配權重,優(yōu)勝者得更多表決力。
  3. 跨模態(tài)可遷移性

    方法依賴結構化知識體系,可移植至氣候政策等其他開放性、高風險領域。

未來研究方向

  • 臨床實地驗證

    :目前為病例小故事(vignette)測試,需轉化到真實臨床環(huán)境
  • 治療影響評估

    :診斷改善是否帶來治療方案優(yōu)化?
  • 偏見與公平性

    :混合集體是否能減少 AI 及人類共有的偏見?
  • Prompt 工程優(yōu)化

    :Tree-of-Thought、自一致性等方法可望進一步提升表現(xiàn)
  • 多模態(tài)融合

    :將影像、聲音等數(shù)據(jù)加入診斷流程
  • 決策支持系統(tǒng)化

    :研究如何在臨床工作流中最佳整合,防止自動化偏見與算法厭惡

結論

混合集體智能不是要取代醫(yī)生,而是利用人類的臨床洞察與 AI 的信息整合能力互補,讓醫(yī)療診斷更精準、更安全、更公平。

特別聲明:智慧醫(yī)療網(wǎng)轉載其他網(wǎng)站內(nèi)容,出于傳遞更多信息而非盈利之目的,同時并不代表贊成其觀點或證實其描述,內(nèi)容僅供參考。版權歸原作者所有,若有侵權,請聯(lián)系我們刪除。

凡來源注明智慧醫(yī)療網(wǎng)的內(nèi)容為智慧醫(yī)療網(wǎng)原創(chuàng),轉載需獲授權。

Copyright ? 2022 上海科雷會展服務有限公司 旗下「智慧醫(yī)療網(wǎng)」版權所有    ICP備案號:滬ICP備17004559號-5