打開手機(jī)掃描二維碼
即可在手機(jī)端查看
系統(tǒng)構(gòu)建了我國(guó)醫(yī)療大模型回顧性評(píng)測(cè)技術(shù)框架,明確評(píng)測(cè)流程、指標(biāo)體系與倫理要求,為模型研發(fā)、評(píng)測(cè)與臨床應(yīng)用提供統(tǒng)一、規(guī)范、可復(fù)用的技術(shù)指引
《共識(shí)》制訂過(guò)程嚴(yán)格遵循《世界衛(wèi)生組織指南制訂手冊(cè)》《中國(guó)制訂/修訂臨床診療指南的指導(dǎo)原則(2022版)》等標(biāo)準(zhǔn)方法學(xué)要求,并在國(guó)際實(shí)踐指南注冊(cè)平臺(tái)PREPARE完成注冊(cè)(編號(hào) PREPARE-2025CN503),實(shí)現(xiàn)了制訂流程的科學(xué)化、透明化與規(guī)范化。來(lái)自全國(guó)三甲醫(yī)院、科研機(jī)構(gòu)與人工智能企業(yè)的數(shù)十位專家參與了問(wèn)題遴選、證據(jù)評(píng)估、推薦意見(jiàn)制訂和Delphi共識(shí)投票,全程經(jīng)由專家委員會(huì)與指導(dǎo)委員會(huì)多輪論證,最終形成6條核心推薦意見(jiàn),均獲得超過(guò)80%的專家同意并達(dá)成共識(shí)。
《共識(shí)》圍繞醫(yī)療場(chǎng)景下大模型的“回顧性評(píng)測(cè)”開展系統(tǒng)闡述,即在模型訓(xùn)練完成、參數(shù)固定后,基于真實(shí)或模擬真實(shí)的臨床數(shù)據(jù)對(duì)模型的醫(yī)學(xué)適配性與安全性進(jìn)行驗(yàn)證。《共識(shí)》從評(píng)測(cè)流程、指標(biāo)體系、團(tuán)隊(duì)建設(shè)、數(shù)據(jù)集設(shè)計(jì)、反饋更新機(jī)制和報(bào)告規(guī)范等方面構(gòu)建了完整評(píng)測(cè)框架。其中,評(píng)測(cè)流程強(qiáng)調(diào)科學(xué)客觀、真實(shí)全面與倫理合規(guī);指標(biāo)體系涵蓋結(jié)構(gòu)化與生成式任務(wù)的定量與定性評(píng)估;團(tuán)隊(duì)建設(shè)強(qiáng)調(diào)醫(yī)學(xué)專家、工程技術(shù)人員、倫理與法律專家的協(xié)同;數(shù)據(jù)集構(gòu)建突出臨床真實(shí)性、全面代表性、公正性及動(dòng)態(tài)擴(kuò)展能力;反饋與更新機(jī)制確保評(píng)測(cè)體系的長(zhǎng)期迭代;報(bào)告模板則規(guī)范評(píng)測(cè)結(jié)果披露與版本管理。
值得關(guān)注的是,基于國(guó)家衛(wèi)生健康委辦公廳、國(guó)家中醫(yī)藥局綜合司、國(guó)家疾控局綜合司聯(lián)合發(fā)布的《衛(wèi)生健康行業(yè)人工智能應(yīng)用場(chǎng)景參考指引》,《共識(shí)》明確提出醫(yī)療大模型評(píng)測(cè)的六大核心能力維度,包括醫(yī)療知識(shí)問(wèn)答、醫(yī)療復(fù)雜語(yǔ)言理解、醫(yī)療診斷與治療推薦、醫(yī)療專業(yè)文書生成、醫(yī)療多輪對(duì)話以及醫(yī)療多模態(tài)交互,從而為不同類型模型的評(píng)測(cè)提供了清晰的應(yīng)用場(chǎng)景定位和指標(biāo)選擇依據(jù)。同時(shí),《共識(shí)》圍繞患者隱私保護(hù)、數(shù)據(jù)脫敏、算法公平性、輸出安全性等關(guān)鍵問(wèn)題提出嚴(yán)格要求,有助于推動(dòng)醫(yī)療人工智能安全、可控、可解釋的發(fā)展路徑。
以下為全文
引用本文
國(guó)家新聞出版署醫(yī)學(xué)期刊知識(shí)挖掘與服務(wù)重點(diǎn)實(shí)驗(yàn)室. 醫(yī)療場(chǎng)景下大語(yǔ)言模型應(yīng)用效果回顧性評(píng)測(cè)專家共識(shí)(2025版)[J]. 數(shù)字醫(yī)學(xué)與健康,2025, 網(wǎng)絡(luò)預(yù)發(fā)表.DOI:10.3760/cma.j.cn101909-20250924-00177
通信作者 王振常,首都醫(yī)科大學(xué)附屬北京友誼醫(yī)院,北京100050 Email:cjrwzhch@vip.163.com; 董家鴻,清華大學(xué)附屬北京清華長(zhǎng)庚醫(yī)院,北京102218 Email:dongjiahong@mail.tsinghua.edu.cn; 葛均波,復(fù)旦大學(xué)附屬中山醫(yī)院,上海 200032 Email:ge.junbo@zshospital.sh.cn; 魏均民,中華醫(yī)學(xué)會(huì)雜志社 醫(yī)學(xué)期刊知識(shí)挖掘與知識(shí)服務(wù)重點(diǎn)實(shí)驗(yàn)室,北京100052 Email:weijunmin@cmaph.org
◆ ◆ ◆
大語(yǔ)言模型(large language model,LLMs)基于海量文本數(shù)據(jù)訓(xùn)練,已在自然語(yǔ)言理解與生成方面展現(xiàn)出強(qiáng)大能力,其在醫(yī)療場(chǎng)景中的應(yīng)用涵蓋疾病篩查、輔助診斷、健康管理等多個(gè)環(huán)節(jié),成為推動(dòng)智能醫(yī)療發(fā)展的重要力量。近年來(lái),我國(guó)積極推動(dòng)人工智能(artificial intelligence,AI)與醫(yī)療健康的融合,政策端鼓勵(lì)企業(yè)突破醫(yī)療大模型、多模態(tài)數(shù)據(jù)融合等關(guān)鍵技術(shù),應(yīng)用端加速向健康管理、精準(zhǔn)醫(yī)療等場(chǎng)景延伸,逐步構(gòu)建起覆蓋預(yù)防、診斷、治療、康復(fù)的全周期智能醫(yī)療服務(wù)體系。然而,隨著LLMs在醫(yī)療領(lǐng)域的廣泛應(yīng)用,相關(guān)評(píng)測(cè)標(biāo)準(zhǔn)缺失、方法不統(tǒng)一的問(wèn)題日益突出。為此,《醫(yī)療場(chǎng)景下大語(yǔ)言模型應(yīng)用效果回顧性評(píng)測(cè)專家共識(shí)(2025版)》圍繞醫(yī)療場(chǎng)景下LLMs的回顧性評(píng)測(cè)構(gòu)建了系統(tǒng)化評(píng)測(cè)框架,提出了科學(xué)的評(píng)測(cè)指標(biāo)體系、標(biāo)準(zhǔn)與流程,旨在為模型評(píng)測(cè)機(jī)構(gòu)、提供方與應(yīng)用方提供清晰、可操作的指導(dǎo)規(guī)范。該共識(shí)有助于統(tǒng)一評(píng)測(cè)方法,提升評(píng)測(cè)的科學(xué)性,推動(dòng)LLMs在醫(yī)療場(chǎng)景中的安全、有效應(yīng)用,助力AI賦能醫(yī)療,實(shí)現(xiàn)高質(zhì)量發(fā)展。
◆ ◆ ◆
大語(yǔ)言模型指使用大量文本數(shù)據(jù)訓(xùn)練的深度學(xué)習(xí)模型,可以生成自然語(yǔ)言文本或理解語(yǔ)言文本的含義,通過(guò)在龐大的數(shù)據(jù)集上進(jìn)行訓(xùn)練來(lái)提供有關(guān)各種主題的深厚知識(shí)和語(yǔ)言生產(chǎn)。其核心思想是通過(guò)大規(guī)模的無(wú)監(jiān)督訓(xùn)練學(xué)習(xí)自然語(yǔ)言的模式和結(jié)構(gòu),在一定程度上模擬人類的語(yǔ)言認(rèn)知和生成過(guò)程。醫(yī)療場(chǎng)景下的LLMs應(yīng)用是指將LLMs應(yīng)用于醫(yī)療領(lǐng)域,在疾病篩查、輔助診斷、健康管理等醫(yī)療環(huán)節(jié)中發(fā)揮輔助決策作用。 在醫(yī)療場(chǎng)景中,LLMs的技術(shù)研發(fā)和實(shí)際應(yīng)用均已步入加速發(fā)展階段。《醫(yī)療場(chǎng)景下大語(yǔ)言模型應(yīng)用效果回顧性評(píng)測(cè)專家共識(shí)(2025版)》(簡(jiǎn)稱本共識(shí))在遵循標(biāo)準(zhǔn)化文件的結(jié)構(gòu)和起草規(guī)則下,通過(guò)科學(xué)構(gòu)建評(píng)測(cè)指標(biāo)體系、評(píng)測(cè)標(biāo)準(zhǔn)、評(píng)測(cè)流程等,為L(zhǎng)LMs在醫(yī)療場(chǎng)景下的應(yīng)用效果評(píng)測(cè)提供科學(xué)化、具體化、系統(tǒng)化的指導(dǎo),規(guī)范LLMs評(píng)測(cè)方法和標(biāo)準(zhǔn),促進(jìn)人工智能產(chǎn)業(yè)高質(zhì)量發(fā)展的標(biāo)準(zhǔn)體系加快形成。本共識(shí)由國(guó)家新聞出版署醫(yī)學(xué)期刊知識(shí)挖掘與服務(wù)重點(diǎn)實(shí)驗(yàn)室、《數(shù)字醫(yī)學(xué)與健康》編輯委員會(huì)、《智慧醫(yī)學(xué)(英文)》編輯委員會(huì)、中華醫(yī)學(xué)會(huì)雜志社指南與標(biāo)準(zhǔn)研究中心、醫(yī)療人工智能研究及應(yīng)用安徽省重點(diǎn)實(shí)驗(yàn)室聯(lián)合發(fā)起,蘭州大學(xué)健康數(shù)據(jù)科學(xué)研究院、世界衛(wèi)生組織指南實(shí)施與知識(shí)轉(zhuǎn)化合作中心提供方法學(xué)支持。 本共識(shí)定位于LLMs應(yīng)用前的評(píng)測(cè)指導(dǎo)工具,強(qiáng)調(diào)在LLMs研發(fā)階段末期以及落地前,組織醫(yī)學(xué)、計(jì)算機(jī)學(xué)、倫理學(xué)、法學(xué)等相關(guān)專業(yè)人員開展多維度、回顧性的效果評(píng)測(cè),以實(shí)現(xiàn)LLMs落地前的全面把關(guān)與科學(xué)指導(dǎo),旨在為L(zhǎng)LMs在醫(yī)療場(chǎng)景中的應(yīng)用效果開展系統(tǒng)性、回顧性評(píng)測(cè)提供科學(xué)、客觀且可操作的指導(dǎo)依據(jù)。本共識(shí)的“回顧性評(píng)測(cè)”指在LLMs已經(jīng)完成訓(xùn)練并固定參數(shù)的基礎(chǔ)上,將其部署到本地環(huán)境中,通過(guò)實(shí)際應(yīng)用場(chǎng)景的測(cè)試數(shù)據(jù),系統(tǒng)性地評(píng)估模型的性能。這種評(píng)測(cè)不涉及對(duì)模型本身的修改,而是聚焦驗(yàn)證其現(xiàn)有能力在目標(biāo)場(chǎng)景中的適用性。 本共識(shí)編寫目的具體包括:(1)科學(xué)評(píng)測(cè)。構(gòu)建標(biāo)準(zhǔn)化、結(jié)構(gòu)化的評(píng)測(cè)指標(biāo)體系,確保LLMs評(píng)測(cè)的準(zhǔn)確性、可重復(fù)性與橫向可比性。(2)安全保障。識(shí)別LLMs在醫(yī)療場(chǎng)景中的潛在風(fēng)險(xiǎn)與使用邊界,預(yù)防落地后可能帶來(lái)的誤診、誤治或信息誤導(dǎo)。(3)有效篩選與推廣。支持高性能、可信賴的LLMs在進(jìn)入實(shí)際應(yīng)用前得到充分驗(yàn)證,提升技術(shù)成熟度與適配性。(4)質(zhì)量引導(dǎo)。為L(zhǎng)LMs研發(fā)提供優(yōu)化方向,推動(dòng)其在醫(yī)學(xué)知識(shí)整合、任務(wù)適配與臨床驗(yàn)證等方面持續(xù)提升。(5)政策支撐。為L(zhǎng)LMs監(jiān)管和政策制訂提供評(píng)測(cè)框架與技術(shù)依據(jù),助力制訂統(tǒng)一、規(guī)范的行業(yè)標(biāo)準(zhǔn)與準(zhǔn)入門檻。 (二)適用對(duì)象 本共識(shí)適用于開展LLMs醫(yī)療應(yīng)用效果回顧性評(píng)測(cè)的相關(guān)機(jī)構(gòu)和人員,涵蓋模型評(píng)測(cè)方、模型提供方以及醫(yī)療場(chǎng)景中負(fù)責(zé)模型部署與集成的應(yīng)用方。 1.模型評(píng)測(cè)方:如第三方醫(yī)學(xué)AI評(píng)測(cè)中心、科研院所、行業(yè)標(biāo)準(zhǔn)制訂組織等,可依據(jù)本共識(shí)建立規(guī)范化的評(píng)測(cè)流程、數(shù)據(jù)體系與評(píng)價(jià)模型,確保評(píng)測(cè)結(jié)果具備科學(xué)性與權(quán)威性。 2.模型提供方:包括AI企業(yè)、醫(yī)療科技公司、科研單位等模型研發(fā)主體,可依據(jù)本共識(shí)指導(dǎo)優(yōu)化訓(xùn)練策略、完善內(nèi)測(cè)評(píng)測(cè)流程,提升模型的醫(yī)學(xué)適配性與臨床應(yīng)用潛力。 3.模型應(yīng)用方:如醫(yī)院信息中心、醫(yī)療信息化公司、智能醫(yī)療平臺(tái)開發(fā)商等,在模型部署前可依據(jù)本共識(shí)開展適配性評(píng)測(cè)與風(fēng)險(xiǎn)預(yù)判,確保模型在不同醫(yī)療場(chǎng)景下的穩(wěn)定性與安全性。 本共識(shí)的制訂嚴(yán)格遵循《世界衛(wèi)生組織指南制訂手冊(cè)》、《中國(guó)制訂/修訂臨床診療指南的指導(dǎo)原則(2022版)》,并參考衛(wèi)生保健實(shí)踐指南的報(bào)告規(guī)范(Reporting Items for Practice Guidelines in Healthcare)進(jìn)行撰寫,重點(diǎn)關(guān)注醫(yī)療場(chǎng)景下LLMs應(yīng)用效果的回顧性評(píng)測(cè)指標(biāo)體系、評(píng)測(cè)標(biāo)準(zhǔn)、評(píng)測(cè)流程,并在國(guó)際實(shí)踐指南注冊(cè)平臺(tái)(practice guideline registration for transparency,PREPARE)進(jìn)行注冊(cè),注冊(cè)號(hào)為PREPARE-2025CN503。 (二)共識(shí)形成過(guò)程 本共識(shí)依據(jù)循證醫(yī)學(xué)原則制訂,采用系統(tǒng)化、標(biāo)準(zhǔn)化的流程形成共識(shí)建議,以確保內(nèi)容的科學(xué)性與權(quán)威性。臨床問(wèn)題的遴選和確定,是以問(wèn)卷調(diào)查和文獻(xiàn)檢索等形式收集問(wèn)題和專家意見(jiàn),按照S(sample)、PI(phenomenon of interest)、D(design)、E(evaluation)、R(research type)原則構(gòu)建問(wèn)題和指標(biāo)總條目。由共識(shí)制訂專家組指導(dǎo)委員會(huì)擬定初步的問(wèn)題和指標(biāo),邀請(qǐng)共識(shí)制訂專家組召開問(wèn)題構(gòu)建和指標(biāo)遴選專項(xiàng)會(huì)議,對(duì)所有問(wèn)題的重要程度進(jìn)行評(píng)價(jià)。通過(guò)兩輪調(diào)查問(wèn)卷以及對(duì)相關(guān)共識(shí)的調(diào)查,收集并確定需要在本共識(shí)中解決的問(wèn)題。采用Likert 5級(jí)評(píng)分法進(jìn)行重要性評(píng)分(5分制:5分為必須納入的強(qiáng)烈推薦項(xiàng),1分為不納入的強(qiáng)烈不推薦項(xiàng))。平均分≥4分的為關(guān)鍵問(wèn)題,必須在共識(shí)中產(chǎn)生推薦意見(jiàn);平均分介于3~4分的為一般重要問(wèn)題,是否形成推薦意見(jiàn)由共識(shí)會(huì)議討論決定;平均分≤3分的為非關(guān)鍵問(wèn)題,在共識(shí)中不產(chǎn)生推薦意見(jiàn)。本共識(shí)最終納入的問(wèn)題將基于問(wèn)卷調(diào)查及專家評(píng)分結(jié)果。對(duì)于每個(gè)關(guān)鍵問(wèn)題,秘書組的兩名研究人員獨(dú)立地從納入的文獻(xiàn)中提取信息,形成證據(jù)摘要,并將其提交指導(dǎo)委員會(huì)審查。指導(dǎo)委員會(huì)和秘書組根據(jù)現(xiàn)有證據(jù)為每個(gè)問(wèn)題起草初步建議和理由。采用改良的德爾菲(Delphi)方法,通過(guò)問(wèn)卷調(diào)查就推薦意見(jiàn)達(dá)成共識(shí)。 本共識(shí)所采用的文獻(xiàn)檢索數(shù)據(jù)庫(kù)包括PubMed、Embase、Cochrane Library、Scopus、中國(guó)知網(wǎng)(CNKI)、萬(wàn)方全文數(shù)據(jù)庫(kù)、中華醫(yī)學(xué)期刊全文數(shù)據(jù)庫(kù),以及與醫(yī)療場(chǎng)景下LLMs相關(guān)的學(xué)會(huì)/協(xié)會(huì)網(wǎng)站文件,檢索時(shí)間范圍為各數(shù)據(jù)庫(kù)/網(wǎng)站建立起至2025年5月,發(fā)表語(yǔ)言限定為中英文。最后采用相應(yīng)的工具評(píng)價(jià)納入研究的質(zhì)量并確定文獻(xiàn)證據(jù)。共識(shí)制訂專家組成員基于指南、共識(shí)、系統(tǒng)評(píng)價(jià)、Meta分析、隨機(jī)對(duì)照研究的證據(jù)以及相關(guān)的指引、規(guī)范和通知,初擬了共識(shí)意見(jiàn)和證據(jù)與解釋。執(zhí)筆專家整合共識(shí)制訂專家組文件,撰寫共識(shí)全文。秘書組整合不同問(wèn)題的共識(shí)意見(jiàn),通過(guò)線上會(huì)議與共識(shí)制訂專家組成員開展共12次討論與修改。2025年8月通過(guò)郵件形式在共識(shí)制訂專家組中進(jìn)行1輪Delphi調(diào)查,調(diào)查人數(shù)為35人,問(wèn)卷有效回收率為100%。調(diào)查問(wèn)卷的內(nèi)容設(shè)計(jì)由秘書組成員完成,經(jīng)共識(shí)制訂專家組成員審核通過(guò)后發(fā)放。問(wèn)卷內(nèi)容主要包括對(duì)每條推薦意見(jiàn)的評(píng)分以及可自由填寫的意見(jiàn)和建議區(qū)域。針對(duì)每一條推薦意見(jiàn),專家采用同意、不同意、不確定來(lái)進(jìn)行評(píng)定。本共識(shí)設(shè)定:針對(duì)單條推薦意見(jiàn),勾選同意的專家超過(guò)80%,則為該條推薦意見(jiàn)達(dá)成共識(shí)。本共識(shí)共凝練出6條推薦意見(jiàn),均達(dá)成共識(shí)。專家推薦程度以“共識(shí)度”標(biāo)注,共識(shí)度=(勾選同意的專家人數(shù)/總參評(píng)專家人數(shù))×100%。 (一)問(wèn)題1:如何構(gòu)建科學(xué)、客觀、全面且符合倫理的醫(yī)療場(chǎng)景下LLMs應(yīng)用效果回顧性評(píng)測(cè)流程? 推薦意見(jiàn)1:評(píng)測(cè)流程應(yīng)堅(jiān)持科學(xué)性、客觀性、全面性、倫理合規(guī)性。(1)科學(xué)性方面,評(píng)測(cè)指標(biāo)應(yīng)基于循證醫(yī)學(xué)證據(jù)評(píng)價(jià)方式,效果評(píng)價(jià)采用符合循證醫(yī)學(xué)要求的設(shè)計(jì)方法以保障結(jié)果的可重復(fù)性和獨(dú)立性,并建立動(dòng)態(tài)證據(jù)更新機(jī)制以適應(yīng)醫(yī)學(xué)和技術(shù)的發(fā)展。(2)客觀性方面,需構(gòu)建具有代表性的多病種、多機(jī)構(gòu)、多場(chǎng)景數(shù)據(jù)集,采用定量與定性相結(jié)合的方法進(jìn)行雙盲評(píng)測(cè),確保評(píng)價(jià)結(jié)果公正、透明。(3)全面性方面,評(píng)測(cè)內(nèi)容應(yīng)覆蓋多類醫(yī)療應(yīng)用場(chǎng)景與多學(xué)科臨床專業(yè),提升評(píng)測(cè)結(jié)果的泛化性與指導(dǎo)價(jià)值。(4)倫理合規(guī)性方面,需嚴(yán)格遵循醫(yī)學(xué)倫理準(zhǔn)則,充分保護(hù)患者隱私與數(shù)據(jù)安全,確保所有評(píng)測(cè)數(shù)據(jù)的收集、使用均獲得知情同意。同時(shí),要規(guī)避潛在的倫理風(fēng)險(xiǎn),如算法偏見(jiàn)可能導(dǎo)致的不公平醫(yī)療資源分配等,建立倫理審查機(jī)制,對(duì)評(píng)測(cè)全過(guò)程進(jìn)行監(jiān)督與評(píng)估,保障評(píng)測(cè)活動(dòng)符合法律法規(guī)和社會(huì)倫理規(guī)范。推薦評(píng)測(cè)流程見(jiàn)圖1。[共識(shí)度:100%(35/35)] 圖1 醫(yī)療場(chǎng)景下大語(yǔ)言模型應(yīng)用效果回顧性評(píng)測(cè)流程 在醫(yī)療LLMs評(píng)測(cè)指標(biāo)體系的構(gòu)建過(guò)程中,遵循科學(xué)、客觀、全面、倫理合規(guī)的原則至關(guān)重要,有助于確保評(píng)測(cè)結(jié)果的準(zhǔn)確性、可靠性與實(shí)用性,為醫(yī)療決策、質(zhì)量提升及技術(shù)創(chuàng)新提供堅(jiān)實(shí)支撐。 1.科學(xué)性:科學(xué)性是醫(yī)療LLMs評(píng)測(cè)指標(biāo)體系構(gòu)建的基石?;谂R床循證證據(jù)、權(quán)威醫(yī)學(xué)指南與真實(shí)世界數(shù)據(jù)確定評(píng)測(cè)指標(biāo),能使評(píng)測(cè)內(nèi)容緊密貼合醫(yī)療實(shí)踐。醫(yī)學(xué)指南融合眾多研究成果與專家共識(shí),真實(shí)世界數(shù)據(jù)反映實(shí)際醫(yī)療復(fù)雜情況,二者結(jié)合可避免評(píng)測(cè)脫離實(shí)際,為醫(yī)療LLMs評(píng)測(cè)與改進(jìn)提供科學(xué)指引。重要決策證據(jù)需遵循雙盲、隨機(jī)等科學(xué)方法,避免主觀因素干擾,確保評(píng)測(cè)結(jié)果公正客觀。第三方機(jī)構(gòu)獨(dú)立驗(yàn)證可增強(qiáng)評(píng)測(cè)結(jié)果的可信度與權(quán)威性。隨著醫(yī)學(xué)與LLMs技術(shù)快速發(fā)展,建立動(dòng)態(tài)迭代機(jī)制,依據(jù)新發(fā)現(xiàn)、新療法及新進(jìn)展定期修訂評(píng)測(cè)標(biāo)準(zhǔn),能確保其先進(jìn)性與適用性,緊跟時(shí)代步伐,支持醫(yī)療行業(yè)創(chuàng)新發(fā)展。 2.客觀性:客觀性原則要求評(píng)測(cè)過(guò)程與結(jié)果不受主觀因素影響,確保評(píng)測(cè)結(jié)果真實(shí)反映實(shí)際情況。測(cè)試數(shù)據(jù)應(yīng)全面覆蓋多樣化的醫(yī)療場(chǎng)景,涵蓋不同疾病類型、不同層級(jí)醫(yī)療機(jī)構(gòu)以及多樣化的應(yīng)用場(chǎng)景。合理使用多種抽樣方法,廣泛收集數(shù)據(jù)樣本使其滿足統(tǒng)計(jì)學(xué)意義規(guī)模,避免因數(shù)據(jù)樣本偏差導(dǎo)致評(píng)測(cè)結(jié)果失真,確保評(píng)測(cè)結(jié)果能夠真實(shí)反映不同醫(yī)療場(chǎng)景下的實(shí)際情況,為全面性的醫(yī)療LLMs評(píng)測(cè)提供可靠依據(jù)。評(píng)測(cè)結(jié)果采用定量與定性相結(jié)合的方式,核心指標(biāo)應(yīng)進(jìn)行量化處理,如診斷結(jié)果準(zhǔn)確率、F1值等,其能夠直觀、準(zhǔn)確地反映評(píng)測(cè)對(duì)象的性能;同時(shí)由臨床專家進(jìn)行主觀定性評(píng)測(cè),如準(zhǔn)確性、完整性、實(shí)用性等方面。評(píng)測(cè)過(guò)程需采用雙盲標(biāo)注評(píng)測(cè),以最大程度避免主觀傾向?qū)υu(píng)測(cè)結(jié)果的影響,確保評(píng)測(cè)結(jié)果的客觀性與公正性。參與評(píng)測(cè)的機(jī)構(gòu)或人員需如實(shí)聲明利益關(guān)系,并接受第三方機(jī)構(gòu)的嚴(yán)格監(jiān)督。通過(guò)這一機(jī)制,能夠有效防止因利益沖突導(dǎo)致評(píng)測(cè)結(jié)果出現(xiàn)偏差,保障評(píng)測(cè)工作的獨(dú)立性與公正性,維護(hù)評(píng)測(cè)結(jié)果的公信力。 3.全面性:全面性原則要求評(píng)測(cè)指標(biāo)體系能夠涵蓋醫(yī)療領(lǐng)域的各個(gè)方面,確保評(píng)測(cè)工作的完整性與系統(tǒng)性?!缎l(wèi)生健康行業(yè)人工智能應(yīng)用場(chǎng)景參考指引》指出,醫(yī)學(xué)AI應(yīng)區(qū)分不同應(yīng)用場(chǎng)景,全面覆蓋醫(yī)療服務(wù)管理、基層公共衛(wèi)生服務(wù)、健康產(chǎn)業(yè)發(fā)展、醫(yī)學(xué)教學(xué)科研等多個(gè)領(lǐng)域。不同場(chǎng)景具有不同的特點(diǎn)與需求,通過(guò)全面覆蓋,確保評(píng)測(cè)工作能夠準(zhǔn)確反映各領(lǐng)域的實(shí)際情況,為各領(lǐng)域的改進(jìn)與發(fā)展提供針對(duì)性建議。不同科室在疾病診斷、治療及管理方面具有獨(dú)特性,針對(duì)不同學(xué)科領(lǐng)域或?qū)?萍膊∵M(jìn)行評(píng)測(cè),如兒科、呼吸內(nèi)科、心血管內(nèi)科等,有助于發(fā)現(xiàn)各科室存在的問(wèn)題,推動(dòng)科室專業(yè)化發(fā)展。此外,評(píng)測(cè)流程還需覆蓋可能涉及的其他維度,確保評(píng)測(cè)工作的全面性,為醫(yī)療LLMs行業(yè)的整體發(fā)展提供全方位的評(píng)測(cè)服務(wù)與支持。 4.倫理合規(guī)性:倫理合規(guī)性原則要求評(píng)測(cè)指標(biāo)體系將醫(yī)學(xué)倫理規(guī)范與法律法規(guī)置于核心地位,確保AI在醫(yī)療領(lǐng)域的應(yīng)用始終遵循正確的價(jià)值導(dǎo)向。首先,要關(guān)注患者隱私與數(shù)據(jù)安全問(wèn)題。評(píng)測(cè)需詳盡考察數(shù)據(jù)全生命周期的合規(guī)性,包括收集環(huán)節(jié)是否獲得充分、有效的知情同意,存儲(chǔ)與傳輸環(huán)節(jié)是否采用強(qiáng)加密、匿名化等先進(jìn)技術(shù)手段,以及使用環(huán)節(jié)是否有嚴(yán)格的權(quán)限管理和訪問(wèn)審計(jì)機(jī)制,嚴(yán)防數(shù)據(jù)泄露與濫用。其次,要關(guān)注算法偏見(jiàn)帶來(lái)的倫理風(fēng)險(xiǎn)。評(píng)測(cè)應(yīng)包含對(duì)算法公平性的深度檢驗(yàn),識(shí)別其是否存在因訓(xùn)練數(shù)據(jù)偏差、模型設(shè)計(jì)缺陷等導(dǎo)致對(duì)特定人群(如特定性別、民族、種族、年齡、地域或社會(huì)經(jīng)濟(jì)地位患者)的診斷、治療建議或資源分配產(chǎn)生系統(tǒng)性歧視問(wèn)題。因此,評(píng)測(cè)應(yīng)建立貫穿始終的倫理審查與監(jiān)督機(jī)制,對(duì)評(píng)測(cè)方案設(shè)計(jì)、數(shù)據(jù)獲取方式、算法評(píng)估過(guò)程及結(jié)果應(yīng)用等關(guān)鍵環(huán)節(jié)進(jìn)行獨(dú)立、嚴(yán)格的倫理評(píng)估與持續(xù)監(jiān)督,確保評(píng)測(cè)符合法律法規(guī)和行業(yè)規(guī)范的要求。 5.評(píng)測(cè)流程:為確保醫(yī)療LLMs評(píng)測(cè)工作的科學(xué)、規(guī)范與有效,特明確評(píng)測(cè)流程如下。(1)評(píng)測(cè)申請(qǐng)。在評(píng)審前由具有明確評(píng)測(cè)意向的機(jī)構(gòu)或個(gè)人提出書面申請(qǐng)。評(píng)審申請(qǐng)中必須寫明的內(nèi)容包括:申請(qǐng)單位主體信息、模型名稱及版本號(hào)、模型應(yīng)用類型、模型開發(fā)時(shí)間、核心技術(shù)架構(gòu)、模型部署形式、預(yù)期應(yīng)用場(chǎng)景、合規(guī)和倫理審查材料、評(píng)測(cè)需求與范圍。(2)需求分析。全面剖析待評(píng)測(cè)模型的應(yīng)用場(chǎng)景,深入了解其在不同醫(yī)療環(huán)境、患者群體及業(yè)務(wù)流程中的潛在運(yùn)用情況。明確評(píng)測(cè)重點(diǎn)與方向,為后續(xù)評(píng)測(cè)工作奠定堅(jiān)實(shí)基礎(chǔ),確保評(píng)測(cè)能夠精準(zhǔn)反映待評(píng)測(cè)模型在真實(shí)醫(yī)療場(chǎng)景中的表現(xiàn)。(3)方案設(shè)計(jì)。針對(duì)待評(píng)測(cè)模型及評(píng)測(cè)場(chǎng)景精心設(shè)計(jì)評(píng)測(cè)方案。具體涵蓋:①組建權(quán)威評(píng)測(cè)專家組,需具備專業(yè)背景與豐富經(jīng)驗(yàn);②明確評(píng)測(cè)指標(biāo),使其緊密貼合評(píng)測(cè)目標(biāo)與應(yīng)用場(chǎng)景;③制訂科學(xué)的評(píng)測(cè)標(biāo)準(zhǔn),保障評(píng)測(cè)工作的公正性與客觀性;④構(gòu)建全面且具代表性的評(píng)測(cè)數(shù)據(jù)集;⑤搭建適配的測(cè)試環(huán)境及測(cè)試工具,為評(píng)測(cè)提供可靠軟硬件支持。(4)組織評(píng)測(cè)。依據(jù)評(píng)測(cè)方案,組織評(píng)測(cè)專家對(duì)評(píng)測(cè)數(shù)據(jù)進(jìn)行雙盲標(biāo)注,避免主觀因素干擾,確保標(biāo)注結(jié)果的準(zhǔn)確性與可靠性。(5)結(jié)果分析。匯總測(cè)試集標(biāo)注結(jié)果,統(tǒng)計(jì)相關(guān)評(píng)測(cè)指標(biāo)結(jié)果,從不同維度深入對(duì)比,在完成評(píng)測(cè)匯總和結(jié)果分析后,組織專家進(jìn)行復(fù)審,最終出具專業(yè)評(píng)測(cè)報(bào)告。 (二)問(wèn)題2:醫(yī)療場(chǎng)景下LLMs應(yīng)用效果回顧性評(píng)測(cè)的指標(biāo)有哪些? 推薦意見(jiàn)2:建議將模型評(píng)測(cè)指標(biāo)根據(jù)不同場(chǎng)景適配性地劃分為定量指標(biāo)與定性指標(biāo)兩類。定量指標(biāo)主要用于量化模型在自然語(yǔ)言處理任務(wù)中的表現(xiàn),推薦優(yōu)先采用準(zhǔn)確率、召回率和F1值評(píng)測(cè)結(jié)構(gòu)化任務(wù)(如文本分類、信息抽取),并采用BLEU與ROUGE分?jǐn)?shù)衡量文本生成任務(wù)中的語(yǔ)言質(zhì)量與信息覆蓋度。定性指標(biāo)則用于評(píng)測(cè)模型輸出的醫(yī)學(xué)適應(yīng)性與安全性,建議采用MOS機(jī)制,由評(píng)測(cè)專家從準(zhǔn)確性、完整性、安全性、實(shí)用性和專業(yè)性五個(gè)維度進(jìn)行5分制評(píng)分,并計(jì)算均值作為評(píng)測(cè)依據(jù)。同時(shí),可引入優(yōu)秀率(MOS≥4)、不良回復(fù)率(MOS=1或含風(fēng)險(xiǎn)內(nèi)容)及勝率等指標(biāo),進(jìn)一步量化模型在高質(zhì)量輸出和風(fēng)險(xiǎn)控制方面的綜合表現(xiàn)。此外,建議納入資源消耗、并發(fā)能力等性能指標(biāo)以評(píng)估模型在醫(yī)療場(chǎng)景下的運(yùn)行效率,確保其在實(shí)際應(yīng)用中的響應(yīng)速度與資源適配性。[共識(shí)度:100%(35/35)] 2024年11月14日,國(guó)家衛(wèi)生健康委員會(huì)、國(guó)家中醫(yī)藥管理局、國(guó)家疾病預(yù)防控制局三部門聯(lián)合印發(fā)《衛(wèi)生健康行業(yè)人工智能應(yīng)用場(chǎng)景參考指引》。該指引從“人工智能+醫(yī)療服務(wù)管理”“人工智能+基層公共衛(wèi)生服務(wù)”“人工智能+健康產(chǎn)業(yè)發(fā)展”和“人工智能+醫(yī)學(xué)教學(xué)科研”四大領(lǐng)域,給出了84個(gè)應(yīng)用場(chǎng)景,希望以此推進(jìn)衛(wèi)生健康行業(yè)“人工智能+”應(yīng)用創(chuàng)新發(fā)展。具體應(yīng)用場(chǎng)景見(jiàn)圖2。 圖2 衛(wèi)生健康行業(yè)人工智能應(yīng)用場(chǎng)景參考指引 本共識(shí)面向LLMs在醫(yī)療場(chǎng)景中的應(yīng)用進(jìn)行評(píng)測(cè),故選擇《衛(wèi)生健康行業(yè)人工智能應(yīng)用場(chǎng)景參考指引》中與共識(shí)制訂目的強(qiáng)相關(guān)的“醫(yī)療服務(wù)”“醫(yī)藥服務(wù)”“中醫(yī)藥管理服務(wù)”等8個(gè)模塊51個(gè)應(yīng)用場(chǎng)景,并將其聚焦為6個(gè)核心評(píng)測(cè)點(diǎn): 1.醫(yī)療知識(shí)問(wèn)答:能夠提供醫(yī)療領(lǐng)域的知識(shí)查詢與解釋,包括疾病診療、用藥指導(dǎo)、醫(yī)保政策、健康科普、醫(yī)學(xué)教育題庫(kù)及文獻(xiàn)問(wèn)答,滿足從患者到專業(yè)人員的多層次知識(shí)需求。覆蓋藥品問(wèn)答、健康教育等場(chǎng)景。 2.醫(yī)療復(fù)雜語(yǔ)言理解:能夠深度解析醫(yī)療文本語(yǔ)義與規(guī)則,實(shí)現(xiàn)對(duì)醫(yī)學(xué)術(shù)語(yǔ)、專業(yè)文書、政策法規(guī)的精準(zhǔn)理解與結(jié)構(gòu)化提取,滿足醫(yī)療行業(yè)在問(wèn)題解決方面的嚴(yán)格要求。覆蓋病歷質(zhì)控、醫(yī)保核算/風(fēng)控、科研文獻(xiàn)分析、處方審核等場(chǎng)景。 3.醫(yī)療診斷治療推薦:能夠模擬臨床決策全流程,支持影像/病理/檢驗(yàn)輔助診斷、手術(shù)規(guī)劃導(dǎo)航、用藥推薦、慢病管理及中醫(yī)辨證等,輔助醫(yī)生臨床決策,提高整體醫(yī)療服務(wù)能力,覆蓋專病決策、分診導(dǎo)診、多學(xué)科會(huì)診等場(chǎng)景。 4.醫(yī)療專業(yè)文書生成:能夠自動(dòng)化生成醫(yī)療全場(chǎng)景文檔,包括門診病歷、入院記錄、出院小結(jié)等,提高醫(yī)療工作效率,減輕醫(yī)生工作負(fù)擔(dān)。覆蓋病歷生成、健康檔案、科研文書等場(chǎng)景。 5.醫(yī)療多輪對(duì)話交互:聚焦自然語(yǔ)言單模態(tài),核心在通過(guò)多輪問(wèn)答實(shí)現(xiàn)信息獲取,強(qiáng)調(diào)上下文理解與個(gè)性化,場(chǎng)景偏向客服、管理等對(duì)話場(chǎng)景。覆蓋醫(yī)保客服、健康管理交互、醫(yī)院客服、醫(yī)學(xué)培訓(xùn)等場(chǎng)景。 6.醫(yī)療多模態(tài)對(duì)話交互:能夠?qū)ξ谋?、語(yǔ)音、圖像等多類型輸入進(jìn)行識(shí)別與理解,并生成符合醫(yī)療規(guī)范的多模態(tài)輸出,滿足醫(yī)療行業(yè)多模態(tài)交互需求及技術(shù)輔助。覆蓋影像質(zhì)控、手術(shù)輔助、中藥鑒別等場(chǎng)景。 為保障評(píng)測(cè)結(jié)果科學(xué)嚴(yán)謹(jǐn)且貼合醫(yī)療場(chǎng)景實(shí)際表現(xiàn),依據(jù)GB/T 45288.2—2025《人工智能 大模型 第2部分 評(píng)測(cè)指標(biāo)與方法》要求,在設(shè)計(jì)評(píng)測(cè)指標(biāo)時(shí),緊密結(jié)合醫(yī)療場(chǎng)景的實(shí)際問(wèn)題,同時(shí)兼顧不同任務(wù)類型的核心要求、相關(guān)數(shù)據(jù)集的固有特性,并重點(diǎn)針對(duì)不同場(chǎng)景下模型輸出的回復(fù)形式進(jìn)行設(shè)計(jì)。LLMs在醫(yī)療場(chǎng)景下推薦的評(píng)測(cè)指標(biāo)見(jiàn)表1。 具體到不同應(yīng)用場(chǎng)景中,從核心評(píng)測(cè)點(diǎn)對(duì)應(yīng)的評(píng)測(cè)指標(biāo)設(shè)定,到評(píng)測(cè)實(shí)施的全流程細(xì)節(jié),在表2中提供了詳細(xì)的示例,可作為實(shí)操參考。 以上提供了醫(yī)療場(chǎng)景下LLMs應(yīng)用效果的評(píng)測(cè)指標(biāo)。然而,模型的綜合價(jià)值不僅在于其能力的強(qiáng)弱,還在于將這些能力轉(zhuǎn)化為實(shí)際服務(wù)的效率與成本。因此,在關(guān)注其“效果”的同時(shí),我們必須也關(guān)注決定其落地可行性的“性能”維度。LLMs的性能評(píng)測(cè)包含但不限于以下維度:資源消耗(包括算力要求、顯存占用、功耗),吞吐量及延遲(包括吐字速率、請(qǐng)求吞吐量、響應(yīng)延遲),并發(fā)能力和可擴(kuò)展性(包括最大并發(fā)路數(shù)和增加計(jì)算資源時(shí)帶來(lái)模型性能提升)。



(三)問(wèn)題3:如何構(gòu)建符合多領(lǐng)域協(xié)同的醫(yī)療場(chǎng)景下LLMs應(yīng)用效果評(píng)測(cè)團(tuán)隊(duì)?
推薦意見(jiàn)3:建議構(gòu)建具備多學(xué)科協(xié)同能力、醫(yī)學(xué)專業(yè)背景與評(píng)測(cè)素養(yǎng)的標(biāo)準(zhǔn)化評(píng)測(cè)團(tuán)隊(duì)。團(tuán)隊(duì)?wèi)?yīng)由高年資醫(yī)學(xué)專家(擔(dān)任醫(yī)療LLMs評(píng)測(cè)培訓(xùn)導(dǎo)師)、計(jì)算機(jī)學(xué)專家、倫理學(xué)專家、統(tǒng)計(jì)學(xué)專家及法學(xué)專家共同組成,以保障評(píng)測(cè)工作的標(biāo)準(zhǔn)化和專業(yè)性。評(píng)測(cè)人員應(yīng)覆蓋多???、多層級(jí)的醫(yī)生及醫(yī)院,并通過(guò)系統(tǒng)培訓(xùn)與實(shí)操驗(yàn)證提升評(píng)測(cè)一致性;培訓(xùn)導(dǎo)師應(yīng)具備豐富的臨床經(jīng)驗(yàn),負(fù)責(zé)制訂評(píng)測(cè)流程與標(biāo)準(zhǔn);計(jì)算機(jī)學(xué)專家則負(fù)責(zé)數(shù)據(jù)處理、平臺(tái)支持及結(jié)果分析,確保評(píng)測(cè)流程技術(shù)可行與臨床契合;倫理學(xué)專家負(fù)責(zé)確保評(píng)測(cè)遵循現(xiàn)有倫理規(guī)范,避免數(shù)據(jù)偏見(jiàn)、算法偏見(jiàn)及其他倫理風(fēng)險(xiǎn);法學(xué)專家負(fù)責(zé)保障評(píng)測(cè)全流程符合國(guó)內(nèi)外相關(guān)法律法規(guī),提供合規(guī)支持與風(fēng)險(xiǎn)把控。團(tuán)隊(duì)內(nèi)部應(yīng)建立規(guī)范的人崗匹配與動(dòng)態(tài)管理機(jī)制,包括分層培訓(xùn)、進(jìn)階考核、任務(wù)分配與績(jī)效淘汰制度,以實(shí)現(xiàn)穩(wěn)定、高效的評(píng)測(cè)協(xié)作體系,提升評(píng)測(cè)質(zhì)量與結(jié)果可信度。[共識(shí)度:91.4%(32/35)] 跨學(xué)科團(tuán)隊(duì)的構(gòu)建至關(guān)重要,專業(yè)醫(yī)生憑借深厚的醫(yī)學(xué)知識(shí)和臨床經(jīng)驗(yàn),能精準(zhǔn)把控診療邏輯、判斷醫(yī)療決策的合理性,確保LLMs的應(yīng)用符合臨床規(guī)范;有經(jīng)驗(yàn)的工程師則可從技術(shù)底層優(yōu)化模型性能,解決數(shù)據(jù)處理、算法適配等問(wèn)題,為測(cè)評(píng)流程的穩(wěn)定性和效率提供保障。該團(tuán)隊(duì)模式能夠有效整合不同領(lǐng)域的知識(shí),提高標(biāo)注質(zhì)量。團(tuán)隊(duì)?wèi)?yīng)通過(guò)標(biāo)準(zhǔn)化培訓(xùn)與考核機(jī)制強(qiáng)化跨學(xué)科協(xié)作能力,選拔具備專業(yè)深度與溝通能力的成員,為L(zhǎng)LMs的評(píng)測(cè)提供可靠人才保障。 1.培訓(xùn)導(dǎo)師的選拔應(yīng)跨越不同科室、不同場(chǎng)景,以確保其能力全面覆蓋:根據(jù)不同應(yīng)用場(chǎng)景、??品较蚺c任務(wù)難度,選取具備相應(yīng)背景與職稱的專家醫(yī)生擔(dān)任培訓(xùn)導(dǎo)師,確保醫(yī)學(xué)能力與任務(wù)類型的高度匹配。培訓(xùn)導(dǎo)師還應(yīng)具有地域代表性,避免地域差異對(duì)評(píng)測(cè)結(jié)果產(chǎn)生偏倚。培訓(xùn)導(dǎo)師資質(zhì)建議為副主任醫(yī)師及以上,具備豐富的臨床與教學(xué)經(jīng)驗(yàn),能夠深入理解各類醫(yī)療任務(wù)并提供準(zhǔn)確指導(dǎo)。 2.參評(píng)醫(yī)師應(yīng)從專業(yè)資質(zhì)及實(shí)踐能力多維度出發(fā)綜合考慮,并通過(guò)小樣本交叉測(cè)評(píng)和場(chǎng)景測(cè)評(píng)進(jìn)一步提高結(jié)果一致性和穩(wěn)定性:根據(jù)醫(yī)學(xué)場(chǎng)景任務(wù)的不同,需要篩選合適的醫(yī)生參與評(píng)測(cè),應(yīng)根據(jù)不同應(yīng)用場(chǎng)景、不同???、不同難度等,選拔對(duì)應(yīng)背景、職稱的??漆t(yī)師。(1)參評(píng)醫(yī)師的資質(zhì)。①?gòu)膶I(yè)資質(zhì)維度,參評(píng)醫(yī)師需涵蓋住院醫(yī)師、主治醫(yī)師、副主任醫(yī)師及主任醫(yī)師,覆蓋臨床診療、醫(yī)學(xué)影像、檢驗(yàn)醫(yī)學(xué)等多個(gè)科室;②從實(shí)踐能力維度,參評(píng)醫(yī)師需具備測(cè)評(píng)相關(guān)的實(shí)踐經(jīng)驗(yàn),掌握基礎(chǔ)醫(yī)學(xué)統(tǒng)計(jì)學(xué)方法,具備醫(yī)療數(shù)據(jù)解析與專業(yè)測(cè)評(píng)報(bào)告撰寫能力。(2)參評(píng)醫(yī)師的遴選流程。①采用小樣本交叉測(cè)評(píng)法,對(duì)候選醫(yī)師的醫(yī)學(xué)知識(shí)儲(chǔ)備及臨床問(wèn)題理解能力進(jìn)行量化評(píng)測(cè),建立基礎(chǔ)能力篩選標(biāo)準(zhǔn);②基于多任務(wù)場(chǎng)景的大樣本測(cè)評(píng)數(shù)據(jù)集,開展標(biāo)準(zhǔn)化測(cè)評(píng)實(shí)踐,通過(guò)組內(nèi)一致性檢驗(yàn)優(yōu)化測(cè)評(píng)人員對(duì)評(píng)分細(xì)則的認(rèn)識(shí),確保評(píng)測(cè)標(biāo)準(zhǔn)的同質(zhì)化執(zhí)行。 3.計(jì)算機(jī)學(xué)專家(如數(shù)據(jù)工程師和計(jì)算機(jī)工程師)的資質(zhì)要求與職能作用:除醫(yī)學(xué)專業(yè)人員外,具備數(shù)據(jù)處理分析以及機(jī)器學(xué)習(xí)知識(shí)的數(shù)據(jù)工程師和計(jì)算機(jī)工程師參與評(píng)測(cè)團(tuán)隊(duì),可以從多個(gè)角度保證所標(biāo)注的數(shù)據(jù)同時(shí)滿足計(jì)算機(jī)思考決策方式和臨床專業(yè)性及實(shí)用性,通過(guò)專業(yè)醫(yī)生、數(shù)據(jù)工程師和計(jì)算機(jī)工程師的協(xié)作,形成評(píng)測(cè)工作的跨學(xué)科框架。 計(jì)算機(jī)學(xué)專家的資質(zhì)要求:需持有數(shù)據(jù)工程師或計(jì)算機(jī)工程師職業(yè)資質(zhì)認(rèn)證,或擁有5年以上相關(guān)領(lǐng)域從業(yè)經(jīng)驗(yàn),且須通過(guò)專家組組織的專項(xiàng)能力測(cè)試,方可獲得參評(píng)資格。其職責(zé)包括:(1)保障評(píng)測(cè)平臺(tái)的穩(wěn)定性。①在標(biāo)注平臺(tái)中,開發(fā)智能輔助工具能夠有效提升測(cè)評(píng)效率,這一點(diǎn)已被多方所驗(yàn)證。這些工具具備自動(dòng)填充、智能提示以及錯(cuò)誤預(yù)警等多種功能,它們依托于自然語(yǔ)言處理和機(jī)器學(xué)習(xí)技術(shù),可顯著減少人工標(biāo)注過(guò)程中的重復(fù)性勞動(dòng),降低錯(cuò)誤發(fā)生率,進(jìn)而提高整體的數(shù)據(jù)質(zhì)量。②構(gòu)建完善的數(shù)據(jù)安全防護(hù)體系,對(duì)醫(yī)療標(biāo)注數(shù)據(jù)進(jìn)行加密存儲(chǔ)與傳輸,同時(shí)設(shè)置嚴(yán)格的權(quán)限管理機(jī)制,確保不同角色的人員只能訪問(wèn)和操作其權(quán)限范圍內(nèi)的數(shù)據(jù),以上措施可有效防止數(shù)據(jù)泄露和誤操作。(2)保障評(píng)測(cè)數(shù)據(jù)的均衡性。數(shù)據(jù)工程師需具備良好的數(shù)據(jù)分析能力,以確保在數(shù)據(jù)標(biāo)注過(guò)程中實(shí)現(xiàn)數(shù)據(jù)的均衡分布;同時(shí),要嚴(yán)格把控?cái)?shù)據(jù)質(zhì)量,提供標(biāo)準(zhǔn)化的術(shù)語(yǔ)庫(kù),從而有效減少標(biāo)注過(guò)程中的歧義,切實(shí)保障標(biāo)注數(shù)據(jù)的一致性與合理性。(3)保障評(píng)測(cè)結(jié)果分析的專業(yè)性。計(jì)算機(jī)工程師具備自然語(yǔ)言處理和機(jī)器學(xué)習(xí)專業(yè)知識(shí),能夠評(píng)測(cè)LLMs的技術(shù)性能,如準(zhǔn)確率、召回率、效率等。此外,他們還可以分析LLMs存在的潛在偏差和局限性。 4.倫理學(xué)專家的資質(zhì)要求與職能作用:在LLMs測(cè)評(píng)團(tuán)隊(duì)中,倫理學(xué)專家需具有應(yīng)用倫理學(xué)、生命倫理學(xué)、醫(yī)學(xué)倫理學(xué)或科技哲學(xué)專業(yè)碩士及以上學(xué)歷,具備3年以上AI倫理、數(shù)據(jù)倫理和科研倫理的研究或從業(yè)經(jīng)驗(yàn),具備3年以上的科研倫理審查經(jīng)驗(yàn),理解LLMs的工作原理,了解訓(xùn)練數(shù)據(jù)、微調(diào)、提示、參數(shù)和輸出,理解訓(xùn)練數(shù)據(jù)如何被獲取、清理及可能的數(shù)據(jù)偏見(jiàn)。其核心作用體現(xiàn)在4個(gè)方面:(1)結(jié)合現(xiàn)有AI原則和治理框架,明確適合目標(biāo)場(chǎng)景的倫理評(píng)測(cè)規(guī)則,使評(píng)測(cè)遵循現(xiàn)有倫理規(guī)范;(2)數(shù)據(jù)倫理評(píng)價(jià),對(duì)訓(xùn)練所用數(shù)據(jù)的獲取、清洗進(jìn)行評(píng)估,并評(píng)估數(shù)據(jù)偏見(jiàn)風(fēng)險(xiǎn);(3)對(duì)算法模型進(jìn)行倫理評(píng)估,識(shí)別算法中存在的倫理問(wèn)題,包括算法的魯棒性、可解釋性、透明性、公平性等,并評(píng)估價(jià)值鏈上主體對(duì)算法的影響;(4)與LLMs評(píng)測(cè)團(tuán)隊(duì)中成員協(xié)作,針對(duì)LLMs中存在的倫理問(wèn)題和相關(guān)風(fēng)險(xiǎn)提出完善建議。 5.法學(xué)專家的資質(zhì)要求與職能作用:在LLMs測(cè)評(píng)團(tuán)隊(duì)中,法學(xué)專家需擁有法學(xué)專業(yè)碩士及以上學(xué)歷,具備3年以上數(shù)據(jù)安全、個(gè)人信息保護(hù)或AI合規(guī)領(lǐng)域的從業(yè)經(jīng)驗(yàn),熟悉國(guó)內(nèi)外相關(guān)法規(guī),具備醫(yī)療或AI領(lǐng)域交叉學(xué)科知識(shí)儲(chǔ)備,能較為準(zhǔn)確地理解LLMs測(cè)評(píng)中的臨床數(shù)據(jù)特性與技術(shù)邏輯。其核心作用體現(xiàn)在3個(gè)方面:(1)構(gòu)建合規(guī)框架,結(jié)合LLMs測(cè)評(píng)場(chǎng)景(如醫(yī)療數(shù)據(jù)處理、多模態(tài)信息交互等),制訂涵蓋數(shù)據(jù)采集、脫敏、存儲(chǔ)、模型輸出驗(yàn)證全流程的合規(guī)標(biāo)準(zhǔn),確保測(cè)評(píng)活動(dòng)符合法律法規(guī)要求;(2)動(dòng)態(tài)風(fēng)險(xiǎn)管控,針對(duì)測(cè)評(píng)中可能出現(xiàn)的敏感信息泄露、模型輸出合規(guī)性爭(zhēng)議等風(fēng)險(xiǎn),提供實(shí)時(shí)法律評(píng)估與應(yīng)對(duì)方案,例如審核醫(yī)療數(shù)據(jù)去標(biāo)識(shí)化效果是否滿足“較難識(shí)別特定個(gè)體”的法定要求;(3)合規(guī)能力建設(shè),通過(guò)專項(xiàng)培訓(xùn)提升團(tuán)隊(duì)成員的法律意識(shí),明確測(cè)評(píng)各環(huán)節(jié)的法律邊界,同時(shí)對(duì)測(cè)評(píng)結(jié)果的合法性進(jìn)行確認(rèn),保障LLMs在醫(yī)療領(lǐng)域的應(yīng)用符合法律規(guī)范。 6.評(píng)測(cè)團(tuán)隊(duì)需制訂明確的標(biāo)注規(guī)范,并進(jìn)行統(tǒng)一培訓(xùn):評(píng)測(cè)團(tuán)隊(duì)在不同醫(yī)療任務(wù)場(chǎng)景下需要有明確的評(píng)測(cè)標(biāo)注規(guī)范。評(píng)測(cè)標(biāo)注規(guī)范由醫(yī)療LLMs評(píng)測(cè)培訓(xùn)導(dǎo)師制訂,優(yōu)秀的評(píng)測(cè)標(biāo)注規(guī)范應(yīng)當(dāng)清晰、詳細(xì)、可操作,并明確標(biāo)注范圍、標(biāo)準(zhǔn)、方法及注意事項(xiàng)等內(nèi)容。評(píng)測(cè)標(biāo)注規(guī)范應(yīng)包含各種可能遇到的情況和解決方案,確保團(tuán)隊(duì)成員在標(biāo)注過(guò)程中有統(tǒng)一的標(biāo)準(zhǔn)可循。醫(yī)療LLMs評(píng)測(cè)培訓(xùn)導(dǎo)師需結(jié)合不同任務(wù)的評(píng)分規(guī)范和實(shí)操中的問(wèn)題,系統(tǒng)梳理培訓(xùn)材料,包含任務(wù)標(biāo)注案例、注意事項(xiàng)等;醫(yī)學(xué)專家負(fù)責(zé)提供專業(yè)的醫(yī)學(xué)知識(shí),協(xié)同篩選,確保標(biāo)注的準(zhǔn)確性;數(shù)據(jù)科學(xué)家負(fù)責(zé)設(shè)計(jì)標(biāo)注方案和質(zhì)控流程;標(biāo)注工程師則負(fù)責(zé)具體的數(shù)據(jù)標(biāo)注工作。這種團(tuán)隊(duì)模式已被證明能夠有效整合不同領(lǐng)域的知識(shí),提高標(biāo)注質(zhì)量。 7.設(shè)置評(píng)測(cè)人員準(zhǔn)入考核機(jī)制,建立數(shù)據(jù)標(biāo)注質(zhì)量監(jiān)控制度:(1)評(píng)測(cè)人員準(zhǔn)入考核方法。針對(duì)不同醫(yī)療LLMs能力維度與應(yīng)用場(chǎng)景,均設(shè)置標(biāo)準(zhǔn)化試評(píng)環(huán)節(jié)。評(píng)測(cè)人員需完成規(guī)定數(shù)據(jù)量的試評(píng)任務(wù),其標(biāo)注結(jié)果與標(biāo)準(zhǔn)答案的誤差率控制在3%以內(nèi),且組內(nèi)一致性系數(shù)達(dá)到0.85以上,經(jīng)專家組復(fù)核確認(rèn)后,方可獲得正式參評(píng)資格。該機(jī)制通過(guò)量化考核標(biāo)準(zhǔn),確保評(píng)測(cè)人員具備穩(wěn)定且專業(yè)的評(píng)測(cè)能力。(2)數(shù)據(jù)標(biāo)注質(zhì)量監(jiān)控。團(tuán)隊(duì)中需要有專門的醫(yī)療專業(yè)人員作為質(zhì)控人員進(jìn)行標(biāo)注結(jié)果的質(zhì)控,負(fù)責(zé)檢查標(biāo)注質(zhì)量,發(fā)現(xiàn)并糾正錯(cuò)誤標(biāo)注。質(zhì)控人員需要具備專業(yè)的醫(yī)學(xué)知識(shí)和豐富的標(biāo)注經(jīng)驗(yàn),能夠制訂合理的質(zhì)控標(biāo)準(zhǔn)和流程。同時(shí)需要定期對(duì)標(biāo)注數(shù)據(jù)進(jìn)行抽查和評(píng)測(cè),及時(shí)發(fā)現(xiàn)和糾正錯(cuò)誤標(biāo)注。定期結(jié)合歷史評(píng)分準(zhǔn)確率和質(zhì)控反饋設(shè)定淘汰門檻,對(duì)評(píng)測(cè)人員進(jìn)行復(fù)訓(xùn)與考核。利用統(tǒng)計(jì)分析方法,如計(jì)算標(biāo)注一致性系數(shù)來(lái)評(píng)測(cè)標(biāo)注質(zhì)量,并根據(jù)評(píng)測(cè)結(jié)果改進(jìn)標(biāo)注流程和指南。
(四)問(wèn)題4:如何設(shè)計(jì)兼顧代表性與可擴(kuò)展性的醫(yī)療場(chǎng)景下LLMs應(yīng)用效果評(píng)測(cè)數(shù)據(jù)集?
推薦意見(jiàn)4:評(píng)測(cè)數(shù)據(jù)集的設(shè)計(jì)需注重科學(xué)性、動(dòng)態(tài)性、合規(guī)性,需制訂標(biāo)準(zhǔn)化的數(shù)據(jù)構(gòu)建流程,并建立可擴(kuò)展與可持續(xù)更新的機(jī)制,以確保醫(yī)療LLMs應(yīng)用效果評(píng)測(cè)具有臨床真實(shí)性、全面代表性、公正性。(1)評(píng)測(cè)數(shù)據(jù)集的科學(xué)性設(shè)計(jì)需遵循三個(gè)原則:①臨床真實(shí)性,基于真實(shí)診療數(shù)據(jù),覆蓋醫(yī)療全流程及決策沖突情境;②全面代表性,從疾病、人群、醫(yī)療機(jī)構(gòu)等多維度廣泛覆蓋,動(dòng)態(tài)引入關(guān)鍵維度;③公正性,納入弱勢(shì)群體、特殊人群及特定領(lǐng)域數(shù)據(jù)。(2)評(píng)測(cè)數(shù)據(jù)集需建立動(dòng)態(tài)擴(kuò)展機(jī)制:采用模塊化設(shè)計(jì),按場(chǎng)景、疾病、任務(wù)等劃分獨(dú)立單元,確保結(jié)構(gòu)、格式、存儲(chǔ)規(guī)范;建立標(biāo)準(zhǔn)化版本控制體系,根據(jù)模型迭代、政策更新等情形,及時(shí)更新數(shù)據(jù)并保留歷史版本,增強(qiáng)評(píng)測(cè)連續(xù)性與可解釋性。(3)數(shù)據(jù)合規(guī)要求:評(píng)測(cè)數(shù)據(jù)集若使用真實(shí)醫(yī)療數(shù)據(jù),須嚴(yán)格遵守法律法規(guī),對(duì)姓名、住址等敏感信息徹底脫敏匿名,確保無(wú)識(shí)別性、不屬于個(gè)人信息。建議引入脫敏規(guī)范與審計(jì)機(jī)制,保障評(píng)測(cè)全流程合法、合規(guī)、可追溯。[共識(shí)度:100%(35/35)] 1.評(píng)測(cè)數(shù)據(jù)集的設(shè)計(jì)原則:評(píng)測(cè)數(shù)據(jù)集在設(shè)計(jì)時(shí)應(yīng)保證臨床真實(shí)性、全面代表性和公正性三個(gè)設(shè)計(jì)原則。 (1)臨床真實(shí)性。評(píng)測(cè)數(shù)據(jù)集采用真實(shí)世界醫(yī)療場(chǎng)景數(shù)據(jù),覆蓋診前-診中-診后就醫(yī)全流程數(shù)據(jù),且包含典型臨床決策沖突場(chǎng)景。同時(shí)數(shù)據(jù)要求來(lái)自臨床真實(shí)情況,如住院電子病歷、門診病歷、體檢報(bào)告單等。評(píng)測(cè)數(shù)據(jù)集的正確性將由專家組進(jìn)行復(fù)核確認(rèn)。 (2)全面代表性。①數(shù)據(jù)類型:根據(jù)醫(yī)療場(chǎng)景的不同,測(cè)試集需對(duì)應(yīng)覆蓋測(cè)試場(chǎng)景下所涉及的數(shù)據(jù)類型。普遍的醫(yī)療場(chǎng)景下應(yīng)考慮的臨床數(shù)據(jù)類型包括導(dǎo)醫(yī)導(dǎo)診對(duì)話數(shù)據(jù)、門診病歷數(shù)據(jù)、檢查檢驗(yàn)報(bào)告單、復(fù)雜住院病歷、醫(yī)療對(duì)話、診療計(jì)劃文檔、影像數(shù)據(jù)及醫(yī)學(xué)指南文獻(xiàn)類文章等。以上數(shù)據(jù)需滿足對(duì)LLMs應(yīng)用場(chǎng)景的覆蓋,包括醫(yī)療海量知識(shí)問(wèn)答、醫(yī)療復(fù)雜語(yǔ)言理解、醫(yī)療診斷治療推薦、醫(yī)療專業(yè)文書生成、醫(yī)療多輪對(duì)話交互、醫(yī)療多模對(duì)話交互。其中,醫(yī)學(xué)指南文獻(xiàn)類文章作為權(quán)威醫(yī)學(xué)知識(shí)的載體,可有效支撐模型對(duì)臨床指南的深度解析與循證決策能力,進(jìn)一步強(qiáng)化數(shù)據(jù)類型的專業(yè)性和全面性。②疾病維度:確保數(shù)據(jù)集覆蓋盡可能多的疾病類型和臨床表現(xiàn),從而驗(yàn)證LLMs在不同醫(yī)學(xué)領(lǐng)域的泛化能力。例如,包括腫瘤、心血管疾病、傳染病等不同科室/不同類別的病例,可從國(guó)際疾病分類(ICD)中按不同層級(jí)分層抽樣,根據(jù)疾病的不同程度,作出符合患者病情的診斷;同時(shí)需要根據(jù)國(guó)家發(fā)布的兩批罕見(jiàn)病列表,納入部分罕見(jiàn)病,保證模型復(fù)雜病案診斷鑒別能力。此外,還需納入一定比例的陰性樣本(如無(wú)明確器質(zhì)性病變的功能性癥狀病例、非目標(biāo)疾病的相似癥狀病例等),以此驗(yàn)證模型在區(qū)分疾病與非疾病狀態(tài)、鑒別相似癥狀下不同病因的能力,減少假陽(yáng)性診斷,進(jìn)一步提升模型對(duì)復(fù)雜臨床場(chǎng)景的適配性。③人群維度:醫(yī)學(xué)數(shù)據(jù)往往存在偏差,如某些疾病可能在特定人群中更為普遍。如果評(píng)測(cè)數(shù)據(jù)集未能反映真實(shí)世界的人群分布,LLMs可能會(huì)學(xué)習(xí)并放大這些偏差,導(dǎo)致對(duì)某些群體做出不準(zhǔn)確或不公平的診斷。因此,選擇評(píng)測(cè)數(shù)據(jù)時(shí)應(yīng)注意平衡患者人群特征,包括平衡不同年齡段、不同性別、不同地域等。④醫(yī)療機(jī)構(gòu)維度:覆蓋基層醫(yī)院、二級(jí)醫(yī)院、三級(jí)醫(yī)院等不同層級(jí),根據(jù)實(shí)際情況按照比例進(jìn)行模擬,避免模型在基層醫(yī)療機(jī)構(gòu)(如社區(qū)醫(yī)院、鄉(xiāng)鎮(zhèn)衛(wèi)生院等)應(yīng)用中的準(zhǔn)確性和有效性受到影響,使基層患者不能獲得合適的醫(yī)療AI決策。結(jié)合實(shí)際評(píng)測(cè)對(duì)象、評(píng)測(cè)場(chǎng)景的差異性,還應(yīng)考慮從其他特性維度進(jìn)行數(shù)據(jù)集覆蓋。 (3)公正性。評(píng)測(cè)數(shù)據(jù)應(yīng)該保持公正,在保障覆蓋絕大部分真實(shí)世界數(shù)據(jù)的同時(shí),適當(dāng)設(shè)計(jì)弱勢(shì)群體、特殊人群、特殊領(lǐng)域的數(shù)據(jù)集。 2.測(cè)試集的形式:應(yīng)支持動(dòng)態(tài)擴(kuò)展,便于數(shù)據(jù)持續(xù)更新。 (1)模塊化數(shù)據(jù)結(jié)構(gòu)。將數(shù)據(jù)集拆分為獨(dú)立模塊,支持按模塊添加,通過(guò)采用統(tǒng)一的數(shù)據(jù)格式和存儲(chǔ)規(guī)范,確保新數(shù)據(jù)模塊與現(xiàn)有模塊無(wú)縫集成,而無(wú)需重構(gòu)整個(gè)數(shù)據(jù)集。這對(duì)于不斷發(fā)展的領(lǐng)域(如醫(yī)療健康)至關(guān)重要,因?yàn)樾碌臄?shù)據(jù)類型、特征或患者群體可能需要定期添加到評(píng)測(cè)數(shù)據(jù)集中。 (2)版本控制。評(píng)測(cè)數(shù)據(jù)集需要明確版本,并制訂對(duì)應(yīng)的更新策略,如當(dāng)模型技術(shù)迭代明顯、醫(yī)療政策調(diào)整、醫(yī)療技術(shù)更新等重大變化時(shí),適時(shí)對(duì)測(cè)試集進(jìn)行更新;此外,還應(yīng)支持歷史版本回溯功能,這有益于問(wèn)題排查、長(zhǎng)期分析及版本合規(guī)性檢驗(yàn)。 3.測(cè)試集的倫理與安全:需對(duì)敏感信息進(jìn)行脫敏處理、滿足數(shù)據(jù)安全并遵循倫理原則。評(píng)測(cè)數(shù)據(jù)集采用真實(shí)世界診療數(shù)據(jù)時(shí),需對(duì)數(shù)據(jù)中的姓名、住址、身份標(biāo)識(shí)、就診號(hào)等敏感信息進(jìn)行脫敏處理,通過(guò)完整的匿名化與去標(biāo)識(shí)化操作,確保數(shù)據(jù)不再構(gòu)成個(gè)人信息。嚴(yán)格遵守《中華人民共和國(guó)個(gè)人信息保護(hù)法》《中華人民共和國(guó)數(shù)據(jù)安全法》等國(guó)內(nèi)法規(guī),同時(shí)參考?xì)W盟的《通用數(shù)據(jù)保護(hù)條例》、AI法案和美國(guó)的健康保險(xiǎn)流通與責(zé)任法案等國(guó)外法規(guī),全面保障數(shù)據(jù)安全。在健康醫(yī)療大數(shù)據(jù)應(yīng)用場(chǎng)景下,健康醫(yī)療個(gè)人信息控制者開展個(gè)人信息處理活動(dòng),應(yīng)遵循合法、正當(dāng)、必要與誠(chéng)信原則,目的原則,公開透明原則,質(zhì)量原則,以及責(zé)任原則。在實(shí)際操作中應(yīng)注意以下幾點(diǎn): (1)數(shù)據(jù)隱私性。在獲取數(shù)據(jù)內(nèi)容上,因?yàn)獒t(yī)療數(shù)據(jù)包含大量敏感信息,如患者的姓名、身份證號(hào)、聯(lián)系方式、健康狀況、疾病史、詳細(xì)出生日期等,所以必須采取嚴(yán)格的隱私保護(hù)措施。在不影響數(shù)據(jù)使用價(jià)值的前提下,對(duì)數(shù)據(jù)進(jìn)行匿名化和去標(biāo)識(shí)化處理,可降低數(shù)據(jù)被識(shí)別和泄露的風(fēng)險(xiǎn)。在測(cè)評(píng)數(shù)據(jù)應(yīng)用中,針對(duì)患者姓名、身份證號(hào)、聯(lián)系方式等與診斷診療無(wú)關(guān)的個(gè)人敏感信息,需通過(guò)規(guī)范化脫敏處理以平衡數(shù)據(jù)利用與隱私保護(hù),具體采用以下三種核心方式:①以偽數(shù)據(jù)或標(biāo)準(zhǔn)化占位符替換此類信息,以阻斷真實(shí)身份關(guān)聯(lián);②將精準(zhǔn)個(gè)人信息(如具體年齡、居住地址)泛化為年齡區(qū)間、城市級(jí)別等寬泛類別,弱化個(gè)體識(shí)別度;③對(duì)數(shù)字類個(gè)人信息(如醫(yī)保賬號(hào)、病案號(hào))采用加密技術(shù)處理,在保證信息安全的情況下保留唯一標(biāo)識(shí)。數(shù)據(jù)脫敏后,還需通過(guò)檢測(cè)流程確認(rèn)其是否可以識(shí)別個(gè)體或是否可以關(guān)聯(lián)回溯,避免存在脫敏不徹底導(dǎo)致隱私泄露的風(fēng)險(xiǎn)。 (2)數(shù)據(jù)安全性。在數(shù)據(jù)獲取途徑上,基于數(shù)據(jù)安全性要求,需明確誰(shuí)可以使用以及可以披露哪些受保護(hù)的健康信息。患者有權(quán)查看、獲取其醫(yī)療記錄的副本,并要求更正不準(zhǔn)確的信息。醫(yī)療機(jī)構(gòu)必須告知患者其隱私權(quán),并獲得患者的書面授權(quán)才能披露某些信息。比如,醫(yī)療科技公司應(yīng)建立訪問(wèn)控制機(jī)制,限制只有經(jīng)過(guò)授權(quán)的工作人員和醫(yī)生才能訪問(wèn)相關(guān)的患者數(shù)據(jù)。此外,保證原始醫(yī)療數(shù)據(jù)備份也很重要,在評(píng)測(cè)的標(biāo)注階段,相關(guān)工作人員應(yīng)使用脫敏后的數(shù)據(jù),但仍需對(duì)原始數(shù)據(jù)進(jìn)行備份,確保數(shù)據(jù)可以安全地備份和恢復(fù),以應(yīng)對(duì)數(shù)據(jù)處理過(guò)程中導(dǎo)致的信息缺失等問(wèn)題。 (3)倫理合規(guī)性。在醫(yī)療數(shù)據(jù)的處理過(guò)程中,需要遵循倫理原則,確保數(shù)據(jù)的使用符合道德和倫理標(biāo)準(zhǔn)。例如,在進(jìn)行醫(yī)療研究時(shí),使用患者數(shù)據(jù)必須經(jīng)過(guò)倫理委員會(huì)的審查和批準(zhǔn),要充分考慮研究目的是否正當(dāng),是否會(huì)對(duì)患者造成潛在的傷害或不利影響;數(shù)據(jù)采集需避免偏見(jiàn),例如納入不同種族、不同社會(huì)經(jīng)濟(jì)地位的人群數(shù)據(jù),防止算法歧視導(dǎo)致醫(yī)療資源分配不公。
(五)問(wèn)題5:如何建立評(píng)測(cè)數(shù)據(jù)集與評(píng)測(cè)效果的反饋及更新機(jī)制?
推薦意見(jiàn)5:為保障醫(yī)療LLMs評(píng)測(cè)體系的高標(biāo)準(zhǔn)執(zhí)行與持續(xù)優(yōu)化,建議完善并落實(shí)嚴(yán)謹(jǐn)、透明且高效的反饋與更新機(jī)制。評(píng)測(cè)機(jī)構(gòu)應(yīng)構(gòu)建多渠道、分層次的反饋體系,包括定期專家評(píng)審、在線反饋平臺(tái)和臨床驗(yàn)證模塊,以確保收集到廣泛且專業(yè)的意見(jiàn)。同時(shí),應(yīng)設(shè)立反饋管理團(tuán)隊(duì)與獨(dú)立仲裁委員會(huì),規(guī)范爭(zhēng)議處理流程,保障問(wèn)題得到公正、透明的解決。更新機(jī)制應(yīng)基于法規(guī)變更、技術(shù)進(jìn)步、應(yīng)用擴(kuò)展及安全事件等觸發(fā)條件,實(shí)施季度或年度常規(guī)迭代,并設(shè)立多層分級(jí)的緊急響應(yīng)流程以應(yīng)對(duì)重大風(fēng)險(xiǎn)。同時(shí),配合統(tǒng)一的版本管理與可追溯的歷史庫(kù),可進(jìn)一步保障評(píng)測(cè)體系的科學(xué)性、前瞻性和持續(xù)改進(jìn)能力。[共識(shí)度:97.1%(34/35)] 由于醫(yī)療LLMs在臨床應(yīng)用中呈現(xiàn)復(fù)雜性、高風(fēng)險(xiǎn)性與快速演進(jìn)性的特征,其評(píng)測(cè)體系必須動(dòng)態(tài)且公平。有效的反饋與更新機(jī)制是保障評(píng)測(cè)體系科學(xué)性、時(shí)效性、公平性與可信性的根本,更是評(píng)測(cè)機(jī)構(gòu)展現(xiàn)其專業(yè)性的關(guān)鍵。 1.反饋機(jī)制是提升評(píng)測(cè)體系精準(zhǔn)性與公平性的核心:應(yīng)設(shè)置多途徑的反饋渠道,如定期召開專家評(píng)審會(huì),能有效整合臨床醫(yī)生對(duì)于LLMs診斷支持、治療決策等方面的專業(yè)判斷與經(jīng)驗(yàn),這可以作為醫(yī)療AI評(píng)測(cè)的重要參考基準(zhǔn)。同時(shí),構(gòu)建反饋平臺(tái)和臨床集成反饋模塊可以直接獲取一線醫(yī)護(hù)人員在真實(shí)世界應(yīng)用中的細(xì)微偏差與性能問(wèn)題,從而彌補(bǔ)評(píng)測(cè)的不足。為應(yīng)對(duì)醫(yī)療AI的潛在偏見(jiàn)風(fēng)險(xiǎn),應(yīng)建立反饋循環(huán)框架,可增設(shè)匿名反饋通道,將其貫穿于開發(fā)與部署的各個(gè)階段,以同時(shí)保證公平性與持續(xù)質(zhì)量改進(jìn)。 標(biāo)準(zhǔn)化爭(zhēng)議處理機(jī)制是保障AI評(píng)測(cè)體系公正性與客觀性的關(guān)鍵環(huán)節(jié)。該機(jī)制的核心作用在于為涉及復(fù)雜倫理(如算法歧視導(dǎo)致的醫(yī)療不公平)或技術(shù)爭(zhēng)議(如模型解釋性不足)的問(wèn)題提供制度化、權(quán)威性的解決路徑,例如通過(guò)經(jīng)嚴(yán)格程序遴選、力求獨(dú)立公正的專家仲裁。同時(shí),評(píng)測(cè)流程的透明和規(guī)范至關(guān)重要,在研究設(shè)計(jì)階段就應(yīng)明確數(shù)據(jù)處理標(biāo)準(zhǔn)、指標(biāo)選擇依據(jù)及模型評(píng)測(cè)方法。在計(jì)算模型性能指標(biāo)時(shí),需詳盡公開數(shù)據(jù)來(lái)源、計(jì)算方法和關(guān)鍵假設(shè)條件,以體現(xiàn)評(píng)測(cè)機(jī)構(gòu)的專業(yè)性、科學(xué)性與責(zé)任擔(dān)當(dāng)。透明度雖無(wú)法徹底消除所有質(zhì)疑(如價(jià)值觀沖突或理解差異),卻能顯著降低信息不對(duì)稱帶來(lái)的不信任,為結(jié)果可信度奠定基礎(chǔ),并使評(píng)測(cè)過(guò)程具備可審查性。爭(zhēng)議處理機(jī)制與透明度建設(shè)相輔相成,共同成為可信賴AI評(píng)測(cè)體系的核心支柱。 2.動(dòng)態(tài)更新機(jī)制是保障評(píng)測(cè)體系先進(jìn)性、適應(yīng)性與可持續(xù)性的必要條件:更新觸發(fā)條件應(yīng)確保評(píng)測(cè)體系能及時(shí)響應(yīng)行業(yè)變化。醫(yī)療AI技術(shù)發(fā)展迅速,LLMs架構(gòu)與能力迭代是常態(tài),臨床相關(guān)應(yīng)用也會(huì)隨之更新。及時(shí)更新的評(píng)測(cè)體系能夠推動(dòng)AI技術(shù)在不同領(lǐng)域不斷適應(yīng)新場(chǎng)景,實(shí)現(xiàn)技術(shù)革新,為AI新技術(shù)的發(fā)展提供活力。 科學(xué)的迭代周期與緊急響應(yīng)機(jī)制保障了評(píng)測(cè)體系的時(shí)效性。常規(guī)的季度或年度迭代允許納入新應(yīng)用場(chǎng)景和數(shù)據(jù),保持評(píng)測(cè)體系的活力。而多層分級(jí)的響應(yīng)與修訂流程則能妥善應(yīng)對(duì)不同的突發(fā)性重大安全事件或政策調(diào)整。其在醫(yī)療這種高風(fēng)險(xiǎn)領(lǐng)域至關(guān)重要,能有效降低患者風(fēng)險(xiǎn)并保障對(duì)AI的監(jiān)管合規(guī)性。 嚴(yán)謹(jǐn)?shù)陌姹咀匪輽C(jī)制是評(píng)測(cè)體系透明度與可信賴性的體現(xiàn)。統(tǒng)一的語(yǔ)義化版本標(biāo)識(shí)和完善的歷史版本庫(kù)不僅便于用戶追溯評(píng)測(cè)標(biāo)準(zhǔn)的變化,進(jìn)行跨周期分析,也為監(jiān)管機(jī)構(gòu)進(jìn)行審查提供了可靠依據(jù)。這種透明化管理證明了評(píng)測(cè)流程的可審查性與決策可解釋性,極大提升了評(píng)測(cè)機(jī)構(gòu)的專業(yè)性與公正性。同時(shí),它也展示了評(píng)測(cè)流程的嚴(yán)謹(jǐn)性與責(zé)任感,進(jìn)而在醫(yī)療AI生態(tài)系統(tǒng)中建立長(zhǎng)期信任。 (六) 問(wèn)題6:醫(yī)療場(chǎng)景下LLMs應(yīng)用效果回顧性評(píng)測(cè)報(bào)告的標(biāo)準(zhǔn)化模板應(yīng)包含哪些必備要素與披露要求? 推薦意見(jiàn)6:建議建立統(tǒng)一規(guī)范的評(píng)測(cè)報(bào)告結(jié)構(gòu)與發(fā)布機(jī)制,確保評(píng)測(cè)結(jié)果的透明性、權(quán)威性和可復(fù)用性。評(píng)測(cè)報(bào)告應(yīng)完整記錄模型基本信息、評(píng)測(cè)背景與目標(biāo)、評(píng)測(cè)范圍及應(yīng)用場(chǎng)景,詳述評(píng)測(cè)數(shù)據(jù)來(lái)源與合規(guī)流程,明確采用的定量與定性評(píng)測(cè)指標(biāo)及其計(jì)算方法。報(bào)告還應(yīng)介紹評(píng)測(cè)專家的專業(yè)構(gòu)成與地域分布,系統(tǒng)展示量化結(jié)果并結(jié)合專家定性評(píng)價(jià),從準(zhǔn)確性、安全性、實(shí)用性等多維度給出綜合結(jié)論。最后,應(yīng)規(guī)范報(bào)告的發(fā)布平臺(tái)、獲取方式及有效期管理,確保評(píng)測(cè)成果公開透明并便于持續(xù)更新。[共識(shí)度:100%(35/35)] 醫(yī)療場(chǎng)景下LLMs應(yīng)用效果回顧性評(píng)測(cè)報(bào)告的標(biāo)準(zhǔn)化模板應(yīng)包含以下關(guān)鍵要素,以保證評(píng)測(cè)結(jié)果的透明性、權(quán)威性和可復(fù)用性。 1.模型基本信息與評(píng)測(cè)背景:報(bào)告應(yīng)清晰呈現(xiàn)被評(píng)測(cè)模型的名稱、版本、開發(fā)者、主要功能,以及評(píng)測(cè)的目的、范圍和具體應(yīng)用場(chǎng)景,確保讀者對(duì)評(píng)測(cè)對(duì)象有全面了解。例如,明確模型是用于輔助診斷、病歷摘要,還是藥物相互作用預(yù)測(cè)等特定任務(wù)。 2.評(píng)測(cè)數(shù)據(jù)來(lái)源與合規(guī):詳細(xì)描述評(píng)測(cè)所用數(shù)據(jù)集的構(gòu)成,包括數(shù)據(jù)量、數(shù)據(jù)類型、版本號(hào)、來(lái)源,以及數(shù)據(jù)收集和處理過(guò)程中的倫理考量與合規(guī)性聲明。特別需要明確數(shù)據(jù)集是否經(jīng)過(guò)充分的脫敏處理,是否獲得了患者的知情同意,以及是否符合相關(guān)數(shù)據(jù)安全法規(guī)。 3.評(píng)測(cè)指標(biāo)與方法:清晰闡述所采用的定量指標(biāo)(如準(zhǔn)確率、召回率、F1值)和定性指標(biāo)(如MOS評(píng)分、模型與真人醫(yī)生一致性),并詳細(xì)說(shuō)明其計(jì)算方法。對(duì)于定性指標(biāo),需要說(shuō)明調(diào)查問(wèn)卷的設(shè)計(jì)、樣本選擇及統(tǒng)計(jì)分析方法。定量指標(biāo)可以參考“問(wèn)題2”中的指標(biāo)進(jìn)行選擇。 4.評(píng)測(cè)團(tuán)隊(duì)信息:介紹評(píng)測(cè)團(tuán)隊(duì)組成的專業(yè)背景、職稱和經(jīng)驗(yàn),確保評(píng)測(cè)團(tuán)隊(duì)具有充分的代表性和專業(yè)性。例如評(píng)測(cè)團(tuán)隊(duì)?wèi)?yīng)包括高年資醫(yī)學(xué)專家、計(jì)算機(jī)學(xué)專家、倫理學(xué)專家、統(tǒng)計(jì)學(xué)專家、法學(xué)專家等。 5.評(píng)測(cè)結(jié)果與綜合評(píng)價(jià):系統(tǒng)展示量化評(píng)測(cè)結(jié)果,并結(jié)合專家定性評(píng)價(jià),從準(zhǔn)確性、安全性、實(shí)用性、倫理合規(guī)性等多維度給出綜合結(jié)論。報(bào)告應(yīng)明確指出模型的優(yōu)勢(shì)與不足,以及潛在的應(yīng)用風(fēng)險(xiǎn)與改進(jìn)建議。報(bào)告應(yīng)明確說(shuō)明評(píng)測(cè)數(shù)據(jù)集、評(píng)測(cè)代碼是否開放,以及在何種條件下可以被第三方訪問(wèn)以進(jìn)行結(jié)果復(fù)現(xiàn)。 6.報(bào)告發(fā)布與更新:規(guī)范報(bào)告的發(fā)布平臺(tái)、獲取方式及有效期管理,確保評(píng)測(cè)成果公開透明并便于持續(xù)更新。建立統(tǒng)一的報(bào)告版本管理機(jī)制,便于用戶追溯和比較不同版本模型的評(píng)測(cè)結(jié)果。評(píng)測(cè)報(bào)告應(yīng)在權(quán)威平臺(tái)發(fā)布,并明確報(bào)告有效期,以便用戶獲取最新的評(píng)測(cè)信息。 本共識(shí)作為指導(dǎo)性、非強(qiáng)制性的技術(shù)文件,聚焦醫(yī)療場(chǎng)景下LLMs應(yīng)用效果的回顧性評(píng)測(cè),旨在構(gòu)建規(guī)范、科學(xué)的評(píng)測(cè)框架。我們倡導(dǎo)臨床、科研、產(chǎn)業(yè)及監(jiān)管多方主體協(xié)同參與,共同推進(jìn)評(píng)測(cè)體系的持續(xù)完善與優(yōu)化,確保評(píng)測(cè)方法與指標(biāo)的科學(xué)性、權(quán)威性及實(shí)用性。展望未來(lái),回顧性評(píng)測(cè)將在前瞻性研究及真實(shí)世界數(shù)據(jù)的支撐下不斷深化,并逐步探索與前瞻性評(píng)估的融合機(jī)制,通過(guò)雙重路徑共同提升模型評(píng)估的廣度與深度。評(píng)測(cè)內(nèi)容與方法也將持續(xù)拓展,覆蓋智能機(jī)器人、全病程數(shù)字健康管理等新興應(yīng)用領(lǐng)域,以期促進(jìn)AI技術(shù)在醫(yī)療健康體系中的安全、有效及高質(zhì)量應(yīng)用。 本共識(shí)制訂專家組成員名單: 指導(dǎo)委員會(huì)(按姓名拼音排序):陳耀龍(蘭州大學(xué)基礎(chǔ)醫(yī)學(xué)院);董家鴻(北京清華長(zhǎng)庚醫(yī)院);葛均波(復(fù)旦大學(xué)醫(yī)學(xué)院附屬中山醫(yī)院);魏均民(中華醫(yī)學(xué)會(huì)雜志社 醫(yī)學(xué)期刊知識(shí)挖掘與知識(shí)服務(wù)重點(diǎn)實(shí)驗(yàn)室) 主任委員:王振常(首都醫(yī)科大學(xué)附屬北京友誼醫(yī)院) 專家委員會(huì)(按姓氏漢語(yǔ)拼音排序):常慶(上海交通大學(xué)瑞金醫(yī)院);陳飛(華為云計(jì)算技術(shù)有限公司);程龍龍(中電云腦(天津)科技有限公司);董迪(中國(guó)科學(xué)院自動(dòng)化研究所分子影像重點(diǎn)實(shí)驗(yàn)室);馮曉彬(清華大學(xué)長(zhǎng)庚醫(yī)院);何晶晶(中國(guó)社會(huì)科學(xué)院國(guó)際法學(xué)研究所);何怡華(首都醫(yī)科大學(xué)附屬北京安貞醫(yī)院);賀志陽(yáng)(訊飛醫(yī)療科技股份有限公司);計(jì)虹(北京大學(xué)第三醫(yī)院信息中心);姜雪(北京大學(xué)第三醫(yī)院);李楠(北京大學(xué)第三醫(yī)院);李鵬(中華醫(yī)學(xué)會(huì)雜志社醫(yī)學(xué)期刊知識(shí)挖掘與知識(shí)服務(wù)重點(diǎn)實(shí)驗(yàn)室);李亞子(中國(guó)醫(yī)學(xué)科學(xué)院);劉冰(中華醫(yī)學(xué)會(huì)雜志社 醫(yī)學(xué)期刊知識(shí)挖掘與知識(shí)服務(wù)重點(diǎn)實(shí)驗(yàn)室);劉軍偉(螞蟻科技集團(tuán)股份有限公司);呂晗(首都醫(yī)科大學(xué)附屬北京友誼醫(yī)院);閔棟(中國(guó)信通院云計(jì)算與大數(shù)據(jù)研究所);齊文安(《數(shù)字醫(yī)學(xué)與健康》編輯部);沈錫賓(中華醫(yī)學(xué)會(huì)雜志社 醫(yī)學(xué)期刊知識(shí)挖掘與知識(shí)服務(wù)重點(diǎn)實(shí)驗(yàn)室);盛斌(上海交通大學(xué));孫靜(《智慧醫(yī)學(xué)》(英文)編輯部);孫育杰(北京大學(xué)生命科學(xué)學(xué)院);王力華(首都醫(yī)科大學(xué)附屬北京友誼醫(yī)院);王維民(北京大學(xué)醫(yī)學(xué)部 北京大學(xué)醫(yī)學(xué)教育研究所);王育琴(北京宣武醫(yī)院);翁建平(安徽醫(yī)科大學(xué));吳剛(南京柯基數(shù)據(jù)有限公司);吳小劍(中山大學(xué)附屬第六醫(yī)院);肖月(國(guó)家心理健康和精神衛(wèi)生防治中心);許言午(華南理工大學(xué)未來(lái)技術(shù)學(xué)院);閆鵬(深圳市騰訊計(jì)算機(jī)系統(tǒng)有限公司);葉哲偉(華中科技大學(xué)同濟(jì)醫(yī)學(xué)院附屬協(xié)和醫(yī)院);尹萬(wàn)紅(四川大學(xué)華西醫(yī)院重癥醫(yī)學(xué)科);張成文(北京郵電大學(xué)計(jì)算機(jī)學(xué)院);張迪(北京協(xié)和醫(yī)學(xué)院人文和社會(huì)科學(xué)學(xué)院);張鵬?。ū本┽t(yī)院科研處);張文生(中國(guó)科學(xué)院自動(dòng)化研究所);張旭東(國(guó)家衛(wèi)生健康委醫(yī)院管理研究所);趙世杰(西北工業(yè)大學(xué));趙邑(北京清華長(zhǎng)庚醫(yī)院皮膚科);周少華(中國(guó)科學(xué)技術(shù)大學(xué)生物醫(yī)學(xué)工程學(xué)院);周翔(北京協(xié)和醫(yī)院);朱寶亮(上海小荷醫(yī)學(xué)檢驗(yàn)實(shí)驗(yàn)室有限公司);朱立峰(上海交通大學(xué)醫(yī)學(xué)院附屬瑞金醫(yī)院);朱祖懿(北京百川智能科技有限公司)。 執(zhí)筆專家:呂晗(首都醫(yī)科大學(xué)附屬北京友誼醫(yī)院);盛斌(上海交通大學(xué)) 秘書組(按姓名拼音排序):江澤鏵(清華大學(xué)臨床醫(yī)學(xué)院);田丙磊(中華醫(yī)學(xué)會(huì)雜志社醫(yī)學(xué)期刊知識(shí)挖掘與知識(shí)服務(wù)重點(diǎn)實(shí)驗(yàn)室);王凱磊(中華醫(yī)學(xué)會(huì)雜志社 醫(yī)學(xué)期刊知識(shí)挖掘與知識(shí)服務(wù)重點(diǎn)實(shí)驗(yàn)室);王麗(《數(shù)字醫(yī)學(xué)與健康》編輯部);王曄(蘭州大學(xué)公共衛(wèi)生學(xué)院)
特別聲明:智慧醫(yī)療網(wǎng)轉(zhuǎn)載其他網(wǎng)站內(nèi)容,出于傳遞更多信息而非盈利之目的,同時(shí)并不代表贊成其觀點(diǎn)或證實(shí)其描述,內(nèi)容僅供參考。版權(quán)歸原作者所有,若有侵權(quán),請(qǐng)聯(lián)系我們刪除。
凡來(lái)源注明智慧醫(yī)療網(wǎng)的內(nèi)容為智慧醫(yī)療網(wǎng)原創(chuàng),轉(zhuǎn)載需獲授權(quán)。
Copyright ? 2022 上??评讜?huì)展服務(wù)有限公司 旗下「智慧醫(yī)療網(wǎng)」版權(quán)所有 ICP備案號(hào):滬ICP備17004559號(hào)-5