歷經(jīng)千年的探索與沉淀,凝聚了民族智慧的中醫(yī)藥一直是我國古代科學的瑰寶。近年來,我國在國家層面制定并頒布了《中華人民共和國中醫(yī)藥法》《中共中央 國務院關(guān)于促進中醫(yī)藥傳承創(chuàng)新發(fā)展的意見》和《中醫(yī)藥發(fā)展戰(zhàn)略規(guī)劃綱要(2016—2030年)》等十幾項中醫(yī)藥相關(guān)法規(guī)和政策,中醫(yī)藥的傳承創(chuàng)新發(fā)展已經(jīng)成為重要的國家戰(zhàn)略。另一方面,中醫(yī)數(shù)智化的浪潮也為傳統(tǒng)中醫(yī)藥注入了新的生命力,尤其是人工智能,對中醫(yī)藥事業(yè)的傳承創(chuàng)新發(fā)展起到了有力的支撐。近日,南京大經(jīng)中醫(yī)藥信息技術(shù)有限公司(下文簡稱:大經(jīng)中醫(yī))就隆重發(fā)布了“岐黃問道·大模型”,率先將生成式AI引入到中醫(yī)藥領(lǐng)域。
自2017年Transformer架構(gòu)發(fā)布開始,大語言模型(LLM,Large Language Model,下文簡稱:大模型)就進入了發(fā)展快車道。今年年初ChatGPT的走紅更是讓生成式AI在一夜之間為世人所關(guān)注。以大模型為基礎的生成式AI已在許多行業(yè)展現(xiàn)出顛覆式創(chuàng)新的巨大潛力。就醫(yī)療領(lǐng)域而言,生成式AI在自然語言處理上的巨大進步被認為將改變?nèi)伺c計算機的交互模式,從傳統(tǒng)的UI界面、操作系統(tǒng)以及冷冰冰的電子病歷系統(tǒng)轉(zhuǎn)變?yōu)榱鲿车淖匀徽Z言對話,更具親和力。這種交互模式的改變可能會帶來“流量入口”和“知識獲取路徑”的革命。有意思的是,盡管時下走紅的多為通用大語言模型,但由于通用大語言模型高度依賴文本統(tǒng)計概率生成答案,回答準確性無法保證,不少時候其回答都屬于“一本正經(jīng)地胡說八道”,甚至重復詢問完全一樣的問題,每次給出的答案也不盡相同。正因為此,行業(yè)普遍認為針對垂直領(lǐng)域乃至具體場景應用的大模型或許更能發(fā)揮大模型的價值——一方面,垂直領(lǐng)域大模型可以獲得高質(zhì)量的行業(yè)數(shù)據(jù),并由行業(yè)高水平專家對預訓練模型進行反復調(diào)整和反饋,給出具有高度一致性和準確性的解決方案;另一方面,由于垂直領(lǐng)域大模型對具體應用場景業(yè)務的深耕和理解更有針對性,可以實現(xiàn)大模型與行業(yè)的有效結(jié)合,真正起到賦能行業(yè)的作用。中醫(yī)正是這樣一個可以最大限度發(fā)揮大模型優(yōu)勢的應用場景。自古以來,中醫(yī)留下了浩如煙海的臨床診療數(shù)據(jù)及文獻典籍數(shù)據(jù),這些數(shù)據(jù)不但沒有標準,很多還艱澀難懂,數(shù)據(jù)挖掘和應用難度較大。加上中醫(yī)以流派眾多著稱,不同流派間仍存在一定壁壘,成果和經(jīng)驗很難進行遷移和融合。這些一直是以往困擾中醫(yī)發(fā)展的痛點。AI則攜數(shù)據(jù)挖掘與采集、數(shù)據(jù)處理與分析,以及深度學習等優(yōu)勢,可對海量臨床經(jīng)驗和文獻典籍知識進行數(shù)字化轉(zhuǎn)化,賦能中醫(yī)臨床,構(gòu)建中醫(yī)診療規(guī)范與療效評價體系,彌補中醫(yī)高質(zhì)量人才短缺與資源不均,更好地傳承并發(fā)展中醫(yī)。事實上,早在二十世紀七十年代,就有有識之士嘗試將AI引入中醫(yī)領(lǐng)域。但受限于當時的技術(shù)水平,成果非常有限。如今,經(jīng)過層層迭代、升級和創(chuàng)新,新一代以大模型為基礎的生成式AI在各方面的能力都遠比以往成熟,賦能中醫(yī)也不再是一句口號。創(chuàng)立于2016年的大經(jīng)中醫(yī)7年來一直秉承“數(shù)智化是中醫(yī)藥發(fā)展的必由之路”的創(chuàng)業(yè)理念,不斷在中醫(yī)AI領(lǐng)域探索精進,取得了不俗的成果。舉例而言,“大經(jīng)中醫(yī)外感肺系疾?。ê鹿诜窝祝┹o助診療系統(tǒng)”在新冠肺炎疫情期間就作為唯一的中醫(yī)類產(chǎn)品解決方案入選了工信部人工智能標準化總體組第一批34個“有助于疫情防控的人工智能產(chǎn)品和解決方案”,為抗擊疫情做出了巨大貢獻。作為中醫(yī)AI領(lǐng)域的領(lǐng)頭羊,首個中醫(yī)大模型由大經(jīng)中醫(yī)推出也在情理之中,是其多年來在該領(lǐng)域厚積薄發(fā)的成果。大經(jīng)中醫(yī)創(chuàng)始人、董事長李文友認為,大模型的強大能力可以在三個方面賦能中醫(yī)。首先,大模型可以助力中醫(yī)傳承發(fā)展。如前所述,中醫(yī)臨床診療數(shù)據(jù)及中醫(yī)文獻數(shù)據(jù)大多以文本數(shù)據(jù)的形式流傳下來,尤其適合擅長自然語言識別及處理的大模型的發(fā)揮。大經(jīng)中醫(yī)創(chuàng)始人、董事長李文友認為大模型可以在三個方面賦能中醫(yī)(圖片來自大經(jīng)中醫(yī))其次,大模型可以助力中醫(yī)學習和人才培養(yǎng)。中醫(yī)臨床診療既有完善的理論體系,又有較強的經(jīng)驗屬性。這些經(jīng)驗深藏于浩瀚的中醫(yī)文獻典籍和大量歷代醫(yī)家的醫(yī)案、醫(yī)話和醫(yī)論中,所以,學習中醫(yī)才有“讀經(jīng)典、跟名師”之說。然而,理解、記憶并應用這些經(jīng)驗是一項艱難的任務,中醫(yī)大模型的出現(xiàn)或許將大大改變中醫(yī)學習和人才培養(yǎng)的模式。最后,大模型還可以助力更多應用場景的落地。李文友表示,中醫(yī)不僅僅是醫(yī)學,也是中國人的一種傳統(tǒng)生活方式。正因此,中醫(yī)不僅存在于醫(yī)院,也存在于院外各種與健康相關(guān)的空間。在這些院外場景中,自然語言的交互方式顯然更符合普通人的溝通習慣。因此,中醫(yī)大模型將推動中醫(yī)人工智能在更廣泛的場景中落地。根據(jù)介紹,目前“岐黃問道·大模型”已形成三個方向的子模型,以發(fā)揮大模型的優(yōu)勢,適配大經(jīng)中醫(yī)豐富的應用場景。第一個子模型是基于已確診疾病的臨床診療大模型,可根據(jù)用戶提供的疾病、癥狀、體征信息,給出辨證(診斷)結(jié)果和治療方案(中藥處方)。第二個子模型是僅僅基于癥狀和體征的臨床診療大模型,可根據(jù)用戶提供的主訴癥狀和伴隨癥狀、體征信息,給出辨證(診斷)結(jié)果和治療方案(中藥處方)。第三個子模型則是中醫(yī)養(yǎng)生調(diào)理大模型,可根據(jù)用戶提供的癥狀、體征信息,給出個性化中醫(yī)健康狀態(tài)辨識結(jié)果,以及食療、茶飲、推拿、艾灸等多維度養(yǎng)生方案。“岐黃問道·大模型”的三個子模型:知病、知癥、養(yǎng)生(圖片來自大經(jīng)中醫(yī))目前,第一個模型在發(fā)布會后已經(jīng)通過公司官方微信公眾號“大經(jīng)數(shù)智中醫(yī)”正式面向醫(yī)療機構(gòu)開放內(nèi)測,其他子模型仍在不斷完善中,后續(xù)將逐步開放。在發(fā)布會現(xiàn)場的實時演示中,年輕醫(yī)生現(xiàn)場輸入模擬真實患者的“疾病-癥狀-體征”信息,基于已確診疾病的臨床診療大模型很快給出了準確的辨證結(jié)果、治則治法和中藥方劑,給人留下深刻印象。
同時,現(xiàn)場也通過視頻錄像的形式展示了僅僅基于癥狀和體征的臨床大模型及中醫(yī)養(yǎng)生調(diào)理大模型的能力。在這些演示中,“岐黃問道·大模型”均給出了較為準確的回答。
此外,大經(jīng)中醫(yī)還在積極訓練基于不同技術(shù)路徑的中醫(yī)古籍大模型。該模型據(jù)稱將具備閱讀、理解古籍,從中抽取“有用的”知識對齊臨床需求,形成“病-癥-機-法-方-藥”知識鏈的功能,頗為令人期待。大經(jīng)中醫(yī)憑什么可以
第一個拿出多場景中醫(yī)大模型
開發(fā)中醫(yī)AI一直被認為極具挑戰(zhàn)性。一方面,漢語所屬的漢藏語系與英語所屬的印歐語系有巨大的差異,適用于英語的自然語言處理技術(shù)并不能被直接套用到漢語中。另一方面,古漢語與現(xiàn)代漢語之間也存在一定的差異,而在現(xiàn)代漢語中也經(jīng)常會夾雜一些古漢語單字,半文半白現(xiàn)象頗為普遍。恰恰中醫(yī)典籍和醫(yī)案往往采用敘述的方式記錄病人的癥狀、體征和理法方藥。此外,不同于西醫(yī)有統(tǒng)一的疾病共識或指南,中醫(yī)存在多個流派,各流派有自己獨有的方法論。中醫(yī)AI往往需要將各個流派的方法論融匯其中,其工作量往往以數(shù)倍計。作為中醫(yī)AI領(lǐng)域的翹楚,大經(jīng)中醫(yī)在多年中醫(yī)AI的探索過程中積累了豐富的經(jīng)驗,并打造出自己在數(shù)據(jù)、人才和應用上的獨有能力。以AI三大要素之一的數(shù)據(jù)而言,大經(jīng)中醫(yī)就已經(jīng)在高質(zhì)量中醫(yī)數(shù)據(jù)上早早建立起“護城河”。首先,大經(jīng)中醫(yī)已經(jīng)建立了包含25000多個詞條的中醫(yī)癥狀、體征術(shù)語規(guī)范化詞典。這是整個中醫(yī)行業(yè)唯一大規(guī)模、覆蓋全病種的術(shù)語規(guī)范化詞典,可大幅降低措辭差異對大模型輸出答案的影響。其次,中醫(yī)的知識個性化且龐雜;同時,中醫(yī)歷來有“道不傳非人、法不傳六耳”的傳統(tǒng)。這都導致中醫(yī)公開數(shù)據(jù)的質(zhì)量普遍較低,高質(zhì)量數(shù)據(jù)則非常私密。要知道,沒有大量高質(zhì)量數(shù)據(jù)的訓練,所謂大模型也只能是無米之炊。大經(jīng)中醫(yī)多年來積累了堪稱中醫(yī)垂直領(lǐng)域最高質(zhì)量的行業(yè)數(shù)據(jù)。其所構(gòu)建的中醫(yī)診療知識圖譜基于大量真實名老中醫(yī)的診療經(jīng)驗和中醫(yī)文獻中的診療知識,不僅涵蓋了內(nèi)外婦兒全學科,也覆蓋了經(jīng)方時方和孟河嶺南等中醫(yī)全流派,為大模型訓練提供了海量的高質(zhì)量數(shù)據(jù)。最后,作為中醫(yī)數(shù)智化的先驅(qū),大經(jīng)中醫(yī)已通過業(yè)界領(lǐng)先的中醫(yī)臨床智能輔助診療系統(tǒng)(中醫(yī)CDSS)為400多家等級醫(yī)院及8000多家基層醫(yī)療機構(gòu)用戶賦能。這些機構(gòu)生成的大量數(shù)據(jù)在通過合規(guī)處理后,又可以為中醫(yī)大模型的訓練提供支撐。根據(jù)“岐黃問道·大模型”技術(shù)總監(jiān)王祺的介紹,大模型訓練用到了大經(jīng)中醫(yī)在過去七年積累的海量高質(zhì)量數(shù)據(jù)集。這些獨有數(shù)據(jù)集包括1100多萬條中醫(yī)知識圖譜數(shù)據(jù),1500本中醫(yī)古籍和文獻數(shù)據(jù),10萬份真實中醫(yī)專家醫(yī)案數(shù)據(jù),10萬條脈象、舌象、經(jīng)絡、穴位數(shù)據(jù)和200萬條真實的中醫(yī)臨床診療數(shù)據(jù)。與時下流行的通用大模型動輒以兆計算的數(shù)據(jù)規(guī)模相比,中醫(yī)大模型的數(shù)據(jù)量規(guī)模表面上看似不大,但這些數(shù)據(jù)都是經(jīng)過清洗的高質(zhì)量數(shù)據(jù),一條高質(zhì)量數(shù)據(jù)的價值實際上比上百條互聯(lián)網(wǎng)泛內(nèi)容的數(shù)據(jù)價值要高得多。這些數(shù)據(jù)的得來并不容易——大經(jīng)中醫(yī)花費了數(shù)年時間和數(shù)千萬元的費用才得到這些高質(zhì)量數(shù)據(jù)。大經(jīng)中醫(yī)也尤為重視人才,不僅擁有全行業(yè)規(guī)模最大的中醫(yī)-人工智能跨界研發(fā)團隊,也擁有行業(yè)規(guī)模最大的通過協(xié)議方式合作開展中醫(yī)人工智能研究的名老中醫(yī)團隊。這些中醫(yī)專家也在幫助大模型實現(xiàn)高質(zhì)量的基于人類反饋的強化學習。同時,大經(jīng)中醫(yī)也積極引入“外腦”,與上海交通大學計算機科學與工程系大語言模型研發(fā)團隊等國內(nèi)一流專家合作。雙方的技術(shù)優(yōu)勢彼此互補,實現(xiàn)“1+1>2”的效果,組成了強大的中醫(yī)大模型研發(fā)團隊。只要對于大模型有基本的認知,就不難發(fā)現(xiàn),只有將技術(shù)轉(zhuǎn)嫁到應用層,改變用戶的體驗,大模型才能產(chǎn)生更大的價值。與此同時,多場景下大量用戶的應用及反饋也將對大模型的迭代進化起到至關(guān)重要的作用——不僅可以幫助訓練高水平的理解行業(yè)場景和業(yè)務的中醫(yī)垂直領(lǐng)域大模型,也可以持續(xù)迭代這個中醫(yī)垂直領(lǐng)域大模型。應用優(yōu)勢,恰恰也是大經(jīng)中醫(yī)最大的優(yōu)勢之一。憑借在中醫(yī)數(shù)智化上的突出成績,大經(jīng)中醫(yī)在中醫(yī)醫(yī)療機構(gòu)有著業(yè)內(nèi)領(lǐng)先的覆蓋滲透。無論是上海中醫(yī)藥大學附屬龍華醫(yī)院、廣東省中醫(yī)院這樣的等級醫(yī)療機構(gòu),亦或是南京市江寧區(qū)、淄博市高青縣這樣的區(qū)域中醫(yī)醫(yī)聯(lián)體,又或者是山東、吉林等地的基層村衛(wèi)生室及上海市長寧區(qū)“為老服務中心”這樣的大健康機構(gòu),還是“學習強國”APP上面向C端用戶的應用,到處都可以見到大經(jīng)中醫(yī)的中醫(yī)AI。這些擁有大量用戶的中醫(yī)人工智能應用場景都對大模型的訓練和持續(xù)迭代起到了增益作用。
在發(fā)布會上,李文友介紹了“岐黃問道·大模型”分三步走的技術(shù)路徑,分別為從名老中醫(yī)臨床診療數(shù)據(jù)+中醫(yī)文獻數(shù)據(jù)到中醫(yī)診療知識圖譜、從中醫(yī)診療知識圖譜到中醫(yī)領(lǐng)域預訓練模型和從中醫(yī)領(lǐng)域預訓練模型到岐黃問道大模型三步。首先,大經(jīng)中醫(yī)利用知識圖譜來表達和存儲名老中醫(yī)診療經(jīng)驗和文獻診療知識。隨后,利用千萬級的中醫(yī)知識圖譜數(shù)據(jù)和臨床診療數(shù)據(jù)微調(diào)通用的預訓練模型,使其更理解中醫(yī)的思維和知識。最后,中醫(yī)專家參與其中,對中醫(yī)領(lǐng)域預訓練模型進行進一步調(diào)優(yōu),利用獎勵模型—強化學習機制,并最終形成“岐黃問道·大模型”。這一技術(shù)路徑最終形成了“岐黃問道·大模型”差異化的獨特價值,分別是數(shù)據(jù)、產(chǎn)品和服務。對于AI而言,數(shù)據(jù)自不必多說。沒有過去七年大經(jīng)中醫(yī)日復一日高質(zhì)量數(shù)據(jù)的積累,也就沒有“岐黃問道·大模型”。在產(chǎn)品端,大模型是對大經(jīng)中醫(yī)現(xiàn)有產(chǎn)品體系的升級。最后則是服務。大模型降低了中醫(yī)行業(yè)使用AI產(chǎn)品的門檻,使得更多類型的客戶能夠在更多場景中使用中醫(yī)AI產(chǎn)品。知識圖譜是“岐黃問道·大模型”得以問世的基礎?;陂L期的數(shù)智中醫(yī)技術(shù)積累,大經(jīng)中醫(yī)已經(jīng)構(gòu)建了完備的中醫(yī)知識圖譜體系,并將其應用于中醫(yī)CDSS系統(tǒng)中。這一系統(tǒng)已經(jīng)相當成熟,可根據(jù)醫(yī)生輸入的疾病、癥狀、體征信息可以非常準確地推理出證型、治法、方藥結(jié)果。知識圖譜轉(zhuǎn)化所形成的1100多萬條中醫(yī)自然語義數(shù)據(jù)則成為了“岐黃問道·大模型”的訓練數(shù)據(jù),也是“岐黃問道·大模型”能夠生長發(fā)芽的底層土壤。另外,基于對知識圖譜的應用,大經(jīng)中醫(yī)已經(jīng)形成了一整套完整的端到端業(yè)務流程?!搬S問道·大模型”對于自然語言的應用則使得這個業(yè)務流程變得更為高效和便捷。比如,在中醫(yī)問診環(huán)節(jié),以往醫(yī)生更多通過中醫(yī)智能輔助診療系統(tǒng)中的規(guī)范化癥狀、體征的點選輸入患者信息。如今,利用“岐黃問道·大模型”則可以直接通過自然語言描述輸入患者信息。這就使得過去在問診中丟失的溝通細節(jié)可以全部被囊括進來,從而使得診療過程中沉淀的更通用的數(shù)據(jù)集將以十倍乃至百倍的規(guī)模增加。在AI辨證環(huán)節(jié),大模型的“智能”不僅局限于知識圖譜,還擴展到了那些包含在醫(yī)案數(shù)據(jù)和臨床診療數(shù)據(jù)等更廣泛、更大量數(shù)據(jù)當中的知識,使得AI辨證論治的深度、廣度比以往都有了很大的延伸。由中醫(yī)專家參與的調(diào)整反饋工作則可以讓大模型增加對中醫(yī)知識和中醫(yī)思維的理解,確保中醫(yī)大模型回答的準確性和一致性。大模型的“基礎能力”疊加上中醫(yī)的“行業(yè)能力”后,中醫(yī)大模型就具備了中醫(yī)垂直領(lǐng)域的提煉、分類、模仿、推測、識別等能力,并通過與中醫(yī)行業(yè)多種業(yè)務場景結(jié)合,成為可落地、可使用的中醫(yī)大模型。據(jù)介紹,“岐黃問道·大模型”目前已完成預訓練和監(jiān)督微調(diào)階段,已進入獎勵模型和強化學習階段,正通過不斷迭代和專家評估來提升其回答的準確性。目前中醫(yī)大模型回答問題的準確度相較于原有基于知識圖譜的CDSS系統(tǒng)超高的準確性的確有一些差距。但其進步非常明顯,答案準確性僅通過幾個月時間的訓練就從30%提升到了60%。后期利用大模型沉淀的數(shù)據(jù)集持續(xù)訓練,加上專家持續(xù)的評估和反饋,其準確性還將會不斷提升。
對于中醫(yī)來說,大經(jīng)中醫(yī)“岐黃問道·大模型”的問世無疑是一個里程碑。它不僅可以助力中醫(yī)傳承發(fā)展、助力中醫(yī)學習和人才培養(yǎng),還可以助力中醫(yī)AI在更多應用場景的落地。在嚴肅醫(yī)療領(lǐng)域,大經(jīng)中醫(yī)的主力產(chǎn)品中醫(yī)臨床智能輔助診療系統(tǒng)(CDSS)已經(jīng)建立起從標桿性三甲中醫(yī)院到社區(qū)衛(wèi)生服務中心和鄉(xiāng)鎮(zhèn)衛(wèi)生院,再到診所、門診部、衛(wèi)生室的各級醫(yī)療機構(gòu)的應用生態(tài)。隨著“岐黃問道·大模型”的應用,原來一些對于專業(yè)度要求很高的中醫(yī)臨床診療流程,也可以在AI的幫助下,由具備中等專業(yè)度的低年資醫(yī)生完成,且整體的時間消耗會更少。更需要特別關(guān)注的是大健康養(yǎng)生領(lǐng)域。根據(jù)弗若斯特·沙利文的數(shù)據(jù),2019年我國中醫(yī)大健康產(chǎn)業(yè)的市場規(guī)模為已經(jīng)高達9170億元,預期于2030年市場規(guī)模將達到29730億元的規(guī)模。原本,自今年上半年開始,大經(jīng)中醫(yī)的產(chǎn)品線已經(jīng)從單一的軟件產(chǎn)品發(fā)展到集成了中醫(yī)臨床智能輔助診療系統(tǒng)(中醫(yī)智腦)和中醫(yī)智能脈診儀(中醫(yī)智指)、中醫(yī)智能舌面診儀(中醫(yī)智目)的數(shù)智中醫(yī)一體化診療系統(tǒng),逐步走出單一的“嚴肅醫(yī)療”的生態(tài)圈,擴展到“中醫(yī)大健康”的生態(tài)圈,而此次“岐黃問道·大模型”的問世,更是夯實、擴大了這個大健康生態(tài)圈,將從事中醫(yī)慢病管理、中醫(yī)養(yǎng)生保健服務的養(yǎng)老機構(gòu)、康養(yǎng)機構(gòu)、企業(yè)健康驛站、社區(qū)健康中心、養(yǎng)生館和美容院等納入其中,甚至所有把中醫(yī)融入生活的家庭和個人也成為這個生態(tài)圈的重要組成部分。我們相信,在AI的幫助下,假以時日,古老的中醫(yī)也將會煥發(fā)出新的活力。