臨床醫(yī)療大數(shù)據(jù)治理框架
發(fā)布時間:2024-01-29
來源: 古月言軒
瀏覽量:
字號:【加大】【減小】
手機上觀看
筆者從事醫(yī)療信息化多年,而今醫(yī)療大模型正當風頭無兩,而實際落地的應用門可羅雀。無論如何,大模型將是未來的行業(yè)的重要方向,而沉淀在各大醫(yī)療機構的臨床數(shù)據(jù)極有可能在未來發(fā)揮更大的價值,在此梳理醫(yī)療大數(shù)據(jù)治理體系,僅作學習記錄,歡迎同行專業(yè)人士閱后探討與指點。筆者認為醫(yī)療大數(shù)據(jù)治理分為以下4個方面:數(shù)據(jù)集成,數(shù)據(jù)存儲,數(shù)據(jù)清洗,數(shù)據(jù)應用,以下分別從這幾個方面分別進行簡要介紹。1 數(shù)據(jù)集成
1.1 通用數(shù)據(jù)模型設計
由于國內(nèi)醫(yī)療信息化行業(yè)的廠商較多,醫(yī)院內(nèi)分散著眾多來自不同廠商的信息系統(tǒng),因此醫(yī)院的數(shù)據(jù)平臺建設首先要做的便是將不同系統(tǒng)中的數(shù)據(jù)進行集成,包括HIS CIS RIS EMR LIS 等。數(shù)據(jù)集成過程是一個臟活、累活,原因是不同信息系統(tǒng)之間對于同一個字段的數(shù)據(jù)存儲格式可能不同,且業(yè)務系統(tǒng)的數(shù)據(jù)標準化程度不高,其設計本身只是為了滿足臨床的業(yè)務需求,可能根本不會關注數(shù)據(jù)質(zhì)量,因此數(shù)據(jù)模型設計的通用程度就顯得非常重要。OMOP針對臨床科研出了一份通用數(shù)據(jù)模型(CDM),但對于國內(nèi)的可適配性較差,因此需要結合國內(nèi)的實際情況,進行通用數(shù)據(jù)模型的設計。CDM的設計需要首先要考慮的問題是要集成哪些數(shù)據(jù),臨床業(yè)務數(shù)據(jù)庫中所有的表數(shù)據(jù)是否都要無腦接入,當然不是!像業(yè)務系統(tǒng)的配置表信息、操作日志、操作過程記錄等一般不會關注,通用數(shù)據(jù)模型關注的是特定的時刻醫(yī)務人員出于對患者進行健康關懷而進行一系列操作的結果,例如翼醫(yī)生為患者開具處方,在通用數(shù)據(jù)模型中的體現(xiàn)是一張?zhí)幏降慕Y果,而對于審方的流程所涉及到過程不會關注。1.2 數(shù)據(jù)集成方式
數(shù)據(jù)集成一般分為以下幾種方式:開庫,接口,視圖開庫:即對方廠商提供生產(chǎn)庫或備份庫的只讀賬號,直接對接數(shù)據(jù)庫,通過ETL工具進行數(shù)據(jù)抽取。接口或視圖:廠商本身有一套提供數(shù)據(jù)的接口、視圖 或 處于收費目的而開發(fā)的對接效率上,一般開庫的效率最高,視圖或接口調(diào)試周期相對較長2 數(shù)據(jù)存儲
2.1 業(yè)務數(shù)據(jù)庫
臨床業(yè)務數(shù)據(jù)庫通常采用傳統(tǒng)的關系型數(shù)據(jù)庫來存儲,如SQLSERVER,MySQL、ORACLE,這三種關系型數(shù)據(jù)庫語法區(qū)別不大,入門難度低,方便運維,有較好的穩(wěn)定性。也有部分HIS廠商如某華用的是國外的一款數(shù)據(jù)庫,在國內(nèi)比較小眾,這個對DBA不太友好,跳槽難度較大…總而言之,臨床業(yè)務數(shù)據(jù)庫一般采用傳統(tǒng)的關系型數(shù)據(jù)庫,穩(wěn)定性較好,基于關系模式進行數(shù)據(jù)庫設計。為了提高查詢效率,對于一些大表會進行分庫分表的操作,例如只存儲今年的數(shù)據(jù),往年的數(shù)據(jù)分開存儲。2.2 數(shù)據(jù)倉庫
很多人可能聯(lián)想到醫(yī)院的歷年來的數(shù)據(jù)量非常大,集成到一個地方傳統(tǒng)的關系型數(shù)據(jù)庫肯定hold不住。在筆者看來,基于單體醫(yī)院數(shù)據(jù)中心的數(shù)據(jù)庫選擇,傳統(tǒng)的關系型數(shù)據(jù)庫完全可以cover。除卻影像文件之外,普通三甲醫(yī)院近10年的數(shù)據(jù)量,過濾掉一些配置數(shù)據(jù)、日志記錄、審計數(shù)據(jù),數(shù)據(jù)量在1-3T之間,部分大表完全可以采用分表的方式來解決,個人推薦PG。3 數(shù)據(jù)清洗
數(shù)據(jù)清洗依然是一個比較耗費精力的體力活,原因是數(shù)據(jù)清洗的標準往往是企業(yè)內(nèi)部制定的,尚未形成行業(yè)標準。而制定企業(yè)內(nèi)部的數(shù)據(jù)標準本身就是一件復雜且涉及到多方角色的事情,需要讓研發(fā)、產(chǎn)品、數(shù)據(jù)治理團隊之間的達成共識,在共識的標準基礎上進行產(chǎn)品設計、產(chǎn)品研發(fā)和數(shù)據(jù)清洗才會讓各個角色工作開展的更加順暢。但現(xiàn)實往往為了趕進度,產(chǎn)品研發(fā)或者數(shù)據(jù)清洗工作在沒有形成標準的時候已經(jīng)開始,當產(chǎn)品正式上線時,產(chǎn)研團隊和數(shù)據(jù)治理團隊就開始上演“誰是大廚”的戲碼。筆者認為,數(shù)據(jù)清洗主要包含以下幾個部分:數(shù)據(jù)維度清洗(患者維度,就診維度)、數(shù)據(jù)類型統(tǒng)一(數(shù)據(jù)類型轉(zhuǎn)換、臟數(shù)據(jù)過濾)、小字典映射(例如 性別,婚姻狀態(tài)等)、大字典映射(如診斷、檢驗等字典)。數(shù)據(jù)清洗不是一次性工作,清洗到何種程度沒有標準,會隨著產(chǎn)品需求或認知的變化而迭代,前期需要把數(shù)據(jù)維度統(tǒng)一、類型統(tǒng)一、基本的編碼名稱映射做完。4 數(shù)據(jù)應用
當下醫(yī)療數(shù)據(jù)的主要應用于臨床科研、醫(yī)療質(zhì)控、統(tǒng)計報表。講真,由于數(shù)據(jù)質(zhì)量問題,臨床數(shù)據(jù)應用于科研還有很長的路要走,需要醫(yī)生、信息化廠商共同重視數(shù)據(jù)質(zhì)量,才能發(fā)揮醫(yī)療數(shù)據(jù)的價值。