成人a片不需要播放器|无码高清欧美性爱|黄色三级片在线免费播放)2|超碰久操福利a级黄论片|国产一级婬片A片AAA情欲王朝|亚洲第一免费网页|看免费AV片av天堂1|国内成人一个色在线|青青艹在线观看色欧美性爱|黄色视频无遮挡免费观看

歡迎訪問智慧醫(yī)療網(wǎng) | 網(wǎng)站首頁
 

醫(yī)學大數(shù)據(jù)挖掘方法、機遇與挑戰(zhàn)

發(fā)布時間:2024-06-10 來源: 科學出版社 瀏覽量: 字號:【加大】【減小】 手機上觀看

打開手機掃描二維碼
即可在手機端查看

與大數(shù)據(jù)在其他行業(yè)的應用不同,對醫(yī)學大數(shù)據(jù)價值的深度挖掘,不僅要分析數(shù)據(jù)間的相關性,還要嚴格驗證其中的因果性。如果只分析數(shù)據(jù)相關性,難以進一步判斷流行病學的趨勢及在臨床應用中產(chǎn)生具有較大參考意義的明確結論。

大數(shù)據(jù)帶來的信息也在改變醫(yī)學教育和醫(yī)學的生態(tài)系統(tǒng)。以數(shù)字方式收集和存儲的數(shù)據(jù)量呈指數(shù)級增長。醫(yī)療行業(yè)每天都在產(chǎn)生大量數(shù)據(jù),這是大數(shù)據(jù)應用的一個重要領域。為了向患者提供最好的服務和護理,許多國家的醫(yī)療機構提出了各種各樣的建議。如何更好地開發(fā)和利用大型醫(yī)學大數(shù)據(jù)已成為人們關注的焦點,促進醫(yī)學大數(shù)據(jù)的研究和應用已成為現(xiàn)代醫(yī)學研究的關鍵因素。

 

醫(yī)學數(shù)據(jù)具有疾病多樣性,治療和結果的異質(zhì)性,數(shù)據(jù)收集、處理和解釋的復雜性等特點。隨著醫(yī)療信息的發(fā)展,在醫(yī)療服務、醫(yī)療保健和衛(wèi)生管理的過程中產(chǎn)生了大量的數(shù)據(jù),形成了醫(yī)學大數(shù)據(jù)。醫(yī)學大數(shù)據(jù)具有各種來源,如行政索賠記錄、臨床登記、電子健康檔案、生物特征數(shù)據(jù)、患者報告數(shù)據(jù)等。這些數(shù)據(jù)在醫(yī)療保健系統(tǒng)的大數(shù)據(jù)應用程序和數(shù)據(jù)收集中有重要價值。例如,糖尿病患者使用移動設備相互交流,共享信息或搜索信息,從而形成一大批的大數(shù)據(jù)網(wǎng)絡。除了具有強大的統(tǒng)計功能和復雜性之外,數(shù)據(jù)還需要實時可用,以便立即對其進行分析和使用。

 

醫(yī)學大數(shù)據(jù)挖掘方法


 

隨著信息化時代的到來,數(shù)據(jù)挖掘技術被越來越多地應用于醫(yī)學大數(shù)據(jù)分析。大數(shù)據(jù)分析技術可用于大規(guī)模遺傳學研究、公共衛(wèi)生、個性化和精準醫(yī)學、新藥開發(fā)等,在醫(yī)學領域越來越受歡迎。大數(shù)據(jù)方法的應用可以更有效地存儲和提取醫(yī)療記錄及后續(xù)數(shù)據(jù);同時,從醫(yī)療數(shù)據(jù)中尋找潛在的聯(lián)系或規(guī)律,以獲得對患者進行診斷和治療的有效知識,從而提高疾病預測的準確性和治愈率。


與傳統(tǒng)研究方法不同,數(shù)據(jù)挖掘是在沒有明確假設的情況下挖掘信息和發(fā)現(xiàn)知識,即沒有事先的研究和設計,所獲得的信息應該有3個特征,即以前未知、有效和實用。數(shù)據(jù)挖掘技術的出現(xiàn)并不是要取代傳統(tǒng)的統(tǒng)計分析技術,而是統(tǒng)計分析方法的擴展


數(shù)據(jù)挖掘方法可分為描述性方法和預測性方法兩類。描述性方法展現(xiàn)了數(shù)據(jù)的一般性質(zhì),包括關聯(lián)分析和聚類分析;預測方法包括分類和回歸。



關聯(lián)分析

 

關聯(lián)分析,也稱為關聯(lián)挖掘,是指搜索存在于事務數(shù)據(jù)、關系數(shù)據(jù)或其他信息載體中的項目集合或?qū)ο蠹现g的頻繁模式、關聯(lián)、相關性或因果結構。換句話說,關聯(lián)分析是指發(fā)現(xiàn)來自大量異構數(shù)據(jù)之間的聯(lián)系。購物籃分析是關聯(lián)分析的一個典型例子,它主要通過在顧客的購物籃中發(fā)現(xiàn)不同的產(chǎn)品分析來顧客的購買習慣,了解顧客經(jīng)常同時購買哪些商品,可以幫助零售商制定營銷計劃。關聯(lián)分析包括兩個步驟,第一步是列出集合中的所有高頻項目;第二步是根據(jù)高頻項目生成頻繁的關聯(lián)規(guī)則。根據(jù)第一步得到高頻項目組,如果該規(guī)則滿足最小置信度,則該規(guī)則為關聯(lián)規(guī)則。關聯(lián)分析的機器學習方法包括先驗算法、FP-tree 算法和Upgrade LIFT 算法。

 

先驗算法基于先驗原則,反映了子集與超集之間的關系,即頻繁項集的所有非空子集都必須是頻繁的,而所有非頻繁項集的超集都必須是罕見的。頻繁模式指的是出現(xiàn)在每個購物記錄中的各種項目實際上反映了一個組合的性質(zhì)。這些項目的組合在記錄中是無序的,這種無序的組合稱為“模式”。其中,有些模式頻率低,有些頻率高。一般認為,較高的頻率通常更有指導意義。這種高頻模式稱為“頻繁模式”。因此,先驗算法的性質(zhì)主要用于在數(shù)據(jù)集中查找關聯(lián)規(guī)則的頻繁項集。先驗算法可以更好地避免盲搜索,提高頻繁項集搜索的效率。


FP-tree 算法是通過逐個讀取事務并將事務映射到FP-tree 中的一條路徑構建的。由于不同的事務可能有幾個相同的項,因此它們的路徑可能部分重疊。路徑重疊越多,使用FP-tree 結構得到的壓縮效果越好;如果FP-tree 足夠小,能存儲于存儲器中,可以直接從存儲器結構中提取頻繁的數(shù)據(jù)集,而無須重復掃描并將數(shù)據(jù)存儲于硬盤上。FP-tree 算法的主要思想是在經(jīng)歷一次掃描之后將數(shù)據(jù)庫中的頻率集壓縮為一個頻繁的模式樹,同時仍然保留相關信息,然后分別挖掘條件基。




聚類分析

 

聚類分析是為了研究如何將相似的東西分為一類。聚類通過靜態(tài)分類將相似的對象劃分為不同的組或更多的子集,從而使同一子集中的成員對象具有相似的屬性。聚類算法有幾種,如K 均值算法、層次聚類算法、基于劃分和層次聚類算法。


K 均值算法是聚類分析中最常用、最基本的聚類算法,它是基于原型和分割距離技術,根據(jù)給定的參數(shù)K,將N 個對象大致分為K 類,然后根據(jù)某些最優(yōu)原理對不合理的分類進行修改。均值算法簡單、快速、易于理解,時間復雜度低。然而,均值算法對高維數(shù)據(jù)處理較差,并且不能識別非球形簇。


層次聚類算法對數(shù)據(jù)集進行層次分解,分為自下而上的凝聚層次聚類和自上而下的分裂層次聚類。常用的層次聚類算法包括樺樹、治愈、巖石、變色龍等算法。這種類型的算法最初將每個點視為一個集群,根據(jù)接近度進行組合。當組合在多種原因下導致不希望的結果時,組合過程結束。


1996~2000 年,數(shù)據(jù)挖掘?qū)W者提出了大量的基于網(wǎng)格的聚類算法。該網(wǎng)格方法可以有效降低算法的計算復雜度,并且對密度參數(shù)也很敏感。基于網(wǎng)格的聚類算法采用了多分辨率的網(wǎng)格數(shù)據(jù)結構,處理速度非常快,并且僅取決于量化空間中每個維度中的元素數(shù)量。常見的方法包括刺、團和波簇。




   分  類    

 

分類是構造一個分類模型,輸入樣本的屬性值,輸出對應的類別,將每個樣本映射到預先定義好的類別。預測是指建立2種或2種以上變量間相互依賴的函數(shù)模型,然后進行預測或控制。


分類算法有兩步過程。一是學習步,通過歸納分析訓練樣本集建立分類模型得到分類規(guī)則;二是分類步,先用已知的測試樣本集評估分類規(guī)則的準確率,如果準確率是可以接受的,則使用該模型對未知類標記的待測樣本集進行預測。


預測模型的實現(xiàn)步驟也有兩步,第一步是通過訓練集建立預測屬性(數(shù)值型的)的函數(shù)模型,第二步是在模型通過檢驗后進行預測或控制。


分類模型建立在已有類標記的數(shù)據(jù)集上,模型在已有樣本上的準確率可以更方便計算,所以分類屬于有監(jiān)督的學習。其目標是“標記”數(shù)據(jù),以提取有價值的數(shù)據(jù)。類別越準確,結果就越有價值。通常采用邏輯回歸、先驗回歸、經(jīng)典判別分析,建立一個分類模型,可以幫助我們更好地理解數(shù)據(jù),然而這也有局限性。當因變量為分類變量,且自變量包含多個分類變量或分類變量水平較高時,經(jīng)典統(tǒng)計量不適用,機器學習方法對處理復雜數(shù)據(jù)更實用,精度較好。


  回  歸  

 

回歸是確定多種變量相互依賴的定量關系的方法?;貧w分析是一種統(tǒng)計方法,對具有一個或多個自變量的因變量(目標變量)和自變量(預測變量)之間的關系進行建模。具體地說,回歸分析有助于我們理解在其他自變量保持固定的情況下,自變量的值對應于自變量的變化方式。傳統(tǒng)的回歸是一種統(tǒng)計分析方法,通過普通的線性回歸確定兩個或多個變量之間的定量關系,并被廣泛使用。


回歸分析可根據(jù)自變量的數(shù)量分為一元線性回歸分析和多元線性回歸分析。一元線性回歸分析只包含一個自變量和一個因變量,一條直線可以近似表示兩者之間的關系。如果回歸分析包含兩個或兩個以上的自變量,且因變量與自變量之間是線性關系則稱為多元線性回歸分析。在實踐中,一種現(xiàn)象通常與多種因素有關。在執(zhí)行回歸分析時,需要兩個或多個自變量,這種回歸被稱為多元回歸。通過多個自變量的最優(yōu)組合預測或估計因變量比僅用一個自變量預測或估計更有效、更現(xiàn)實。因此,多元線性回歸比一元線性回歸更實用。多元線性回歸分析包括3 個步驟。第一步,利用收集到的數(shù)據(jù)建立回歸方程;第二步,對分析得到的回歸方程進行假設檢驗;第三步,當回歸方程意義顯著時,需要對回歸系數(shù)進行假設檢驗。在剔除沒有顯著部分回歸系數(shù)的變量后,重新建立不包含這些變量的多元回歸方程,并重復上述過程。其基本原理是將最小二乘法應用于線性回歸模型的回歸。


大多數(shù)傳統(tǒng)算法的統(tǒng)計模型對數(shù)據(jù)都有特定的要求,而模型本身也有一種可以清晰表達的數(shù)學形式。該模型的利弊大多是根據(jù)數(shù)據(jù)分布假設得到的檢驗來判斷的。然而,在實際工作過程中,很難對數(shù)據(jù)在現(xiàn)實世界中的分布做出任何假設。


機器學習算法對數(shù)據(jù)沒有假設,結果也有交叉性。通過驗證算法判斷,基于該算法或程序的預測模型相當有效,交叉驗證的結果很容易被大多數(shù)實踐工作者理解和接受。機器學習中的回歸是一種有監(jiān)督的學習技術,有助于發(fā)現(xiàn)變量之間的相關性,并使我們能夠基于一個或多個預測變量預測連續(xù)輸出變量,主要用于預測時間序列建模及確定變量之間的因果關系。回歸模型的機器學習算法有決策樹、自適應增強、套袋法、隨機森林、支持向量機、最近鄰算法和人工神經(jīng)網(wǎng)絡。

 

機遇與挑戰(zhàn)


 

利用新的前沿學科生成大數(shù)據(jù)和分析大數(shù)據(jù)是傳統(tǒng)醫(yī)學和精準醫(yī)學之間的發(fā)展趨勢。大數(shù)據(jù)的發(fā)展將有助于精準醫(yī)療的全球應用和新的衛(wèi)生管理模式的出現(xiàn)。然而,醫(yī)學大數(shù)據(jù)挖掘仍面臨巨大挑戰(zhàn),主要是醫(yī)學知識概念復雜,醫(yī)學知識推理關鍵技術尚未突破,醫(yī)學信息源廣泛,以及數(shù)據(jù)維度高、類別不平衡、結構復雜,醫(yī)院電子病歷系統(tǒng)的開放性和可擴展性較差,院外流程監(jiān)管不力。雖然在大量數(shù)據(jù)中產(chǎn)生新的發(fā)現(xiàn)和結論并不容易,但我們可以預見未來在醫(yī)療和生活領域大數(shù)據(jù)將會發(fā)揮不可替代的作用。

 

因此,《醫(yī)學大數(shù)據(jù)分析挖掘技術與應用》(王海英等主編. 北京:科學出版社,2024.5)闡述了醫(yī)學大數(shù)據(jù)的實用技術與經(jīng)典案例,從技術原理到實際應用、從統(tǒng)計方法到數(shù)據(jù)建模,全面概括當前形勢下醫(yī)學大數(shù)據(jù)技術與應用,幫助讀者理解和掌握醫(yī)學大數(shù)據(jù)挖掘的相關理論與方法,為流行病與衛(wèi)生統(tǒng)計學、統(tǒng)計學專業(yè)人員及從事醫(yī)學大數(shù)據(jù)挖掘的科研人員提供參考。

 


Copyright ? 2022 上??评讜狗沼邢薰?旗下「智慧醫(yī)療網(wǎng)」版權所有    ICP備案號:滬ICP備17004559號-5