彭麒燕 彭靜 萬幸
【摘要】數據挖掘是應用一系列技術從大型數據庫中提取人們感興趣的信息和知識。本文詳細介紹了數據挖掘技術,總結了近年來數據挖掘技術在乳腺癌醫療輔助診斷中的應用。
【關鍵詞】數據挖掘? 乳腺癌? 初篩與預防
國內外大量文獻的報道中乳腺癌發病率居女性惡性腫瘤首位。據世界衛生組織(who)統計,每年有120萬至140萬女性患乳腺癌,約50萬患者死于乳腺癌。近年來,隨著生活水平的提高,我國乳腺癌的增長速度最為明顯。我國是一個發展中國家,乳腺癌的發病率呈線性增長,患乳腺癌的年齡也越來越年輕。其預后與早期發現、正確診斷和正確治療密切相關。早期診斷是改善預后、降低死亡率的關鍵。乳腺癌臨床診療及術后康復護理綜合醫學模式的研究,為乳腺癌的診治提供了大量的醫學數據,促進了臨床乳腺癌診療技術的不斷發展。
因此,針對數據挖掘技術在乳腺癌領域的應用現狀進行研究,為臨床醫務人員和科研人員進一步針對乳腺癌的數據挖掘提供借鑒是非常有必要的。
一、數據挖掘主要關鍵技術
(一)人工神經網絡
它是對人腦的某種程度上的抽象、簡化和模仿,通過對大量歷史數據庫中的計算來建立數據模型,是一種自適應、自學習的算法模型在數據挖掘中的廣泛應用,是集神經學科、數學、統計學、物理學、計算機科學及工程學等學科于一體的技術。它在乳腺疾病診治中可用于預測同側腋窩淋巴結轉移、活組織檢查結果,它可以幫助識別小腫塊的性質,評估乳腺癌的風險和患者對化療的反應,分析生存率,識別基因轉錄標記物等。在乳腺癌的輔助診斷中,主要是通過提取一類圖像數據(如超聲、鉬靶X線、磁共振、SPECT等)來實現的。Newell等用人工神經網絡提取乳腺MRI的8個形狀/邊緣參數和10個紋理增強作為診斷特征,建立了一個良惡性辨別診斷模型。Zhong等用誤差反向傳播算法建立一個混合神經網絡,通過乳腺超聲圖像中復雜的輪廓特征對乳腺腫塊進行分類,結果診斷準確率達到0.93。目前人工神經網絡用于兩種及兩種以上影像診斷技術方面的研究尚少,而且部分研究證實了提取兩種影像資料數據庫的特征診斷率高于單一影像資料。Yuan等用貝葉斯人工神經網絡方法分別對全景數字乳腺X線攝影(FFDM)圖像、動態增強對比磁共振(DCE-MRI)圖像、聯合FFDM與DCE-MRI圖像三個數據庫提取特征指標輔助診斷乳腺良惡性病變,并用ROC曲線下面積來評估其診斷準確率,結果顯示FFDM為0.74±0.04,DCE-MRI為0.78±0.04,聯合FFDM與DCE-MRI為0.87±0.03.證明了聯合兩種影像資料優于單一影像資料。
(二)決策樹
決策樹是一種用樹枝狀展現數據,受各變量情況影響的分析預測模型,根據對目標變量產生效應的不同而制定分類規則。它首先通過一批已知的訓練數據建立決策樹,然后采用建好的決策樹對數據進行預測,其產生的結果簡潔明了,易于理解,并可從病例中自動產生診斷規則。Lee等提取乳腺熱圖像中的的25個參數特征作為因素分析,根據異常腫塊的特點,利用決策樹自動產生診斷規則來進行分類,然后對71個乳腺癌患者和131個正常女性進行模型分析,結果證實決策樹模型的診斷分類性能較好。此外,決策樹還可判斷各參數對乳腺癌診斷貢獻的大小。Dietzel等使用決策樹方法來預測乳腺MRI中的17個指標與淋巴結轉移的關系,結果顯示其中7個指標與淋巴結轉移有密切關系,而最為顯著的是皮膚增厚和內部增強。
(三)關聯規則
若兩個或多個變量之間存在某種規律性,就稱為關聯,數據關聯是指存在于數據庫中有潛在聯系的知識。關聯規則挖掘就是通過關聯分析找出數據庫中隱藏的知識,利用這些知識可以根據已知情況對未知問題進行推測,旨在挖掘出數據庫中有潛在聯系的關系網。它在輔助診斷乳腺癌時主要通過對乳腺癌患者大量的數據庫信息進行關聯分析,發現數據庫中某些隱藏的與乳腺癌有關的聯系。Woods等用邏輯程序設計運算法則歸納出62219個異常乳腺鉬靶X線片,在惡性病變中學習形成了80個獨特的規則。一個放射科學者評價了所有的規則,發現了潛在的感興趣的聯系,并證實了高密度腫塊、形狀不規則、細針狀邊緣、年齡可作為惡性病變獨立的預測因素。Hoffman等使用基因關聯分析對15個miRNA基因進行基因篩選,檢測到miR-196a-2基因上的一個共同序列變異能顯著降低乳腺癌的風險,并表明在乳腺腫瘤患者中miR-196a-2基因可能具有潛在的致癌作用。彭玉蘭等利用乳腺超聲詞典和詞典關聯規則對超聲和病理良惡性診斷信息進行數據挖掘,結果其關聯檢索的質量達99.98%。
二、數據挖掘在乳腺癌初篩與預防中的創新性和先進性
(1)數據挖掘技術是一項跨學科多領域的新興技術,合理使用數據挖掘技術可以解決許多問題,如有效提高臨床診斷的準確性、完善疾病預警機制、開展遠程醫療、提高醫療質量、減少醫患矛盾等。
(2)數據挖掘技術是對海量數據庫中的數據進行統一分析和處理的技術,對醫學領域而言,發現潛藏在醫療數據庫中的有效信息,并將這些潛藏信息應用到臨床實踐的一次有意義的嘗試過程。乳腺癌已被公認為嚴重威脅女性健康的惡性疾病,通過對乳腺癌疾病的不斷深入研究,存在乳腺癌疾病下的信息被不斷探索,針對乳腺癌的診治方法,也將得到不斷創新,隨著醫療數據的持續積累,也許在將來的某一天,乳腺癌會變成可以被根治的疾病。
三、數據挖掘在乳腺癌運用中的前景
乳腺癌的診斷以往大都是建立在病檢并結合醫生經驗的基礎之上,帶有一定的主觀性和偶然性,有時候可能還會造成誤診的情況。而基于醫學信息數據庫系統的數據挖掘技術,從循證醫學的角度出發,探索出最科學合理的方法,提高了乳腺癌診斷的準確性和客觀性,避免了主觀因素帶來的影響,降低了不必要的活檢率,從而減輕患者的痛苦和經濟負擔,減少國家醫療資源的浪費,具有較廣泛的實用價值。因此,我們應開發出更先進的數據挖掘方法,快速有效地提取出信息的客觀特征指標,不斷完善數據挖掘技術,開發出性能良好、接近醫學專家水平、具有臨床實際應用價值的計算機輔助診斷系統,實現對臨床病例全方位的診斷,以便制定相應的治療方案。相信隨著數據挖掘技術在醫學中的廣泛應用,方法的不斷改進,數據挖掘在醫學領域的應用將更為廣闊和深入,從而帶來更大的社會和經濟效益。
參考文獻:
[1]鄒菊.數據挖掘與乳腺癌診斷的研究進展[J].生物醫學工程學雜志,2012(2),375-378.
[2]張婷,曹沛瑩,金順姬,鄭粉善.數據挖掘技術在乳腺癌研究中的應用進展[J].科技視界,2019(15):193-193.