陳凌宇,鄧金城,盧燕妮
(1.玉林市第一人民醫(yī)院腫瘤科,廣西玉林 537000;2.深影醫(yī)療科技(深圳)有限公司,廣東深圳 518109;3.廣西醫(yī)科大學(xué)附設(shè)玉林衛(wèi)生學(xué)校學(xué)生工作部門,廣西玉林 537000)
放療數(shù)據(jù)是惡性腫瘤治療過程中產(chǎn)生的相關(guān)數(shù)據(jù),其產(chǎn)生的途徑主要分為3方面,一是由醫(yī)院信息管理系統(tǒng)、電子健康記錄以及個(gè)人健康記錄中產(chǎn)生;二是由放射治療計(jì)劃管理中產(chǎn)生;三是由醫(yī)學(xué)影像設(shè)備產(chǎn)生[1]。這些放射數(shù)據(jù)中包含患者所有的個(gè)人信息、診斷結(jié)果、治療記錄以及用藥和住院治療等多個(gè)方面的詳細(xì)信息[2];這些信息結(jié)構(gòu)復(fù)雜,類別較多,包含醫(yī)學(xué)影響、診斷記錄、病歷檔案等,整體可分為結(jié)構(gòu)化信息、半結(jié)構(gòu)化信息以及非結(jié)構(gòu)化信息[3],具有顯著的多源異構(gòu)特性,因此在一定程度上呈現(xiàn)相互孤立、且分散程度較高等分布狀態(tài)。除此之外,放療數(shù)據(jù)存儲(chǔ)于不同的治療科室內(nèi),導(dǎo)致醫(yī)生在進(jìn)行臨床應(yīng)用時(shí),無法全面掌握數(shù)據(jù)情況,到時(shí)數(shù)據(jù)的可利用程度較低[4]。近幾年惡性腫瘤的臨床治療病例顯著增加,各大醫(yī)院對(duì)于該類患者進(jìn)行治療過程中,均需依據(jù)放療數(shù)據(jù)完成,因此,導(dǎo)致各大醫(yī)院對(duì)于放療數(shù)據(jù)的管理需求也逐漸增加,如何有效、全面、合理的實(shí)現(xiàn)放療數(shù)據(jù)的整合和管理[5],對(duì)于患者情況的掌握以及其放療數(shù)據(jù)的分析具有重要意義。
數(shù)據(jù)挖掘技術(shù)屬于人工智能領(lǐng)域中的一項(xiàng)重要的大數(shù)據(jù)處理技術(shù),該技術(shù)具有良好的大數(shù)據(jù)處理能力,可獲取海量數(shù)據(jù)中的隱藏信息。并且該技術(shù)具有不同類型數(shù)據(jù)的挖掘和處理能力[6],能夠較好地完成具有多源異構(gòu)特性的分析和處理;除此之外,其還能夠完成數(shù)據(jù)庫的挖掘。因此,本文針對(duì)放療數(shù)據(jù)的管理需求,提出基于數(shù)據(jù)挖掘的放療數(shù)據(jù)分析與評(píng)估技術(shù),并對(duì)該技術(shù)的應(yīng)用情況展開相關(guān)分析和測(cè)試。
由于放療數(shù)據(jù)為多源異構(gòu)數(shù)據(jù),數(shù)據(jù)的類別較多、結(jié)構(gòu)較為復(fù)雜,因此,本文為實(shí)現(xiàn)放療數(shù)據(jù)的全面、有效管理,主要依據(jù)基于數(shù)據(jù)挖掘模型進(jìn)行放療數(shù)據(jù)的挖掘,該模型結(jié)構(gòu)如圖1描述。

圖1 放療數(shù)據(jù)挖掘模型結(jié)構(gòu)
數(shù)據(jù)挖掘模型在進(jìn)行放療數(shù)據(jù)挖掘時(shí),可以對(duì)各個(gè)部門中的患者檔案、電力病例以及相關(guān)治療記錄文檔和表格進(jìn)行深度挖掘,并且對(duì)挖掘和抽取的放療數(shù)據(jù)進(jìn)行加載和轉(zhuǎn)換處理后,實(shí)現(xiàn)放療數(shù)據(jù)的高效整合[7],以此構(gòu)建統(tǒng)一的元數(shù)據(jù)庫。以元數(shù)據(jù)庫為基礎(chǔ),利用數(shù)據(jù)引擎獲取其中的放療數(shù)據(jù)和信息,并且通過可視化界面,將所需的放療數(shù)據(jù)呈現(xiàn)給用戶。通過該模型即可有效解決臨床中放療數(shù)據(jù)的分散現(xiàn)象,實(shí)現(xiàn)放療數(shù)據(jù)的整體化管理,提升放療數(shù)據(jù)的管理水平。
由圖1 可知,放療數(shù)據(jù)庫的構(gòu)建是以元數(shù)據(jù)庫為基礎(chǔ),因此,本文為保證放療數(shù)據(jù)庫構(gòu)建后數(shù)據(jù)的調(diào)用能力以及數(shù)據(jù)完整性,文中采用MVC 框架作為放療數(shù)據(jù)的數(shù)據(jù)庫結(jié)構(gòu),該框架主要分為模型層、視圖層以及控制層,通過3層之間的相互支撐,完成數(shù)據(jù)庫基礎(chǔ)結(jié)構(gòu)的構(gòu)建。其中,模型層是數(shù)據(jù)庫框架的基礎(chǔ),其主要作用是為數(shù)據(jù)庫構(gòu)建提供相應(yīng)功能支撐,保證放療數(shù)據(jù)業(yè)務(wù)處理流程滿足相關(guān)標(biāo)準(zhǔn)和規(guī)則;視圖層主要是用于實(shí)現(xiàn)數(shù)據(jù)庫的可視化和交互,使用戶能夠查看數(shù)據(jù)庫中的數(shù)據(jù)結(jié)果;控制層屬于數(shù)據(jù)庫框架中的中間層,主要用于另外兩層之間的數(shù)據(jù)傳送和操作的協(xié)調(diào)和控制。
采用數(shù)據(jù)挖掘技術(shù)進(jìn)行放療數(shù)據(jù)挖掘時(shí),以元數(shù)據(jù)庫為基礎(chǔ),利用數(shù)據(jù)挖掘引擎獲取其中的放療數(shù)據(jù),形成不同主題的放療數(shù)據(jù)集,實(shí)現(xiàn)放療數(shù)據(jù)庫構(gòu)建。本文為保證放療數(shù)據(jù)的挖掘效果以及數(shù)據(jù)庫的質(zhì)量,在進(jìn)行放療數(shù)據(jù)挖掘和存儲(chǔ)過程中,主要采用聚類算法完成。
式中:me表示所有質(zhì)心數(shù)量;αi表示質(zhì)心,屬于同一個(gè)放療數(shù)據(jù)樣本,其計(jì)算公式為:
式中:X表示放療數(shù)據(jù)總樣本。
為避免挖掘的放療數(shù)據(jù)存在儲(chǔ)過程中發(fā)生畸變,文中引入畸變函數(shù)對(duì)挖掘的放療數(shù)據(jù)進(jìn)行約束,其計(jì)算公式為:
式中:J(c,α)表示距離平方和,對(duì)應(yīng)樣本點(diǎn)和其質(zhì)心之間,保證其取值為最小結(jié)果,同時(shí)完成(c,α)的收斂,以此獲取放療數(shù)據(jù)局部最優(yōu)結(jié)果。在此基礎(chǔ)上,依據(jù)概率強(qiáng)度和關(guān)聯(lián)重要程度,提升放療數(shù)據(jù)庫的應(yīng)用效果,確保放療數(shù)據(jù)的存儲(chǔ)和管理效果。
依據(jù)上述小節(jié)完成放療數(shù)據(jù)的挖掘后,為衡量挖掘結(jié)果對(duì)于臨床的應(yīng)用效果,挖掘的放療數(shù)據(jù)是否為有價(jià)值數(shù)據(jù),文中直接對(duì)數(shù)據(jù)挖掘結(jié)果進(jìn)行評(píng)估。該評(píng)估主要從兩個(gè)方面進(jìn)行,分別為用戶的主觀層面以及挖掘模型的客觀層面;前者主要通過3種標(biāo)準(zhǔn)進(jìn)行衡量,分別為易于理解程度、數(shù)據(jù)有效程度、潛在價(jià)值情況;后者則通過主觀度量進(jìn)行評(píng)估,該度量需具有放療數(shù)據(jù)特征給定能力,同時(shí)滿足已經(jīng)定義的信息需求。
本文在進(jìn)行挖掘模型客觀層面評(píng)估時(shí),度量信息能夠通過3個(gè)層次的度量,進(jìn)行數(shù)據(jù)挖掘模型的評(píng)估,分別為基本度量、派生度量以及指示器。挖掘模型的評(píng)估度量構(gòu)造模型如圖2描述。

圖2 數(shù)據(jù)挖掘模型的評(píng)估度量結(jié)構(gòu)
對(duì)數(shù)據(jù)挖掘模型在進(jìn)行放療數(shù)據(jù)挖掘后,會(huì)獲取若干條模式,其中也會(huì)存在一定的無價(jià)值模式,因此,對(duì)挖掘模型的挖掘結(jié)果進(jìn)行評(píng)估,是保證數(shù)據(jù)挖掘結(jié)果的有效手段;依據(jù)評(píng)估結(jié)果可去除沒有價(jià)值的模式,并且提升數(shù)據(jù)挖掘的效率。
為分析數(shù)據(jù)挖掘技術(shù)在放療數(shù)據(jù)分析與評(píng)估上的應(yīng)用效果,以某醫(yī)院的放療數(shù)據(jù)作為實(shí)例分析對(duì)象展開相關(guān)測(cè)試,測(cè)試主要包含兩個(gè)方向:一是放療數(shù)據(jù)庫構(gòu)建效果,二是放療數(shù)據(jù)分析效果。
放療數(shù)據(jù)庫構(gòu)建效果對(duì)于放療數(shù)據(jù)的應(yīng)用效果存在直接影響,文中采用離散度常數(shù)作為衡量指標(biāo),用于分析數(shù)據(jù)庫中,同類放療數(shù)據(jù)的差異性,該指標(biāo)的取值范圍在0~1 之間,越接近1 表示數(shù)據(jù)庫的構(gòu)建效果越差。該指標(biāo)的計(jì)算公式為:
式中:mean表示加權(quán)平均數(shù);ij表示放療數(shù)據(jù)元素的一個(gè)項(xiàng)。
依據(jù)該公式獲取本文技術(shù)進(jìn)行放療數(shù)據(jù)庫構(gòu)建后,在不同的數(shù)據(jù)類別下,隨著數(shù)據(jù)量的逐漸增加,σ2的測(cè)試結(jié)果,如表1描述。

表1 離散度常數(shù)測(cè)試結(jié)果
由表1結(jié)果可知:在數(shù)字化結(jié)構(gòu)數(shù)據(jù)、影像數(shù)據(jù)以及結(jié)構(gòu)化數(shù)據(jù)三種數(shù)據(jù)類別下,隨著數(shù)據(jù)量的逐漸增加,采用本文技術(shù)進(jìn)行數(shù)據(jù)挖掘后,構(gòu)建數(shù)據(jù)庫,數(shù)據(jù)庫發(fā)的離散度常數(shù)σ2結(jié)果均在0.025 以下,表示同類放療數(shù)據(jù)之間的差異性較小,能夠有效完成放療數(shù)據(jù)挖掘,數(shù)據(jù)庫的構(gòu)建效果較好。
為驗(yàn)證本文技術(shù)應(yīng)用后,對(duì)于放療數(shù)據(jù)的分析效果,隨機(jī)抽取一條數(shù)據(jù)庫中存儲(chǔ)的放療信息,并對(duì)該信息記性分析,獲取分析結(jié)果如圖3所示。

圖3 放療數(shù)據(jù)的分析效果
由圖3結(jié)果可知:本文技術(shù)應(yīng)用后,能夠?qū)崿F(xiàn)數(shù)據(jù)庫中放療數(shù)據(jù)的解析,并獲取解析結(jié)果,該結(jié)果中包含患者的CT 檢查數(shù)據(jù)以及部分的治療信息。因此,本文技術(shù)具有放療數(shù)據(jù)分析能力,能夠精準(zhǔn)掌握數(shù)據(jù)庫中放療數(shù)據(jù)詳情。
數(shù)據(jù)挖掘技術(shù)對(duì)于大數(shù)據(jù)的處理具有顯著優(yōu)勢(shì),放療數(shù)據(jù)包含多個(gè)類別的數(shù)據(jù)信息,對(duì)于數(shù)據(jù)的利用、患者情況分析等均具有一定影響。因此,為保障放療數(shù)據(jù)的二次利用,同時(shí)分析數(shù)據(jù)挖掘結(jié)果的可靠程度,本文探析數(shù)據(jù)挖掘技術(shù)在放療數(shù)據(jù)分析與評(píng)估上的應(yīng)用情況。以數(shù)據(jù)挖掘模型為基礎(chǔ),并依據(jù)該模型挖掘放療數(shù)據(jù),構(gòu)建數(shù)據(jù)庫,實(shí)現(xiàn)放療數(shù)據(jù)的統(tǒng)一封裝和管理,并且評(píng)估挖掘效果,確保放療數(shù)據(jù)的管理效果。