(天津工業大學,天津 300000)
伴隨著科學技術的不斷發展與進步,大數據時代的到來,面對技術巨大紛繁復雜的數據如何在大數據中挖掘出有用的信息,受到了個人團體及企業的重視,信息為個人企業的決策提供了重要的參考,在近些年來機器學習算法受到了學校企業以及相關機構的關注,機器學習是一門涉及到概率論,統計學等多門學科的交叉學科,從當前現有的數據中發現相應的規律,并利用這些規律對未來作出預測,通過利用機器學習方法能夠對相關的數據進行分析以及預測,在當前各個領域中得到了廣泛的應用[1]。在醫學領域中通過應用機器學習算法能夠有效地降低財力物力以及能力,有效提高當前醫療系統的運作效率,緩解當前人民群眾就醫難的問題,糖尿病是一種嚴重的慢性病以及多發病,在我國受多種因素影響,在近些年來呈現出上升趨勢,世界衛生組織指出全世界糖尿病患者超過4.22億人,上述患者主要位于中低收入國家。糖尿病的并發癥主要包括中風視力減退以及心臟病發作的給患者的健康產生嚴重的負面影響。你得通過選擇邏輯回歸,神經網絡,決策樹,支持向量機以及貝葉斯等5種機器學習算法對糖尿病進行預測,通過實驗顯示角色所取得了良好的效果,相關研究報告如下[2]。
決策樹是機器學習算法理論的重要組成部分,通常情況下也被稱之為判定書,往往是根據探測到的信息,根據相關的標準對其進行劃分,最終得到的結果世家某一數據安置在相應的枝條上,一般情況下整個決策過程往往開始于根節點,決策樹的特征節點與待測數據之間進行比較,選擇具有分歧的,結果作為分支,決策樹的學習方法主要有以下選擇:首先在特征選擇中,通過某一組給定的數據將其分類標準作為節點,其次是依據相關的標準生成決策樹從上到下規則的形成子節點一直到相關的數據不可分割,在這一冊書中很容易進行擬合,針對這一情況往往是用剪枝來解決[3]。
決策樹的基本算法如下:
(1)輸入:訓練集z={(x1,Y1,z1),(X2,Y2,Z2),(XM,YM,ZM)};屬性集B={B1,B2,bn}
(2)過程:函數TG(Z,b)
①生成節點n;
②如果Z 樣本都屬于同一類別A,那么
③將n標記為a類葉節點;return
④結束if
⑤如果B 是空集或Z,則B 中的樣本具有相同的值
⑥那么
⑦將n標記為葉節點,將類別標記為具有最大樣本數的Z
等級;回報
⑧結束if
⑨從b中選擇最佳的分區屬性b*;
⑩B*B*V do的每個B*值
為n生成一個分支;
設zv表示Z中的樣本子集,其值為b*上的b*V;
如果zv為空
將分支節點標記為葉節點,將其類別標記為Z中間節點
樣本最多的類;返回else
以TG(zv,B{B*})作為分支節點
結束if
(3)輸出:如果決策樹的根節點為n,通過以上相關的決策算法可以表明產生這一決策樹的過程是一個遞歸。
在整個算法運作過程中,希望每個分支點中所含的樣本應當盡可能的屬于同一個類型,即保持較高的節點程度,在臨床中通常使用信息熵來對評價樣本的集合程度進行評價。
假定集合A 中第n 類樣本所占的比例為:
pn(n=1,2,…,x),則A的信息熵定義公式為

Ent(A)這一數值的大小與a的程度有著密切的關系,兩者呈現出正比例的關系,通過,根據其相關的屬性分析,采取信息爭議的方法,必有多個選擇,樣本a使用b來對其進行話費將會產生多個分枝葉節點,要對樣本集進行屬性劃分,別說獲得的信息增益如公式(2),當信息增益增大時,則屬性b劃分所獲得的“純度提升”越大。

在學習的整個過程中,由于對節點的劃分會導致不斷的重復,進一步增加相關決策樹的分支,最終導致整個樣本出現擬合,通常情況下,主動采取措施來降低紛爭,從而進一步減少出現擬合的風險,并且在進行剪枝的過程中,科學的選擇處理方法,一般情況下有預剪枝和后剪枝兩種方法,點畫風不好時,使得整個性能出現偏差時,這種情況下,要積極主動停止進行劃分,把當前的節點設置為相關的節點后剪枝,從先給定的訓練集中成一棵完整的樹然后使用葉子節點來進行替換,這種方法比第1種方法要保留更多的分支,因此其性能更加優秀[4]。
在整個學習過程中。在啊,語言環境中本實驗順利進行,首先對原始數據進行預處理和清理,清除掉不相關的數據,對于相關缺少的數據,使用隨機地帶方法進行填充,按照70∶30的比例進行數據劃分,并且建立測試集合訓練集。在隨機訓練模型中有兩個參數是需要人為控制的,一個是隨機出現變量的個數m try,另一個是每次迭代生成的隨機森林中的角色數個數ntree。在實驗數據中共有9個變量相關的參數,從1~8可以對其進行8次建模,將每次的錯誤率進行統計并選擇錯誤率最低地值,根據相關研究結果表明,當mtry等于70,整個樣本出現錯誤的概率最低,通過決策數量以及可視化模型錯誤率之間的關系得出ntree的值為118[5]。進行cayenne建模得最關鍵的因素是選擇k 參數,科學合理地選擇k 參數,能有效的保證實驗的準確和順利,筆者在研究過程中通過應用交叉驗證的相關方法,通過利用相關函數發現參數最優為15,整個測試集的進度達到74%,通過利用e1071軟件包建立支持向量機模型。在非線性模型中通常采取的核函數有多項式核函數以及徑向基函數等。用于實驗調節,支持向量機函數來選擇相關的條件探索,通過采取交叉驗證的方法來對參數進行調節,最后將整個核函數作為優化建模的模型[6-7]。
在整個決策樹建模過程中,通過應用xgboost軟件包,第一時間建立相應的模型網絡,連續多次使用交叉驗證法,對整個參數進行系統優化,最終得到最優參數,從而建立相關的模型,利用該函數在信息包中尋找最優概率閾值,使誤差最小化,并得到最優概率閾值優化模型。
這次我們一共選取了15000條記錄的數據集,共有11個特征點,分別是病人編號,懷孕次數,血糖舒張壓,三頭肌皮褶厚度,血清胰島素體質指數、糖尿病譜系、年齡、是否患糖尿病以及患者醫生[8-9]。其中有10500個數據用作訓練,其余4500個數據進行測試,微軟的決策樹學習是此次應用的學習工具。通過我們進行改進,整體準確率達到了95.4%,整個預測精度達93.4%。
伴隨著當前我國經濟社會的不斷發展,在新時期人工智能領域以及大數據分析理論得到了社會大眾的廣泛關注,機器學習是較為常用的一種方法,在論文中通過應用邏輯回歸神經網絡決策樹支持向量機以及被子等相關的機器算法來對預測糖尿病,通過橫向的研究表明在整個預測過程中,通過應用決策數及準確率更高,但接下來在研究過程中,筆者將采集更多的數據,對當前的預測方法進行驗證,筆者堅信在未來醫療領域中機器學習算法將會得到日益廣泛的應用,給人們的疾病治療產生積極的推動作用,有效降低當前的醫療衛生系統負擔。