寧波大紅鷹學院(315175) 徐 穎 楊海瓊 王 水
模糊聚類和logistic回歸對試管嬰兒成功因素的分析研究*
寧波大紅鷹學院(315175) 徐 穎 楊海瓊 王 水△
目的分析影響試管嬰兒成功率的關(guān)鍵因素,評價關(guān)鍵因素的相對重要性。方法通過采集試管嬰兒醫(yī)療數(shù)據(jù),確定影響因素并進行離散化,建立了妊娠結(jié)果對影響因素的logistic回歸模型。運用優(yōu)勢分析法定量評價關(guān)鍵因素的相對重要性。最后對所有樣本進行加權(quán)模糊聚類,分為普通和高危兩組患者并比較兩組醫(yī)學特征的異同。結(jié)果對logistic回歸模型進行統(tǒng)計學假設(shè)檢驗,得到年齡、移植胚胎數(shù)、促排卵藥物(Gn)總量、輸卵管和卵巢為影響成功率的關(guān)鍵因素。其重要性順序依次為:移植胚胎數(shù)、年齡、促排卵藥物(Gn)總量、輸卵管和卵巢。對聚類數(shù)據(jù)進行統(tǒng)計學假設(shè)檢驗,得到兩組患者在不孕狀態(tài)、子宮和卵巢方面差異具有統(tǒng)計學意義,在盆腔、輸卵管、子宮內(nèi)膜異位和精子質(zhì)量方面差異不具有統(tǒng)計學意義。結(jié)論logistic回歸模型適用于分析影響試管嬰兒成功率的關(guān)鍵因素。
試管嬰兒 logistic回歸模型 模糊聚類
據(jù)國家權(quán)威部門統(tǒng)計,我國目前約有超過4千萬不孕不育癥患者,并且每年仍呈增長趨勢。治療和解決不孕不育癥已成為具有重要社會意義的課題。試管嬰兒技術(shù)的出現(xiàn),為千萬不孕不育夫婦帶來希望和福音,但其20%~30%的成功率已成為制約其發(fā)展的瓶頸[1]。國外側(cè)重于從生理、病理的角度對試管嬰兒技術(shù)進行實驗性研究,探索改進成效的生物化學技術(shù),并取得了實質(zhì)性進展[2-3]。國內(nèi)在試管嬰兒技術(shù)的研究起步較晚,在繼承國外研究思路和理念的同時,也發(fā)展出通過中醫(yī)治療來提高試管嬰兒的成功率[4]。
綜上,國內(nèi)外側(cè)重于從生理、病理角度對試管嬰兒技術(shù)進行實驗性研究和定性探索。然而試管嬰兒的成功率受到各種因素的影響,如患者年齡、精子質(zhì)量等,純醫(yī)學實驗性定性分析或單因素定量研究難以把握各種不孕因素對成功率的綜合影響。本文采用logistic回歸模型和模糊聚類等多元統(tǒng)計分析技術(shù),在全面考慮各種影響因素的基礎(chǔ)上,客觀、定量地分析影響成功率的關(guān)鍵因素,得出具有臨床意義的指導(dǎo)意見。
本文的原始資料來源于某市級婦兒醫(yī)院,收集了2010年和2011年進行試管嬰兒培育的1588份樣本數(shù)據(jù)。采用SPSS 19.0軟件包進行統(tǒng)計分析。
1.確定影響因素,數(shù)據(jù)預(yù)處理
經(jīng)由醫(yī)學專業(yè)人員指定,將女性年齡、不孕年限等12個影響因素進入logistic回歸模型。將影響因素離散化,根據(jù)自變量的對數(shù)優(yōu)勢比具有線性關(guān)系的要求,轉(zhuǎn)化為相應(yīng)的分類變量,如表1所示。

表1 數(shù)據(jù)預(yù)處理
2.建立logistic回歸模型
設(shè)X=(X1,X2,…,X12)表示Logistic回歸模型的自變量,妊娠結(jié)果為因變量Y,其中Y=1表示妊娠失敗,Y=0表示妊娠成功。采用向后步進似然比方法篩選變量,其中變量進入的統(tǒng)計學檢驗水平為0.05,變量刪除的統(tǒng)計學檢驗水平為0.1。經(jīng)8次變量篩選后,得到最終進入模型的自變量的各指標。如表2所示。

表2 回歸模型中各參數(shù)取值
從表2可知,進入回歸模型的自變量分別是年齡(X1)、輸卵管(X4)、卵巢(X8)、Gn總量(X10)和移植胚胎數(shù)(X12),其統(tǒng)計學檢驗P值均小于0.1。
從表6可以看出,上海大型賽事的選擇與對標城市倫敦、紐約、東京、巴黎和墨爾本有著較高的一致性,其中網(wǎng)球、F1、田徑、高爾夫、馬拉松是上述城市都比較青睞的賽事項目。此外,對標城市都有舉辦具有本國特色的賽事項目,如倫敦舉辦的皮劃艇、橄欖球,紐約的印地賽車、籃球,東京的棒球、柔道,巴黎的自行車,墨爾本的板球等都是具有民族特色的賽事品牌。上海的斯諾克賽事雖然屬于級別較高的國際性賽事,但尚處于小眾的賽事項目,項目特性也與上海城市文化不太緊密。
由此建立logistic回歸模型為:

其中,p為妊娠失敗的概率。模型經(jīng)Chi-Square檢驗,得到χ2=60.339,df=5,統(tǒng)計學檢驗P值<0.05,表明回歸方程有統(tǒng)計學意義。
本文將妊娠失敗概率對成功概率的比值記為失敗風險。在其他變量取值不變的情況下,變量Xj的兩個水平C1與C2(C2>C1)相對應(yīng)的失敗風險之比為:
從表2可知,在其他變量取值不變的情況下:年齡每增加一個水平,失敗風險是增加前的1.605倍。輸卵管異常是正常水平失敗風險的1.221倍。卵巢異常是正常水平失敗風險的1.248倍。Gn總量每增加一個水平,失敗風險是增加前的1.203倍。移植胚胎數(shù)每增加一個,失敗風險是增加前的0.47倍。
相對重要性定義為每個自變量對于總變異的可解釋方差比例,包括自變量對因變量的獨自效應(yīng)和聯(lián)合模型中其他自變量的共同效應(yīng)[12]。本文運用優(yōu)勢分析法進行自變量重要性評價,采用以下兩個指標計算每個自變量的貢獻量。

其中,L0為只含截距項的模型的似然函數(shù)值,Lm為包含截距項和自變量的模型的似然函數(shù)值。n為樣本量。
通過計算和比較與某自變量有關(guān)的所有可能子模型的平均貢獻增量ΔR2,以評價該自變量的相對重要性。得到每個自變量的總平均貢獻后,每個總平均貢獻在總平均貢獻之和的比例即為該自變量的相對重要性。表3、表4給出分別采用指標計算回歸模型中每個自變量對妊娠結(jié)果的相對貢獻。當K=j(luò)(j=0,1,2,3,4)時,某個自變量的增值貢獻表示當該自變量加入到已包含第j個自變量的logistic回歸模型中所得到的平均增值貢獻。
1.數(shù)據(jù)標準化處理
表3 指標下自變量對妊娠結(jié)果的相對貢獻

表3 指標下自變量對妊娠結(jié)果的相對貢獻
平均貢獻增值貢獻ΔR2EX1X4X8X10X12K=0 0.0155 0.0016 0.0011 0.0031 0.0161K=1 0.0155 0.0017 0.0014 0.0030 0.0162K=2 0.0154 0.0018 0.0016 0.0029 0.0162K=3 0.0153 0.0018 0.0018 0.0028 0.0163K=4 0.0152 0.0018 0.0020 0.0027 0.0163總平均貢獻0.0154 0.0017 0.0016 0.0029 0.0162相對貢獻40.69%4.59%4.17%7.64%42.90%
表4 指標下自變量對妊娠結(jié)果的相對貢獻

表4 指標下自變量對妊娠結(jié)果的相對貢獻
平均貢獻增值貢獻ΔR2MX1X4X8X10X12K=0 0.0112 0.0012 0.0008 0.0022 0.0117K=1 0.0113 0.0013 0.0010 0.0022 0.0118K=2 0.0112 0.0013 0.0012 0.0021 0.0118K=3 0.0112 0.0013 0.0013 0.0021 0.0119K=4 0.0111 0.0013 0.0015 0.0020 0.0119總平均貢獻0.0112 0.0013 0.0011 0.0021 0.0118相對貢獻40.67%4.61%4.15%7.67%42.91%
聚類的樣本屬性由logistic回歸模型所確定的自變量構(gòu)成。采用標準化變換對屬性進行處理。變換公式如下所示:

n為樣本量,m為屬性個數(shù)。xij為第i個樣本在第j個屬性上的取值為第j個屬性的樣本均值,Sj為第j個屬性的樣本標準差。
2.選取凝聚點
樣本聚為兩類:G1,G2分別表示普通患者和高危患者。根據(jù)logistic回歸模型預(yù)測每個樣本妊娠失敗的概率,分別將失敗率最低和最高的兩個樣本作為凝聚點,其屬性取值作為兩類的初始重心:x(1),x(2)。
3.加權(quán)距離函數(shù)
設(shè)每個屬性的權(quán)重為wj,j=1,2,…,5,取各屬性的相對貢獻率作為權(quán)重。
定義第i個樣本到Gk(k=1,2)的加權(quán)距離為:

4.歸類
將所有樣本按與其加權(quán)距離最近的凝聚點歸類。計算每一類的重心,將重心作為新的凝聚點后,再次將所有樣品依據(jù)最近距離歸類,以此反復(fù),直到所有新凝聚點與前一次的老凝聚點重合。
5.聚類結(jié)果
樣本總量為1588例,聚類結(jié)果顯示普通患者(G1)1112例,高危患者(G2)476例。每組患者妊娠成功和失敗的個數(shù)見表5所示。
經(jīng)四格表χ2檢驗,得到χ2=710.596,df=1,統(tǒng)計學檢驗P值<0.05。可以認為兩組患者妊娠結(jié)局的差別有統(tǒng)計學意義。

表5 聚類結(jié)果
在醫(yī)學專業(yè)人員的指導(dǎo)下,將普通和高危患者部分醫(yī)學特征作對比分析,結(jié)果見表6所示。

表6 兩組患者醫(yī)學特征的對比分析
其中不孕狀態(tài)分為原發(fā)和繼發(fā)。盆腔因素分為正常和異常。輸卵管因素分為正常、輸卵管通而不暢、輸卵管阻塞、輸卵管術(shù)后、單側(cè)輸卵管切除術(shù)后和雙側(cè)輸卵管切除術(shù)后六種情況。子宮因素分為正常、子宮畸形、疤痕子宮、子宮肌瘤、子宮腺肌病和宮腔粘連術(shù)后六種情況。子宮內(nèi)膜異位分為正常、異位I期至IV期,共五種情況。卵巢因素分為正常、PCOS、卵巢功能減退、LUFS、單側(cè)囊腫術(shù)后、雙側(cè)囊腫術(shù)后和一側(cè)切除七種情況。精子質(zhì)量分為正常和異常。兩組患者在不孕狀態(tài),子宮因素,卵巢因素的差別有統(tǒng)計學意義。
本文通過對試管嬰兒數(shù)據(jù)的分析,建立了妊娠結(jié)果對影響因素的logistic回歸模型,檢驗后將年齡、移植胚胎數(shù)、Gn總量、輸卵管和卵巢確定為關(guān)鍵因素。并從縱向(單個影響因素不同水平的差異)和橫向(不同影響因素的相對重要性)兩方面定量分析關(guān)鍵因素對妊娠結(jié)果的影響。最后根據(jù)模型計算得到的試管嬰兒成功率將原始樣本聚類為普通患者和高危患者兩組,分別挖掘隱含于這兩組患者中的醫(yī)學指標特征,得到兩組患者在不孕狀態(tài)、子宮和卵巢因素上具有統(tǒng)計學差異,在盆腔、輸卵管、子宮內(nèi)膜異位和精子質(zhì)量因素上不具有統(tǒng)計學差異。研究結(jié)果將為臨床醫(yī)生提供定量、客觀的參考意見,為推動試管嬰兒技術(shù)的發(fā)展提供科學支持。
1.張麗珠.我國大陸“試管嬰兒”研究進展.生物學通報,1996,31(5):1-4.
2.David B,Deborah C.Merryman R.Evaluating a novel panel of sperm function tests for utility in predicting intracytoplasmic sperm injection outcome.Assisted Reproduction and Genetics,2013,30(4):461-477.
3.Verhagen T,Hendriks D,Bancsi L.The accuracy of multivariate models predicting ovarian reserve and pregnancy after in vitro fertilization:a meta analysis.Hum Reprod Update,2008,14(2):95-100.
4.蔡惠顏,佰翠沙.中藥配合針灸治療對試管嬰兒成功率影響的研究.新中醫(yī),2008,40(3):66-67.
5.Azen R,Traxel N.Using dominance analysis to determine predictor importance in logistic regression.Journal of Educational and Behavioral Statistics,2009,34(3):319-347.
6.Scott T,LeBreton J,Johnson J.Determining the statistical significance of relative weights.Psychological Methods,2009,14(4):387-399.
7.王濟川,郭志剛.Logistic回歸模型-方法與應(yīng)用.北京:高等教育出版社,2001:145-171.
8.郭秀花,王瑋,劉韞寧,等.利用兩水平Logistic回歸模型探討代謝綜合征的影響因素.中國衛(wèi)生統(tǒng)計,2010,27(2):139-141.
9.楊小兵.聚類分析中若干關(guān)鍵技術(shù)的研究.浙江大學博士論文,2005.
10.高惠璇.應(yīng)用多元統(tǒng)計分析.北京:北京大學出版社,2005:216-259.
11.汪存友,余嘉元.SPSS兩階聚類法如何自動確定聚類數(shù).中國衛(wèi)生統(tǒng)計,2010,27(2):202-203.
12.張波,沈其君.Logistic回歸模型中自變量相對重要性評價方法的研究進展.浙江預(yù)防醫(yī)學,2012,24(9):17-19.
(責任編輯:郭海強)
*:浙江省教育廳科研項目(Y201329710);寧波市自然科學基金(2013A610115)
△通信作者:王水,E-mail:machinelearning@126.com