

摘要:探討模擬群體數和STR對同胞似然比(LR)的影響,為法醫遺傳學中LR臨界值的確定提供依據,可作為參考。用家庭S3軟件模擬100~100萬對全同胞,分別有15、19、29和39個STR,觀察似然比(LR)的分布及陽性率、陰性率、假陽性率、假陰性率的變化。事實證明當模擬種群數量超過105個時,LR值分別為99%、95%、5%和1%,當模擬種群數量低于104個時,LR值波動較大,并且范圍很大。當似然比為1時,15個STR系統的靈敏度為98.01%~99.0%;對19個STR系統進行了分析,結果為99.0% - 99.3%;29個STR系統占99%~99.85%;39個STR系統占99.93%~100%。當似然比為1時,所有被試實驗題的假陽性率為:15個STR系統的假陽性率為1.7225,19個STR系統的假陽性率為0.7370,29個STR系統的假陽性率為0.1311,39個STR系統的假陽性率為0.0593。當STR基因座數變化時,LR值也在變化,主要變現為:由15個增加到39個時,LR值的中位數、均值、最大值、最小值、99%、95%、5%、5%,1%,標準差也相應增加。從而得出模擬種群規模是影響LR分布的重要因素;在一定數量的人群中,識別系統在檢測系統中增加STR的數目,可以獲得更好更高的LR值。
關鍵詞:模擬數量變化;全同細胞;似然比
除了傳統的親子鑒定,他們提供的基因信息較少和被鑒定人的特殊性,對復雜的親屬關系進行識別細胞總數有一定差距,由于能力有限,一般無法完成更多的仿真數據。因為目前在法醫遺傳學領域沒有系統的公式和觀點,所以需要更嚴謹、更科學的統計數字來確定全體同胞之間的關系。
本研究的目的是,在大樣本數據的基礎上進行模擬和親合方法遺傳學中,評價不同STR系親緣關系概率的計算,總模擬量對全民辨識似然比的影響。家族3是根據DNA數據推斷親子鑒定概率計算的自由軟件,利用傳統的似然比可以計算和模擬最大項數,可以模擬106對數據。本文采用家族3軟件模塊,共提出100至100萬對全同胞,分別為15人、19人、29人和39人STR系統識別同胞時,不同模擬數的似然比的差異。
1.材料及方法
1.1建立假設實驗
本研究采用家庭3軟件對四種不同的STR,進行分析模擬了100到100萬對全同胞數據,它們是:15個STR系統(ABI標識符),19個STR系統;29 STR系統;39 個STR系統,這些系統全部是商用的. 在模擬試驗中,設置相應的全參數同胞個體和無關個體。到目前為止,可以建立以下兩個測試假設:
原始假設H0:個體1和2是同胞(在生物學方面,他們有同一個生父和同一個生母。)
備選假設:個體1和個體2沒有任何關系,就是兩者之間不會同一個生父。
1.2、參數設置
模擬實驗前,在軟件家族3中設定以下這幾個參數:①忽略系統中等位基因的檢測突變;②群體遺傳指數設為0;③在軟件中,將先驗參數設置為默認值;④設定可能性比值(LR)的范圍為0.1到1×108.模擬次數為100,1×103,1×104,1×105和1×106。收集統計所有的模擬數據,結果包括單個1和2的輸入數,根據數據和模擬數據得到的平均值、中值、最大值、最小值,99%、95%、5%、1%,以及%,STEDV的LR值。當設置在LR閾值時,家族3將產生相應的陽性(敏感性)結果和假陽性(1-特異性)結果。對于每個系統,當LR閾值在1到106之間時(表5-8),我們記錄了和比較了該方法的靈敏度和假陽性率。
1.3、結果分析
為了分析似然比的分布情況,對得到的LR值進行分類,LR的擬合線圖生成,主要由IBM SPSS 22.0.R.和Graphpad 5.0生成。K-S是用來檢測研究LR的分布情況。
2.結果
2.1、LR值的統計學參數和STR數量的關系
能夠看到個體1和個體2的全同胞指數(全同胞指數、FSD和LR值)。發現當STR基因座數從15個增加到39個時,LR值增加,包括中位數、平均值、最大值、最小值、99%,95%、5%、1%和標準偏差相應增加(見圖1)。
結果表明,增加檢測系統中STR的數目,可以提高檢測效率,可以得到更高的LR均值和一個更大的極點。STDEV值隨LR的增加而增加。(表1-4)
2.2、LR值和模擬人群數量之間的關系
在一定的情況下時,并且模擬種群的數量都超過1×106時(表1-4),LR的中位數、平均值和標準差增加。隨著模擬種群數量的增加,LR的最大值和最小值都會增加或減少。當模擬總體數較少時(100到10000),盡管LR中值的差異很小(在相同的數量級上),然而,LR的平均差異非常顯著,見圖2。但當模擬人口超過105,99%,95%和,5%和1%的LR值保持相同的數量級。除此之外,LR最大值和最小值的分布表明,隨著模擬種群規模的增大和模擬量的膨脹,LR將有一個極值(圖2)。考慮到這個世界真正的人口,極值問題就會出現在真正的人口中,并且可能大于表1-4中的數據。
3.討論
由于軟件和計算機仿真能力的限制,我們無法進行仿真超過106數據。STDEV值隨時間的增加而增加,模擬次數增加了10-1000倍,這反映了LR值和極值的很大變化。同時,平均數和平均數字變異沒有太大的變化,約為10倍。這反映了當模擬次數超過104時,系統被認為是穩定的。此外,系統中STR的數量越多,靈敏度和假陽性率也越高。
3.1、STR數量的影響
閾值的靈敏度是在設定一定的閾值時能夠被檢測到兩組的假陽性率均為0。根據LR的定義,當LR大于1時,支持H0,反之支持H1。實際上,例如當LR大于100時,更可能選擇更高的LR閾值來降低誤判率。因此,在一定的閾值情況下,真陽性率和假陰性率就會產生。其中,誤判率是假陽性率和假陰性率之和。隨著閾值的增大,系統的靈敏度降低,假陽性率會隨著假陰性率的增加而降低。根據本文得到的數據,統計分析得出,設定適當的LR閾值可以檢測出系統的判斷能力,遺傳標記的數目可以提高系統的靈敏度,同樣的人口規模,總體趨勢是,隨著遺傳標記數量的增加以及隨著閾值的增大,會降低假陽性出現的概率。
3.2、模擬全同細胞數量的影響
通過模擬103-104個系譜,法醫科學家找到了10個親屬的LR在體內的分布。我們發現這種模擬會降低LR閾值和存在一定程度的假陽性。本文由39哥STR組成檢測過程中,LR閾值設置為1-108,模擬量為1000對全同細胞,未在所有兄弟姐妹中發現假陽性。值得注意的是,模擬數量是1× 104時或者LR閾值0.1時假陽性率也會出現。
在實際情況中,如果兩個人在識別過程中得到L當數據值超過100000時,可以100%確定整個同級關系。當LR大于105時,假陽性率變為0。但是,我們應該警惕假陽性的出現。根據現實世界中,對于大量的兄弟姐妹來說,假陽性的概率應該很低。因為現在還沒出現具有更大的模擬功能的軟件,因此,我們只能根據實驗得到的數據進一步計算了同胞的數量,并由此進行推斷。
結語:
在本文中,我們模擬了大量的全同胞數據,找到了其LR分布存在的一定規律,然而,并沒有被考慮基因和基因座之間的聯系,并且還會出現STR基因座突變的存在。雖然建立了5種突變模型,但本研究未進行突變模擬。這種突變確實存在,而且在LR值分布中起著重要作用。另外,有報道稱我們的模擬基因vWA-D12S391、D5S818-CSFIP0、D21S11之間的聯系較弱,但由于其在法醫遺傳學中的作用,它廣泛應用于免疫分析試劑盒中,他們之間的聯系可以不作為參考。本研究的模擬結果可為法醫遺傳學和辨識似然率臨界值的確定提供了參考,更為準確的分析親屬關系準備了做出了一定的貢獻,能起到一定的作用。
參考文獻:
陳子翔,王福振,陸惠玲,等,判別函數在同胞鑒定中的應用[J],中國法醫學雜志,2012,27(2):129—132
個人簡介
宋翠芹,出生年月日:1992年4月21日,女,漢,江蘇徐州人,本科,助理,目前在南京鑒云技術咨詢有限公司從事DNA實驗室相關工作
南京鑒云技術咨詢有限公司 210000