孔永強(qiáng),劉金凱,顧佳琪,徐景怡,鄭雨諾,魏以梁,伍少遠(yuǎn),
研究報(bào)告
南-北方漢族人、韓國人和日本人遺傳劃分機(jī)器學(xué)習(xí)模型優(yōu)化方案
孔永強(qiáng)1,劉金凱1,顧佳琪2,徐景怡1,鄭雨諾2,魏以梁2,伍少遠(yuǎn)1,2
1. 天津醫(yī)科大學(xué)基礎(chǔ)醫(yī)學(xué)院生物化學(xué)與分子生物學(xué)系,天津市表觀遺傳學(xué)重點(diǎn)實(shí)驗(yàn)室,天津 300070 2. 江蘇師范大學(xué),江蘇省系統(tǒng)發(fā)育與比較基因組學(xué)重點(diǎn)實(shí)驗(yàn)室,徐州 221116
中國漢族人、韓國人和日本人作為東亞主體人群,其中中國漢族人呈現(xiàn)由北向南的梯度混合,在遺傳結(jié)構(gòu)上存在不同程度的差異。為實(shí)現(xiàn)對中國南-北方漢族人、韓國人和日本人的高分辨率遺傳劃分,本研究收集和分析了文獻(xiàn)報(bào)道和實(shí)驗(yàn)室前期數(shù)據(jù)篩選出的1185個(gè)東亞人群祖先信息性SNPs (ancestry informative SNPs, AISNPs),應(yīng)用softmax與隨機(jī)森林兩種機(jī)器學(xué)習(xí)算法構(gòu)建族群遺傳劃分模型,然后利用系統(tǒng)發(fā)育樹、STRUCTURE和主成分分析方法進(jìn)一步評估不同模型AISNPs位點(diǎn)組合的族群分類效果,最終篩選出234-AISNP的最優(yōu)組合,softmax模型準(zhǔn)確率為92%,實(shí)現(xiàn)了南方漢族人、北方漢族人、韓國人和日本人的高精度區(qū)分。本研究測試的兩種機(jī)器學(xué)習(xí)算法模型為近距離人群的高分辨率劃分提供了重要參考,可作為法醫(yī)DNA族群推斷體系位點(diǎn)開發(fā)的重要工具。
法醫(yī)遺傳學(xué);祖先信息位點(diǎn);機(jī)器學(xué)習(xí);東亞人群;南北方漢族
在法醫(yī)學(xué)案件偵破過程中,利用不同人群之間等位基因頻率分布差異較大的遺傳標(biāo)記,即祖先信息標(biāo)記(ancestry informative markers, AIMs),進(jìn)行種族地域分析,可以縮小嫌疑人的偵查范圍[1]。……