李陽,高林林,王之欽
(1.杭州市公安局刑事科學技術研究所,浙江 杭州 310016;2.浙江浙大陽光科技有限公司,浙江 杭州 310012)
違法犯罪人員DNA數據庫,簡稱“前科庫”,是由犯罪高危人群或犯罪人群的DNA分型結果構建而成[1]。DNA分型結果是否準確直接關系到數據庫的可靠性。
在前科庫建設工作中,經常會遇到檢驗失敗樣本需要重新處理的情況。一般檢出的判讀標準為:獲得符合各試劑盒要求的最低個數STR基因座及Amelogenin基因座分型,峰高達到要求閾值,雜合子不同等位基因的峰面積差異在30%以內[1]。若未達到這一標準,即判定樣本分型失敗。相比于首次檢驗的樣本,待重檢樣本的原始編號(即樣本保存號)沒有連續性。常規處理是:在分析數據時,提取出分型失敗的樣本,當達到一定量時,將這些不連續的分型失敗樣本逐個整理編寫成新的表格,即重檢提取對照表(簡稱重檢表單),并通過辦公軟件轉化成檢測上機表。重檢工作中編寫重檢表單和檢測上機表[2]這一步驟尤為繁瑣,極易出現人工失誤。因此,要克服編寫重檢表單的繁瑣、避免可能的人工失誤,用計算機程序代替人工編寫極具實用性和高效性[3]。
用計算機C語言編寫基于GeneMapperTMID-X軟件(美國Thermo Fisher Scientific公司)的抓取分型失敗樣本程序和重檢表單一鍵生成程序。
1.2.1 抓取分型失敗樣本程序
第一步,GeneMapperTMID-X軟件內參數設置及文件導出。運行GeneMapperTMID-X軟件,打開一個已分析并設置好Specimen Category選項為“Forensic,Unknown”或“No Export”的Project,點擊“Report Manager”功能鍵,頁面跳轉后,點擊“Report Settings Editor”鍵,在彈出的對話框中Selected Columns欄選擇顯示“Sample File”和“Specimen Category”兩項,點擊“OK”確定。頁面返回至Report Manager,點擊“File”功能鍵,導出格式為txt的待運行文件,保存至程序所在的文件夾里,以便后期運行。
第二步,抓取分型失敗樣本程序的運行。打開程序,按照提示輸入源文件名,程序運行結束,所需要的分型失敗樣本的集合文件以txt格式存至程序所在的文件夾(圖1)。得出的結果文件中顯示分型失敗樣本DNA號和No Export兩列。

圖1 抓取分型失敗樣本程序的運行及結果
1.2.2 重檢表單一鍵生成程序
第一步,程序運行前文件準備。一是優化抓取程序中得出的分型失敗樣本集合的txt文件,通過txt和excel之間的轉化將No Export這一列去掉(重檢表單一鍵生成程序里所需的待編排樣本號的txt文件僅需要樣本DNA號一列)。本實驗室在實踐中,將多個分型失敗樣本DNA號列表的txt文件積累到一定量(90個樣本號)后,結合成一個txt文件,以便后期程序運行時符合96孔編表的常規格式。二是需要樣本保存號與DNA號之間的對應表。對應表的獲取可以在前科樣本受理時整理,并轉化成txt格式。程序運行中的樣本DNA號須在這個對應表范圍內(圖2)。

圖2 前科樣本保存號和DNA號對應表的txt格式文件
第二步,重檢表單一鍵生成程序的運行。將程序、樣本保存號與DNA號之間對應表的txt格式文件、分型失敗樣本DNA號列表的txt格式文件(即抓取分型失敗樣本程序的結果優化文件)置于一個文件夾內,以便后期運行。打開程序,根據提示步驟輸入,程序運行結束后結果即存至當前文件夾內。其中,提示步驟設計簡單明了,僅需操作者依次輸入樣本保存號與DNA號之間對應表的txt文件名、對應表中的數據量以及在第一步中優化好的需重檢的表單名稱(圖3)。

圖3 重檢表單一鍵生成程序的運行和結果
綜合運行基于GeneMapperTMID-X軟件的抓取分型失敗樣本程序和重檢表單一鍵生成程序后,最終結果包括3張表單,即保存號96孔提取對照表(A表)、DNA號96孔提取對照表(B表)和檢測上機表(C表),見圖4~6。A、B表可在實驗提取過程中用于查找分型失敗樣本和96孔板孔位對照。就本實驗室而言,C表格式與3500基因分析儀(美國AB公司)跑樣表模式一致,可在檢測前直接導入3500基因分析儀做上機表(不同型號的分析儀須在編程時設置不同的上機表格式)。

圖4 保存號96孔提取對照表(A表)

圖5 DNA號96孔提取對照表(B表)

圖6 檢測上機表(C表)
當今社會是大數據時代、人工智能時代,利用計算機技術可對各種數據資源進行挖掘、整合,甚至分析、判斷和決策[4]。在這種大背景下,違法犯罪人員建庫的日常工作也可利用現有的平臺,通過計算機技術,開拓新的能大幅度提高建庫效率且保證數據準確性的實用方法。
在前科庫建設的各項工作中,表單的準確和快速編輯是實驗操作順利、高效進行的前提,一旦出現人工失誤,會使批量數據發生提取或(和)檢測錯誤。所以基于GeneMapperTMID-X軟件的抓取分型失敗樣本程序和重檢表單一鍵生成程序的聯合應用很大程度上提高了編表效率,避免了可能的人工失誤。
展望前科庫建設工作,由于重復性工作較多,盡可能用人工智能代替這些重復性勞動[5],是違法犯罪人員DNA建庫的一個發展方向。