千人基因組計劃(the 1000 Genomes Project)旨在建立可以幫助人們理解遺傳變異在疾病發生過程中作用的綜合資源,這些資料包含了人類遺傳變異的地域性和功能性的特征。該計劃收集了來自歐洲、東亞、撒哈拉以南非洲地區和美洲共14 個民族的1 092 名個體的基因組資料,構成一個低覆蓋度全基因組和外顯子組測序的整合數據庫。通過開發新的方法對幾種算法和不同數據源的進行整合,成功地繪制出了有效的單倍型圖譜,其中包括3 800 萬個單核苷酸多態性(single nucleotide polymorphisms)位點、140 萬個短插入/短缺失(short insertions and deletions)以及超過1.4 萬個大片段缺失(larger deletions)。這些來自不同種族的個體擁有不同的罕見和常見變異體(rare and common variants),而且低頻率變異體(low-frequency variants)存在實質上的地域差異,如對數據進行優化篩選,這種傾向明顯增強。進化的保守性和編碼結果是優化篩選強度的關鍵性決定因素。在相互聯系的多個生物通路中,罕見變異體的負荷確實發生著實質性的改變,而且每一個體在保守位點上都含有數百個罕見的非編碼變異體(rare non-coding variants),例如在轉錄因子結合位點(transcription-factor-binding sites)上的基序斷裂改變(motif-disrupting changes)。以上這些整合性資源收集了相關民族98%以上、發生頻率為1%左右的單核苷酸多態性,可用于分析來自不同種族甚至混血個體的常見和低頻率的遺傳變異。