劉暢,卞華,許博
(1.河南省中醫院(河南中醫藥大學第二附屬醫院)風濕病科,鄭州 450002;2.南陽理工學院張仲景國醫國藥學院,河南省張仲景方藥與免疫調節重點實驗室,河南 南陽 473004)
骨關節炎(osteoarthritis,OA)可影響任何滑膜關節,其中髖部、膝部、手部、足部和脊柱是最常受累的部位[1]。目前對影響OA發病的危險因素尚不清楚,多數研究[2]認為可能與年齡、性別、肥胖、遺傳、飲食,以及關節損傷、錯位和異常負荷有關。本研究基于基因表達圖譜數據庫芯片數據,通過與正常人群數據進行對比,探討OA發病的分子機制。
以“osteoarthritis”為關鍵詞,在基因表達綜合(gene expression omnibus,GEO)數據庫(https://www.ncbi.nlm.nih.gov/geo/)中檢索,選取編號為GSE51588和GSE98918的2組芯片,共包含52例OA和22例正常對照組實驗數據。再根據GEO數據庫中獲得的探針注釋文件,將每個數據集中的探針更改為基因符號,將這2個數據集合并到1個元數據隊列中進行集成分析。當同一基因符號對應多個探針時,將探針的平均值作為該基因的表達值。然后選取包含12例OA和12例正常對照組樣本的GSE117999芯片作為驗證隊列。
使用R軟件中的“limma”包對元數據隊列進行差異分析,采用“FDR”處理方法并設置過濾條件為logFCfilter>1,校正P<0.05,進行篩選得到DEG。然后使用R軟件中“clusterProfiler”包以P(Pvalue filter)<0.05為過濾條件對DEG進行基因本體(Gene Ontology,GO)和疾病本體(Disease Ontology,DO)富集分析。
使用最小絕對收縮和選擇算子(least absolute shrinkage and selection operator,LASSO)與支持向量機(support vector machine,SVM)2種機器學習算法預測特征生物標志物。首先利用R軟件中的“glmnet”包,對DEG使用LASSO回歸算法進行交叉驗證并篩選特征基因。通過R軟件中的“e1071”“kernlab”“caret”包采用支持向量機-遞歸特征消除(support vector machine-recursive feature elimination,SVM-RFE)方法,識別DEG中具有最高分辨能力的基因集。……p>