徐 爽,許 丹,韓 爽,楊 穎
(中國醫科大學圖書館,沈陽 110122)
2002年,Kleinberg[1]提出了突發監測(burst de‐tection)算法,該算法是統計出低頻但卻比高頻詞更具有情報意義的突發詞,來探測學科前沿的方法[2]。突發是指一個變量的值在短時間內發生了一次或數次顯著的變化[3]。如果一個詞在特定時間內詞頻發生突變,即相對增長率突然上升,那么這個詞稱為突發詞[4]。突發詞按詞頻高低分為兩類:一類是相對詞頻較高,但尚未達到高頻詞閾值的焦點詞,這類詞被科研人員關注已久,影響力基本趨于穩定,并逐步向高頻詞靠近;另一類是低頻新生詞,這類詞是該學科的新興研究熱點,尚未引起該領域的普遍關注,正處于發展階段[5]。Kleinberg[6]認為,一個詞出現時的密度決定該詞的重要性。突發詞強度不單單受時間或詞頻的制約,在密度上對揭示學科前沿動態更具有及時性和情報價值[7]。突發監測算法不是單純地統計某一領域特定時間內的詞頻變化,而是對詞頻增長率進行比較,及時發現未達到高頻詞閾值的突發詞,其更注重學科內新的發展方向或熱點轉移,有助于發現和推動學科領域中的潛在微觀因素[8]。突發監測算法在挖掘某個學科領域未來的研究熱點方面,與其他同類詞頻分析方法相比,更能及時地揭示學科前沿動態[2]。
Kleinberg的突發監測算法是新興趨勢探測(emerging trend detection,ETD)[9]的重要方法之一,此方法一經提出便備受學術界的關注。Mane等[10]選取了美國科學院院刊(Proceedings of the National Academy of Sciences of the United States of America,PNAS)中1982—2001年所有高頻詞中突發權重指數較大的前50個詞進行共詞分析;Ke等[11]用突發監測的方法揭示了美國計算機學會數據庫(ACM Digital Library)中信息可視化研究熱點的發展趨勢。國內基于突發監測算法的研究多集中于應用陳超美教授開發的CiteSpace的突發監測功能。Chen[12]認為,突發詞的探測有助于發現學科發展中處于上升階段的熱點動態,更能夠推斷學科的前沿方向。這類研究基于詞頻分析角度,從文獻的標題、摘要、主題詞等信息中提取出詞頻突發的專業術語概念,并用知識圖譜的方式展示出突發詞網絡[13]。楊選輝 等[14-15]以CNKI(China National Knowledge Infra‐structure)中“深閱讀”和“關聯數據”研究文獻為基礎數據,利用CiteSpaceⅢ的突發監測功能分析兩個領域的研究熱點和新興趨勢;尚曉倩[16]以Web of Science核心合集中“Altmetrics”研究主題為數據來源,借助CiteSpaceⅢ繪制突發詞共現時區視圖,探究國際Altmetrics領域的熱點主題及未來發文趨勢;鄭樂丹[17]利用CiteSpaceⅡ中的突發監測功能對CSSCI(Chinese Social Sciences Citation Index)中“數字圖書館”研究文獻進行可視化分析,挖掘數字圖書館領域的新興研究趨勢。此外,也有一些學者對突發監測算法進行擴展研究,以期提高突發主題的識別率。Zhou等[18]對突發定義進行創新提出了上升突發(increasing burst)和下降突發(de‐creasing burst);Chen等[19]引入持續因子(lasting factor)和突變因子(abrupt factor)進而提出持續性突發與突變性突發;李勇等[20]認為,固定的時間窗口有可能會割裂某些主題隨著時間的變化曲線而出現虛假突發主題,因此,其設計了在動態時間窗口內計算突發詞的基礎概率,并對比了基于全局概率和環境概率計算得出的突發權重對于較小突發的識別效率;李秀霞等[21]認為,Kleinberg算法對于近期的突發詞敏感性較弱,其提出了一種基于加權中值相關系數和半閾值策略的突發詞監測方法,并應用于“教育虛擬社區”研究領域的熱點話題分析。突發監測的方法也是大數據時代話題監測與追蹤方面的關鍵技術之一[22-24]。
然而,多數學者應用突發監測算法對某一學科領域主題演進趨勢的分析往往是覆蓋全領域的探測。全局突發監測對于一個相對比較大的學科來說,獲得的突發詞可能分散在不同的子領域中,突發詞與突發詞之間的聯系并不緊密,甚至毫無關聯。而對于某學科的專家來說,想要了解自己研究領域的前沿,用全局探測的方法則難以實現。尤其是在醫學領域中,研究方向紛繁復雜、異質性強,單純疾病研究就分為臨床研究和基礎研究,而臨床研究又包括病因、癥狀、診斷、治療等研究方向,基礎研究又劃分為病理、生理、藥理,等等[25]。如果臨床醫生想要了解疾病某一方面的發展趨勢,即使在數據采集階段加以限制,也難以避免噪聲詞對研究過程的干擾。因此,本文從分析流上進行了突破,提出了一種突發監測與語義分析相結合的方法,放大特定研究方向上的局部熱點變化趨勢,力求最大化除噪率[26],并兼顧漏爆率[27],以期得到某一研究領域指定研究方向的主題發展脈絡藍圖及前沿走勢。
語義分析是對各級語言單元的意義分析,即對字、詞、短語、句子、段落、篇章的語義內容及組合規律的分析[28]。語義分析通過對文本信息的歸納、總結和推理,辨識出事物或事件之間的關系,并及時有效地反饋知識[29],是自然語言處理和人工智能的關鍵技術之一。通過語義分析識別具有特定語義關系的術語單元,結合突發監測算法計算術語單元的突發權重指數,從而洞悉特定領域發展脈絡及主題演進的一組術語概念集合。目前,基于突發監測算法的研究主要是方法學介紹或應用于圖書情報學領域,尚無此方法在醫學或公共衛生領域中的研究報道。應用SemRep(semantic representation)根據一體化醫學語言系統(unified medical language system,UMLS)對SARS藥物治療文獻進行語義分析,提取治療SARS的藥物術語概念集,排序后得到治療SARS的常規藥物。根據Kleinberg突發監測算法公式計算術語概念集中突發概念的突發權重指數,形成治療SARS的藥物突發詞頻表,根據局部熱點的突發方向得出治療SARS的潛力藥物。本文在新型冠狀病毒(severe acute respiratory syndrome coronavirus 2,SARS-CoV-2)肺炎疫情全球暴發流行的背景下,試圖提出一種快速構建某種疾病治療藥物歷史與前沿的方法,為新型冠狀病毒藥物治療提供線索。
突發監測算法與語義分析相結合,超越了單純突發監測方法簡單直接的數據挖掘呈現,借助語義關系洞悉知識本質。從知識集合中,尋找有意義的關聯,挖掘事物變化的規律,預測熱點主題的演進趨勢,則需要將兩股力量進行整合,從而實現某學科領域中特定研究方向上術語概念集的模型構建[30],如圖1所示。

圖1 突發監測算法與語義分析相結合的數據模型分析框架
以“Severe Acute Respiratory Syndrome”為主題詞、“drug therapy”為副主題詞,"Severe Acute Re‐spiratory Syndrome/drug therapy"[Mesh]為檢索策略在PubMed中檢索2003—2019年間的數據,獲得SARS藥物治療相關文獻382篇。其中,文獻類型限定為Journal Article、Clinical Trial、Clinical Trial,Phase I、Clinical Trial,Phase II、Clinical Trial,Phase III、Clini‐cal Trial,Phase IV、Controlled Clinical Trial、Ran‐domized Controlled Trial、Comparative Study、Multi‐center Study、Technical Report等。這些文獻類型能夠體現原始實驗數據的表象,直接反映學科前沿動態,剔除綜述等回顧性研究的文獻類型,存儲為MEDLINE格式。
2.3.1 Semantic Representation(SemRep)
SemRep是美國國立醫學圖書館開發的一種基于UMLS用于提取自然語言語義關系的程序[31]。UMLS是美國國立醫學圖書館(National Library of Medicine,NLM)自1986年起研究和開發的通過提取自然語言語義關系的方式進行數據挖掘的軟件,主要用于解決不同人群或不同數據庫對于同一概念表述不同,以及數據庫檢索分散所造成的檢索不完整的問題,是實現跨數據庫一體化檢索的詞匯轉換系統[32]。SemRep借助UMLS的專家辭典和MedPost詞性標注器實現語義分析[33],從MEDLINE格式的生物醫學文本句子中,提取形如“主|謂|賓”的三元組,稱為語義述謂項(semantic predication)[34]。語義述謂項包括一個主語、一個賓語,以及連接主語與賓語之間的語義關系謂詞。每個語義關系謂詞的主語和賓語均源自UMLS超級敘詞表,它們之間存在的關系是UMLS語義網絡通過135種語義類型為其提供的相互關系結構[35]。主語和賓語形成存在語義關系的概念對,由于概念對是在一個句子中提取的,因此,實現了概念間細粒度語義關系的表達[33]。SemRep處理結果逐條顯示從文獻中提取的概念以及概念之間的關系。
2.3.2 SemRep語義結果處理系統
利用閆雷、劉春鶴等開發的SemRep語義結果處理系統清洗SemRep輸出數據[31]。該系統可根據SemRep語義結果中指定的語義關系提取出相關概念,并統計出存在指定關系的有效概念的頻次,也可以將SemRep提取出來的所有關系按PMID(PubMed Unique Identifier)號或按概念進行排序。
Kleinberg突發監測算法,是指通過對突發詞進行動態監測的方法對詞語進行突發分析[1],從兩個詞到達的時間間隔的角度來衡量時間序列的密度,從而監測突發現象[36]。假定有n批數據,第t批數據有d t篇文獻,其中有γt篇文獻含有突發詞。令,其中,R表示n批數據中含有突發詞的文獻總數;令,其中,D表示n批數據中的文獻總數。設有限狀態概率機為,其中k是突發狀態的個數;s是控制概率機狀態差異顯著程度的規模參數,s越大,兩個狀態的差異就越顯著,突發就越激烈;γ是控制概率機狀態改變的成本參數,缺省值為1。假定在狀態qi(i≥0)下,含有突發詞的文獻在文獻集合中所占的比例為pi。p0=R/D為基狀態;p i=p0si(s>1,i=0,1,…,k),p i為第i個狀態下,含有突發詞的文獻在文獻集合中所占的比例,pi≤1。假定概率機狀態出現的序列為qi=(qi1,…,qit,…,qin),其中,qit表示突發詞在第t批數據中的狀態為qi。在狀態qi下,突發詞出現的概率為pi服從二次多項式。根據q的貝葉斯條件式,概率機在第t批數據時仍然處于qi的成 本 是。從qi躍遷到qj的成本是τ(it,it+1)=(j-i)γlnn。突發權重指數,代表從非突發狀態到突發狀態的躍遷成本,即突發權重越大,突發的可信度越高[38-39]。
突發權重指數公式化簡:

其中,r為該詞當年的頻次;d為當年文獻量;p0為10年內該詞出現的(總頻次/總文獻量);pi=p0×si,s為突發閾值,取8~16為宜[1]。s越大,則兩個突發狀態之間的距離越大;s越小,則突發狀態越明顯。考慮到突發狀態敏感度,s取8最佳,故本文中s參照此方法取值[1]。
因此,weight=rln(8)+(d-r)ln[(1-p1)/(1-p0)]
PubMed數據庫SARS藥物治療研究文獻最早出現于2003年,這與當年SARS疫情暴發流行的時間相符。2002年12月廣東省最早出現SARS疫情至2003年8月16日北京最后兩名SARS患者出院后[40],SARS病毒(SARS-CoV)僅存于實驗室中。SARS疫情結束后,相關藥物治療研究文獻呈逐年遞減趨勢,如圖2所示。2007年后,每年發表的研究文獻少于20篇,2014年后每年研究文獻少于10篇。本文截取文獻量大于20篇的前5年研究文獻作為數據源開展文獻計量學分析。

圖2 SARS藥物治療研究文獻發表數量
SemRep按照UMLS的規則將概念和關系輸出,其格式為15018130.ab.4|relation|C0035525|Ribavirin|nnon,phsu|phsu|||TREATS|C1175175|Severe Acute Respiratory Syn‐drome|dsyn|dsyn||其中,“15018130.ab.4”表示SemRep提取的概念和關系的位置,即在PMID為15018130的文獻摘要中第四句話;“Ribavirin”(利巴韋林)和“Severe Acute Respiratory Syndrome”(嚴重急性呼吸綜合征)是SemRep從這句話中提取出來的兩個有意義的共現概念;“C0035525”和“C1175175”是UMLS給這兩個概念分配的CUI號;“phsu”“dsyn”是UMLS賦予這兩個概念的語義類型,“phsu”代表“pharmacologic substance”表示“藥物”,“dsyn”代表“disease or syndrome”表示“疾病或綜合征”[41],即說明“Ribavirin”是一種“藥物”,“Severe Acute Respiratory Syndrome”是一種“疾病或綜合征”;“relation”表示“Ribavirin”和“Severe Acute Respiratory Syndrome”存在關系[42],兩個概念之間的語義關系是“TREATS”(治療),即“Ribavirin”可以治療“Severe Acute Respiratory Syndrome”。
利用SemRep語義結果處理系統,查詢出語義關系為“TREATS”(包括“TREATS(INFER)”和“TREATS(SPEC)”)的目標概念,每個語義關系系統提取2個概念。假設提取出的一組概念為:概念A“TREATS”概念B。在本文中,概念B按出現頻次高低依次為Severe Acute Respiratory Syndrome 48%、Patients 19%、Child 2.5%、Symptoms 2.5%、Respiratory Distress Syndrome Adult 1.8%、Virus Dis‐eases 1.8%等。由于在數據收集時已將文章主題限定為“Severe Acute Respiratory Syndrome/drug thera‐py”,因此,假定提取的概念B主要為SARS、SARS患者、SARS相關癥狀及并發癥等。本文只統計概念A的頻次,認為概念A是可以“TREATS”SARS、SARS患者、SARS相關癥狀或并發癥的概念。另外,一種藥物可以在一篇文章中多次出現,而重復統計沒有意義,故在同一年中PMID相同的概念A只統計一次,這樣可以減少概念重復出現造成的結果偏差。
SemRep語義結果處理系統的處理結果顯示,存 在“TREATS”(包 括“TREATS(INFER)”和“TREATS(SPEC)”)關系的概念共計75個。Thera‐peutic procedure、Pharmaceutical Preparations、Treat‐ment Protocols、Therapeutic agent(substance)、Diag‐nosis、Screening procedure、Assessment procedure、Advice、Meetings、Pharmacotherapy、Therapeutic Ef‐fect、Detection、Reporting、Application procedure等難以確定具體藥物的概念不在討論范圍內。將表示同一種藥物或同一種治療方法的概念進行合并,合并的概念包括Steroid therapy/Steroids、Immunoglobu‐lin G/Immunoglobulins,Intravenous/Immunomodulators/Immunotherapy、Antiviral Agents/Antiviral Therapy、Glucocorticoids/GLUCOCORTICOID THERAPY、Glu‐cocorticoids/GLUCOCORTICOID THERAPY、Lopina‐vir+ritonavir/Kaletra、Interferons/interferon alfacon-1/Interferon-beta、Chinese herbs/Chinese herbal medi‐cine。最終得到有效概念51個,統計這些概念每年出現的頻次,并計算5年的累計頻次。圖3為51種有效概念,即SARS常規治療藥物的頻次走勢。

圖3 SARS常規治療藥物研究的頻次趨勢(彩圖請見http://qbxb.istic.ac.cn/CN/volumn/home.shtml)
將概念按詞頻高低進行排序,表1列出了排在前10位的概念,從表1可知,排在前10位的常規藥物依次為Ribavirin(利巴韋林)、Adrenal Cortex Hormones(腎上腺皮質激素)、Steroids/Steroid ther‐apy(類固醇)、Antiviral Agent/Antiviral Therapy(抗病毒藥/抗病毒治療)、Methylprednisolone(甲強龍)、Interferons/interferon alfacon-1/Interferon-beta(干擾素/干擾素α1/干擾素β)、Immunoglobulin G/Immunoglobulins, Intravenous/Immunomodulators/Im‐munotherapy(免疫球蛋白G/免疫球蛋白靜注/免疫調節劑/免疫療法)、Glucocorticoids/GLUCOCORTI‐COID THERAPY(糖皮質激素/糖皮質激素治療)、Chinese herbs/Chinese herbal medicine(中草藥)、Lopinavir+ritonavir/Kaletra(洛匹那韋+利托那韋/克力芝)。

表1 概念頻次排序一覽表(前10位)
根據突發權重指數公式,計算概念的突發權重指數。表2按突發權重指數的高低列出了存在突發現象的概念。從表2可見,排在前10位的潛力藥物依次為Dexamethasone(地塞米松)、Cathepsin L(組織蛋白酶L)、Protease Inhibitor(蛋白酶抑制劑)、Vaccines(疫苗)、adjuvant therapy(輔助治療)、Supportive care(支持性治療)、Inosine Mono‐phosphate Dehydrogenase Inhibitor(肌苷磷酸脫氫酶抑制劑)、Endopeptidases(內肽酶)、Markers,Bone(標記,骨)、Combined Modality Therapy(聯合治療)、Stimulation procedure(刺激治療)。

表2 概念突發排序一覽表(前20位)
SemRep篩選出的SARS常規藥物中,排在前10位的藥物大致分可以為四類:抗病毒藥、激素類藥物、免疫調節劑和中草藥,具體見表1。在SARS大流行的早期,利巴韋林和皮質類固醇的聯合治療被中國香港、加拿大等地列入標準治療方案[43-44]。隨后的研究顯示,利巴韋林具有較高的毒性,在體外缺乏對SARS-CoV的抗病毒作用[43]。皮質類固醇的大劑量應用與SARS患者髖部骨密度降低有關[45]。SARS患者應用類固醇或糖皮質激素治療后,股骨頭壞死進展的研究顯示:影響股骨頭壞死的因素有愈合活度、皮質類固醇的劑量總和以及治療時間;影響骨密度的因素包括年齡、激素劑量總和以及治療時間;影響骨纖維和彈性的因素是使用激素治療的時間長短[46-47]。而SARS-CoV并不是直接影響股骨頭缺血性壞死和骨質疏松的致病因素[47]。干擾素和免疫調節劑能夠抑制SARS-CoV復制[48]。洛匹那韋+利托那韋在SARS臨床治療效果上呈現出與療效的正相關關系[49]。與單用西藥相比,中草藥聯合西藥治療SARS在降低死亡率方面無顯著差異。中草藥聯合西藥可以改善SARS患者的癥狀、生活質量和肺浸潤吸收程度,降低皮質類固醇的用量[50]。這些SARS常規藥物在疫情發生時,主要應用于臨床急救,甚至用于搶救危重患者的生命,其中還包括使用過量造成嚴重SARS后遺癥的激素類藥物。
根據突發監測算法得到的SARS治療潛力藥物,大多數是在SARS疫情結束后進行的實驗室研究,也包括動物實驗等形式。為了明確糖皮質激素對SARS患者肺部的作用和潛在的免疫抑制機制,地塞米松作為一種長效類糖皮質激素,用于感染豬呼吸冠狀病毒(PRCV)和SARS-CoV n蛋白誘導的大鼠肺炎的研究中[51-52]。SARS-CoV感染是由一個獨特的三步過程而引起的:病毒與受體結合、病毒誘導受體依賴性S蛋白構象變化、組織蛋白酶L在核內蛋白水解。組織蛋白酶L蛋白水解的需求確定了一種前所未有的用于SARS-CoV感染的抑制劑類別[53]。為了尋找有效的抗SARS-CoV肽抑制劑,11個可被SARS-CoV主要蛋白酶或3CL蛋白酶裂解的寡肽用于SARS-CoV蛋白酶抑制劑的設計[54]。通過利巴韋林等肌苷-磷酸脫氫酶抑制劑在BALB/c小鼠肺部抑制SARS-CoV復制的研究發現,利巴韋林可能延長或增強病毒在肺部的復制,促進SARS的發病[55]。這一研究解釋了常規藥物利巴韋林在疫情早期廣泛使用,而經過后期的實驗證實其有毒性的原因,同時,也映射出高頻概念和突發概念在時間軸發展上的階段性特征。這類SARS潛力藥物不是臨床應急性藥物,更多的是通過實驗從細胞水平分子層面上阻斷SARS病毒復制,試圖找到從根本上對抗SARS病毒的方法,以開發對SARS病毒起到直接作用的藥物或疫苗。
圖4列出了頻次大于2的突發權重指數排在前5位的概念,同時,也是突發權重指數大于0.8頻次排在前5位的概念,這些類概念同時具有突發性和高頻性,既是SARS藥物治療領域中的研究重點,又是潛在的研究趨勢。

圖4 高頻突發概念(前5位)
突發高頻概念和高頻突發概念并不完全重合,見表1和表2,由此可知,高頻詞和突發詞在判斷一個學科領域發展趨勢上的側重點不一致。高頻詞側重于該學科領域當前的研究重點,本文中Sem‐Rep提取出的藥物是應對SARS疫情的緊急治療方案;突發詞側重于該學科領域潛在的研究趨勢,利用突發監測算法得到的藥物是SARS疫情結束后,對SARS病毒后續的研究方向。高頻詞主要記錄了學科的靜態表象,對于時間和頻次的動態變化并不敏感[56]。在探測學科新興趨勢方面,突發監測算法要比高頻詞方法更能發現學科的動態發展變化。
本文得出的SARS治療藥物與《新型冠狀病毒感染的肺炎診療方案》的多個版本中[57-61]列入的部分藥物高度吻合,這可能與新型冠狀病毒的基因組分析表明該病毒與SARS-CoV有79.5%的相似性,均屬于SARS相關冠狀病毒(SARSr-CoV)[61]有關,兩者均是通過血管緊張素轉化酶2(ACE2)受體入侵人體細胞[62]。潛力藥物能否在未來對抗SARSCoV-2中發揮作用,還有待醫學家進一步驗證。本文為突發公共衛生事件應急措施提供了一個思路:突發疫情時,在沒有特效藥,沒有疫苗的情況下,可否借鑒既往相似疾病的研究,快速搜集相似疾病的治療藥物,在短時期內“老藥新用”“拖住”病毒,延緩其擴散能力,為抗病毒藥物和疫苗的研發搶出時間。
突發監測算法中部分參數的設定存在一定的主觀性,特別是突發閾值s取值范圍較大,只能根據以往的研究估定一個值。參數k、γ的確定也具有主觀性,這些參數最終可能會影響最優序列的選擇。突發監測算法在詞的篩選、干擾詞的剔除以及參數的選擇時,對操作人員的專業素質要求較高。雖然本文使用了全球公認最大、最權威的生物醫學文獻數據庫PubMed收集原始文獻,但忽略了專利、會議論文、學位論文等文獻形式的收集,并且不能代替實驗室研究、臨床Ⅰ期、Ⅱ期、Ⅲ期、Ⅴ期等藥物研發必不可少的基本流程。
突發監測方法是指通過觀察增長率驟然上升的詞的發展變化,來探測學科前沿的方法。這種方法可以觀察到低頻詞的變化趨勢,為學科前沿的探測提供了有益參考[63]。一個領域的研究方向眾多,對于全領域的詞頻統計在局部熱點的微觀變化上敏感性較差,很難追蹤特定研究方向的前沿動態。本文基于突發監測算法的定義,設計了SemRep結合突發監測的分析方法,在放大某一個領域特定研究方向的微觀變化上,體現出了一定的可行性。
本文利用SemRep結合突發監測的方法,不僅可用于疾病藥物治療領域研究現狀以及發展趨勢的分析,也適用于各個學科研究熱點的挖掘。利用突發監測的方法探測某學科領域潛在的熱點趨勢,為文本知識發現提供了一種新的嘗試。