,精理,
軍事醫學研究離不開信息支撐。從信息的流通方式與傳遞范圍進行劃分,信息資源可以分為內部資源與公開資源兩類。因安全保密性要求,所有國家均將其自身產生的軍事醫學信息資源列入不同等級的涉密信息范圍,大大增加了對其搜集、組織與服務的難度。與此同時,世界各國從上世紀中后期開始就特別注重公開信息的研究,原因在于大多數國家的科學信息出版不受政府限制,公開信息內容的全面性、系統性以及易獲取性,使其研究價值往往超過內部信息。其中一個最典型的例子就是德國坦克問題[1]。
公開出版的軍事醫學相關信息都是軍事醫學研究的“基礎養分”,甚至物理學、化學及工程學等學科中一些重要的新發明、新技術、新物質等均可成為推動軍事醫學發展的重要“養分”。因此,充分利用現有的公開信息資源顯得非常重要,僅將其收集起來顯然無法滿足軍事醫學研究的需求,必須對其進行合理甄別、篩選、組織與描述。
從宏觀層面看,在互聯網信息資源采集與長期保存策略方面,歐美等西方國家采用全面收集、選擇性收集、聯合收集、專題收集和與出版者協商合作收集等不同策略完成了一些代表性的項目[2-4],而出于某一目的或某一主題的信息資源采集大多會選擇專題收集的方式完成。從微觀層面看,國內關于軍事醫學信息資源建設的研究較少。
龍旭梅運用情報調研、專家咨詢、統計分析等方法,提出了軍事醫學信息的鑒選原則、評價指標及操作步驟[5];劉偉等運用系統工程方法構建了從資源評價到效果評估的優化流程[6]。但前者的研究對象為圖書館紙質文獻資源,后者則重點關注期刊資源,二者均未涉及互聯網上的公開信息資源。另外,互聯網信息自動搜索技術研究由來已久[7-9],但從現有研究的理論模型成熟度與實際運行效果來看,尚屬于探索性研究范疇。網上的開放源碼(Open Resource)軟件大多存在采集策略簡單,爬行耗時較長等問題。
要確定軍事醫學信息資源的采集范圍,必須準確界定軍事醫學及其信息資源。由于適用對象或語境不同,學界對軍事醫學的界定存在較大差異。
本文采用的是學界引用較多的由賀福初于2011年提出的定義,即軍事醫學是研究在軍事活動中鑒定、保護、恢復和促進軍隊成員健康的理論、技術和組織方法的特種醫學,是醫學與軍事學的交叉學科[10]。
由于軍事醫學的交叉學科性質,我們認為軍事醫學信息資源為軍事醫學研究所需的所有相關信息資源而非僅僅是包含有軍事醫學內容的信息。分析現有網絡信息資源發現,軍事醫學信息資源主要呈散在分布狀態。綜合信息源中可能含有軍事醫學信息,普通醫學信息源中也可能含有軍事醫學信息,而專門的軍事醫學信息源中也可能含有非軍事醫學內容,增大了軍事醫學信息資源自動采集與識別的難度。
按信息來源(或信息交流方式)的不同可將網絡信息資源劃分為正式出版信息、半正式出版信息和非正式出版信息三大類[11-12]。正式出版信息是指受知識產權保護且質量穩定可靠的信息(如電子圖書、電子期刊、電子報紙、文獻數據庫等),半正式出版信息指受到一定產權保護但沒有納入正式出版信息系統中的信息(如內部研究報告等),非正式出版信息則是指流動性強、信息量大且質量難以保證的動態信息(如電子郵件、論壇信息等)[12]。由于軍事醫學的特殊性,網絡上可獲取的有價值的軍事醫學學術信息資源以正式出版信息與半正式出版信息為主,其主要來源為政府、研究機構、大學、公司企業與非營利性社會組織等。
確定軍事醫學信息資源的采集范圍為政府、研究機構、大學、公司企業與非營利性社會組織發布的正式出版信息與半正式出版信息。作為測試,本文采集了以下幾類網站:國家衛計委等衛生事業管理單位網站,中國科學院等研究中心網站或專題網站,“生物谷”等專業性綜合網站,維普等中文期刊網站,陸軍軍醫大學等大學網站。
資源采集策略采取專題收集(即針對某一主題進行信息收集)與選擇性收集(即結合需求特點有選擇地收集和保存網絡信息資源)相結合的方式。在鑒選策略方面,本文采取兩步走的策略:先結合發布機構類別、信息源類型、信息發布方式、發布者等因素對軍事醫學信息源進行初步鑒別,再根據軍事醫學詞匯的詞頻統計進行信息篩選。
為提升信息采集效率,本文根據具體信息源的實際情況進一步確定了信息自動采集的范圍、采集深度以及采集頻率等。如軍醫大學網站根據需要主要采集新聞動態、專家學者以及出版刊物等信息,期刊信息采集包含期刊題錄、摘要信息及全文。采集深度一般最多采集至三級欄目。
除對軍事醫學相關的信息源進行篩選外,還需對具體的軍事醫學信息進行甄別與鑒選。詞頻位置加權相關度排序算法作為一種比較經典的方法,早已用于信息提取、自動分類、自動標引等智能信息處理領域[13-14]。本文在前期研究的基礎上[15],確立了通過軍事醫學信息自動識別輔助詞表實現軍事醫學信息識別,并結合詞匯類別、出現頻次、出現位置等因素制定信息篩選的研究路線。
2.2.1 軍事醫學信息的自動識別
要實現軍事醫學信息的自動識別,首先要讓計算機識別出屬于軍事醫學范疇的信息內容,可以通過構建軍事醫學信息自動識別輔助詞表并結合編程幫助計算機實現。
筆者經文獻調研后發現可供參考的相關詞表有《漢語主題詞表》(1991)、《軍用醫學主題詞表》(1993)、《軍用后勤主題詞》(1992)、《軍用主題詞表》(1990)、《中國圖書館分類法》(2010年第五版)、《醫學主題詞表》(年度更新,2017)、《中國人民解放軍軍語全書》(2011)、《中國大百科全書·軍事分冊》(2007年第二版)、《中華醫學百科全書·軍隊衛生學分冊》(軍事與特種醫學)(2017)。
經詞表分析及文獻調研發現,近20年為我國科學技術研究的調整發展期,軍事醫學類的大量科技新詞也在此期間出現,如《中國大百科全書·軍事分冊》在2007年再版時新增條目數超過60%。結合詞表的類目設置以及收詞情況,前4種由于出版時間較早,新詞覆蓋率較低,最終選擇后5種作為重要參考工具。通過對上述5部詞表收錄詞匯的分析與歸納,本文將擬用于軍事醫學信息自動識別輔助詞表構建的可用詞分為核心詞、學科相關詞、關聯相關詞以及潛在相關詞四大類。
核心詞即直接反映軍事醫學研究內容與特色的詞匯。以MeSH的軍事醫學類主題詞以及《中華醫學百科全書·軍隊衛生學分冊》部分收錄詞為主,如“軍事醫學”“槍擊傷”“戰創傷”“軍隊衛生”“海軍醫學”“軍事心理”“軍事精神病”“軍事護理”“軍事毒物”等。如王正國的顱腦戰創傷研究、王松俊的高技術局部戰爭與軍事醫學以及《科技日報》的34℃體溫可為戰創傷休克搶救贏得時間。
學科相關詞即不直接反映軍事醫學內容但在分類體系上與軍事醫學學科相近或內容密切相關的詞匯。以《中圖法》第五版中與軍事醫學密切相關的其他學科詞,如R81放射醫學、R83航海醫學、R84潛水醫學、R85航空航天醫學的部分類目以及MESH詞表中急救醫學相關類目,如“急救”“自救互救”“高原病”“輻射損傷”“航空航天病理學”“航海衛生”“爆震傷”“神經毒素”“救援作業”等。文獻實例如美國國家輻射防護和測量委員會第176號報告中的納米技術的輻射安全問題等。
關聯相關詞即在特定語境中與軍事詞匯組合從而反映部隊常見疾病等軍事醫學內容的相對高頻的普通醫學詞匯,如“截肢術”“痢疾”“創傷”“損傷”等。在文本分析過程中,關聯相關詞的利用需要將這些相對高頻的普通醫學術語與軍事類術語結合以達到內容自動鑒別的目的。軍事詞匯術語主要選自《中國大百科全書·軍事分冊》(2007)及《中國人民解放軍軍語全書》(2011),如“軍事訓練”“陸軍”“加農炮”等。根據收錄詞匯性質具體分為以下幾種組合形式:普通醫學術語+軍事人員對象(如軍人手外傷現場救護與后送的常見失誤及對策),普通醫學術語+軍事環境(如野戰條件下軟組織傷、燒傷及手創傷的處理),普通醫學術語+軍事用途(如遙控醫學用于醫療和戰傷救護),普通醫學術語+軍事裝備(如152mm加農炮對聽器損傷的調查),普通醫學術語+軍事醫學單位(如法軍第二外籍傘兵團的衛生后送),普通醫學術語+軍事醫學專家(如王正國要警惕沖擊傷傷員遲發性損傷)。
潛在相關詞即可能對軍事醫學產生重要影響的其他學科術詞匯。這類詞主要選自《中國人民解放軍軍語》(2011)以及《中國大百科全書·軍事分冊》(2007),并結合樣本文獻的關鍵詞分析而選出。如“納米”“抗重力服”“海水淡化”“苦咸水淡化”“坑道給水”“艦艇給水”等及姜海波等的偏遠島礁就地供水保障模式分析。
2.2.2 軍事醫學信息的鑒選規則
對初步采集回來的信息進行分詞處理后,需進一步實現其相關度的排序,并以其相關度值的大小實現軍事醫學信息的鑒選與分級處理。受盧恩的自動標引思想[16]以及搜索引擎檢索結果排序算法[14]的啟發,本文采用詞頻位置相關度算法實現,即根據網絡軍事醫學信息資源的特點,結合其詞匯類別、出現頻次、出現位置、載體性質、文獻類型等因素,分別賦予其不同的權值,并根據計算匯總得到每篇文獻的相關度值,再將其分為強相關、相關、弱相關以及潛在相關4個級別。
為驗證方案的可行性,我們于2018年4-8月利用自主開發的網絡信息抓取工具對以上所述的我國重要的衛生事業管理單位、研究中心、專業性綜合網站、中文期刊網站及部分大學網站分別進行了信息采集。
在維普中文科技期刊庫中采集所有期刊論文的題錄信息,在其他網站內采集新聞動態信息,最終篩選出軍事醫學類期刊論文文獻3 633篇,新聞動態信息3 029條(圖1)。

圖1軍事醫學期刊論文抓取結果頁面
以中科院張華平博士開發的NLPIR漢語分詞系統為基礎的信息分析工具,利用本文自建的軍事醫學信息自動識別輔助詞表作為自建詞表,實現對采集結果的進一步甄別、篩選及相關詞。表1展示了期刊與新聞信息中提取到的軍事醫學相關詞部分實例結果。為便于分析,在自建詞表中,采用不同的標記符號對類別進一步細分,將其中的各類名詞分別標識如下:軍事醫學類-nmm,軍事醫學單位-nmd,軍事醫學人員-nmp,普通醫學詞匯-nme,軍事詞匯-nmi,潛在相關詞匯-nmc。其中軍事醫學詞匯根據需要可進一步細分為軍事人員對象-nmip,軍事環境-nmis,軍事用途-nmit,軍事裝備-nmie。圖2為某單篇文獻中軍事醫學相關詞的自動提取結果示例。
交叉學科因其界域模糊而使信息資源的搜集工作非常棘手。采集結果說明,通過軍事醫學信息自動識別輔助詞表實現網絡軍事醫學信息的自動識別與篩選的研究思路是可行的。
本文在實驗過程中也同時發現存在下列問題:一是由于網站結構間的迥異以及采集速度的制約,使軍事醫學信息資源自動采集策略的制定尚不能實現全自動化,需一定的人工干預;二是自建詞表的收詞數量以及詞長決定識別率,需要在實際操作過程中平衡(一般而言,專業文獻長詞的意義專指度高于短詞[17]);三是由于時間及精力因素,本文此次實驗僅驗證了期刊與新聞動態類資源,未涉及學位論文、研究報告等。

表1 系統文獻篩選及相關詞提取實例

圖2 某單篇文獻中軍事醫學相關詞自動提取結果