文獻證據檢索的敏感度研究：基于循證視角*

2021-04-19 04:02:46文玉鋒盧潔妤魏志鵬楊克虎

圖書與情報 2021年6期

文玉鋒盧潔妤魏志鵬楊克虎

（1.西北師范大學商學院甘肅蘭州 730070）

（2.蘭州大學基礎醫學院循證醫學中心甘肅蘭州 730000）

（3.蘭州大學循證社會科學研究中心甘肅蘭州 730000）

文獻證據檢索的全面性和可靠性是研究者有效整合科學研究結果（research synthesis）的基石，也是衡量系統評價（systematic review）與元分析（metaanalysis）科學性的主要標尺。然而，由于各種因素的制約，通過文獻數據庫所提供的不同題錄項展開實際檢索時，常常存在遺漏相關文獻的問題，從而潛在地造成了系統評價與元分析的偏倚。由此可見，對文獻證據的檢索質量和效率予以評價對于開展規范的循證社會科學研究意義重大。

在傳統的文獻檢索效率相關研究中，研究者一般通過查全率、查準率等指標對檢索效率和質量加以評價。然而，由于查全率、查準率等傳統文獻檢索效率評價指標通常以“全部相關文獻”為預設前提，因此，在實際應用中往往存在著極大的局限性。為此，研究者需要立足于對傳統查全率和查準率指標的進一步完善，發展出一些新的評價方法。文獻檢索敏感性正是一種植根于查全率和查準率但卻與之有著一定差別的評價指標。

關于檢索的敏感性（sensitivity），諸多研究者已給予了一定關注。如Cooper把敏感度等同于查全率，將其定義為“通過搜索策略從數據庫檢索到的相關記錄的比例”，即檢索到的相關記錄數除以相關記錄總數。與此類似，Cooper 進一步對檢索的精確性（precision）定義為“通過特定搜索策略檢索到的所有記錄中相關記錄的比例”，即檢索到的相關記錄除以檢索到的所有記錄。事實上，Cooper 所定義的精確性恰恰對應著查準率。 Cooper 對于敏感度（查全率）和精確性（查準率）的定義，從一定程度上為研究者合理評估檢索的科學性提供了思路。然而，計算查全率需要得到“相關記錄總數”，但通常情況下，檢索者對這一數據并不可知；同樣，為計算查準率需要事先知道所檢索到的記錄哪些是相關記錄，這通常也并不可行。為此，查全率和查準率作為一對相互支撐的指標，由于在評價中都需要滿足一定的預設前提，在實際操作中存在諸多困難。

由于檢索結果的穩健性和不確定性會對系統評價和元分析的質量產生顯而易見的影響，因此一直受到相關領域研究者的關注。事實上，早在1977 年，Smith and Glass就在心理治療研究中，試圖將穩健性和不確定性相結合，從而界定一個有區別于查全率和查準率的敏感性指標，以便將其作為科學結果整合的必要前提。圍繞敏感性評價，Glass 發展了三點量表，但受到了廣泛的批評（如Eyesenck，1978），最終沒能形成敏感性評價的公認工具。

回顧本領域的研究可以看出，檢索敏感性問題雖然受到了循證社會科學領域研究者的關注，但迄今為止還沒有完整的評估方法與結果。正是基于這種研究的薄弱點，本研究將通過構建新的敏感性評價方法，并基于一組實證數據，對不同檢索類型檢索方式的敏感性做出評價，以便為系統評價和元分析領域的研究者科學開展研究結果整合工作提供參照。

1 文獻證據檢索的敏感度評價設計

1.1 概念界定

系統評價試圖通過盡可能多的找到相關研究來減少證據整合的偏倚，同時盡量減少搜索結果中需要處理的無關數據的數量。這就意味著循證社會科學文獻證據的搜索策略傾向于強調敏感度。本文所指敏感度與Cooper 的定義有所不同，我們將數據集中的所有文獻進行抽樣，在不同樣本覆蓋度下，分析特定檢索項目的查全率和查準率。應用主題、篇名、關鍵詞、摘要和全文的單項檢索與組合檢索的不同抽樣水平的數據與總數據中高相關組和中相關組進行匹配，計算高相關組的匹配比例與中相關組匹配比例。數據指標用檢索結果與總數據集的匹配比例來評估：

式（1）中，X 表示檢索結果與總數據集的匹配篇數，Y 表示總數據集中高相關（或中相關）的文獻總數，i 表述不同檢索項（如主題單項檢索，或主題和篇名的組合檢索等），m 表示每10%抽樣水平的差值（10%到90%）。

式（2）中，X 表述不同檢索項（如主題單項檢索，或主題和篇名的組合檢索等），p 表示每10%抽樣水平的差值（10%到90%）N 為樣本量（本數據集中數值為8），S 為針對每種檢索方式計算的標準差系數，用來衡量敏感度。在敏感度的分析中，如果S 越大，說明不同抽樣水平下的匹配比例離散程度越大，所匹配數據的敏感性越大。

1.2 分析材料

（1）總體數據集。本研究以CNKI 數據庫為研究對象，選擇文獻數量適中、社會科學領域特定的研究議題——“社會認識論”為檢索詞，采用檢索式：（主題=社會認識論）OR（全文=社會認識論）OR（篇名=社會認識論）OR（關鍵詞=社會認識論）OR（摘要=社會認識論），使用具有擴檢意義的or 連接CNKI 中各種檢索方式進行第一步基礎檢索。為了達到相關原始學術文獻系統性檢索的目的，對上一步得到的數據集進行深入分析、擴充，運用滾雪球方法對于參考文獻進行迭代，進行6 輪滾雪球后，補充文獻273 篇；再改變檢索方式，使用“社會認識論”代表作者檢索進行文獻補充，添加文獻77 篇。當不再有新的文獻被納入時，下載了發表于2010 年1 月1 號至2020 年1月1 號之間的中文文獻的篇名、摘要和關鍵詞等題錄信息，通過數據清洗，剔除了其中有重復收錄問題等數據，總體數據集共收錄文獻題錄數據1856 條。

（2）文獻相關性的分類。總文獻數據集中既包括改變各種檢索方式檢索到的文獻，也包括和社會認識論有關的相關文獻，因此，總文獻數據集中文獻與檢索詞之間的相關程度必然有高低之分。研究者依據分級標準，判斷總文獻數據集中全部文獻與“社會認識論”的相關度，如文獻以“社會認識論”“社會認識層次論”“社會認識方法論”“社會知識論” 等為主題，則判定為高度相關；如果文獻與“女性主義認識論”“馬克思主義認識論”“哲學認識論”等內容有關，則判定為中度相關；其它文章則為低度相關。具體分級過程如下：

首先兩名研究者依照分級標準背對背閱讀標題、摘要及全文判定文獻與“社會認識論”的相關度，兩人共同判定一致的文獻有1559 篇。剩下298 篇判斷不一致的文獻，兩人進行討論重新判定后，確定250 篇文獻的相關程度。剩下48 篇不能夠確定，邀請本領域專家進行第三次討論，確定剩下的48 篇的相關程度。分級完成后，總文獻數據集中共確定與“社會認識論”高度相關文獻有103 篇，269 篇中相關文獻，1484 篇低相關文獻。

1.3 分析過程

本研究的基本分析過程為：

第一步，在CNKI 數據庫中，以“社會認識論”為檢索詞，采用主題、篇名、關鍵詞、摘要、全文這五種檢索方式進行單項檢索后，選擇邏輯運算符and 和or 連接上述五種不同的檢索方式，分別進行二項、三項、四項、五項組合檢索。將每種檢索方式檢索到的發表于2010 年1 月1 日至2020 年1 月1 日之間的中文文獻的篇名、摘要和關鍵詞等題錄信息下載，為下一步數據抽樣、匹配、評價敏感性提供基礎。

第二步，針對每種檢索結果，使用Python3.7 對第一步所下載中文文獻的題錄信息進行數據歸一化處理，并且將處理后的數據采用隨機抽樣的方法，依次隨機抽取出每種檢索結果在10%，20%，30%，40%，50%，60%，70%，80%，90%等不同抽樣水平下的文獻數據。

第三步，以Python 為工具，將每種檢索結果在不同抽樣水平的文獻篇名信息視為來源集，將總數據集中高相關和中相關文獻數據的篇名信息視為目標集。如果來源集中篇名信息與目標集中篇名信息相同則匹配成功，計數為1，反之則匹配失敗，逐條索引計數，由此可得到不同檢索結果在不同抽樣水平下的文獻，與總數據集中的高度及中度相關文獻的重合數，以確定每種檢索方式在不同抽樣水平上的差別。

第四步，對每種檢索方式的敏感度做出評價。得到上一步的匹配數據后，針對每種檢索方式，計算每10%抽樣水平的匹配比例差值，再統計其方差和標準差系數。通過對標準差和方差結果進行比較排序，如果特定的檢索方式值都很小，證明在不同抽樣水平上數據離散程度小，結果不敏感，也證明檢索方式是穩健的。根據上述系數之間的比較，對不同檢索方式的敏感性做出評價。

2 文獻證據檢索的敏感度評價結果

2.1 單項檢索的敏感度

單項檢索的數據總體來看，不同檢索方式在每一抽樣水平上的匹配比例總體呈現上升趨勢（見表1）。通過每10%抽樣水平的匹配比例之差，計算不同檢索方式的方差與標準差發現，在與高相關的文獻匹配度中，篇名檢索的標準差值最小，約為0，全文檢索的標準差最大，由此看來，篇名單項檢索時，無論隨機抽樣樣本量有多少，在高相關數據集中的結果都比較穩定，敏感度較低；而全文檢索最敏感，受抽樣樣本量的影響較大。同理，在中相關數據集，由于篇名項檢索不到與主題詞中度相關文獻，因此每一水平的數據都顯示為0。除去篇名之外，標準差大小顯示，摘要檢索為最穩定、敏感度最低的方式，全文檢索同樣敏感性較高。

表1 單項檢索在不同抽樣水平上的飽和度

2.2 組合檢索的敏感度

組合檢索本文選擇了同樣的方式，通過不同抽樣水平與高相關、中相關數據集的匹配比例，計算其標準差與方差。通過匯總二項、三項、四項、五項組合方式的標準差系數（見表2），來代表不同檢索項的數據結果的敏感程度。

由表2 可見，組合檢索項的標準差分布在0-9.063%之間，“and”連接符的組合項敏感度明顯要低于“or”連接的檢索式。首先，高相關數據集的檢索項標準差系數，最小的組合項標準差為0，為出現“篇名and”項的多項式檢索，最大標準差為“主題or 關鍵詞or 全文”（9.063%）；其次，中相關數據集的標準差系數范圍在0.192-4.217%之間，最不敏感的為“主題and 關鍵詞and 摘要and 全文”，最敏感的組合式為“主題or 篇名or 全文”（4.217%）。對于各個組合檢索項敏感度具體分析如下：

表2 組合檢索隨機抽樣匹配比例的標準差

（1）二項組合檢索的敏感度分析（見文后附錄1）。在特定檢索方式的檢索結果與高相關文獻匹配度時，如果使用“and”運算符，凡是出現“篇名”選項，標準差系數和方差都趨于0。如“主題and 篇名”“篇名and 關鍵詞”“篇名and 全文”和“篇名and 摘要”的標準差為0.005，與單項檢索結果一致；離散程度最大、敏感性最高的檢索方式是“主題and 關鍵詞”。使用“or”運算符，敏感度最低是“篇名or 摘要”，最高為“關鍵詞or 全文”且有“全文”選項的二項檢索式敏感度都偏大。

附錄1 二項組合檢索在不同抽樣水平的敏感度數據

在檢索與中相關文獻匹配度時（見文后附錄2），依據標準差系數排序，分兩種運算符可以選擇的最優檢索方式：“關鍵詞and 摘要”（0.341%），“篇名or關鍵詞”（0.476%），相反最不可取的是：“主題or 全文”“摘要and 全文”。

附錄2 三項組合檢索在不同抽樣水平的敏感度數據

（2）三項組合檢索的敏感度分析。高相關文獻匹配度的敏感性結論與二項組合檢索相似，使用and運算符連接“篇名and”選項會降低數據的敏感度，標準差系數趨于0。使用or 運算符時，“主題or 篇名or關鍵詞”的標準差為or 運算結果中最小的。另外，主題、關鍵詞、全文，三項連接的檢索式，無論用哪種運算符，敏感度都較高。

在中相關的數據集中，使用“and”運算符連接“篇名”檢索項時，會縮小檢索范圍至只有篇名單項檢索的結果，導致沒有與之匹配的中相關文獻，使得標準差為零；“主題and 關鍵詞and 全文” 這一檢索項相較而言敏感度最高，但也僅有0.728%，“主題and 關鍵詞and 摘要”“主題and 摘要and 全文”“關鍵詞and 摘要and 全文”這三項敏感度相差不大。使用or 運算符連接全文為檢索項時，擴大檢索范圍后敏感度都會較高，其中“主題or 篇名or 全文”敏感度最高，離散程度大；“主題or 篇名or 關鍵詞”敏感度低，表現相較于其它檢索方式更加良好。

（3）四項組合檢索的敏感度分析（見文后附錄3）。高相關數據集中“主題、篇名、關鍵詞、全文”，用and運算符效果較好，敏感度達到最優，用or 運算符連接時標準差為6.806%為最大值。相反，“主題、關鍵詞、摘要、全文”的檢索式在使用and 連接時是標準差最大的，在用or 連接卻是最小值。因此，四項檢索式在考慮結果的敏感程度時，最優可選擇“主題and篇名and 關鍵詞and 全文”或“主題or 關鍵詞or 摘要or 全文”。中相關集僅有唯一可判斷敏感度的檢索式“主題and 關鍵詞and 摘要and 全文”，標準差為0.192%，數據敏感度低，結果較穩定。

附錄3 四項組合檢索在不同抽樣水平的敏感度數據

（4）五項組合的敏感度分析（見文后附錄4）。五項搭配檢索只有一種組合方式，不論是在高相關還是在中相關數據集中，使用and 運算符得到的文獻檢索的敏感度低，離散程度較小，在各個抽樣水平上區別不大，文獻檢索結果穩健，整體上優于使用or 運算符。

附錄4 五項組合檢索在不同抽樣水平的敏感度數據

3 討論

本文探索了在不同檢索方式的情況下，各個檢索項的敏感度排序，選擇最優的敏感度檢索式。綜合比較之后，列舉了每種組合方式的最優選擇（見表3）。

表3 不同檢索方式的最優項

綜合比較來看，使用“and”運算符檢索的方差與標準差系數要比“or”運算符的小，這與他們本身的性質有關。 “and”縮小了結果范圍，因此抽取樣本的總體容量小，重復性會增加，敏感性比較低；“or”擴大了檢索范圍，就會增大抽樣樣本量的范圍，數據離散程度變大，敏感性增強。其它檢索方式的具體情況如下：

（1）單項檢索中，“篇名”檢索高相關文獻時，敏感度最低。由于篇名檢索的內容更加精確，本身就考慮了題目中所包含“社會認識論”的文章，且本身檢索結果較少，在不同的抽樣水平下都可以與高相關集精確匹配，因此單項檢索的“篇名”項是敏感度最優的選項；另一方面，“摘要”的敏感性次之，且在中相關數據集中最優。這一結果出乎意料，因為通常“關鍵詞”檢索會比“摘要”更精確一點，但數據結果看來并沒有。作者瀏覽以摘要為檢索項檢索到的文獻，發現一部分是“篇名”為“社會認識論”，另一部分是“關鍵詞”為“社會認識論”，還有一部分兩者都沒有出現，但閱讀摘要后發現，文章中有引用到這一概念，或者以一小部分分支的形式出現。因此“摘要”檢索可以認為既有篇名、關鍵詞的精確性，又有全文檢索的包容性，綜合來看結果中的中度相關的文獻占比較大，因此在這一數據集中表現最優。

（2）無論幾項檢索項組合在一起，凡是出現“篇名”并且用“and”連接符連接各選項的檢索式，都會出現不同抽樣的水平下，匹配比例的離散程度趨于0 的情況。在高相關數據集中，“篇名”不僅是最優選項，組合檢索更加縮小了范圍，如本篇數據檢索所使用的“社會認識論”主題詞，“篇名”單項檢索出31 條以下的結果，而使用“and”連接符連接其它選項出現了23 條結果，這不僅縮小了范圍，而且結果與高相關數據集實現完全匹配，因此匹配比例的離散程度最小。而中相關數據集中，同樣是延續了“摘要”最穩定的方法，但也能看出，每種最優項都盡量避免與篇名的組合，由此可見，中度相關文獻更要求數據的一般飽和度，即不僅要考慮檢索結果的精確，也要更加全面，因此在這種情況下，與“摘要”組合，多項式再連接“關鍵詞and 摘要”會是更明確的選擇。

（3）單項檢索和組合檢索的最優結果有很大的相似性，高相關中單項檢索的“篇名”選項敏感度最低，因此在后續組合檢索，如果使用“and”連接符縮小范圍，組合檢索式的敏感程度同樣趨于0，而在中相關集中“摘要”檢索也是同理。這一結果可能也與我們所選擇的“社會認識論”為搜索詞有關，本身該領域的研究者以及成果數量較少，搜索結果也不會很多。盡管我們想要盡可能多的檢索相關文獻，但本身受到文獻研究量以及數據庫的限制，越是增加條件的檢索項，結果就會越相近。

續附錄1

續附錄2

4 結論

首先，本文發現不同連接符的使用會大大影響敏感度。總體來看，“and”運算符連接的組合項會比“or”檢索的結果敏感度更低，離散程度更小，這與他們本身的性質有關，因此考慮到檢索結果的敏感程度，需優先選擇“and”運算符的組合方式。

其次，在檢索高度相關和中度相關文獻時，也需要考慮不同的檢索方式，高度相關文獻基于“篇名”檢索得到的結果敏感度更低，中度相關文獻優先考慮基于“摘要”項的檢索方式。

再次，根據整體數據集的標準差系數比較，除去高相關文獻中連接“篇名and”的檢索式，標準差趨于0 以外，凡是使用“and”連接并同時出現“篇名、關鍵詞、摘要”這三項時，檢索項標準差較低，表現良好，文獻檢索的穩健性也比較強；除去中相關文獻匹配數量為0 的情況，“主題and 關鍵詞and 摘要and 全文”在檢索時，敏感度最優。

本文提出并發展了敏感性這一新的文獻證據檢索質量評價標準，并據此基于一個窮盡檢索的文獻數據集，對不同檢索方式的檢索質量進行了評價。本文所獲得的研究發現將與本專題前后其他研究一起，為構建科學、全面的文獻證據檢索評價指標體系，從而有效提升循證社會科學的研究質量奠定基礎。

圖書與情報2021年6期

圖書與情報的其它文章: 《2021 年美國圖書館行業現狀特別報告：COVID-19》解讀與啟示*; 美國公共圖書館聯邦經費保障機制研究
——基于美國博物館與圖書館服務協會《2021 財年財務報告》的解讀; 從信息互聯到價值互聯：元宇宙中知識經濟的模式變革與治理重構*; 循證視角下文獻證據檢索的科學性評價：緣起、指標與趨勢*; 構建國家科研論文和科技信息高端交流平臺的政策與路徑探析
——基于國家自然科學基金開放獲取與平臺建設實踐; 數據要素助力科技信息高端交流與技術轉移平臺建設