對數透視法在信息檢索結果評價中的應用研究

2017-02-27 00:31:51楊海鋒

現代情報 2017年1期

楊海鋒

〔摘要〕信息檢索評價得到了學者們的廣泛研究，而從用戶認知的角度來對其進行研究逐漸成為學者們追捧的熱點。本文從用戶認知的角度出發，借助布魯克斯提出的對數透視法思想，對目前比較常用的評價指標進行了改進，將物理世界（“世界1”）中的評價指標通過“對數尺”轉換到了“世界2”和“世界3”的精神世界，從用戶所獲取的情報量對其檢索結果進行了評價，克服了以文獻數量為計量單位評價的不足。同時，通過應用分析對其改進的評價指標進行了說明。最后提出了本研究的不足和需要改進的地方。

〔關鍵詞〕對數透視法；信息檢索；評價指標；用戶認知

DOI：10.3969/j.issn.1008-0821.2017.01.012

〔中圖分類號〕G252.7〔文獻標識碼〕A〔文章編號〕1008-0821（2017）01-0066-05

〔Abstract〕Information retrieval evaluation has been widely researched to scholars，the research from the perspective of cognitive has gradually become a hot pursuit of the scholars.Based on logarithmic law proposed by Brooks，this paper made some changes to commonly used evaluation index，from the perspective of user cognition，change evaluation measures in material“world 1”to spiritual“world 2”and“world 3”by logarithmic law，evaluated result by information amount instead of the number of documents.At the same time，the article did a application analysis to explain the changes and pointed out the deficiency and what should do at last.

〔Key words〕logarithmic law；information retrieval；evaluation measures；user cognition

信息檢索評價得到了學者們的廣泛研究，最常用的評價指標包括召回率、準確率、P@N（Precision at rank N）、AP（Average Precision）、MAP（Mean Average Precision）、NDCG（Normalized Discount Cumulative Gain）等[1-3]。上述評價標準大多（除NDCG外）是以所檢索出文獻（檔）的數量作為計量單位，并在此基礎上形成常用的評價指標，同時，這些評價指標僅僅針對二元相關性，要么相關，要么不相關。NDCG方法的出現彌補了二元相關評價方法的不足，它能夠系統地結合文檔排序和相關性得分，可以說是對文檔滿足用戶需求的情況進行了考慮。用戶在信息檢索過程的認知行為是檢索評價的重要依據，但由于認知行為的隱蔽性和不確定性，傳統的評價指標對其考慮較少。因此，可從用戶認知角度出發，對傳統評價指標進行改進，力求最大程度衡量用戶檢索過程的滿足感。布魯克斯情報學認知觀范式，對情報學發展起到了重要的影響推動作用，其思想不斷地被使用、推廣、延伸和完善。通過他提出的對數透視法，我們將嘗試通過“對數尺”將物理世界的“硬”評價轉化到精神世界的“軟”評價。本文基于此展開研究，在相關研究的基礎上，對對數透視法理論進行了較為全面的梳理和分析后，對傳統的信息檢索評價指標進行了改進，并通過相關的應用對其進行了說明。

1相關研究

1980年，英國著名情報學家布魯克斯發表了一組《情報學的基礎》論文，提出了當前情報學研究的現狀和特點，并較宏觀地介紹了一些定量性的研究方法。比如，情報學的任務是探索和組織客觀知識世界（“世界3”），提出了對數透視法、情報學基本方程等。對于對數透視法，布魯克斯指出解決物理現象所采用的計算方法，應用于精神現象以及情報過程的定量化時要采取修正的方法，這種修正方法就是利用對數透視法來加以變換，不能簡單地用物理數據來度量認知范圍的問題，應當進行相應的變換[4]。信息檢索結果評價中，傳統的查準率和查全率衡量指標是布魯克斯稱之為物理現象采用的計算方法，它忽略了不同用戶的信息需求和滿足程度，必須進行相關的修正。因此，嘗試將對數透視法則應用于信息檢索結果的評價中，將可能更加客觀地衡量不同用戶主體對檢索結果的滿意程度。

關于對數透視法的應用，學者們對其進行了一些研究，但只是提到相關的現象，沒有專門以此展開討論。馬費成在檢索系統的效率評價問題中指出，人的情報吸收過程呈現情報遞減規律，傳統的檢全率錯誤地認為每篇文檔含有等量的情報，計數文獻是一種客觀活動，而情報檢索過程是人的主觀活動和情報過程，同時舉例說明了如何使用對數透視原理對檢全率進行了改進[5]。馬費成提出的情報學的6個原理中，對數透視原理便是其中重要的一條原理[6]。婁銀銀等指出，根據情報學基本方程式和對數透視法，可構建動態認知的智能網絡信息檢索系統，并在保證知識含金量不變的情況下，適當降低召回率來提高準確率[7]。肖楠等分析了網絡環境下的對數透視原理，在基于對數透視原理的網絡檢索效率中指出，用戶即使只選擇100條結果集中的10條，其檢全率是50%而不是10%[8]。鄧慧敏將對數透視原理應用于網絡鏈接分析中，驗證了對數透視原理在銀行網站鏈接中的適用性[9]。同時，從文獻查閱過程發現，關于對數透視法在信息檢索評價中的研究相對較少，且以理論研究為主。

在一些檢索結果評價指標的研究中，布魯克斯的對數透視法思想其實也已經融入其中。歸一化懲罰累積增益（NDCG）評價方法，是一種多級的相關排序方法，采用了對數懲罰函數對排名較低的文檔進行了懲罰，其實和布魯克斯對數透視原理有非常相似之處[4]，即說明不同文檔所包含的情報量不同。對于AP評價指標的爭議，比如主題上的AP值不符合正態分布、邊界0～1情況、對檢索困難的主題關注較少等，Robertson[10]對AP進行了修正，涉及到公式轉換和平滑，在GMAP（Geometric MAP）的基礎上提出了logAP（即lAP），同時也關注到了ltAP（即logitAP=AP1-AP）[11]，并對兩者邊界問題進行了定義。同時又從概率的角度解決了0～1邊界問題，這里使用到了Laplace平滑，即可得到平滑后的sAP、slAP以及（yet another AP）yaAP=logit（sAP）。最后，在假設AP概率符合正態分布的基礎，對上述變換評價指標進行了卡方檢驗，yaAP取得了較好效果。Kelly[12]認為信息檢索評價應該從檢索背景（包括用戶差異性、信息需求等）、人機交互、檢索性能（通過常用評價指標衡量）、易用性（效果、效率、滿意度等）4個方面進行考慮，常用的量化評價僅在檢索性能展開。信息量和用戶滿意度也是評價的重要指標，信息量評價關注相關性的相對評價而不是絕對衡量，假設讓用戶從信息量遞減的順序對文檔進行排序，而滿意度是用戶檢索過程中的體驗感受，影響下次檢索過程的執行，常通過用戶的問卷或面談獲得。文獻[13]對信息量在信息搜尋和檢索環境中的概念進行了再討論，認為信息量是以用戶為中心的概念，能對信息檢索過程的有效性進行評價，能構建傳統評價到用戶扮演重要評價角色的橋梁，并且克服了傳統方法中認為排序中文檔之間獨立性假設的不足。Tague-Sutcliffe認為，信息檢索系統評價應以檢索過程的信息量來進行衡量，提出了信息量的估量方法以及數學公式的推導過程，反映了面向用戶、上下文相關、對數響應的特性，用檢索到的詞條信息量來對檢索結果排序，并指出詞條信息量的評價方法，而且這些詞條信息量滿足對數特性[14-15]。

信息檢索過程可從系統（算法）觀和認知觀進行分析[16]，系統觀（“世界1”）主要體現在Cranfield和TREC評價模型中，它在實驗室環境中通過控制實驗變量和重復實驗達到結果的可靠性，這個觀點關注系統，并對用戶、用戶需求、用戶行為做了抽樣假設，為了計算方便，僅僅考慮系統的局部特征而整體考慮不足[12]。信息檢索用戶的認知角度，也就是布魯克斯所提出的“世界2”和“世界3”范疇，它在現實操作環境進行信息檢索研究中，認為信息檢索過程可描述為認知任務的信息搜索過程，交互過程涉及因素多且具有內在的復雜性，關注用戶信息搜索和檢索、用戶信息交互、人機交互過程中的認知活動，認知角度試圖對基本的信息檢索現象和概念做一個全面的理解，比如信息需求的本質、認知不一致和檢索重疊、邏輯不確定性、“文檔”的概念、相關性衡量、實驗環境設置等，這里面更多的依賴社會學和心理學的研究方法[17-18]，它是物質世界（系統或算法觀）到精神世界（認知觀）的轉換。同時，兩種觀點的融合在不斷增強，Borlund[19]指出合并兩種觀點的混合方法是必要的，并繼而提出交互式信息檢索評價的框架。Ingwersen等[20]暗示兩者研究中的融合，比如評價中共同使用標準的TREC數據集，對相關性假設進行簡化等。

總之，將物質世界的信息檢索相關方法改造移植到精神世界范疇的研究中，雖然學者們所采用的方法和關注領域不盡相同，但都是對信息檢索過程中精神世界知識的探索，本文也不例外。

2傳統評價指標修正

傳統的信息檢索評價指標是“硬指標”，是布魯克斯所劃分的“世界1”的外在表現，而從用戶認知角度出發的檢索評價指標可稱為“軟指標”，是對布魯克斯所提到的“世界2”的探索，以及最終轉變到“世界3“，是對傳統評價“硬指標”的修正。

3應用分析

在對傳統評價指標進行改進的基礎上，本節對其進行了應用分析。圖2顯示了與某查詢相關的文檔以及檢索結果排名前10的文檔，表1給出了前10個排序位置的召回率和準確率，分為傳統方法和應用對數透視法后（即公式（5）、（6））的改進方法兩種情況。

從上面的圖表可以發現，對于文檔列表的每個位置，改進后的召回率升高，但準確率降低了，這和召回率升高而準確率下降或不變的現象相符合。

通常也可以繪制召回率—準確率圖。定義標準召回率等級是0.0～1.0，增量為0.1。插值方法為在任何標準召回率等級R處，定義準確率P為[21]：

P（R）=max{P′；R′≥R∧（R′P′）∈S}

其中，S是觀察點（R，P）的集合。標準召回率等級上的準確率如表2所示，其中，準確率1表示傳統評價方法中的插值，而準確率2描述了使用對數透視法后的插值結果。圖3為表2圖示后的召回率-準確率折線圖。

從圖3可以看出，兩個折線圖的形狀相當，都產生了一個單調遞減的函數，即準確率的值隨著召回率的升高而下降或者不變。在TREC8中的Ad hoc任務中，在50個查詢上對每個標準召回率上的準確率求算數平均值，某TREC系統的11點插值召回率-準確率平均曲線逐漸趨于平滑[21]。同理，隨著查詢數的不斷增加，改進后的正確率-召回率平均曲線也會逐漸趨于平滑。改進后的P@N、AP和MAP也可在上述計算基礎上進行，這里不再贅述。

從上述的分析得出，相對傳統的評價指標，改進后的評價指標評價效果相當，但評價結果的數量級不同，改進后的曲線相當于從準確率1曲線的位置向下移動到了準確率2的位置。同時發現，同樣的召回率，準確率2比準確率1要低，這也說明檢索結果中相關文檔的信息含量不同，靠后的文檔可能會產生更多的噪聲。

4評價與總結

4.1結論

將對數透視法則應用到信息檢索評價中，是基于用戶認知角度對信息檢索評價的探索，從中得到了一些好的結論：

1）能從用戶認知的角度出發來對檢索結果進行評價，是對信息檢索結果評價方法的提升和改進，并且提出了量化方法，符合當前研究的方向。

2）對用戶來說，每篇文獻所包含的情報量是不同的，用戶吸收文獻的內容呈現報酬遞減規律，即靠前的文獻能吸收更多的情報內容，而對于后讀的文獻，由于其內容必然與前面的文獻有重復之處，所以獲得的新內容就不及靠前的文獻[5]。

3）通過對數透視法，將通常使用的物理評價方法轉化到了精神世界范疇的量度。

4）克服了評價中以文獻數量（假設每篇文獻包含情報量相同）為計量單位的不足，通過用戶所獲得的情報量來對檢索結果進行評價。

4.2不足

由于對數透視法思想提出的年代較早，后續可借鑒的研究不多，因此本研究相對簡單且存在一些不足的地方：

1）對傳統的評價方法中的準確率和召回率，兩個公式中，分母代表的文獻數量所包含的情報量前者不高于后者（只要相關文檔包含情報，非相關文檔情報量為零），因此，對有準確率來說，分母不適合對數法則，但分子通過對數法則后，一般情況下準確率有所下降，召回率會有較高的提升，這比較符合準確率和召回率互逆相關性（通常情況下）的解釋。這種情況類似于評價指標（R-precision），該評價指標中召回率和準確率相同[22]。

2）對數透視法目前適用于二元的相關性評價指標中，在按相關性排序的方法中也用到了對數計算，其過程可以看作對數透視法則思想變換[4，10，13]，兩者之間的關系還有待于進一步研究。

3）對數透視法則中，情報區間是一片聯系的平面空間區域，但對于檢索結果無序排列的情況，顯然不能得到滿足，但不影響最終計算結果。如果檢索結果是按照相關度由高到底排序的話，那么用戶所獲得的情報量比無序結果要多的多，對其評價可使用兩次對數透視法則[5]。

4）應用結果顯示，改進前后的評價指標評價效果類似，只是數量級發生了變化。因此，兩種評價指標的適用范圍和環境還不很清楚。

總之，從用戶角度來對信息檢索結果進行評價是研究的一個熱點，對數透視法只是提供了一種新的研究方法。由于對數透視法提出較為宏觀，筆者對其思想把握深度還不夠，因此，研究過程中，理論研究擴展不強，分析方法和數據收集還較為簡單，說服力還不夠，對于其適用性和可靠性還需一定的探索。

參考文獻

[1]Voorhees E M.Evaluation by Highly Relevant Documents[C]∥Proceedings of the 24th Annual International ACM SIGIR Conference，New Orleans，Louisiana，2001：74-82.

[2]Manning C D，Raghavan P，Schutez H，et al.Introduction to Information Retrieval[M].Cambridge University Press，2008.

[3]Jrvelin K，Keklinen J.Cumulated Gain-based Evaluation of IR Techniques[C]∥ACM Transactions on Information Systems，2002，20（4）：422-446.

[4]Brookes B C.The foundations of information science：Part Ⅲ.Quantitative aspects：objective maps and subjective landscapes[J].Journal of Information Science，1980：269-275.

[5]馬費成.論布魯克斯情報學的定量方法[J].情報科學，1983，（4）：1-9.

[6]馬費成.論情報學的基本原理及理論體系構建[J].情報學報，2007，26（1）：3-13.

[7]婁銀銀，劉春茂.布氏情報學思想對網絡信息檢索結果的認識優化[J].情報雜志，2008，27（8）：61-63.

[8]肖楠，任全娥，胡鳳.網絡環境下的對數透視原理[J].圖書情報知識，2007，（3）：60-64.

[9]鄧慧敏.基于網絡鏈接分析的對數透視原理的適用性探討[J].中山大學研究生學刊：社會科學版，2013，34（3）：51-61.

[10]Robertson S.On smoothing average precision[M]∥Advances in Information Retrieval.Springer Berlin Heidelberg，2012：158-169.

[11]Cormack G V，Lynam T R.Statistical precision of information retrieval evaluation[C]∥Proceedings of the 29th annual international ACM SIGIR conference on Research and development in information retrieval.ACM，2006：533-540.

[12]Kelly D.Methods for evaluating interactive information retrieval systems with users[J].Foundations and Trends in Information Retrieval，2009，3（1-2）：1-224.

[13]Freund L，Toms E G.Revisiting informativeness as a process measure for information interaction[J].Decision Analysis，2004，3（3）：70-90.

[14]Tague-Sutcliffe J.Measuring the informativeness of a retrieval process[C]∥Proceedings of the 15th annual International ACM SIGIR Conference on Research and development in information retrieval.ACM，1992：23-36.

[15]Tague-Sutcliffe J，Hayes R M.Measuring information：An information services perspective[J].Library Quarterly，1996，66（2）：222-222.

[16]Ingwersen P，Willett P.An introduction to algorithmic and cognitive approaches for information retrieval[J].Libri，1995，45（3-4）：160-177.

[17]Ingwersen P.Cognitive perspectives of information retrieval interaction：elements of a cognitive IR theory[J].Journal of documentation，1996，52（1）：3-50.

[18]Sutcliffe A，Ennis M.Towards a cognitive theory of information retrieval[J].Interacting with computers，1998，10（3）：321-351.

[19]Borlund P.The IIR evaluation model：a framework for evaluation of interactive information retrieval systems[EB/OL].http：∥www.informationr.net/ir/8-3/paper152.html，2016-04-20.

[20]Ingwersen P，Jrvelin K.The turn：Integration of information seeking and retrieval in context[M].Springer Science & Business Media，2006.

[21]（美）Croft W B，等.搜索引擎-信息檢索實踐[M].劉挺，等譯.北京：機械工業出版社，2010.

[22]Aslam J A，Yilmaz E，Pavlu V.A geometric interpretation of r-precision and its correlation with average precision[C]∥Proceedings of the 28th annual international ACM SIGIR conference on Research and development in information retrieval.ACM，2005：573-574.

（本文責任編輯：郭沫含）