張帆,申艷光,王敏
(1.河北鋼鐵集團邯寶公司,河北邯鄲056015;2.河北工程大學信息與電氣工程學院,河北邯鄲056038)
隨著互聯網上信息數據爆炸式地增長,互聯網用戶不再滿足于人工分揀分類目錄搜索的第一代搜索引擎和依靠超鏈接分析機器抓取技術的第二代搜索引擎提供的單一的搜索結果,而希望得到和個人興趣偏好更為相關的個性化搜索服務,為了滿足用戶的這一需求,應運而生了個性化搜索技術。
搜索引擎生存的關鍵是利用用戶信息針對性地改善搜索服務質量,提高用戶搜索體驗。為了向不同用戶提供更為個性化、滿意度更高的搜索結果,個性化搜索時需要搜集、存儲、挖掘和分析用戶信息,這不可避免地觸及了個人隱私這一公眾敏感神經。更為重要的是,在搜索引擎所掌握的海量信息中,除了個人隱私之外,還有可能涉及到國家經濟和政府機密信息,威脅國家安全。隨著個性化搜索技術的飛速發展,隱私保護和搜索結果滿意度之間急劇深化的矛盾已經成為了目前互聯網技術研究亟待解決的問題。
個性化搜索是以用戶為中心的信息搜索技術,它獲取以多種形式表達的用戶信息,并綜合利用這些用戶信息,提高搜索引擎的性能,以滿足不同用戶的個性化需求。目前絕大多數的研究主要集中在用戶個人信息的搜集、用戶描述文件建立、搜索結果排序和系統評價四個方面。
用戶個人信息的搜集技術主要包括顯式、隱式和復合式三類方式。用戶個人信息的顯式搜集方式主要是請求用戶的主動參與,用戶向搜索系統主動提供并描述其個性化需求的相關信息。用戶個人信息的隱式搜集方式主要是搜集用戶在操作過程中的行為。而復合式方式則結合了顯式搜集和隱式搜集兩種方式。
采用顯式的用戶個人信息搜集方式的系統有SiteSeer等[1]。用戶個人信息顯式搜集方式能使搜索系統獲取準確的用戶個人信息,但需要用戶花費多余的精力參與反饋,降低了用戶搜索體驗。而WebWatcher等系統[2]以及建立用戶層級樹的方法[3]采用了隱式的用戶個人信息搜集方式。用戶個人信息隱式搜集方式避免用戶在使用過程中被頻繁要求做額外的操作,但是存在搜集信息不準確,不能準確反映用戶意圖的缺陷??紤]到顯式和隱式這兩種方法的優缺點,不少系統采用對這兩類用戶信息搜集方式折中后的復合式信息搜集方法,例如論文搜索系統CiteSeer等[4]。該復合式方法只要求用戶在關鍵點上的主動參與,為了保證最佳的用戶體驗,在大多數時間上則采用隱式搜集的方式。
獲取和組織用戶個人信息形成用戶描述文件,該文件表達了用戶的興趣偏好,在搜索過程中將準確的用戶信息提供給搜索引擎,返回給用戶較好的搜索結果,用戶描述文件的結構分為樹型和非樹型兩種。樹型結構的用戶描述文件都是基于目前網上最大的人工編制的分類檢索系統—開放式分類目錄搜索系統 ODP(Open Directory Project)產生的,它繼承了ODP高度覆蓋性和準確性以及消除二義性的優點,例如:基于ODP本體論概念的用戶描述文件等[5],但是ODP本身具有缺乏自由度和擴展性的缺陷。在非樹型結構的用戶描述文件方面,有胖模式非結構化的用戶描述文件等[6]。非樹型結構的用戶描述文件缺乏層次結構,用戶不能自治信息開放程度。
排序方法直接影響著個性化搜索結果。最初的研究根據網頁本身的屬性,提出PageRank的概念[7],對互聯網上的頁面進行評分,在搜索時將得分較高的網頁排在搜索結果列表的前面返回給用戶。該方法沒有利用任何用戶信息,因此無法提供更貼切用戶自身、滿意度更高的搜索結果。
隨后展開的研究建立在通用的搜索結果基礎上,結合用戶描述文件,在客戶端或服務器端進行搜索結果的重排序[2,6,8],將貼切用戶的個性化搜索結果排列在搜索結果列表中比較靠前的位置,讓用戶更方便的找到自己滿意的信息。在客戶端重排序的方法受限于傳輸帶寬,致使排序準確度受限;在服務器端重排序的方法可以得到較準確的搜索結果,但加大了服務器的負載,并且存在泄露用戶隱私信息的威脅。
目前對個性化搜索系統的評價一般都需要人工參與,用戶人工標注各個查詢結果的正確性,綜合這些人工標注結果來評測個性化搜索系統的性能。主要常用三種方法:準確率評價方法[9]、用戶打分評測機制[10]和DCG評測算法[11]。
準確率評價方法:參與評測的用戶標注每次查詢返回的前N個結果的正確性,系統利用每次查詢前N個結果中標注為正確的結果所占比例作為評價指標來評價系統的性能,評價指標的值越高則說明系統的性能越好。該方法的計算公式簡單,減少了參與評測用戶的工作量,容易實現,但是在無指導的情況下用戶標注時的隨意性較大。
用戶打分評測機制:每個用戶根據搜索結果與自己所需信息的符合程度對每次查詢返回的前N個結果打分,將所有用戶對搜索結果打分的平均值作為系統性能的評價指標。該方法將用戶對結果的評價劃分為很多不同的等級,給出將查詢結果標注為某一等級的詳細依據,在一定程度上指導用戶的評價行為,更加規范用戶的標準行為。
DCG評測算法:把DCG(Discounted Cumulative Gain)公式融入到對查詢結果人工打分的方式中,結合用戶對搜索結果的打分和結果的排序位置,將得出的計算值作為系統性能的評測指標。該方法結合用戶的使用習慣,對系統做出更加符合實際情況的整體評價。
綜上,目前個性化搜索的研究重點在于如何提供更智能的搜索方式、個性化的搜索結果和高效的搜索能力,較少研究用戶的隱私保護技術問題。
根據隱私泄露方式,目前針對隱私保護的研究主要集中在兩個方面:用訪問控制和加密手段防止未經許可的數據訪問和用泛化數據的手段保護發布數據的安全。
主要有預防和檢測兩類手段。預防手段主要包括定義、執行和限制用戶訪問敏感信息和數據的訪問控制技術和加密技術兩種安全手段。檢測手段主要包括審計和入侵檢測兩種數據安全技術。審計用于對數據訪問、修改的事后審查。入侵檢測對內、外攻擊和誤操作提供一種積極主動的實時保護,在系統受到危害之前攔截相應入侵,主要有基于基因算法的方法[12]等。
目前最常用的隱私保護數據發布技術主要有k-匿名[13]、l-多樣。k-匿名使得每個元組的質量指標值都與其他k-1個元組的質量指標值相同,從而保護了數據所有者的隱私。對l-多樣性進行擴展,提出t-近似的概念[14],即每個匿名組中的敏感屬性分布具有與整體的敏感屬性近似的分布。
綜上,雖然傳統的數據安全技術和新興的隱私保護數據發布技術能夠對數據中的敏感信息和隱私信息起到較好的保護作用,但是,絕大部分傳統的隱私保護技術無法直接應用于個性化搜索引擎中的隱私保護。
目前針對個性化搜索中隱私保護技術研究的很少,主要提出建立用戶信息層級樹的方法,允許用戶控制個人隱私的開放程度,但該層級樹的建立缺乏一個統一的標準,不利于挖掘群體性的信息,同時也增加了用戶的負擔,其次分析了個性化搜索的隱私保護中可能遇到的種種問題,在此基礎上提出了隱私保護的四個等級[8],但其等級的劃分缺乏大量的理論依據,還需要進一步考證其準確性和實用性。
個性化搜索系統已被廣為開發,但其研究的重點還處于如何提高搜索結果質量和用戶體驗的環節。雖然傳統的數據安全技術與新興的隱私保護數據挖掘和發布技術能夠對敏感數據起到較好的保護作用,但目前絕大部分的隱私保護技術無法直接應用于個性化搜索中的隱私保護。針對個人信息搜集、傳輸、使用、存儲和挖掘的保護方法研究方面還處于起步階段和缺乏對個性化搜索中隱私保護整體框架研究的情況,將來有必要對此開展研究來解決個性化搜索中的隱私保護問題,推動個性化搜索引擎的健康發展。
[1]JAMES RUCKER,MARCOS J,POLANCO.Personalized navigation for the Web[J].Communications of the ACM, 1997,40(3):73-76.
[2] DUNJA MLADENIC.Machine learning for better Web browsing[A].Proc.of AAAI 2000 Spring Symposium Technical Reports on Adaptive User Interfaces[C].American:Association for Artificial Inteuigence,2000.82-84.
[3]YABO XU,BENYU ZHANG,ZHENG CHEN,et al.Privacy-enhancing personalized Web search[J].In:Proc.Of WWW2007,May 8-12,2007:591-600.
[4]BOLLACKER KURT D,LAWRENCE STEVE,GILES C LEE.Discovering relevant scientific literature on the Web [J].Intelligent Systems and Their Applications,2000,15 (2):42-47.
[5]AHU SIEG,BAMSHAD MOBASHER,ROBIN BUR KE. Web search personalization with ontological user profiles [A].Proc.of CIKM'07,November 6-8[C].Lisboa,Portugal:Acm,2007.525-534.
[6]JAIME TEEVAN,SUSAN T.DUMAIS,ERIC HORVITZ. Personalizing search via automated analysis of interests and activities[A].Proc.of 28th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval(SIGIR'05),August 15-19[C].Salvador,Brazil:Acm,2005.449-456.
[7]LARRY PAGE,SERGEY BRIN,MOTWANI R,et al.The Pagerank citation ranking:bringing order to the Web[R]. Technical Report,Stanford University,1998.
[8]XUEHUA SHEN,BIN TAN,CHENGXIANG ZHAi.Privacy protection in personalized search[R].SIGIR Forum,June 2007:4-17.
[9]FERRAGINA P,GULLI A.A personalized search engine based on Web snippet hierarchical clustering[A].International World Wide Web Conference[C].Chiba,Japan:Acm, 2005.801-810.
[10]PA CHIRITA,W NEJDL,R PAIU,C KOHLSCHǜTTER. Using ODP metadata to personalize search[A].Proceedings of the 28th annual international ACM SIGIR[C].Salvador, Brazil:Acm,2005.178-185.
[11]J TEEVAN,ST DUMAIS,E HORVITZ.Personalizing search via automated analysis of interests and activities [A].Proceedings of the 28th Annual International ACM SIGIR[C].Salvador,Brazil:Acm,2005.449-456.
[12]蘇璞睿,李德全,馮登國.基于基因規劃的主機異常入侵檢測模型[J].軟件學報,2003,14(6):1120-1126.
[13]TOCHUKWU IWUCHUKWU,JEFFREY F,NAUGHTON.K -Anonymization as spatial indexing:Toward scalable and incremental anonymization[A].Proc.of VLDB 2007[C]. Vienna,Austria:Acm,2007.746-757.
[14]NINGHUI LI,TIANCHENG LI,Suresh venkatasubramanian t-closeness:Privacy beyondK-anonymity and l-diversity[A].Data Engineering[C].Istanbul,2007.106-115.