朱振立
(河北省公安消防總隊,河北石家莊,050081)
數據挖掘及其在網絡信息檢索中的應用
朱振立
(河北省公安消防總隊,河北石家莊,050081)
隨著移動互聯網的普及應用,如何更高效的進行網絡信息檢索來獲取需要的信息便顯得愈發重要。本文在廓清數據挖掘相關概念的基礎上,對數據挖掘在網絡信息檢索中的應用進行了重點分析和討論。
數據挖掘;網絡信息檢索;應用
隨著互聯網的日益蓬勃發展,如何從廣袤的網絡信息海洋中提取出有價值的信息、模式和關系,逐漸成為了一門新的領域——數據挖掘。作為一門交叉學科,數據挖掘融合了信息檢索、互聯網、數據庫、機器學習、自然語言處理等不同的學科,用多樣技術完成具體的數據挖掘應用。常見的應用有:垂直搜索、推薦系統、智能問答、機器翻譯、輿情監測、情報收集等等,可謂是深入到了我們日常生活的方方面面。
據不完全統計,現在Web 網站的數量已經突破10億大關,有近1000 億個頁面,數據總量約10 萬億PB。而所謂數據挖掘,究其根本,就是要從浩如煙海的數據中歸納提取總結出我們所需要的知識。數據挖掘是從多個學科領域發展而來的學科,包括但不限于:統計學、人工智能、機器學習、模式識別、數據庫系統等等。
數據挖掘的任務主要包括兩類,一類是基于一些變量預測其他變量的未知值或未來值,稱為預測型任務,常用的技術是分類(Classification),回歸(Regression)和偏差分析(Deviation Detection)。另一類是發現描述數據的人們可解釋的模式,稱為描述型任務,常用的技術是聚類(Clustering),關聯規則挖掘(Association Rule Discovery)和摘要(Summarization)。
為了完成上述任務,整個數據挖掘的流程為:獲取數據—選擇數據—預處理數據—數據規整 —數據挖掘—模式識別。不同階段會使用不同的技術,但一定要把整個流程走通,數據挖掘才有意義。
網絡信息檢索其實是一個很大的主題,但是核心問題其實并不復雜,一是如何去表示信息,二是在這樣的基礎上如何去檢索信息。具體的評價標準是“效果”和“效率”。效果指的是如何準確匹配查詢信息,一般來說會基于檢索模型進行。效率指的是如何快速返回檢索結果,一般來說是基于索引進行的。
2.1 內容挖掘
在這個信息爆炸的年代,人們非常需要一個過濾和篩選信息的工具,搜索引擎原來承擔了這個角色,但隨著信息的增多,越來越多的冗余、片面和雜質出現了,很多時候我們搜出來了結果,還是不知道要選什么。而且隨著智能手機的普及,傳統的長文章已經不適合這樣的新瀏覽模式,也需要發展挖掘出一些新東西。
內容挖掘便是指從網絡中存在的各類發布內容、數據、文檔進行挖掘,由于網絡中所包含的信息形式多樣,為了能更全面、更準確的進行數據挖掘,一般情況下便采用的是文本挖掘的形式。先將文檔通過自動或手動的方式表現出來,兩種方式各有優缺點,手動通常依靠人工進行標注,效果比較可靠,效率較高,但耗費的時間及人力成本較高,無法大批量使用。自動方法最有代表性的是詞袋(Bag of Words)技術,即使用文檔中出現的詞的集合來表示一篇文檔。但容易產生信息缺失的情況。隨后建立文檔索引,這里一個比較有代表性的工具就是Lucene,現在互聯網上廣為應用的Elasticsearch和Solr都是基于 Lucene的。最后再進行文檔檢索,文檔檢索的思路也很簡單:如果一篇文檔與一個查詢相似,那么該文檔與查詢相關。相似性一般根據字符串匹配來判定,比方說相似的詞匯或相同的語義。
現在最常用的是向量空間模型(Vector Space Model),其思路是文檔與查詢都是高維空間中的一個向量。用戶自由輸入文本也是一個向量,利用向量空間的相似性進行查詢。
2.2 鏈接挖掘
除了頁面的內容本身,超鏈接其實也能提供非常多有價值的信息。一條從頁面A指向頁面B的鏈接表明A與B相關且A 推薦/引用/投票/贊成B。Google 當年最重要的PageRank 算法,其實就是這個問題的最初且最成功的解決方案。
PageRank 采用隨機游走(Random Walk)模型對網頁按照流行度或權威性進行排序,簡單來說就是為圖中的每個節點 vi計算一個PageRank 值 π(vi),可以看作用戶隨機點擊鏈接將會到達特定網頁的可能性。頁面節點的PageRank與其父節點的Rank值成正比,但與其父節點的出度(out-degree)成反比。除了PageRank外,還有一些網頁排序的算法,比如 Learning to Rank,就是基于學習的方法,比較常見的有 RankSVM、RankNet、ListNet等等。
2.3 觀點挖掘
情感分析與觀點挖掘主要應用于產品比較與推薦、個人與機構聲譽分析、電視節目滿意度分析、互聯網輿情分析和反恐與維穩。目前很多互聯網平臺(如淘寶、大眾點評)都已經利用這種技術幫助提取用戶評價中的關鍵詞以提供更好的用戶體驗。
觀點挖掘基本的框架主要由這幾方面組成:應用層:情感檢索,情感摘要,情感問答;核心層:情感要素抽取,情感傾向性分析,主客觀分析/觀點文本識別;基礎層:NLP 基本模塊,情感資源收集與標注;來源:產品評論,電影評論,新聞評論,博客,微博。
2.3.1 觀點挖掘分類
而具體應用中,會將文本按照所表達的總體情感進行分類,可能的分類主要有如下三種,一般會從詞、句子、文檔三中粒度來進行分析。主客觀分析/觀點文本識別:客觀:反映關于世界的事實信息;主觀:反映個人情感、信念等。傾向性分析(可看作主客觀分析的細粒度處理):對包含觀點的文本進行傾向性判斷。情緒分析:憤怒、高興、喜好、悲哀、吃驚等等。
2.3.2 觀點挖掘任務
而對于觀點挖掘來說,一個觀點表示為一個五元組:目標對象,目標對象特征,觀點的情感值,觀點持有者,觀點表達時間。實際上,觀點抽取任務是很困難的,我們重點關注兩個子任務:特征抽取與聚類(aspect extraction and grouping),抽取對象的所有特征表達,并將同義特征表達聚類。每個特征類表示了關于該對象的獨一無二的某個特征;特征情感分類(aspect sentiment classification),確定觀點針對每個特征的情感傾向:正面、負面、中性。
隨著網絡信息量的增大,如何讓數據挖掘更加容易拓展效率更高,如何去挖掘有上下文關系的網絡信息,如何從復雜、異構、網絡化數據中挖掘復雜知識及掘高質量數據,并保證網絡信息的安全性和隱私,都是未來數據挖掘在網絡信息檢索應用中需要努力的方向。
[1]董慧,唐敏.數據挖掘及其在網絡信息檢索中的應用[J].情報雜志,2010, 29(b06):153-156.
[2]胡錦成.Web文本數據挖掘關鍵技術及其在網絡檢索中的應用[J].河北工程技術高等專科學校學報, 2005, 10(2):42-44.
Data mining and its application in network information retrieval
Zhu Zhenli
(Hebei provincial public security fire brigade, Shijiazhuang Hebei, 050081)
With the popularity of mobile Internet applications, it becomes increasingly important to more efficient network information retrieval to obtain the needed information Based mining related concepts in the clearance data, data mining is analyzed and discussed in the application of network information retrieval
data mining; network information retrieval; application