遼寧對外經貿學院信息管理系 李志曉
微博搜索技術及隱私安全問題的研究
遼寧對外經貿學院信息管理系 李志曉
通過與谷歌搜索進行比較研究,找出微博搜索技術的優缺點,并提出了利用網絡爬蟲技術來提高微博搜索的多樣性和準確性。同時分析了微博用戶個人隱私安全問題的泄露途徑和保護途徑,以及微博實名制的必要性。
谷歌搜索;網絡爬蟲;隱私安全
目前,有很多重要的時事熱點事件都是由微博最先進行報道的。微博搜索技術發展的重要性不言而喻。其實微博在搜索和查詢方面都具獨特的特征,微博搜索技術其實是屬于信息檢索技術領域的,或者說是屬于文本檢索的范疇,這也是近段間以來的研究熱點之一。微博就是一個由大量文檔數據組成的被檢索語料庫,根據用戶提供的檢索詞,經過檢索模型對文檔數據庫中相近的語義詞進行對比,最后將結果按照升降順序返回給用戶。但是,由于微博搜索技術缺少對商業智能的支撐,簡單的來說就是現在的微博搜索技術基本是把傳統網頁搜索的基礎內容進行了克隆,缺少對信息的挖掘整理,且微博的搜索結果和搜索范圍也僅僅只限于微博本身,因此用戶需要耗費大量的時間精力去對匹配結果進行歸納提煉,才能獲取到最終所需的信息。經常會導致用戶感到困難并且對檢索結果不滿。
為了更好的挖掘微博搜索技術的問題,本文將搜索引擎中其中比較重要的三點與相對比較成熟的搜索機制比如谷歌搜索,進行比較思考從而為微博搜索的進一步發展提供意見。
2.1 熱門搜索列表的比較
隨著計算機行業的快速發展,網絡信息量直線增長,為了掌握最新最有用的熱門信息,提供熱門信息列表讓用戶方便的獲取最新信息也是很有必要的。通過對微博熱門列表和谷歌熱門列表進行比較分析,可以看新浪微博作為時效性強的搜索引擎網站,不管你處在任何頁面都能夠看到"發現"的這個功能,單擊就能看見熱門列表的存在,而谷歌搜索在熱門列表的體現則比新浪微博豐富很多,不僅包含熱門搜索詞并且還對熱門信息進行了分類,為用戶提供了方便的服務。但是在建立熱門列表時一定要注意的是在一定程度上要幫助用戶過濾垃圾信息。因此檢索系統需要開發專門的篩選器,在信息進入到語義搜索之前用這個篩選器篩選掉可疑的垃圾信息,并對搜索出的結果進行整合。
2.2 搜索提示與結果的比較
對于缺少搜索經驗和搜索詞不明確的用戶來說,在搜索過程中不可或缺的會有探索式的搜索過程,然后在過程中不斷發現自己的信息需求。所以說檢索提示對一個搜索引擎來說是至關重要的。當用戶輸搜索詞時在檢索框中會相應顯示出與搜索詞相關的最熱門搜索條目并進行實時排序,這樣不僅能減少用戶輸入耗費時間而且同時也是熱門列表的另一種表現方式。
用戶在搜索過程中難免會出現輸入錯別字或在不注意的情況下輸入拼音的情況,從而導致搜索結果不理想。先說新浪搜索,當你輸入錯別字后它便不會出現檢索提示了,而是在搜索結果會自動給出"你要搜的是不是XXX"內容,而谷歌搜索則在用戶輸入錯別字時自動顯示出搜索提示來幫助用戶進行錯別字糾正,從而幫助用戶獲取正確的搜索信息。可以發現谷歌搜索提供了錯別字糾正的功能而微博搜索并沒與實現這一點。
"網絡爬蟲"也可以叫做蜘蛛程序。爬蟲是搜索引擎中的重要組成部分,它可以自動的對網頁程序進行抓取并且同時獲得網頁的鏈接地址,然后從網站的首頁開始對網頁的內容進行讀取并獲得另一個網頁的鏈接地址,就這樣不停的從一個站點移動至另外的站點,直到把網站的所有內容抓取盡為止。所以它對一個搜索引擎的的查準率和搜索詞提示率都起著重大的作用。在微博中想要加入爬蟲技術需要設置入口網站地址,爬蟲通過一定的方法將網頁的源代碼以文檔的形式保存在微博引擎中,然后以匹配邏輯繼續提取下面的網頁地址再次進行保存。當滿足一定條件時,爬蟲停止工作。利用網絡爬蟲的主動性和智能性來解決微博搜索目前面臨的問題。
3.1 增加搜索結果的多樣性
微博目前的搜索技術在運行中沒有辦法發現網頁中的信息的規律和關鍵字,缺乏一定的智能性。所以在微博中需要建立較完整的的資料庫,以便爬蟲來獲取關鍵信息。比如建立一個基于微博搜索的媒體新聞網站爬蟲模型,讓微博搜索引擎通過爬蟲技術與相對成熟的新聞網站建立聯系。再建立時間的限制,讓微博的爬蟲接口獲取最新的微博和新聞,因為新聞網站的信息來源廣、具備比較高的參考價值,且每條新聞的發布都有一個后臺支撐著,這樣確保不存在過多垃圾信息,完全圍繞事件進行微博發布,緊扣信息主題,不存在虛假和謠言信息。因此利用爬蟲建立網站聯系,可以對這些信息進行聚類,增加了消息的可靠性和準確性的同時也增加了微博搜索結果的多樣性。
3.2 增加搜索結果的準確性
由于微博搜索的特殊性,所以關鍵字搜索在微博搜索引擎中就顯得尤為重要。在對微博主題進行爬蟲時,需要構建關鍵詞詞庫來幫助爬蟲對系統的微博信息進行爬取,增加搜索結果的準確性和覆蓋性,從而解決微博搜索結果的疏散性。
如果需要對微博搜索結果的準確性進行增加,這就需要對增加對關鍵字的數據挖掘,根據微博的文本內容進行聚集分析,得到不同的分類結果,從而產生關鍵字庫模板。并且對不同事件所涉及關鍵詞組再次進行分類。這樣當用戶輸入的搜索詞時,爬蟲在關鍵字庫模板中進行分類抓取,從而得到用戶所需的查找內容。并且把通過數據挖掘獲取到事件的時間點,聚集在一起進行爬蟲抓取,做為數據挖掘的第一階段,在準確性的基礎上增加了實時性。例如把近期提及一篇新聞關鍵字的微博文章和新聞都聚集在一起,再用爬蟲后的關鍵字模塊進行關鍵字標注,最后通過比對映射增加關聯詞詞庫,這樣微博的搜索引擎便可以對用戶大量的輸入詞進行完整的內容搜索和聯想。雖然微博搜索結果有一定的疏散性,但是微博信息具有很強的交互性,利用這個特性獲取事件爬取的關鍵詞然后形成詞庫,放入到數據庫中為搜索的后續信息做好前提工作。
通過查閱資料我發現國內已經開發出針對于中文的分詞技術,且技術相對成熟,常用的中文分詞包有庖丁解牛分詞包(適用于Lucene整合)Ling Pipe(開源自然語言處理的Java 開源工具包)等。該技術可以完成中文分詞詞性標注和未登錄詞識別等功能,并將結果存入到數據庫中。假如用戶想查詢與雪有關的微博內容,利用爬蟲的關鍵字抓取技術可以可以搜索到很多與雪有關的內容,但是如果把這個分詞技術建立在爬蟲關鍵字基礎上的話,那么會增加微博搜索引擎的后臺支持,當用戶輸入雪時在搜索結果頁面中會同時展示類似冬天、寒冷等類似的微博內容。這樣既豐富了內容又節省了時間,提高了搜索效率。
總結來說將爬蟲技術應用于微博搜索需要完成三個階段:
(1)構建關鍵詞詞庫模板,綜合關鍵詞,形成模板,并實時更新。
(2)增大搜索引擎接口,選定具有代表性的信息庫來源。
(3)數據挖掘,利用分詞技術提取關鍵字的特征詞。隨著信息時代的高速發展,國內外的熱點新聞熱點話題在網絡上更新的越來越迅速,關鍵詞的更新也越來越快。通過爬蟲技術在微博搜索中的應用,增加了搜索結果的時效性、高效性、準確性。
4.1 微博是否需要實名制
隨著網絡實名制的的發展,越來越多的社交平臺要求用戶在注冊時需要填寫自己的真實信息,如個人的地理位置、教育信息等方便在網絡社交圈中找到自己的好友。以社交網絡人人網為例,它是一個實名制的社交平臺,用戶注冊人人網時需要進行個人身份證號、出生日期這些重要的個人信息的填寫來完成注冊,就相當于把用戶的個人信息完全的裸露在網絡上,我認為這樣做是利弊相間的,雖然增加了用戶在網絡中的舒適感和真實感但是同時方便了不法分子對這些信息進行利用,增加了用戶被網絡詐騙的幾率。微博雖然暫時還沒有實行制度,但隨著網絡在我們日常生活中的應用,我相信微博實名制指日可待。其實只要微博能夠有個人隱私數據的保護技術,如自動提醒用戶自己的信息將被收集展示,由用戶自己決定是否繼續錄入自己的信息。網絡社交平臺的實名制度究竟是增加了用戶在網絡上的"存在感還是更大程度的暴露了用戶真實生活中的個人隱私?所以網絡社交平臺是否需要實名制,也是一個需要探討解決的問題。
4.2 用戶信息的泄露與保護措施
微博的魅力在于它會引導我們找到很多好久不聯系同學,并且通過關注很容易的就看到他們的最近生活狀態,微博還有一個特點就是沒有用戶訪問記錄,你可以盡情的"窺視"每個人的微博主頁,可以輕而易舉的了解一個人的交際網。這從側面也體現出了微博泄露用戶個人信息的嚴重程度。所以用戶在使用微博發布信息時,必須要知道,你在社交網絡上的發布的所有動態都是完全透明性的,所以一定要提高安全意識。
要處理微博用戶個人隱私安全面臨的問題,需要從用戶本身的安全保護意識和提升網絡技術支程的方面著手處理。因為有很多用戶并不了解信息泄露的嚴重性所以社交平臺應該負起這個責任。并且積極引領用戶去了解怎么樣去保護自己的信息隱私安全,如定期變更密碼或不要隨意展現自己的地理位置等,提升用戶的安全意識。在當下的網絡情況,多數的社交軟件都有和第三方軟件合作,比如當用戶要完成一個新的注冊,在下方就會彈出授權第三方登陸,當用戶同意授權后,第三方軟件則會竊取到用戶的大量信息,形成巨大的信息泄露源。所以,微博應該在確保第三方程序安全的同時應該有種技術讓用戶在第三方登錄時能夠完全自主選擇個人信息的展示的程度。所以,這就需要建立一個能夠控制隱私信息流的技術支撐,通過對用戶端口與服務器端口的局限設計,就能夠加強對信息流的監管控制,從而達到保護用戶隱私安全的目標。微博作為一個社交平臺網絡,應該加強自身的安全程度,采取合理有效的措施保護用戶的個人信息安全。
微博搜索的問世,是搜索系統發展中至關重要的一步。盡管它現在的發展仍然存在著很多漏洞,但是相信只要能把爬蟲技術合理的應用到微博搜索中去,利用關鍵詞庫模板的爬蟲技術進行微博搜索結果的進一步完善。同時微博要盡快的的加強對用戶信息的保護,積極引領用戶加強對隱私安全的意識,希望國家也質定些相關的法律政策,為社交平臺的網絡用戶提供一個安全的上網環境。
[1]林紅靜,黃夢醒。基于微博信息的關鍵詞庫爬蟲策略[J]。海南大學學報,2016(02):17.
[2]周中華,謝江,張惠然。基于Python的新浪微博數據爬蟲[J]。計算機應用,2014(11):35-36.
[3]陳晨。基于主題爬蟲的個性化搜索引擎技術研究[J]。黑龍江科技信息,2110(11):38-40.
[4]衛冰潔,王斌,李帥,李鵬。微博檢索的研究進展[J]。中文信息學報,2015(02):11-12.