999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

微博搜索技術及隱私安全問題的研究

2016-03-12 07:31:33遼寧對外經貿學院信息管理系李志曉
電子世界 2016年21期
關鍵詞:搜索引擎用戶信息

遼寧對外經貿學院信息管理系 李志曉

微博搜索技術及隱私安全問題的研究

遼寧對外經貿學院信息管理系 李志曉

通過與谷歌搜索進行比較研究,找出微博搜索技術的優缺點,并提出了利用網絡爬蟲技術來提高微博搜索的多樣性和準確性。同時分析了微博用戶個人隱私安全問題的泄露途徑和保護途徑,以及微博實名制的必要性。

谷歌搜索;網絡爬蟲;隱私安全

1.微博搜索技術目前的發展

目前,有很多重要的時事熱點事件都是由微博最先進行報道的。微博搜索技術發展的重要性不言而喻。其實微博在搜索和查詢方面都具獨特的特征,微博搜索技術其實是屬于信息檢索技術領域的,或者說是屬于文本檢索的范疇,這也是近段間以來的研究熱點之一。微博就是一個由大量文檔數據組成的被檢索語料庫,根據用戶提供的檢索詞,經過檢索模型對文檔數據庫中相近的語義詞進行對比,最后將結果按照升降順序返回給用戶。但是,由于微博搜索技術缺少對商業智能的支撐,簡單的來說就是現在的微博搜索技術基本是把傳統網頁搜索的基礎內容進行了克隆,缺少對信息的挖掘整理,且微博的搜索結果和搜索范圍也僅僅只限于微博本身,因此用戶需要耗費大量的時間精力去對匹配結果進行歸納提煉,才能獲取到最終所需的信息。經常會導致用戶感到困難并且對檢索結果不滿。

2.搜索技術面臨的問題

為了更好的挖掘微博搜索技術的問題,本文將搜索引擎中其中比較重要的三點與相對比較成熟的搜索機制比如谷歌搜索,進行比較思考從而為微博搜索的進一步發展提供意見。

2.1 熱門搜索列表的比較

隨著計算機行業的快速發展,網絡信息量直線增長,為了掌握最新最有用的熱門信息,提供熱門信息列表讓用戶方便的獲取最新信息也是很有必要的。通過對微博熱門列表和谷歌熱門列表進行比較分析,可以看新浪微博作為時效性強的搜索引擎網站,不管你處在任何頁面都能夠看到"發現"的這個功能,單擊就能看見熱門列表的存在,而谷歌搜索在熱門列表的體現則比新浪微博豐富很多,不僅包含熱門搜索詞并且還對熱門信息進行了分類,為用戶提供了方便的服務。但是在建立熱門列表時一定要注意的是在一定程度上要幫助用戶過濾垃圾信息。因此檢索系統需要開發專門的篩選器,在信息進入到語義搜索之前用這個篩選器篩選掉可疑的垃圾信息,并對搜索出的結果進行整合。

2.2 搜索提示與結果的比較

對于缺少搜索經驗和搜索詞不明確的用戶來說,在搜索過程中不可或缺的會有探索式的搜索過程,然后在過程中不斷發現自己的信息需求。所以說檢索提示對一個搜索引擎來說是至關重要的。當用戶輸搜索詞時在檢索框中會相應顯示出與搜索詞相關的最熱門搜索條目并進行實時排序,這樣不僅能減少用戶輸入耗費時間而且同時也是熱門列表的另一種表現方式。

用戶在搜索過程中難免會出現輸入錯別字或在不注意的情況下輸入拼音的情況,從而導致搜索結果不理想。先說新浪搜索,當你輸入錯別字后它便不會出現檢索提示了,而是在搜索結果會自動給出"你要搜的是不是XXX"內容,而谷歌搜索則在用戶輸入錯別字時自動顯示出搜索提示來幫助用戶進行錯別字糾正,從而幫助用戶獲取正確的搜索信息。可以發現谷歌搜索提供了錯別字糾正的功能而微博搜索并沒與實現這一點。

3.利用"爬蟲"技術解決微博搜索面臨的問題

"網絡爬蟲"也可以叫做蜘蛛程序。爬蟲是搜索引擎中的重要組成部分,它可以自動的對網頁程序進行抓取并且同時獲得網頁的鏈接地址,然后從網站的首頁開始對網頁的內容進行讀取并獲得另一個網頁的鏈接地址,就這樣不停的從一個站點移動至另外的站點,直到把網站的所有內容抓取盡為止。所以它對一個搜索引擎的的查準率和搜索詞提示率都起著重大的作用。在微博中想要加入爬蟲技術需要設置入口網站地址,爬蟲通過一定的方法將網頁的源代碼以文檔的形式保存在微博引擎中,然后以匹配邏輯繼續提取下面的網頁地址再次進行保存。當滿足一定條件時,爬蟲停止工作。利用網絡爬蟲的主動性和智能性來解決微博搜索目前面臨的問題。

3.1 增加搜索結果的多樣性

微博目前的搜索技術在運行中沒有辦法發現網頁中的信息的規律和關鍵字,缺乏一定的智能性。所以在微博中需要建立較完整的的資料庫,以便爬蟲來獲取關鍵信息。比如建立一個基于微博搜索的媒體新聞網站爬蟲模型,讓微博搜索引擎通過爬蟲技術與相對成熟的新聞網站建立聯系。再建立時間的限制,讓微博的爬蟲接口獲取最新的微博和新聞,因為新聞網站的信息來源廣、具備比較高的參考價值,且每條新聞的發布都有一個后臺支撐著,這樣確保不存在過多垃圾信息,完全圍繞事件進行微博發布,緊扣信息主題,不存在虛假和謠言信息。因此利用爬蟲建立網站聯系,可以對這些信息進行聚類,增加了消息的可靠性和準確性的同時也增加了微博搜索結果的多樣性。

3.2 增加搜索結果的準確性

由于微博搜索的特殊性,所以關鍵字搜索在微博搜索引擎中就顯得尤為重要。在對微博主題進行爬蟲時,需要構建關鍵詞詞庫來幫助爬蟲對系統的微博信息進行爬取,增加搜索結果的準確性和覆蓋性,從而解決微博搜索結果的疏散性。

如果需要對微博搜索結果的準確性進行增加,這就需要對增加對關鍵字的數據挖掘,根據微博的文本內容進行聚集分析,得到不同的分類結果,從而產生關鍵字庫模板。并且對不同事件所涉及關鍵詞組再次進行分類。這樣當用戶輸入的搜索詞時,爬蟲在關鍵字庫模板中進行分類抓取,從而得到用戶所需的查找內容。并且把通過數據挖掘獲取到事件的時間點,聚集在一起進行爬蟲抓取,做為數據挖掘的第一階段,在準確性的基礎上增加了實時性。例如把近期提及一篇新聞關鍵字的微博文章和新聞都聚集在一起,再用爬蟲后的關鍵字模塊進行關鍵字標注,最后通過比對映射增加關聯詞詞庫,這樣微博的搜索引擎便可以對用戶大量的輸入詞進行完整的內容搜索和聯想。雖然微博搜索結果有一定的疏散性,但是微博信息具有很強的交互性,利用這個特性獲取事件爬取的關鍵詞然后形成詞庫,放入到數據庫中為搜索的后續信息做好前提工作。

通過查閱資料我發現國內已經開發出針對于中文的分詞技術,且技術相對成熟,常用的中文分詞包有庖丁解牛分詞包(適用于Lucene整合)Ling Pipe(開源自然語言處理的Java 開源工具包)等。該技術可以完成中文分詞詞性標注和未登錄詞識別等功能,并將結果存入到數據庫中。假如用戶想查詢與雪有關的微博內容,利用爬蟲的關鍵字抓取技術可以可以搜索到很多與雪有關的內容,但是如果把這個分詞技術建立在爬蟲關鍵字基礎上的話,那么會增加微博搜索引擎的后臺支持,當用戶輸入雪時在搜索結果頁面中會同時展示類似冬天、寒冷等類似的微博內容。這樣既豐富了內容又節省了時間,提高了搜索效率。

總結來說將爬蟲技術應用于微博搜索需要完成三個階段:

(1)構建關鍵詞詞庫模板,綜合關鍵詞,形成模板,并實時更新。

(2)增大搜索引擎接口,選定具有代表性的信息庫來源。

(3)數據挖掘,利用分詞技術提取關鍵字的特征詞。隨著信息時代的高速發展,國內外的熱點新聞熱點話題在網絡上更新的越來越迅速,關鍵詞的更新也越來越快。通過爬蟲技術在微博搜索中的應用,增加了搜索結果的時效性、高效性、準確性。

4.微博上的個人隱私安全問題

4.1 微博是否需要實名制

隨著網絡實名制的的發展,越來越多的社交平臺要求用戶在注冊時需要填寫自己的真實信息,如個人的地理位置、教育信息等方便在網絡社交圈中找到自己的好友。以社交網絡人人網為例,它是一個實名制的社交平臺,用戶注冊人人網時需要進行個人身份證號、出生日期這些重要的個人信息的填寫來完成注冊,就相當于把用戶的個人信息完全的裸露在網絡上,我認為這樣做是利弊相間的,雖然增加了用戶在網絡中的舒適感和真實感但是同時方便了不法分子對這些信息進行利用,增加了用戶被網絡詐騙的幾率。微博雖然暫時還沒有實行制度,但隨著網絡在我們日常生活中的應用,我相信微博實名制指日可待。其實只要微博能夠有個人隱私數據的保護技術,如自動提醒用戶自己的信息將被收集展示,由用戶自己決定是否繼續錄入自己的信息。網絡社交平臺的實名制度究竟是增加了用戶在網絡上的"存在感還是更大程度的暴露了用戶真實生活中的個人隱私?所以網絡社交平臺是否需要實名制,也是一個需要探討解決的問題。

4.2 用戶信息的泄露與保護措施

微博的魅力在于它會引導我們找到很多好久不聯系同學,并且通過關注很容易的就看到他們的最近生活狀態,微博還有一個特點就是沒有用戶訪問記錄,你可以盡情的"窺視"每個人的微博主頁,可以輕而易舉的了解一個人的交際網。這從側面也體現出了微博泄露用戶個人信息的嚴重程度。所以用戶在使用微博發布信息時,必須要知道,你在社交網絡上的發布的所有動態都是完全透明性的,所以一定要提高安全意識。

要處理微博用戶個人隱私安全面臨的問題,需要從用戶本身的安全保護意識和提升網絡技術支程的方面著手處理。因為有很多用戶并不了解信息泄露的嚴重性所以社交平臺應該負起這個責任。并且積極引領用戶去了解怎么樣去保護自己的信息隱私安全,如定期變更密碼或不要隨意展現自己的地理位置等,提升用戶的安全意識。在當下的網絡情況,多數的社交軟件都有和第三方軟件合作,比如當用戶要完成一個新的注冊,在下方就會彈出授權第三方登陸,當用戶同意授權后,第三方軟件則會竊取到用戶的大量信息,形成巨大的信息泄露源。所以,微博應該在確保第三方程序安全的同時應該有種技術讓用戶在第三方登錄時能夠完全自主選擇個人信息的展示的程度。所以,這就需要建立一個能夠控制隱私信息流的技術支撐,通過對用戶端口與服務器端口的局限設計,就能夠加強對信息流的監管控制,從而達到保護用戶隱私安全的目標。微博作為一個社交平臺網絡,應該加強自身的安全程度,采取合理有效的措施保護用戶的個人信息安全。

5.總結

微博搜索的問世,是搜索系統發展中至關重要的一步。盡管它現在的發展仍然存在著很多漏洞,但是相信只要能把爬蟲技術合理的應用到微博搜索中去,利用關鍵詞庫模板的爬蟲技術進行微博搜索結果的進一步完善。同時微博要盡快的的加強對用戶信息的保護,積極引領用戶加強對隱私安全的意識,希望國家也質定些相關的法律政策,為社交平臺的網絡用戶提供一個安全的上網環境。

[1]林紅靜,黃夢醒。基于微博信息的關鍵詞庫爬蟲策略[J]。海南大學學報,2016(02):17.

[2]周中華,謝江,張惠然。基于Python的新浪微博數據爬蟲[J]。計算機應用,2014(11):35-36.

[3]陳晨。基于主題爬蟲的個性化搜索引擎技術研究[J]。黑龍江科技信息,2110(11):38-40.

[4]衛冰潔,王斌,李帥,李鵬。微博檢索的研究進展[J]。中文信息學報,2015(02):11-12.

猜你喜歡
搜索引擎用戶信息
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
網絡搜索引擎亟待規范
中國衛生(2015年12期)2015-11-10 05:13:38
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
基于Nutch的醫療搜索引擎的研究與開發
廣告主與搜索引擎的雙向博弈分析
搜索,也要“深搜熟濾”
主站蜘蛛池模板: 亚洲综合久久一本伊一区| 宅男噜噜噜66国产在线观看| 手机精品福利在线观看| 亚洲精品无码抽插日韩| 成人字幕网视频在线观看| 国产精品私拍在线爆乳| 麻豆国产精品视频| 97超级碰碰碰碰精品| 成人综合网址| 亚洲欧美另类中文字幕| 精品亚洲欧美中文字幕在线看 | 中文字幕亚洲另类天堂| 久久综合激情网| 全色黄大色大片免费久久老太| 成年人久久黄色网站| 日本一本正道综合久久dvd| 一级成人欧美一区在线观看 | 26uuu国产精品视频| 日韩在线第三页| 亚洲色图欧美视频| 国产香蕉97碰碰视频VA碰碰看 | 精品自拍视频在线观看| 国产精品亚洲一区二区三区在线观看| 成年人国产视频| 黄色三级毛片网站| 免费xxxxx在线观看网站| 精品三级网站| 成人蜜桃网| 熟女日韩精品2区| 国产自视频| 97视频免费在线观看| 一本一道波多野结衣av黑人在线| 亚洲综合片| 一级全免费视频播放| av色爱 天堂网| 久久国产精品国产自线拍| 久久美女精品| 无码国产偷倩在线播放老年人 | 亚洲一级无毛片无码在线免费视频| a毛片在线免费观看| 国产91丝袜在线播放动漫| 草草影院国产第一页| 亚洲色图狠狠干| 午夜一区二区三区| 92精品国产自产在线观看 | 婷婷六月在线| 久久精品最新免费国产成人| 99精品高清在线播放| a欧美在线| 久久91精品牛牛| 激情网址在线观看| 亚洲女同一区二区| 亚洲一区二区三区麻豆| 国产99视频精品免费视频7| 这里只有精品在线播放| 久久亚洲欧美综合| 精品一区二区三区无码视频无码| 久久久噜噜噜久久中文字幕色伊伊| 又大又硬又爽免费视频| 久久久久免费精品国产| 国产91导航| 国产精品第5页| 男女男精品视频| 久久中文字幕av不卡一区二区| 日韩免费毛片| 国产玖玖玖精品视频| 伊人欧美在线| 无码啪啪精品天堂浪潮av| 91区国产福利在线观看午夜 | 97视频在线精品国自产拍| 亚洲一区毛片| 亚洲综合久久一本伊一区| 国产AV无码专区亚洲A∨毛片| 99re热精品视频国产免费| 伊伊人成亚洲综合人网7777| 久久频这里精品99香蕉久网址| 四虎永久免费地址| 国产综合网站| 国产欧美日韩另类| 92午夜福利影院一区二区三区| 无码专区在线观看| 在线另类稀缺国产呦|