999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學習和詞匯相似度的個性化新聞推薦系統設計

2021-09-10 19:36:38江濤
無線互聯科技 2021年7期
關鍵詞:深度學習

江濤

摘 要:對網絡上龐大的新聞資訊,如何發展一個個性化的新聞推薦系統,自動地推薦使用者感興趣的新聞,是一個備受重視的課題。文章提出一個個性化新聞推薦系統,此系統將建立一個新聞本體,并通過深度學習計算使用者偏好,以此達到推薦個性化新聞的目的。此新聞本體以分析新聞的詞匯為基礎,并參考專家的分類。其中,每個類別包含特定數量的代表性詞匯,而這些詞匯以時事新聞進行TF-IDF統計而得。對每一則新聞,系統將計算該則新聞所包含的詞匯與新聞本體中代表性詞匯的相似度,定義為新聞的特征向量,并將此特征向量輸入多層次類神經網絡進行深度學習計算得出新聞推薦值。實驗結果顯示,相較于隨機推薦,文章所提出的方法可以較大地提升推薦成功的比率,神經網絡將由推薦值來判斷是否推薦給使用者,若是使用者未點擊閱讀此新聞,判斷為使用者不喜歡此篇新聞,神經網絡將會進行修正,使之越來越接近真實的使用者偏好。

關鍵詞:使用者偏好;新聞推薦;深度學習;TF-IDF

0 引言

在網絡新聞普及的今天,大量的新聞網站如騰訊新聞、網易新聞、中國青年電子報等眾多媒體平臺的普及,配合智能手機、平板與5G網絡技術的發展,人們也越來越依賴智能型設備在任何時間、地點,通過網絡來從事各式各樣的活動,例如:可以使用手機瀏覽器閱讀網絡新聞,部分新聞媒體也推出專屬手機 APP 以供閱讀,新聞的即時性已然與過去的一日一報大不相同。也就是在這新聞資訊爆炸的時代,人們有太多新聞可以瀏覽閱讀,因此一個好的個性化新聞推薦系統,對大多數使用者將是非常有用的。

本文將以詞匯相似度為基礎結合深度學習推薦個性化新聞:首先,參考專家分類,將新聞分為多個類別,并將其對應的時事新聞進行分析,取出其中的代表性詞匯,加入其對應的類別,以此作為新聞本體。之后,由網絡爬蟲獲取新聞,利用中文斷詞系統將該新聞的詞匯取出,然后利用TF-IDF(Term Frequency-Inverse Document Frequency)方法來計算出本文代表性的詞匯,再將這些詞匯與新聞本體中的代表性詞匯進行 NGD(Normalized Google Distance) 相似度計算,其結果定義為此新聞的特征向量。最后,將新聞的特征向量輸入多層次類神經網絡進行深度學習計算,依據使用者真實的點擊記錄修正各層神經元傳導路徑的權重值以及神經元偏權值,從而由神經網絡判斷是否推薦給使用者。

1 相關研究

1.1? 新聞本體

“本體”源自于哲學,是一個探討物體存在的哲學分? ? ? ?支[1]。在信息科學中,本體論的觀念被應用在知識表達上,也就是對特定領域之中某套概念及其相互之間關系的形式化表達,通過描述一項事物與其他詞匯的從屬關系來代表該事物。在本研究中所建立的新聞本體由數個類別組成,各類別下又具有特定數量的代表性詞匯,這些代表性詞匯是通過TF-IDF統計方法計算而得。

1.2? Term Frequency–Inverse Document Frequency (TF-IDF)TF-IDF是一種用來評價詞匯與文章關聯程度的統計方法[2]。詞匯的重要性隨著它在文件中出現的次數成正比增加,但同時會隨著它在語料庫中出現的頻率成反比下降。

單一詞匯ti的詞頻(Term Frequency, TF),可由式(1)計算得知,其中ni,j,nk,j分別表示詞匯ti,tk在文件dj出現的次數,分母即為文件dj中所有詞匯出現次數之總和。

逆向文件頻率(Inverse Document Frequency,IDF)是一個計算詞匯重要性的方法。某一特定詞匯的IDF,可以由(2)式得到,其中∣D∣是語料庫中的文件總數,表示包含詞匯ti的文件數目。

1.3? Normalized Google Distance(NGD)NGD是一種詞匯相似度的計算方式,利用搜索引擎搜尋詞匯后,回報的搜尋結果數來計算兩個詞匯之間的相關度。兩個相似的詞匯會有較小的NGD值,而較不相關的詞匯會有較大的NGD值。NGD的計算公式如下:

(4)

其中x,y是欲計算相似度的兩個詞匯,f(x)是詞匯x的搜索結果,f(x,y)是合并詞匯“x”“y”搜尋的結果數,N是Google 搜尋引擎的總索引數。

2? ? 關鍵問題

2.1? 系統架構

新聞推薦系統架構如圖1所示,推薦系統主要分為兩部分:新聞分析系統及深度學習。

2.2? 新聞分析系統

2.2.1 網絡爬蟲

網絡爬蟲是一種自動瀏覽探索網絡的程序,被廣泛用于網際網絡搜尋引擎或其他類似網站,以取得或更新這些網站的內容和檢索方式。它們可以自動采集所有其能夠存取到的頁面內容,以供搜尋引擎做進一步處理,而使得用戶能更快地檢索到他們需要的信息。本研究利用爬蟲快速地搜集新聞數據,用以建立新聞本體以及深度學習訓練。

2.2.2? 斷詞系統

斷詞系統是一種將一句話或一段文章分成詞匯以便后續處理的系統。通過斷詞系統可以將前述網絡爬蟲所獲得的新聞數據,使用TF-IDF統計方法取出該篇新聞的代表性詞匯[3]。

3? ? 深度學習

本研究采用深度神經網絡,使用反向傳播算法進行學習訓練,以新聞的特征向量作為輸入,隱藏層的激活函數是采用線性整流函數(Rectified Linear Unit),ReLU相較于其他激活函數能更快收斂,也可以有效處理梯度消失的問題,并依據使用者真實的點擊記錄修正各層神經元傳導路徑的權重值以及神經元偏權計算,以得出使用者是否對一篇新聞有興趣。

4? ? 建立新聞本體

參照搜索引擎新聞分類的方式,系統先用網絡爬蟲從固定的幾個中文網絡新聞平臺擷取相關類別的新聞。另外,在參考Google新聞平臺的建議詞匯及百度搜尋熱門詞匯后,發現大部分詞匯都屬于名詞,因此收集完新聞文章,利用斷詞系統斷詞后,將只取名詞詞類來進行下一步計算。利用TF-IDF把該類別中最常出現的多個代表性詞匯記錄下來,與原本的類別連接,建構新聞本體。如:假設旅游類別的新聞中最常出現的詞匯是“故宮”“廬山”“九寨溝”,則將其定為旅游類別下的3個代表性詞匯。

5? ? 計算新聞特征向量

在建立了新聞類別與代表性詞匯之間關系的新聞本體之后,假設所建立的新聞本體中有n個類別(如旅游、體育等),其分別以C1,C2,…,Cn表示,而每個類別有m個代表性詞匯,并以TCi,j,1≦i≦n,1≦j≦m表示第i個類別的第j個代表性詞匯。對某一新聞N,假設經過斷詞分析后,得到其內含有s個代表性詞匯(以TNh,1≦h≦s來表示),目標是利用這些詞匯來得出此新聞N與新聞本體每個類別C1,C2,…,Cn的相似度,因為NGD值代表詞匯之間的相似度,所以可以通過新聞N中所有詞匯(TNh,1≦h≦s)與某類別Ci中的所有代表性詞匯(TCi,j,1≦j≦m)任兩者間的NGD值,來計算出新聞N與Ci的相似度,其公式定義如下:

經由(2)的計算可得出一新聞N與本體中所有類別Ci(1≦i≦n)之間的相似度,這些值可以用來定義新聞N的特征向量,亦即假設U代表新聞N的特征向量,則

6? ? 進行深度學習訓練

由(5)式可以得到一篇新聞的特征向量,以此特征向量代表新聞,并取數則新聞分批作為深度學習的訓練數據輸入神經網絡,然后依每次通過神經網絡所輸出結果,由反向傳播算法計算其值與真實使用者選擇之間的誤差有多少,來修正神經元路徑權重值以及神經元偏權,經過不斷訓練來學習使用者興趣。

7? ? 試驗以及評估

表1為實驗初步訓練成果,實驗采用3層隱藏層。

準確率計算如(7)式,計算結果為85%,由此可以看出深度學習具有較好的推薦效果。

(7)

8? ? 結語

本文考察了現今新聞平臺多數區分類別的特性,并建立新聞本體,新聞本體能夠將新聞內容的抽象概念具體化,再通過NGD計算新聞詞匯與新聞本體的相似度,來建立一則新聞的特征向量,讓計算機可通過數值化的新聞來進行深度學習訓練,從而計算新聞推薦值,并依照推薦值進行推薦,由于深度神經網絡是可以不斷訓練的,本系統可以不斷進行學習,根據實驗證明,采用深度學習,已具備不錯的推薦效果,未來研究也將進一步調整深度學習網絡的各項參數,使新聞推薦系統推薦出更符合使用者偏好的新聞。

[參考文獻]

[1]黃立威,江碧濤,呂守業,等.基于深度學習的推薦系統研究綜述[J].計算機學報,2018(7):1619-1647.

[2]彭菲菲,錢旭.基于用戶關注度的個性化新聞推薦系統[J].計算機應用研究,2012(3):1005-1007.

[3]鄧存彬,虞慧群,范貴生.融合動態協同過濾和深度學習的推薦算法[J].計算機科學,2019(8):28-34.

(編輯 王永超)

猜你喜歡
深度學習
從合坐走向合學:淺議新學習模式的構建
面向大數據遠程開放實驗平臺構建研究
基于自動智能分類器的圖書館亂架圖書檢測
搭建深度學習的三級階梯
有體驗的學習才是有意義的學習
電子商務中基于深度學習的虛假交易識別研究
現代情報(2016年10期)2016-12-15 11:50:53
利用網絡技術促進學生深度學習的幾大策略
考試周刊(2016年94期)2016-12-12 12:15:04
MOOC與翻轉課堂融合的深度學習場域建構
大數據技術在反恐怖主義中的應用展望
深度學習算法應用于巖石圖像處理的可行性研究
軟件導刊(2016年9期)2016-11-07 22:20:49
主站蜘蛛池模板: 女人av社区男人的天堂| 91精品网站| 亚洲av中文无码乱人伦在线r| 国产欧美在线| 免费人成在线观看成人片| 亚洲天堂免费| 尤物特级无码毛片免费| 久久综合伊人77777| 99久久精品视香蕉蕉| 伊伊人成亚洲综合人网7777| 国产无遮挡裸体免费视频| 中文精品久久久久国产网址 | 精品视频第一页| 国产人免费人成免费视频| 国产大片黄在线观看| a亚洲天堂| 亚洲欧美另类视频| 精品自窥自偷在线看| 青草视频网站在线观看| 五月婷婷综合在线视频| 99久久国产精品无码| a毛片基地免费大全| 国产69囗曝护士吞精在线视频 | 伊人婷婷色香五月综合缴缴情| 97精品国产高清久久久久蜜芽| 国产中文一区a级毛片视频| 欧美人人干| 国产欧美日韩va| 国产精品网址在线观看你懂的| 免费毛片全部不收费的| 高清视频一区| 动漫精品啪啪一区二区三区| 亚洲欧美色中文字幕| 真人高潮娇喘嗯啊在线观看 | 女人18毛片一级毛片在线 | 日韩激情成人| 欧美一级夜夜爽www| 亚洲 日韩 激情 无码 中出| 久久精品免费看一| 午夜爽爽视频| 久久综合亚洲鲁鲁九月天| 国产内射一区亚洲| 婷婷亚洲视频| 中文字幕欧美日韩高清| 91福利免费| 亚洲国产91人成在线| 久草视频精品| 伦伦影院精品一区| 欧美国产日韩在线观看| 国产玖玖玖精品视频| 特黄日韩免费一区二区三区| 亚洲成人一区在线| 精品超清无码视频在线观看| 国产精品亚洲va在线观看| 成人中文在线| 欧美国产视频| 四虎精品黑人视频| 日本不卡在线播放| 国产SUV精品一区二区6| 国产又粗又爽视频| 成年人国产视频| 国产91视频免费观看| 国产高清精品在线91| 青草娱乐极品免费视频| 2021国产在线视频| 日韩精品成人网页视频在线| 亚洲无码免费黄色网址| 免费观看亚洲人成网站| 国产成人AV综合久久| 国产欧美在线观看精品一区污| 亚洲高清无码久久久| 亚洲 欧美 偷自乱 图片| 国产福利免费观看| 国产乱子伦手机在线| 国产91无码福利在线| 亚洲综合片| 毛片基地美国正在播放亚洲| 乱人伦99久久| 91免费片| 综合网久久| 国产乱子伦视频三区| 午夜毛片免费观看视频 |