999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

個性化高校新聞分類推薦的應用研究

2019-07-15 11:18:42畢曦文紀明宇段仁翀郭鵬鑫
計算機應用與軟件 2019年7期
關鍵詞:內容用戶

畢曦文 紀明宇 吳 鵬 方 靜 段仁翀 郭鵬鑫

(東北林業大學信息與計算機工程學院 黑龍江 哈爾濱 150040)

0 引 言

近年來,網絡技術迅猛發展,在中國互聯網信息中心2018年8月發布的報告中顯示:我國網民規模已達8.02億,互聯網普及率已達57.7%。在眾多的網民當中,高達80%的用戶均使用網上新聞資訊服務來滿足獲取新信息的需求。然而對于新聞信息,因其種類繁多且相應的信息獲取平臺缺乏高效、準確和智能的特性,用戶難以快速捕捉到想要的內容,體驗感較差。

為了提高網絡信息瀏覽過程中的用戶體驗,數據挖掘技術被越來越多的專家學者們所研究。其中,聚類是數據挖掘技術中的一個重要分支。它是來滿足用戶要求的簇的集合,在沒有任何先驗知識的前提下,從海量數據中提取出未知但有價值的數據。早在1976年MacQueen就使用Epannechnikov核函數首次提出了K均值聚類算法(K-means算法)[1]。近年來,一些學者根據尋找最優初值的思想將卡斯克魯爾算法、貪心算法等思想引入到K-means算法[2]中,一些改進的K-means算法又被應用到了公共推薦平臺社區當中,也取得了一定的效果[3]。數據挖掘技術的另一重要分支是推薦技術,目前主要的個性化推薦算法包括基于內容的推薦、協同過濾推薦、基于知識的推薦、基于關聯規則的推薦和混合推薦[4]等。其中基于內容的推薦算法是一個簡單但十分重要的推薦思想。因為推薦效果受特征權重的選取方法影響明顯[5],所以一些學者將項目語義應用于個性化推薦技術,亦取得了較好的成效[6]。最新還有一些研究如通過分析項目屬性關系將項目粒度化,進而提出基于內容的加權粒度序列推薦算法等[7]。

本文主要針對聚類和推薦技術在新聞領域方面的應用來進行研究,結合K-means算法及混合推薦技術,改進已有的技術方法,以期望提高獲取新聞時的準確性和時效性。

1 算法基礎

1.1 原始的K-means聚類算法

K-means算法作為經典的聚類方法,由于可以快速計算以及擁有可靠的理論支撐等優點被應用在許多實踐中[8]。

K-means的基本算法描述如下:首先從所有的數據集中隨機選取K個對象作為初始的聚類中心。然后計算剩下的對象到這些聚類中心的距離(稱之為歐氏距離),把每個對象分配給距離它最近的聚類中心。之后再選擇每個新聚類的聚類中心,即計算該聚類中所有對象的均值,取該點作為新的聚類中心。然后不斷重復這一過程,直到平方誤差滿足相應的精度為止[9]。

K-means算法的流程圖如圖1所示。

圖1 K-means算法流程圖

K-means算法也存在一定的局限性,它更適用于簇密集但簇與簇之間差異較大的數據,因此K-means算法對聚類數K的選取十分敏感。初始聚類中心的數量不同可能會導致產生不同的聚類結果[10],聚類的結果對K的依賴性也會導致聚類結果十分不穩定。針對這些問題,一些學者針對難以確定聚類中心數目進行了具體的研究[11],對數據進行了分割及合并處理,但并沒有對K的取值作出深入討論和驗證,這一點將是本文主要的研究工作之一。

1.2 協同過濾與基于內容的推薦算法

協同過濾推薦技術是現階段最為成功的推薦技術之一,它的基本原理是根據所有用戶對物品或內容的偏好,來分辨出某類顧客可能感興趣的東西。通過記錄用戶瀏覽信息以及用戶對這些信息的評分,利用協同過濾的方法對用戶喜好和文章內容建立模型,再將模型整合后對數據進行處理,進而擬合出協同過濾矩陣[12]。

另一種較為成功的推薦算法為基于內容的推薦,它根據用戶過去喜歡的產品,為用戶推薦符合他過去喜好的產品。該算法首先對數據內容進行整合,分析得到該產品的結構化描述。再利用過去用戶喜好的物品特征數據學習出該用戶的喜好特征畫像,即用戶模型。最后通過比較用戶特征畫像與候選物品的特征,進而為用戶推薦出一組相關性最大的產品[13]。

基于內容的推薦算法工作流程如圖2所示。

圖2 基于內容的推薦算法流程圖

協同過濾和基于內容的推薦技術已經廣泛應用于很多領域,但它們都不能很好地解決新用戶、物品的“冷啟動”、用戶關注度的變化、數據的稀疏性等系列問題,且隨著用戶數量和商品種類的增多,系統的性能將會變得越來越差[14]。在不斷的研究過程中,有學者發現利用基于用戶特征和商品特征的組合協同過濾算法,在改善相似度的研究中能夠取得較好的應用效果[15]。下文將借鑒已有學者的工作,對原始的推薦聚類算法進行改進。

2 算法分析與改進

2.1 K-means算法的分析與改進

原始的K-means算法是隨機輸入聚類數K,由于一個文本中會有很多相近的詞匯,那么一旦文本的類別數與K值不等,不同類別的文本就會被強行聚類到同一個簇中[16]。假設文本有7個類別,然而原始K-means算法將K設置為6,那么有1類將會被強行分散到這5個類別中,這樣的聚類結果顯然是不合理的。也有很多與K值的優化問題相關的研究工作,其中最常用的就是肘部法則,可以用它來估計聚類的數目,為K值的選取提供參照。

利用肘部法則來優化K值,是為了使成本函數的目標值最小化[17],其中成本函數是指各個類的畸變程度之和。該法則首先要畫出不同K值的成本函數圖像。由圖像可以看出,隨著K值的不斷增大,每個類中所含有的樣本數量會不斷減少,樣本離重心的距離會不斷接近,平均畸變程度也會隨之不斷減小。然而若K值繼續增大,平均畸變程度減小得將不再明顯,改善效果會不斷降低。在K值增大的過程中,成本函數下降幅度最大的位置就是“肘部”。從肘部法則的描述中可以發現,只有選取最佳的K值,才能避免算法陷入局部最優解[18]的問題。

2.2 內容和協同過濾組合推薦算法

通過分析、比較現有的多個推薦算法的優缺點,本文采用協同推薦與內容推薦合并的混合推薦方案,將兩種推薦算法結合,從而滿足對用戶喜好的相關預測分析。

混合推薦算法流程圖如圖3所示。

圖3 內容和協同過濾組合推薦算法流程

在上述流程中,本文采用下式來計算用戶偏好的矩陣向量:

(1)

式中:u表示用戶數量,r表示新聞閱讀記錄表,θ(j)表示用戶j的新聞觀看向量,xj表示i新聞的內容,y(i,j)表示j用戶是否看過i新聞,n表示特征數量,m表示新聞數量。

基于式(1),得到文章的內容矩陣向量表示:

(2)

通過對式(2)的結果進行擬合計算和篩選排序,選出擬合度最高的K篇文章,同時搭配內容推薦系統對用戶進行混合推薦。

對于用戶需求信息的擬合,本文主要依靠代價函數來求出相似度,進而求出對于文章用戶擬合效果比較好的x和θ,代價函數如下:

(3)

協同過濾的代價函數如下:

(4)

3 實驗分析

3.1 實驗準備

本文用于實驗的硬件環境為Intel(R) Core(TM) i5-7200U CPU @ 2.50 GHz 2.70 GHz,內存為8 GB。軟件環境包括操作系統為64位的deepin,編程軟件為pycharm。實驗所采用的數據為東北林業大學新聞網站上爬取到的數據。

3.2 評價指標

為了保證實驗結果的準確性,我們選擇F值作為評價指標[19]。F值定義如下:

(5)

式中:precision和recall分別為準確率和召回率,是廣泛用于統計學分類領域和信息檢索的兩個度量值,可以用來對結果的質量進行評價。其中precision是檢索出的相關文檔數與檢索文檔總數的比率,即代表著檢索系統的準確率;recall是指檢索出的相關文檔數和文檔庫中所有相關文檔數的比率,即代表著檢索系統的查全率。準確率和召回率的計算如下:

(6)

(7)

3.3 實驗過程及結果分析

本文將實驗數據分為5類,原始的K-means算法輸入聚類數K的值為 4。我們利用肘部法則分析出的平均畸變程度與K值的關系圖像如圖4所示。通過對圖中曲線分析可知,K=5時對應的平均畸變程度約為0.961,相對于其他K值,聚類數K的誤差畸變程度減小,可以得到K=5是最佳分類數量。而在K=4時,很多數據被聚類到不正確的類簇中[20]。本文改進已有的聚類數4,把K值改進為5,提高了實驗結果的準確性。

圖4 平局畸變程度與K值關系圖

在內容推薦方面,本文將純粹的基于內容推薦和協同推薦方法與本文改進的方法在準確率方面進行了對比實驗,關于準確率的對比實驗結果分析如圖5所示。

圖5 準確率對比實驗結果圖

由圖5可以看出,隨著K值的變化,內容推薦和本文選取的推薦方法隨K值影響較大,本文方法的準確率遠遠高于內容推薦算法和協同推薦算法。在K值等于5的情況下,本文的推薦算法準確率達到最高值約為0.32,內容過濾算法的準確率約為0.18,則本文的推薦算法比內容過濾算法高出約14%。在K等于5時本文的推薦算法準確率約為0.32,對比K為4、6時的0.24和0.27分別高約8%和5%。

4 系統實現

為了驗證算法的有效性,本文利用Python語言,采用網絡爬蟲、改進的K-means算法、內容與協同過濾組合的推薦方法等技術,初步實現了一個面向個性化推薦的高校新聞分類推薦系統,系統主界面如圖6所示。

圖6 客戶端系統操作界面

該系統可以使不同模塊以動態持續更新的形式顯示在主頁最上端,能夠根據用戶的興趣偏好,實時地推送給用戶需要的高校新聞,提高新聞推薦的準確率和效率。個性化新聞推薦的具體展示頁面如圖7所示。

圖7 個性化新聞推薦界面

5 結 語

本文提出了基于內容和基于協同過濾的一種全新的新聞混合推薦算法,通過與其他原始算法進行對比,驗證了本文算法的有效性。與此同時,本文將相應的算法應用于校園新聞網站的個性化服務推薦系統當中,具有一定的實用價值。

例如在今后若運用到實際中,考慮到實時聚類推薦以及海量數據處理,將進一步優化處理模塊。例如數據存儲結構處理、預處理、聚類處理等方面,將采用Map-Reduce框架進行運算。

猜你喜歡
內容用戶
內容回顧溫故知新
科學大眾(2022年11期)2022-06-21 09:20:52
內容回顧 溫故知新
科學大眾(2021年21期)2022-01-18 05:53:48
內容回顧溫故知新
科學大眾(2021年17期)2021-10-14 08:34:02
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
主要內容
臺聲(2016年2期)2016-09-16 01:06:53
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
Camera360:拍出5億用戶
創業家(2015年10期)2015-02-27 07:55:08
100萬用戶
創業家(2015年10期)2015-02-27 07:54:39
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
主站蜘蛛池模板: 国产午夜精品鲁丝片| 91娇喘视频| 久久综合一个色综合网| 青青草原国产av福利网站| 国产精品yjizz视频网一二区| h视频在线观看网站| 这里只有精品免费视频| 国模在线视频一区二区三区| 亚洲综合第一页| 亚洲不卡无码av中文字幕| 中国国产一级毛片| 一区二区理伦视频| 亚洲欧美不卡| 亚洲无码视频喷水| 久久久噜噜噜久久中文字幕色伊伊 | 高清无码手机在线观看| 中文字幕中文字字幕码一二区| 国产无码网站在线观看| 精品无码国产自产野外拍在线| 一级做a爰片久久免费| 久久久精品国产SM调教网站| 欧洲高清无码在线| 国产亚洲精品自在线| AV在线麻免费观看网站| 久久精品无码专区免费| 亚洲性日韩精品一区二区| 亚洲天堂.com| 国产丝袜丝视频在线观看| 亚洲欧美h| 毛片久久网站小视频| 亚洲免费三区| 国产精品视频导航| 青草视频免费在线观看| 成人免费网站在线观看| 青草视频免费在线观看| 亚洲男人天堂2020| 婷婷99视频精品全部在线观看| 国产在线视频欧美亚综合| 另类欧美日韩| 波多野结衣一二三| 黄色网在线| 91国语视频| 亚洲人成色77777在线观看| 久草中文网| 99久久无色码中文字幕| 丰满人妻中出白浆| 欧美视频在线播放观看免费福利资源| 久久九九热视频| 国产成人免费| 国产成人三级在线观看视频| 视频二区国产精品职场同事| 免费看美女自慰的网站| 天天干天天色综合网| 国产成人久视频免费| 亚洲欧美色中文字幕| 精品视频一区在线观看| 国产91视频免费观看| 亚洲最大在线观看| 国产精品视频a| 久久99国产综合精品女同| 夜夜拍夜夜爽| 成人午夜天| 亚洲美女一区| 五月天综合婷婷| 中国精品久久| 国产人免费人成免费视频| 亚洲第七页| 国产网站一区二区三区| 国产成人你懂的在线观看| 国产精品19p| 久久99国产综合精品1| hezyo加勒比一区二区三区| 麻豆国产在线观看一区二区| 久热精品免费| 国产欧美视频在线| 国产白丝av| 久久香蕉国产线看精品| 亚洲成人在线免费观看| 怡春院欧美一区二区三区免费| 久久国产精品77777| 国产a在视频线精品视频下载| 国产va在线观看免费|