999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于社區(qū)劃分的現(xiàn)代文學(xué)作品個性化推薦算法

2021-12-23 12:49:42衛(wèi)欣玲
微型電腦應(yīng)用 2021年12期
關(guān)鍵詞:特征文本信息

衛(wèi)欣玲

(陜西交通職業(yè)技術(shù)學(xué)院 汽車工程學(xué)院,陜西 西安 710018)

0 引言

隨著各種閱讀軟件的推出,現(xiàn)代文學(xué)作品走向了網(wǎng)絡(luò)化時代,面對海量文學(xué)作品,讀者在選擇上耗費(fèi)了大量的時間與精力[1]。在這一背景下,文學(xué)作品的推薦功能已經(jīng)成為了閱讀軟件所必備的功能,一方面它可以高效地引導(dǎo)讀者找到自己滿意的文學(xué)作品,另一方面它可以增加讀者的黏性,避免讀者在內(nèi)容選擇上出現(xiàn)倦怠心理[2]。目前常見的推薦方式是在讀者登錄文學(xué)網(wǎng)站或App時進(jìn)行喜好篩選與引導(dǎo),網(wǎng)站可以根據(jù)讀者的搜索、瀏覽記錄進(jìn)行數(shù)據(jù)分析和個性化內(nèi)容的推薦服務(wù)[3]。讀者的個性化推薦服務(wù)最初起源于Doubleclick公司,這個公司對讀者定制推送個性化廣告,亞馬遜公司將這一系統(tǒng)與電商網(wǎng)站結(jié)合起來,通過對網(wǎng)站消費(fèi)者的歷史數(shù)據(jù)挖掘,進(jìn)行網(wǎng)站商品的推送,并取得了良好的效果[4]。但目前的推薦系統(tǒng)尚且處在發(fā)展階段,在產(chǎn)品種類和讀者數(shù)據(jù)的日漸增長下,文學(xué)網(wǎng)站推薦系統(tǒng)的潛在問題開始顯現(xiàn),一是在新用戶和新產(chǎn)品推薦時,存在冷啟動問題;二是用戶和產(chǎn)品的互動信息少,導(dǎo)致可分析數(shù)據(jù)稀疏;三是數(shù)據(jù)量急劇增加導(dǎo)致數(shù)據(jù)分析時間加長,推薦算法的實時性和準(zhǔn)確性無法同時保證[5]?;诖耍舜螐默F(xiàn)代文學(xué)作品入手,在對讀者進(jìn)行社區(qū)劃分的基礎(chǔ)上,結(jié)合多種智能算法,進(jìn)行個性化推薦算法研究,希望在保證算法效率的同時,可以最大程度地提升文學(xué)作品推薦算法的準(zhǔn)確性。

1 讀者評論文本分析算法

1.1 加權(quán)信息增益算法

信息增益表示分類信息中含有特征項時的信息量與不含特征項時的信息量之差,特征項t的重要程度可以由信息增益的大小反映,在信息分類的過程中,需要對特征項的信息增益由大到小進(jìn)行排序,并刪除排序靠后的特征項,剩下的就是重要性高的特征項。然而在傳統(tǒng)的信息增益算法中,沒有考慮到特征項在類別中的分布,因此會出現(xiàn)對特征項誤刪和漏刪的情況。這次研究提出在文本信息分類中采用加權(quán)信息增益算法(Degree Welghted Information Gain, DWIG),對特征項的類別內(nèi)分布狀況和類別間分布狀況進(jìn)行考慮,并以權(quán)重對特征項進(jìn)行衡量,以此彌補(bǔ)傳統(tǒng)信息增益算法的不足之處。

對于數(shù)量較多的類別文本,若特征項在這一類別的所有文本中均勻分布,則認(rèn)為這個特征項在這一類文本的分類上有更大的貢獻(xiàn)。因此,在這里以類內(nèi)分散度表示特征項在類別內(nèi)部的分布狀況,其數(shù)學(xué)表達(dá)式如式(1)。

(1)

其中,Ci表示文本類別;t表示特征項;N表示文本數(shù)量。

對于類別較多的文本信息,若特征項在某一類文本信息中大量出現(xiàn),而在其他類別文本中出現(xiàn)較少,則說明這一特征項在文本分類上的貢獻(xiàn)較大。這里以類間集中度表示特征項在類間的分布情況,其數(shù)學(xué)表達(dá)式如式(2)。

(2)

針對傳統(tǒng)信息增益算法的缺陷,在這里以類內(nèi)分散度和類間集中度對特征項t的位置權(quán)重進(jìn)行改進(jìn),改進(jìn)后的位置權(quán)重如式(3)。

(3)

結(jié)合改進(jìn)后特征項t的位置權(quán)重,在信息增益算法的改進(jìn)上采用最大值的衡量方法,改進(jìn)算法的數(shù)學(xué)表達(dá)式如式(4)。

CD(Cj,t)(H(C)-H(C|ti))

(4)

式中,Cj表示文本類別;H表示信息熵,即信息的期望值。

1.2 基于位置分布權(quán)重的特征選擇算法

在文本信息的分類中,首先需要對原始數(shù)據(jù)進(jìn)行分析并選擇特征項,輸出特征子集,然而擁有相同的特征項并不代表是同一個的信息數(shù)據(jù)。因此采用基于位置分布權(quán)重的TF-IDF算法(Term Frequency-Inverse Document Frequency-Distribution Weight, TF-IDF-DW)對文本信息數(shù)據(jù)進(jìn)行區(qū)分。TF-IDF融合特征權(quán)重算法涉及到2個部分,其一是詞頻,即特征詞在信息中的出現(xiàn)次數(shù);其二是逆文檔頻率,即文本集中的特征項部署情況。特征詞匯在文本信息中的詞頻越高,說明它的權(quán)重越大,詞頻以式(5)表示。

WeightTF(t)=TF(d,t)

(5)

對于文本信息而言,如果特征項t在大量的文本中出現(xiàn),那么說明它的比重小,反之則比重大,逆文檔頻率的函數(shù)表達(dá)式如式(6)。

(6)

式中,n表示含有特征項t的文本信息數(shù)量;N表示文本信息總數(shù)量。在對文本信息進(jìn)行詞頻和逆文檔頻率的處理后,可以減少無關(guān)詞匯的比重,增加重要特征項的比重,提高特征項分類準(zhǔn)確性,如式(7)。

(7)

雖然TF-IDF算法可以提高特征項對文本信息的區(qū)分效率,然而對于出現(xiàn)頻率較少且分散均勻的詞匯而言,這種算法的計算比重偏大,分類準(zhǔn)確性減小。因此,在傳統(tǒng)的TF-IDF算法基礎(chǔ)上,這里提出以類間分散度對特征項逆文檔頻率進(jìn)行平衡,將特征項在不同類別信息中的分散狀態(tài)考慮到算法分析中。改進(jìn)后的算法融進(jìn)了權(quán)重值,其函數(shù)表達(dá)如式(8)。

(8)

2 個性化推薦算法

2.1 基于社區(qū)劃分的推薦算法

傳統(tǒng)的推薦算法以協(xié)同過濾推薦算法為主,目前廣泛應(yīng)用于各大電商網(wǎng)絡(luò)系統(tǒng)中[6]。協(xié)同過濾推薦算法有2種類型,一種從推薦目標(biāo)的角度出發(fā),參考近鄰的喜好,進(jìn)行推薦商品的分析評分;另一種是從推薦商品的角度出發(fā),參考推薦目標(biāo)喜好,以特定算法對相似商品進(jìn)行搜集和分析評分。在推薦算法中,近鄰優(yōu)良通過相似度的精確性來決定,相似度的精確性直接影響了最終結(jié)果的準(zhǔn)確性和可信度。目前應(yīng)用廣泛的相似度計算方法有余弦相似度、斯皮爾曼相關(guān)系數(shù)、Pearson相關(guān)系數(shù)、谷本系數(shù)等[7]。

文學(xué)網(wǎng)站的讀者都有各自的閱讀偏好和習(xí)慣,但他們在一定程度上存在相似性,這使得閱讀偏好和習(xí)慣相似度高的讀者會形成一個社區(qū)。這里將采用BIRCH算法對讀者進(jìn)行社區(qū)識別,該算法的基本思想在于同屬于一個社區(qū)的不同讀者,對于同一類型的作品評價具有高度相似性。然而在實際分析中,讀者社區(qū)的原始數(shù)據(jù)存在一些問題,如興趣愛好數(shù)據(jù)稀疏、興趣數(shù)據(jù)重疊、社區(qū)間數(shù)據(jù)量差異過大等。這種情況下,特征項的選擇精確度和數(shù)據(jù)分析準(zhǔn)確性會受到影響。

奇異值分解(SVD)是一種數(shù)據(jù)信息提取方法,從數(shù)學(xué)角度而言,奇異值分解可以通過矩陣實現(xiàn)。將數(shù)據(jù)集以一個大的矩陣的形式表示出來,并對這個矩陣進(jìn)行不同形式的拆解,如多個矩陣相乘的形式,這就是奇異矩陣分解法。這種矩陣的特點(diǎn)在于,對角元素數(shù)值由大到小,而非對角元素的其他元素大多設(shè)置為0,這些對角元素就是奇異值。在科學(xué)研究中,需要確定R個重要特征進(jìn)行利用,此外的其他奇異值默認(rèn)為0。一般而言,對奇異值求取平均和,直到所有的和到達(dá)總值的90%,就可以確定R的值。在這次的研究中,將采用奇異值分解的方法對讀者原始數(shù)據(jù)進(jìn)行處理,并得到Um×d數(shù)據(jù)集、d×d、n×d,其中d?n,d?m,3個數(shù)據(jù)的關(guān)系如式(9)。

(9)

式中,d表示讀者數(shù)據(jù)維度,m表示讀者數(shù)量,n表示文學(xué)作品數(shù)量,S和V均為單位正交矩陣,表示線性映射。Um×d表示對原始數(shù)據(jù)進(jìn)行奇異值分解后得到的數(shù)據(jù)集?;谶@一數(shù)據(jù)集所表示的讀者數(shù)據(jù)特征,對讀者進(jìn)行社區(qū)劃分,最終的社區(qū)劃分效果如圖1所示。可以看出在SVD的處理下,每個社區(qū)的讀者分布均衡。

圖1 SVD處理后的社區(qū)劃分效果

2.2 基于讀者評分準(zhǔn)則的推薦算法

為了提高文學(xué)網(wǎng)站推薦算法的精確度,這里主要考慮2個方面,一是推薦對象與產(chǎn)品的相似性計算;二是對于推薦產(chǎn)品的預(yù)測評分,其中預(yù)測評分需要考慮到近鄰對象的影響。讀者評分本身是帶主觀意識的一種評價,與個人評價準(zhǔn)則、評價時的主觀情緒都有關(guān)聯(lián),因此讀者評分與個人喜好不具有絕對的關(guān)聯(lián)性。此次研究引入讀者評分準(zhǔn)則,并計算出準(zhǔn)則因子,結(jié)合相似度和預(yù)測評分進(jìn)行推薦算法的改進(jìn),如式(10)。

(10)

式中,U={u1,u2,…,um}表示讀者;I={i1,i2,…in}表示文學(xué)作品;Rm×n表示讀者-文學(xué)作品的評分?jǐn)?shù)據(jù)集;ru,i表示讀者u對作品i的評分值。

這里通過肯定性評分和否定性評分兩種評分方式來衡量讀者對作品的看法,以此考慮到不同讀者在同一文學(xué)作品評分準(zhǔn)則上的差異度。其中肯定性和否定性評分以中位數(shù)區(qū)分,例如,評分為1-10分,則肯定性評分>5分,否定性評分≤5分,如式(11)。

(11)

相似度的計算方法有很多種,這里采用歐幾里得公式,函數(shù)表達(dá)式如式(12)。

(12)

結(jié)合此次研究的內(nèi)容,以rmin對相似度計算進(jìn)行改進(jìn),改進(jìn)計算式如式(13)。

(13)

式中,wp表示不同讀者評分準(zhǔn)則的影響權(quán)重;Iuv表示不同讀者所共同評價的作品,rmin表示評分值的值差。

在對讀者進(jìn)行社區(qū)劃分后,將同一社區(qū)的讀者對于文學(xué)作品的評分分為2類,即肯定性評分和否定性評分,并以此判斷讀者所處的社區(qū)對于文學(xué)作品的評分態(tài)度傾向。在此基礎(chǔ)上,加入相似讀者的文檔等級評分,并以α1、α2分別表示原始評分和文本評分的比重,如式(14)。

(14)

3 改進(jìn)推薦算法性能分析

本次從2個方面對現(xiàn)代文學(xué)作品的個性化推薦服務(wù)進(jìn)行了研究,一方面是作品的讀者評論文本分析,另一方面是對讀者進(jìn)行社區(qū)劃分的個性化推薦。實驗原始數(shù)據(jù)來源于豆瓣網(wǎng)站中的現(xiàn)代文學(xué)作品數(shù)據(jù)庫,其中包括了4 000名讀者對8 000本現(xiàn)代文學(xué)作品的評分?jǐn)?shù)據(jù),以及20 000條評論文本,將數(shù)據(jù)以8∶2的方式分為訓(xùn)練集和測試集。評論文本分析算法的性能將從召回率、準(zhǔn)確率和F值3個方面進(jìn)行衡量,同時通過傳統(tǒng)算法(IG+TF-IDF)和改進(jìn)后的算法(DWIG+TF-IDF-DW)之間的比較來確定兩種算法之間的優(yōu)劣。傳統(tǒng)算法和改進(jìn)算法的準(zhǔn)確率統(tǒng)計結(jié)果如圖2所示。

圖2 讀者文本評論分析算法的準(zhǔn)確率

觀察圖中可以看出,改進(jìn)后的算法準(zhǔn)確率明顯高于傳統(tǒng)算法。在特征子集維度1 000維時,改進(jìn)算法的準(zhǔn)確率為87.5%,傳統(tǒng)算法的準(zhǔn)確率為83.7%%;當(dāng)特征子集維度達(dá)到2 500維時,兩種算法的準(zhǔn)確率趨于穩(wěn)定,最終改進(jìn)算法的準(zhǔn)確率穩(wěn)定在89.5%左右,而傳統(tǒng)算法的準(zhǔn)確率穩(wěn)定在84.8%左右。讀者文本評論分析算法的召回率結(jié)果,如圖3所示。

圖3 讀者文本評論分析算法的召回率

在特征子集維度1 000維時,改進(jìn)算法的召回率為87.3%,傳統(tǒng)算法的召回率為83.6%;當(dāng)特征子集維度達(dá)到2 000維時,2種算法的召回率趨于穩(wěn)定,最終改進(jìn)算法的召回率穩(wěn)定在89.1%左右,優(yōu)于傳統(tǒng)算法的84.9%,讀者文本評論分析算法的F值計算結(jié)果如圖4所示。

圖4 讀者文本評論分析算法的F值

從圖中可以看出,隨著特征子集維度的增加,改進(jìn)算法的F值從88.2%增加到89.3%,傳統(tǒng)算法的F值從83.8%增加到84.7%。在特征子集維度達(dá)到2 000維時,兩種算法的F值趨于穩(wěn)定。整體來看,改進(jìn)算法表現(xiàn)明顯優(yōu)于傳統(tǒng)算法?;谏鲜鲎x者評論文本的分析結(jié)果,這里以實驗數(shù)據(jù)集對基于社區(qū)劃分的推薦算法預(yù)測性能進(jìn)行評價,并以絕對誤差均值MAE反映預(yù)測結(jié)果的準(zhǔn)確度。傳統(tǒng)協(xié)同過濾算法、基于社區(qū)劃分的推薦算法、社區(qū)劃分和用戶評分準(zhǔn)則相結(jié)合的推薦算法等3種算法的絕對誤差均值比較結(jié)果如圖5所示。

圖5 3種推薦算法的絕對誤差均值MAE

從圖5可以看出,近鄰個數(shù)對推薦算法的性能有著明顯影響,但隨著近鄰個數(shù)的增加,這種影響逐漸減弱,算法的預(yù)測準(zhǔn)確度趨于穩(wěn)定。另一方面,在近鄰個數(shù)達(dá)到50個以上時,3種推薦算法的預(yù)測精度趨于穩(wěn)定。其中,協(xié)同過濾推薦算法的MAE值為1.8,基于社區(qū)劃分的推薦算法的MAE值為1.5,社區(qū)劃分結(jié)合用戶評分準(zhǔn)則的推薦算法的MAE值為1.0。根據(jù)MAE值來看,社區(qū)劃分結(jié)合用戶評分準(zhǔn)則的推薦算法預(yù)測準(zhǔn)確度更高。在社區(qū)劃分+用戶評分準(zhǔn)則的推薦算法的基礎(chǔ)上,加入讀者評論文本分析算法,2種推薦算法的絕對誤差均值的統(tǒng)計結(jié)果如圖6所示。

從圖6的結(jié)果可以看出,在近鄰個數(shù)達(dá)到40個以上時,2種推薦算法的預(yù)測性能趨于穩(wěn)定。同時結(jié)合用戶評分準(zhǔn)則的推薦算法的MAE值為0.5,說明讀者評論文本分析算法明顯改善了特征項的權(quán)重分配合理性,改進(jìn)后的算法準(zhǔn)確度有了明顯的提升。

圖6 兩種推薦算法的絕對誤差均值MAE

4 總結(jié)

隨著數(shù)據(jù)挖掘技術(shù)的進(jìn)步,為了保證網(wǎng)站用戶黏性,提升用戶的閱讀體驗感,智能推薦算法隨之產(chǎn)生。為了提高文學(xué)作品推薦算法的準(zhǔn)確性,此次研究對讀者評論文本分析算法進(jìn)行了兩方面的優(yōu)化,一是基于類內(nèi)和類間分布特征進(jìn)行加權(quán)信息增益(DWIG),二是對特征項進(jìn)行了位置分布權(quán)重優(yōu)化(TF-IDF-DW)。此外,在基于社區(qū)劃分的推薦算法研究中,引入了讀者評分準(zhǔn)則因子和文本等級評分優(yōu)化。實驗以豆瓣網(wǎng)站的文學(xué)作品原始數(shù)據(jù)作為實驗數(shù)據(jù)集,對改進(jìn)算法進(jìn)行性能評價。研究結(jié)果顯示,改進(jìn)算法預(yù)測結(jié)果的準(zhǔn)確率達(dá)到了89.5%,召回率為89.1%,F(xiàn)值為89.3%,改進(jìn)算法的性能明顯優(yōu)于傳統(tǒng)算法的性能。另外,傳統(tǒng)協(xié)同過濾推薦算法的MAE值為1.8,結(jié)合用戶評分準(zhǔn)則、文本等級評分和評論文本分析的算法優(yōu)化,最終的改進(jìn)算法MAE值達(dá)到0.5,預(yù)測結(jié)果和實際結(jié)果的誤差顯著減小。因此,此次研究所提出的基于社區(qū)劃分的推薦算法,對智能推薦系統(tǒng)的推薦精確度有著極大地提升,希望這次的研究結(jié)果能為智能推薦系統(tǒng)的應(yīng)用升級提供參考。這次研究存在一些不足之處,如沒有對評分準(zhǔn)則因子深入研究,今后將對算法進(jìn)行進(jìn)一步的改進(jìn)。

猜你喜歡
特征文本信息
如何表達(dá)“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
如何快速走進(jìn)文本
語文知識(2014年1期)2014-02-28 21:59:13
線性代數(shù)的應(yīng)用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 久久综合色视频| 欧美成a人片在线观看| 中文字幕不卡免费高清视频| 91九色国产porny| 小说 亚洲 无码 精品| 久久天天躁狠狠躁夜夜2020一| 亚洲色图欧美| 日韩高清一区 | 在线色国产| 亚洲成a人片在线观看88| 久久国语对白| 国产麻豆精品久久一二三| 亚洲色无码专线精品观看| 天天干天天色综合网| 91 九色视频丝袜| 2022精品国偷自产免费观看| 久久亚洲美女精品国产精品| 欧美日韩福利| 亚洲综合婷婷激情| 在线观看精品国产入口| 欧美一级高清片欧美国产欧美| 九色视频线上播放| 国产1区2区在线观看| 色婷婷亚洲综合五月| 日韩精品无码一级毛片免费| 女人天堂av免费| 国产乱人乱偷精品视频a人人澡| 日韩高清无码免费| 国产福利免费视频| 国产一区二区免费播放| 国产丝袜第一页| 国产精品女熟高潮视频| 国产一区二区精品高清在线观看| 色哟哟国产成人精品| 亚洲性影院| 久久99这里精品8国产| 极品国产在线| 黄色成年视频| 国产制服丝袜无码视频| 亚洲αv毛片| 四虎精品黑人视频| 91视频首页| 亚洲美女久久| 97国产一区二区精品久久呦| 香蕉视频在线观看www| 91美女视频在线| 欧美另类图片视频无弹跳第一页| 国产麻豆永久视频| 性视频久久| 久久青草精品一区二区三区| 在线国产91| 亚洲高清在线播放| 国产自无码视频在线观看| 91蜜芽尤物福利在线观看| 久久情精品国产品免费| 久久精品电影| 囯产av无码片毛片一级| 午夜精品久久久久久久无码软件| 9久久伊人精品综合| 自拍偷拍欧美| 久久精品中文无码资源站| 扒开粉嫩的小缝隙喷白浆视频| 国产午夜无码片在线观看网站| 国产理论最新国产精品视频| 精品无码人妻一区二区| 免费看a级毛片| 亚洲天堂区| 日本日韩欧美| 丝袜久久剧情精品国产| 992tv国产人成在线观看| 日韩毛片免费视频| 五月天在线网站| 午夜激情福利视频| 亚洲天堂视频在线免费观看| 18黑白丝水手服自慰喷水网站| 免费国产无遮挡又黄又爽| 国产欧美精品专区一区二区| 日韩专区欧美| 在线国产资源| 亚洲熟女中文字幕男人总站| 亚洲九九视频| 欧美a级在线|