999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于動態參考書目推薦的英語創意寫作輔助教學系統的設計與實現

2019-04-01 12:43:52王夢雪賈清源
計算機應用與軟件 2019年2期
關鍵詞:單詞文本內容

王夢雪 李 俊 賈清源 費 騰

(武漢大學資源與環境科學學院 湖北 武漢 430079)

0 引 言

創意寫作是在英美高校非常普遍的一門課程,它以一種具有想象力的、獨特的又賦有詩意的方式表達作者的思想情感。近年來,國內已有幾所大學開設創意寫作課程。在創意寫作學習過程中,學生需要閱讀大量優秀的英文作品,因此,合適的參考書目尤為重要。如何滿足不同用戶的需求,在海量參考文獻中為每個用戶提供精準的、個性化的參考書目,并通過在線推薦系統進行實時推薦,是本文研究的目的所在。

推薦系統是能夠為用戶提供所需產品信息建議的軟件工具和技術手段[1]。目前各平臺采用的推薦系統算法主要是基于內容的推薦算法和基于協同過濾的推薦算法[2]。基于內容的推薦算法的主要思想是為用戶推薦與他們所喜歡的產品內容相似度最高的產品[3],對于文本相似性,可以通過提取文本特征來度量,主流的方法是利用TF-IDF詞頻統計算法提取詞頻特征[4]。除此之外,本文提出用易讀性作為文本特征的另一個指標,其大小用Flesch易讀性公式[5]衡量,Microsoft Word就是應用Flesch公式來計算文本易讀性的[6]。基于協同過濾的推薦算法是使用最廣泛的推薦技術,其中基于物品的協同過濾被認為是相對穩定的算法[7-8]。通過計算待推薦產品與用戶已評分過的產品間的相關性對產品進行評分預測,從而將預測評分高的產品加入推薦列表。然而,無論是基于內容的推薦算法還是協同過濾,都有自身的優點和缺陷,針對這一點,許多學者提出同時使用這兩種方法以解決冷啟動問題,提高精度[9-10]。

本文結合基于內容和基于產品的協同過濾推薦算法設計并實現了一個基于動態參考書目推薦的英語創意寫作輔助教學系統。首先利用基于內容的推薦實時向用戶推送相似文體和文風的參考文章,并通過多用戶協同過濾的推薦,不斷提高系統推薦的準確率。該系統不僅能應用于在線創意寫作平臺,還能應用于新聞、微博、商品信息、旅游文記、論文期刊等其他個性化文檔推薦的項目中。

1 整體框架

圖1展示了構建英語創意寫作動態參考書目推薦在線系統的研究框架。該系統分三個模塊進行構建:底層數據庫模塊、中層推薦算法模塊和頂層的用戶模塊。數據庫模塊存儲有文本特征數據和用戶信息數據;推薦算法模塊進行基于內容和基于協同過濾的混合推薦;用戶模塊用于前端交互,主要涉及賬號密碼、用戶文章、推薦文章等的輸入或輸出和其他交互操作。

圖1 創意寫作動態參考書目推薦系統的研究框架

該推薦系統的運行流程如圖2所示。在系統投入使用之前要對文庫文章進行預處理,分析所有文章的詞頻特征和易讀性特征,將特征值存儲在底層數據庫中。推薦過程分為兩部分:一是基于文本的內容推薦,用戶輸入文章片段后,在線分析該文本的詞頻和易讀性特征并與文庫中文章的特征值比較,計算二者的相似度并將結果排序,輸出相似度高的文章列表;二是基于物品的協同過濾推薦,用戶查看推薦的文章后,構成瀏覽記錄,對用戶的瀏覽記錄進行分析處理,計算文章之間的支持度和置信度,基于此,判斷某些文章的關聯度并對關聯度進行排序,輸出與用戶瀏覽記錄關聯度高的文章列表,作為對基于文本內容推薦的補充。

圖2 創意寫作動態參考書目推薦系統的運行流程

2 基于內容的推薦

基于內容的推薦需要計算用戶內容和產品內容之間的相似度,在大多數情況下需要對描述內容的信息進行分析,其中對用戶興趣的描述來自用戶自己提供的信息[11]。本文在基于內容的推薦中,從特征詞頻相似性方面判斷用戶提供的片段與文庫文章是否相似,并輔佐以易讀性差異計算進一步衡量相似度。本文先用TF-IDF算法計算輸入片段的詞頻特征,然后計算輸入片段和文庫文章排名較高的前100個詞的TF-IDF值的余弦相似度,再計算輸入片段的易讀性,將它與文庫文章的易讀性進行差值計算,最后對二者的計算結果加權,得到最終的結果。

2.1 相似度計算

根據空間向量模型,一個文件空間中的文件可以看作一組特征值的集合,統計每個特征詞的出現頻率。將詞頻信息表示成向量模式,該向量就是文本的特征向量,進而可以利用向量間的余弦相似度計算或者Jaccard公式得到文本相似度。

選取特征詞最常用的方法是TF-IDF算法。TF-IDF通過統計文件中每個單詞在該文件的出現頻率和在所有文件中的出現頻率,給該文件中每個單詞賦權值,TF指詞頻,IDF指逆向文件頻率[12]。TF-IDF衡量的是給定單詞與一篇特定文件的相關性,若一個單詞的TF-IDF值高,那么該單詞在一個特定文件中出現頻率高而在該文件集中出現頻率相對低,說明該單詞具有很好的類別區分能力[13],將它們作為標識該文件的特征詞。這樣做的目的是找到衡量文章內容相似性的可靠依據,一篇英語文章中無意義的介詞出現頻率一般會比具有實際含義的動詞或名詞高。如果單純按一篇文章的最高詞頻計算,那么所有文章的特征詞都會充斥著大量的介詞、冠詞、連詞,甚至是無意義的名詞和動詞。而TF-IDF算法的作用則能降低停止詞的權值,提高實義詞的權值,篩選出一篇文章中獨有且出現次數多的單詞,提高相似性計算的準確率。

TF-IDF算法計算過程如下:設一個文件集中有N個文本文件,fij為標識為i的單詞在文件j中的出現頻次,那么詞頻TFij定義如下:

(1)

TFij是fij標準化得到的結果,標準化過程是fij除以一個文本文件中所有單詞的最大頻率值。所以,文件j中出現次數最多的單詞的TF值為1,其他單詞的TF值都小于1。

設單詞i在ni個文件中出現過,那么IDFi定義如下:

(2)

若一個文件j有m個不同的項,那么該文件的內容可以表示為m維向量:

dj=(w1j,w2j,…,wmj)

(3)

式中:

(4)

dj即為文件的特征向量,用這個值來計算文件之間的相似度。在基于內容的推薦系統中,用ContentBasedProfile(c)表示用戶特征,用Content(s)表示產品特征[14],有如下所示計算該相似性的函數:

u(c,s)=score(ContentBasedProfile(c),Content(s))

(5)

其中score的計算方式有很多,本文使用夾角余弦相似法,因為該方法計算簡便,且能夠得到較為精確的結果。該方法是用向量空間中兩個向量夾角的余弦值衡量兩個對象之間的相似度,計算方法如下:

(6)

兩個特征向量的夾角余弦值越大,向量之間的夾角就越小,說明兩個文本文件越相似。

本文先統計文章的單詞詞頻,取頻次最高的若干個單詞,然后用TF-IDF算法從中篩選出100個能標識該文章的特征單詞。將這些單詞的TF-IDF值作為文章的特征向量,計算出文庫文章和輸入語句特征向量的夾角余弦值,得到的結果即為二者的詞頻相似度,作為評價文檔相似性的一個指標。

2.2 易讀性差異計算

易讀性用來衡量文章難度,本文將它作為另一個文本特征,使用Flesch公式計算文本的易讀性。該公式用單詞音節數衡量單詞難度,用文本的平均句長衡量句子的難度。

Flesch易讀性公式形式如下:

ReadingEase(RE)=206.835-0.846wl-1.015sl

(7)

式中:wl為每100個單詞的平均音節數;sl為句子的平均單詞數;RE代表易讀性指數,范圍為0~100。RE值越大,文本越容易,RE值在0~30被認為很難,是美國大學生水平,60~70被定義為標準難度,相當于初中生水平。

本文對文庫文章和輸入語句的單詞平均音節數和句子平均單詞數進行統計,用Flesch公式計算出用戶輸入和文庫文章的易讀性差值,作為評價文檔相似性的另一個指標。

2.3 基于文本內容的推薦

通過對文本信息的分析計算,得到詞頻相似度和文章易讀性兩個指標。本文在決定最終的計算公式時,采用熵權法[15]確定這兩個指標的權重系數。

設詞頻特征相似度結果的權重系數為a,易讀性差異計算結果的權重系數為b,可得到用戶輸入片段和文庫文章的相似度的計算公式:

sim(c,s)=a×u(c,s)+b×|REc-REs|=

(8)

式中:sim(c,s)表示用戶輸入片段與文庫文章的相似度,將相似度結果從大到小排序,優先推薦相似度高的文章。

3 基于協同過濾的推薦

在基于物品的協同過濾推薦中,分析每次推薦后產生的用戶喜好數據,如果多個用戶同時看了某些文章,可以判斷這些文章存在著隱含的聯系。據此將與用戶閱讀過的文章關聯性強的文章推薦給該用戶,幫助其當前的寫作,作為對基于內容推薦結果的補充。基于物品的協同過濾的理論之一是數據挖掘中的關聯規則,用支持度(support)和置信度(confidence)來反映兩個物品之間的關聯度,支持度表示兩個物品同時出現的概率。

本文采用隱式評分[16],即不需要用戶顯式輸入評分數值,僅通過用戶在瀏覽推薦結果片段后是否點擊“閱讀全文”來判斷用戶是否對該文章感興趣。若判斷為是,則將該文章加入到該用戶的閱讀列表,文庫列表中的每一篇文章和其他文章的關聯性都要在閱讀列表中進行統計計算。對于任意兩篇屬于文庫列表的文章A和B,它們之間的支持度為:

(9)

A對B的置信度表示如果用戶閱讀過A,他也會喜歡B的概率,公式為:

(10)

給支持度和置信度設置閾值,若A對B的支持度和A對B的置信度分別大于這兩個閾值,則判斷B是A的強相關性文章,將B添加到A的相關文章列表中。遍歷文庫中的所有文章,為每篇文章都建立對應的相關文章列表。若用戶閱讀文章A,則從列表中篩選出用戶沒有讀過的文章B,按照關聯度從大到小排序,將排序結果推送給用戶。

4 測試分析及改進

本文設計了一種個性化在線推薦系統平臺,系統界面如圖3所示。用戶在左側文本框輸入寫作片段,系統根據目前的內容在左下角實時呈現5篇推薦書目的標題,當輸入文字較多后推薦列表會趨于穩定。用戶點擊后以片段方式呈現在右側文本框供用戶試閱,當用戶對此文章感興趣可以點擊“full text”閱讀全文。此時,系統會在右下角會列出與該文章相關度最高的5篇文章,并將瀏覽行為記錄下來,用于計算更新各文章的相關文章列表。

圖3 創意寫作動態參考書目推薦系統界面

本文從各網站采集了580短篇英文小說作為實驗測試數據,測試平臺中設計了評分系統,選擇100名學生作為用戶分別從內容和主題、表達和情感、用詞和句長三個方面進行評價,每個方面評分為1~5分。用戶綜合推薦的5篇文章對結果進行評分,對評分結果求平均值并進行歸一化,得到用戶對推薦結果的滿意程度,結果如表1所示。

表1 用戶滿意程度及評分標準

由用戶的反饋可以看出,本系統能夠較好地滿足用戶的需求。雖然在情感表達和主題內容上稍有欠缺,但是在詞匯和句子難度方面系統能提供較為精準的推薦。

本系統與已有的教學資源推薦系統相比[17-18],優勢在于使用基于內容和基于物品的混合式推薦系統,發揮了兩種推薦方法各自的優點。在基于內容的推薦中,分別從文章相似度和易讀性兩個角度出發進行相似計算,從而提高了推薦的準確性。

5 結 語

本文提出了一個基于動態參考書目推薦的英語創意寫作輔助教學系統。該系統能根據用戶在線輸入的英文寫作內容,提取多維寫作風格特征,進行實時動態相關參考讀物推薦。此外,作為一個多用戶系統,還基于協同過濾算法,將其他用戶的接受推薦行為也納入推薦考慮范圍,利用用戶貢獻內容(UGC)對系統的貢獻,對其基于寫作風格的推薦進行補充和修正。該系統在使用中,反應迅速、推薦準確,深受測試用戶的好評。可以作為創意寫作課程教學與課后輔導信息化的有利工具。

在之后的改進中可以考慮更多方面,如利用自然語言處理進行情感分析,通過文章主題分類提高推薦效果,使推薦系統更符合用戶的預期。

猜你喜歡
單詞文本內容
內容回顧溫故知新
科學大眾(2022年11期)2022-06-21 09:20:52
單詞連一連
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
看圖填單詞
主要內容
臺聲(2016年2期)2016-09-16 01:06:53
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
最難的單詞
單詞拾趣
海外英語(2006年8期)2006-09-28 08:49:00
主站蜘蛛池模板: 国产微拍精品| 国产亚洲精久久久久久无码AV| 国产亚洲精久久久久久久91| 色综合五月婷婷| 国产视频一二三区| 狠狠色噜噜狠狠狠狠奇米777 | 日本一本在线视频| 国产你懂得| 中文字幕亚洲专区第19页| 午夜毛片福利| 国产主播一区二区三区| www.99精品视频在线播放| 精品国产自在在线在线观看| 狠狠亚洲婷婷综合色香| 毛片网站在线播放| 666精品国产精品亚洲| 色香蕉影院| 国产凹凸视频在线观看| 亚洲成在人线av品善网好看| 2020最新国产精品视频| 一区二区影院| 97综合久久| 强奷白丝美女在线观看| 日韩精品成人在线| 亚洲v日韩v欧美在线观看| 国产91视频观看| 99r在线精品视频在线播放| 麻豆国产精品视频| 国产粉嫩粉嫩的18在线播放91| 亚洲欧美另类视频| a色毛片免费视频| 国产jizzjizz视频| 国产伦精品一区二区三区视频优播| 国产成人永久免费视频| 亚洲最大情网站在线观看| 国产成人综合久久| 亚洲午夜福利精品无码不卡 | 亚洲国产理论片在线播放| 国产黄色视频综合| 久久国产亚洲偷自| 日本午夜精品一本在线观看| 亚洲va视频| 亚洲天天更新| A级全黄试看30分钟小视频| 欧美亚洲激情| 国产精品99久久久久久董美香 | 国产SUV精品一区二区6| 四虎成人在线视频| 无码免费试看| 国产一级小视频| 亚洲综合九九| 午夜限制老子影院888| 尤物特级无码毛片免费| 色窝窝免费一区二区三区| 国产三级韩国三级理| 国产乱子伦精品视频| 国产熟睡乱子伦视频网站| 婷五月综合| av大片在线无码免费| 三区在线视频| 在线欧美一区| www.亚洲一区| а∨天堂一区中文字幕| 国产91视频观看| 欧美啪啪一区| 久久精品电影| 九色在线观看视频| 日韩a级片视频| 国产精品九九视频| 51国产偷自视频区视频手机观看| 青草视频免费在线观看| 天天色综合4| 性网站在线观看| 亚洲无码视频喷水| 99这里只有精品6| 8090成人午夜精品| 四虎国产在线观看| a级毛片在线免费| 狠狠色噜噜狠狠狠狠奇米777| 国产在线观看91精品亚瑟| 中文字幕第4页| 色婷婷狠狠干|