999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于融合文本主題模型的學者興趣挖掘研究

2022-09-07 12:52:22夏驕雄
計算機時代 2022年9期
關鍵詞:文本模型

陳 鋒,夏驕雄,2,3

(1.上海理工大學光電信息與計算機工程學院,上海 200093;2.上海大學計算機工程與科學學院;3.上海市教育科學研究院)

0 引言

興趣標簽作為對科研學者興趣偏好的集中表達,也逐漸成了學者畫像中的“標配”。但隨著科學技術的迅猛發展,學術論文、期刊等學術數據呈高速增長趨勢,人們越來越難以從海量的學術大數據中抽取出精確的學者興趣標簽,于是如何在有限的時間內從大量文本中提取興趣標簽成為學術大數據信息挖掘的一項重要任務。

傳統的學者興趣標簽抽取研究中,循環神經網絡常常需要面對在訓練中出現的梯度消失或梯度爆炸的問題,還有在文本大數據中處理分類問題的時候,文本數據具有非結構化、稀疏性特征,經常導致分類效果不理想。為解決上述問題,本文利用加權投票法融合 Latent Dirichlet Allocation 和改進的Doc2vec算法得到一種新的結合主題向量和文檔向量表示的融合模型,從而有效地提升興趣標簽標注的精準度。

1 相關研究

以往的研究主要是通過用戶對網頁的瀏覽內容和瀏覽時的操作行為進行用戶的興趣發現。而后社交網絡興起,周娜等學者提出將興趣挖掘的工作建立在無監督的主題概率模型上,從學者自身發表的論文著作的文本信息中挖掘興趣標簽。本文的主要目的在于利用學術數據構建精準的學者標簽。興趣標簽構建研究采用LDA 與Doc2Vec兩種不同的表示方法,其中文本屬性分類模塊使用預訓練的無監督的Doc2Vec 段落向量模型,其將原始文本轉化為向量形式,并利用雙向長短記憶循環神經網絡(BiLSTM)和帶有注意力機制的聚合方式生成文本對各興趣標簽進行表示,然后依據學者和興趣標簽之間的余弦相似度,將相似度最高的五個標簽作為學者的興趣標簽,而LDA 利用無監督的主題概率模型進行興趣標簽的分類,將每個人的文本內容合并成一個文本文檔,再使用LDA算法捕捉隱藏的主題信息。從而得到作者-主題分布,最后依據加權投票法融合以上兩種方法得到的標簽結果作為學者最終的研究興趣標簽。

2 整體框架

本文所提出基于融合文本主題模型的學者興趣挖掘研究的整體框架由四部分組成:基于LDA 主題模型的標簽表示、基于Doc2Vec 文本模型的標簽表示、學者與興趣標簽相似度計算和結果方法集成。整體結構如圖1所示。

圖1 文本主題模型興趣抽取思路

2.1 基于LDA主題模型的標簽表示

本文采用了LDA 主題模型,可以在語義上計算文本內容的相關性,實現文本特征的降維,具體的文本語義特征提取如下所述。

LDA 是一種基于主題的空間模型,它能夠通過給定文檔集中每個文檔的主題,將其以概率分布的形式展現,即文檔可以轉換為基于主題的值,每篇文檔由一組沒有相互順序關系的單詞組成,文檔中每個單詞都依賴于主題而生成。LDA的圖模型結構如圖2所示。

圖2 文檔主題生成模型結構

2.2 基于Doc2Vec文本模型的標簽表示

本文將學者和研究興趣標簽表示成多種詞向量形式。Word2Vec 可以提供每個單詞的數字表示,并且能夠捕獲上述關系。

Doc2Vec 是基于Word2Vec 的段落向量模型,Mikolov等人在2013年提出了基于詞向量文本表示工具Word2vec 模型,雖然Word2Vec 詞向量模型能夠基于分布式假說理論高質量得抽取詞語的語義信息,但此模型忽視了文本間的語序數據,為了改善此問題,Doc2Vec 模型在谷歌工程師Quoc Le 和Tomoas Mikolov 的努力下逐漸嶄露頭角。他們添加了用來標記文檔的id 的向量作為記錄文檔的唯一標識,每當模型訓練完成的時候,可以同時得到文檔和單詞的向量表示。本文Doc2vec模型采用了Distributed Memory(DM)隱藏層技術模型,它就像一個記憶體,記住當前上下文缺少的內容。單詞向量表示單詞的概念,而文檔向量表示文檔的概念。

2.3 學者與興趣標簽相似度計算

在學術文本語義相似度計算實驗中,根據先驗知識,學者與研究興趣標簽越相似,表明該標簽越能代表學者的研究方向。計算文本相似度是本文的關鍵理論技術之一,相似程度可以通過考察這些承載文本關鍵信息的概念詞集合之間的相似程度衡量。

本文使用向量余弦值來度量學者和研究興趣標簽之間的相似度。我們可以用不同向量的夾角余弦值來表示它們的差異。這個余弦值通常被稱為“余弦距離”。定義興趣標簽向量空間與學者之間的關聯關系,需要定義語義相似度如公式(1)所示,其中,X 和Y分別為向量空間中學者向量形式和研究興趣標簽的向量形式,CosSim(X,Y)是兩個行向量的余弦相似度,定義如公式⑴。

提取文本特征后,可以將學者和興趣標簽向量代入余弦值計算公式,可以得到兩者之間的余弦距離。

2.4 結果方法集成

集成機器學習模型是一種常見的提升模型能力的機器學習范式,它可以避免陷入糟糕的局部最優。采用單個學習器可能對泛化的效果不明顯,結合多個學習器可以減少這一風險,當集成學習方法正確組合兩種或兩種以上能解決相同問題的方法后,它將能更有效地提高整體精度。

本文得到的改進的Doc2Vec 模塊和LDA 主題模塊分別得出了興趣標簽結果,根據文獻[12]可知,采用集成方法(Ensemble Method)聚合兩個模塊的興趣標簽評分可以得到比任意一個模塊更好的分類準確率得分。

LDA 主題模塊和改進的Doc2Vec 模塊分別會為數據集中的學者生成興趣標簽評分。首先計算兩個子模塊的分類準確率,再將其各自的準確率作為融合權重,將各自的分類評分加權聚合為最終的評分結果,其得分是分類得到的興趣標簽集與給定的興趣標簽完全相同的比例,公式如下:

其中,N 為數據集中學者個數,T 為分類得到的學者興趣標簽集,T*為給定的興趣標簽集。

投票法,學習法和平均法是常見的集成學習采用的結合策略。投票法(voting) 常用于分類問題,它以單個分類模型的分類結果為基礎,以少數服從多數的原則確定模型預測的類別標簽。本文采用的集成方法為投票加權聚合,具體方法如圖3所示。

圖3 加權投票示意圖

得到兩個子模塊的分類準確率得分后,使用如下公式計算兩個模塊的權重:

其中,score 表示子模塊的準確率得分,weight 表示子模塊的權重。利用兩個模塊的加權各自的興趣標簽評分,公式如下:

3 實驗結果與分析

接下來將按照實驗的操作流程介紹數據集、數據預處理、興趣標簽及學者的表示與相似度計算、模型集成步驟。

3.1 數據集

本文實驗所用的數據集來源于人工智能和大數據競賽平臺Biendata 提供的“2017 開放學術精準畫像大賽”論文基本信息數據集,包含3081998篇發表時間在1936~2016 年間計算機領域內的論文基本信息數據、15367 名學者的姓名、作者的三個興趣標簽,以及大小為1098的標簽空間。

3.2 數據預處理

獲得學者論文數據之后不能夠馬上進行處理,本實驗首先對數據集進行文本預處理。將文本拆分為句子,將句子拆分為詞語,將句子拆分為單詞,再刪除所有的停用詞,把所有單詞變換為小寫單詞并刪除標點符號,刪除在語料庫中出現少于三個字符的單詞。最后將過去時態和未來時態的動詞都改為現在時態。

3.3 興趣標簽及學者的表示與相似度計算

⑴LDA

在LDA 中,超參數a設置為0.1,pass設置為20,以保證收斂。首先,為每一位學者匯總各自發表的論文,并將每篇論文題目進行連接,形成一個文本文檔用來表示學者,然后匯總每一個興趣標簽所對應的學者,連接所對應學者發表的論文題目,形成一個文本文檔,用來表示興趣標簽;其次,對這兩類文檔進行文本預處理,預處理后對這兩類文檔使用LDA 模型進行了表示,即對學者和興趣標簽都進行了表示,主題數從10 和50 開始試驗,再從主題數為100 開始以100 為步長遞增的方式進行表示實驗對比。如圖4所示。

圖4 使用不同主題數下展現的評分效果

基于前文提到的科研學者與興趣標簽向量空間相似度方法計算余弦相似度,排名前五的興趣標簽保存為對應的學者感興趣或主要研究的方向。從圖4可以看出,主題數為10時,標注效果較差,此時得到的標注得分為0.088,但隨著主題數增加,通過試驗分析可以明顯發現主題數參數為100的時候達到了區間內的最大值0.197。當主題數繼續增加時評分趨于穩定,標注得分為0.15 到0.2 之間。由此我們初步得出結論:主題數參數設置為100 的時候能夠更好有效得對主題進行標注。

⑵Doc2Vec

接下來使用基于Doc2Vec 方法的向量空間模型對興趣標簽與科研學者進行向量空間的表示,基于前文提到的科研學者與興趣標簽向量空間相似度方法計算余弦相似度,得到了不同詞向量特征數下的興趣標簽標注效果,如圖5所示。

圖5 使用不同特征維度下展現的評分效果

從圖5 可以看出,詞向量特征維度數量從50 開始增加時,再從特征數為100 開始以100 為步長遞增的方式進行實驗的對比,當維度增加到200維時,興趣標簽標注得分為0.304,此時的標注效果最好,當維度從200 維繼續增加時效果逐漸下降。通過對比訓練,可以得出當詞向量維度為200 時,取得的興趣標簽標注效果最好。

3.4 模型集成

為了得到精準的興趣標簽表示,本文也展開了集成方法的試驗,加權投票法作為本次的集成策略。圖6展示了不同模型得到的效果評分。

圖6 不同模型在數據集的表現

從圖6可以看出,LDA、Doc2Vec、改進的Doc2Vec模型和集成模型的評價分別為0.197,0.304,0.322,0.399。因為實驗數據的主題差異性比較弱,所以LDA興趣標簽抽取模型較差效果,只有0.197。Doc2Vec 模型是基于句子維度的空間向量表達,因不涉及主題的相關差異性,所以不受到獨立領域數據集的限制,更適合處理本文使用的數據集,達到了0.304 的評分。改進的Doc2Vec模型在此基礎上利用BiLSTM 模型和Attention 機制,由前后向的LSTM 捕獲文本數據文本中的上下文信息,能夠很好的處理雙向數據的序列信息,Attention抓住文本數據集的重點,因此雙向長端記憶神經網絡的優化,而再采用了注意力機制加權文本中不同位置的信息,能更好地加強興趣標簽表示效果,改進后的模型提升了0.018 的評分。使用投票加權模型集成的方式有利于LDA 與改進的Doc2Vec模型發揮各自的標簽抽取能力,集成模型相較于基礎模型有了較大的改善,達到了0.399的評分。

4 結束語

本文通過多源的計算機科學學界的學術論文信息進行學術興趣標簽的抽取研究。我們采用幾種不同的文本表示方法,包括LDA、Doc2Vec 和改進后Doc2Vec,對學者和興趣標簽進行表示,其中LDA 嘗試在多種不同的主題數進行對比試驗,得出區間最優的主題數參數,Doc2Vec 也根據模型在不同維度間的抽取表現得到了區間最優維度參數,接著使用加權投票的策略進行模型的集成得到更優的集成模型,最后利用學者和興趣標簽之間的相似性,即通過科研學者與興趣標簽集合的余弦相似度計算法為每位學者抽取出其最匹配的興趣標簽,通過對比不同建模方法和集成方法下的標注效果,本文發現集成LDA 與改進的Doc2Vec模型能獲得更好的興趣標簽標注效果。

猜你喜歡
文本模型
一半模型
重要模型『一線三等角』
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 一级在线毛片| 久久永久精品免费视频| 久久亚洲高清国产| 亚洲综合片| 国产一在线观看| 精品久久人人爽人人玩人人妻| 狠狠色噜噜狠狠狠狠色综合久 | 91在线国内在线播放老师| 嫩草国产在线| 国产在线视频欧美亚综合| 亚洲V日韩V无码一区二区| 成人伊人色一区二区三区| 免费av一区二区三区在线| 国产簧片免费在线播放| 在线观看视频99| 婷婷在线网站| 亚洲天堂日韩在线| 久久先锋资源| 免费无码网站| 国内自拍久第一页| 91亚洲国产视频| 欧美日韩精品在线播放| 国产成人精品男人的天堂下载| 久夜色精品国产噜噜| 国产精品爽爽va在线无码观看| 婷婷色一二三区波多野衣| 国产欧美中文字幕| 国产黄网站在线观看| 日韩小视频网站hq| 精品国产免费观看| 宅男噜噜噜66国产在线观看| 国语少妇高潮| 亚洲中字无码AV电影在线观看| 美美女高清毛片视频免费观看| 手机精品福利在线观看| 全裸无码专区| 91人妻在线视频| 日韩在线视频网站| 伊人查蕉在线观看国产精品| 国产第三区| 免费在线看黄网址| 日韩在线成年视频人网站观看| 四虎影视无码永久免费观看| 99在线小视频| 国产精品性| 99在线视频网站| 欧美综合中文字幕久久| 国产精品免费p区| 综合社区亚洲熟妇p| 亚洲码一区二区三区| 久久人人97超碰人人澡爱香蕉| 亚洲一级毛片免费看| 91精品aⅴ无码中文字字幕蜜桃 | 国产欧美日本在线观看| 亚洲无码高清一区| 日韩高清成人| 亚洲人成成无码网WWW| 欧美黄网在线| 日韩在线第三页| 97在线免费视频| 久久精品中文字幕免费| 久久精品无码一区二区日韩免费| 在线观看国产精美视频| 国产v精品成人免费视频71pao| 伊人狠狠丁香婷婷综合色| 亚洲成人一区二区| 麻豆国产精品| 亚洲天堂视频在线播放| 色婷婷电影网| 国产精品一区在线麻豆| 9啪在线视频| 亚洲国产精品久久久久秋霞影院| 中国一级特黄视频| 麻豆国产原创视频在线播放| 熟妇丰满人妻| 天天综合网站| 国产网站一区二区三区| 无码精品国产dvd在线观看9久| 最近最新中文字幕免费的一页| 自拍偷拍欧美| 人妻91无码色偷偷色噜噜噜| 国产福利免费视频|