999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于文本相似度的評審專家推薦方法研究

2019-09-17 10:47:04鄭新宇徐建良
科技資訊 2019年17期
關鍵詞:數據挖掘

鄭新宇 徐建良

摘 ?要:在科研項目申報過程中,當前多采用人工方式進行評審專家遴選,由于人工對領域知識的理解有限,且具有一定的主觀性傾向,隨著項目申報數量的增加,人工選擇的效率和準確率逐漸降低。為解決此問題,該文提出一種基于文本相似度的評審專家推薦方法。通過對項目論文信息進行數據挖掘,利用編輯距離模糊匹配和Wordnet語義擴展方法改進文本相似度計算,設計對比實驗分別說明方法的可行性,并對推薦結果給出解釋。實驗結果表明,該文方法能夠有效解決評審專家遴選問題。

關鍵詞:專家推薦 ?數據挖掘 ?文本相似度 ?語義擴展

中圖分類號:TP391.1 ? 文獻標識碼:A 文章編號:1672-3791(2019)06(b)-0173-04

Abstract:In the process of applying for scientific research projects, the selection of review experts is often carried out manually. Due to the limited understanding of domain knowledge and the subjective tendency of manual selection, the efficiency and accuracy of manual selection gradually decrease with the increase of the number of project declarations. To solve this problem, this paper proposes a method of expert recommendation based on text similarity. Through data mining of project paper information, the text similarity calculation is improved by using editing distance fuzzy matching and Wordnet semantic extension methods. The validity of the method is illustrated by designing comparative experiments, and the recommendation results are explained. The experimental results show that this method can effectively solve the problem of selecting evaluation experts.

Key Words:Expert recommendation; Data mining; Text similarity; Semantic extension

隨著計算機應用技術的迅猛發展,越來越多的科研單位選擇使用線上信息管理的方式,來進行科研項目的申報工作。在科研項目申報的過程中,有一個極為重要的流程就是評審專家推薦過程[1-3]。評審專家推薦是指根據項目的一些文本信息,選擇出幾個相關領域的專家成為評審專家。評審專家對項目進行評估審查工作,來確認項目是否具有研究的價值[4]。但由于項目申請數量多、類型多樣,并且專家的科研信息比較復雜,管理人員很難恰當地評估某個專家在一定時間內的研究偏重方向,所以使用人工來選擇評審專家的工作方式效率不夠高,不能滿足工作需要。因此,需要借助計算機技術,為人工選擇評審專家提供自動化的幫助。因此,如何選擇出合適的評審專家則成為該文研究的關鍵問題[5-7]。

評審專家推薦系統本質上是屬于個性化推薦技術范疇,目的是滿足系統用戶對專家這一特殊實體的推薦需求[8]。2005年Reichling、Schubert等學者第一次對專家推薦進行準確的定義,指明專家推薦是一種檢索技術,根據一定的信息輸入,檢索出能解決具體問題的相關專家,幫助用戶提高檢索效率和精確率[9]。專家推薦系統一般應用于專業領域性較強的工作,如學術論文的審查工作、工程建設的評估工作、項目招標的評審工作。在科研項目申報立項的過程中,對專家推薦的專業性要求標準更高,對推薦技術也有著更高的要求。胡斌等使用概念層次模型挖掘科技項目與專家相似性,解決科技項目專家推薦問題[10]。劉一星等使用經過改進的ATSVM算法用于論文投稿的評審專家推薦研究[7]。李瑩等使用主題信息完成企業需求的專家推薦工作[11]。蒲珊珊等建立知識互補的科研合作專家推薦模型來完成專家推薦工作[12]。

該文設計的基于數據挖掘的評審專家推薦方法,抽取項目中論文關鍵字和知識庫中論文關鍵字,對關鍵字集合進行數據規整、語義擴展,得到擴展后的關鍵字集合[13]。計算項目論文與知識庫論文的余弦相似度,得到知識庫中相似度排序前K個論文集合。根據論文集合,得到候選專家集合。對候選專家集合中的每個專家的論文進行檢索,檢索出的論文與項目進行余弦相似度計算,得出的相似度值取平均值作為專家的權威性衡量,候選專家集合中按專家權威性排序,得到權威性排名前N個專家,系統將把這些專家作為推薦結果推薦給用戶[14]。

1 ?評審專家推薦方法設計

1.1 方法思路分析

評審專家推薦的關鍵問題是根據項目中給出的文本信息,與知識庫中的專家進行分析對比,選擇出研究相關的人作為評審專家。

該文中專家推薦分為兩個階段:首先,根據項目文本信息在知識庫中找到相關論文;其次,根據相關論文,得到候選專家推薦列表,對列表中專家進行分析,分析后得到推薦結果。流程圖如圖1、圖2所示。

1.2 文本數據處理

(1)實驗中所用數據集來自微軟學術圖譜MAG的子數據集。目前MAG主要用于量化學者影響力研究[15]、異構學術網絡中學者位置的影響力研究[16]、學術社交網絡的提取與挖掘[17-18]等。

對于MAG中的論文信息,每篇論文都是一個JSON對象的字符串,經過數據格式整理后,數據格式見表1。

(2)文本向量化。19世紀70年代杰拉德·索爾頓提出了一種來源于信息檢索的向量空間模型(Vector Space Model,VSM)技術[19]。該模型認為文本特征之間是相互獨立的,因此可以忽略文本特征之間的依賴關系,將文本信息轉化為向量表示,減少數據量的同時保留文本的語義。

1.3 基于模糊匹配的文本相似度計算方法

1.4 基于語義擴展的文本相似度計算方法

在進行相似度計算時,關鍵字集合從文本信息中抽取,關鍵字的語義粒度不能直接獲得,但在實際處理中,關鍵字的語義范圍相互交叉的情況十分常見。為提高語義粒度,采用基于語義擴展的相似度計算方法[20-21]。

對于論文Pi的關鍵字集合KWi={k1,k2,…kn}中每個關鍵字ki,利用NLTK工具庫中Wordnet資源,擴展關鍵字的上下位詞及近義詞。

2 ?實驗設計及評估

實驗數據選取MAG子數據集中計算機科學領域中8103篇論文,將計算機科學領域280319篇論文作為知識庫存入數據庫中。方法設計如表2所示。

選擇實驗數據集中30篇論文用于數據展示,實驗數據集與知識庫中的論文進行匹配后,計算得出余弦距離并排序。

由圖3、4可知,管是關鍵字集合在擴展前還是擴展后,基于編輯距離的相似度都要高于完全匹配的相似度,說明在完全匹配中檢索不出來的關鍵字,在基于編輯距離相似度計算方法中被檢索出來,且每一篇的數值模糊匹配要高于完全匹配,說明在進行相似度計算時,選擇模糊匹配的方法是有效的。

由圖5可知,經過關鍵字擴展后,完全匹配的相似度升高。由此可證明,完全匹配失敗的關鍵字,在關鍵字擴展后,擁有相同的上下位詞或者近義詞,經過字符串完全匹配后,余弦相似度增加。

根據圖6余弦距離結果可知,關鍵字在擴展前后經過模糊匹配后,相似度整體表現差別不是特別大。原因在于關鍵字經過語義擴展后關鍵字集合維度增加,根據式(1),造成余弦距離結果相差較小。從另一方面來說,關鍵字集合經過擴展后,相似度變化不大說明關鍵字集合攜帶的信息量增加,但對整體的語義偏向沒有太大的影響。

3 ?結語

該文設計了一種通過計算文本余弦相似度來推薦評審專家的方法,解決人工遴選評審專家中效率較低、主觀選擇專家等問題。由于方法是基于文本內容相似度進行專家推薦,因此該方法對所有文本推薦具有一定的普適性。

目前對于評審專家的推薦方法,大多從語義概念模型方向解決推薦問題。但在研究領域中存在專業內專有名詞,因此需要人工建立領域詞典,建立語義之間的聯系,未來的進一步工作是在Wordnet基礎上,加入專有名詞語義關系,進一步提高語義擴展的相似度。

參考文獻

[1] 張勇勤.科技計劃項目經費預算評審評估制度研究[J].天津科技,2008(3):77-79.

[2] 陳月英,穆仕華.科研項目在線評審體系的研究與應用[J].中國新通信,2015,17(9):69-70.

[3] 沈才俊,徐暑芬,常云志.科技項目評審過程中項目分組與專家推薦流程的設計[J].江蘇科技信息,2016(6):29-31.

[4] 梁保磊.政府科技項目評審主體、過程及應用系統開發研究[D].東南大學,2009.

[5] 萬猛.關于科技評審專家的選擇及其評審行為的判斷方法[J].研究與發展管理,2007(3):119-122,129.

[6] 靳健,楊海慈,李凝,等.基于主題契合度的專家推薦模型研究[J].數字圖書館論壇,2017(4):47-55.

[7] 劉一星.論文投稿系統評審專家自動推薦模型研究[D].重慶大學,2009.

[8] 李有超.基于項目屬性與偏愛比較的協同過濾推薦算法研究[D].燕山大學,2010.

[9] Reichling T,Schubert K,Wulf V.Matching human actors basedon their textsdesign and evaluation of an instance of the Expert Finding framework[A].Proceedings of the2005 international ACMSIGGROUP conference on Supporting group work[C].ACM,2005:61-70.

[10] 胡斌,徐小良.科技項目評審專家推薦系統模型[J].電子科技,2012,25(7):1-5.

[11] 李瑩.面向企業需求的專家推薦算法研究[D].北京交通大學,2018.

[12] 蒲姍姍.基于知識互補的科研合作專家推薦模型研究[J].情報理論與實踐,2018,41(8):96-101.

[13] 滕巖,李玉忱.基于《知網》的語義信息檢索[A].第二屆全國web信息系統及其應用會議[C].2005.

[14] 朱昆磊,黃佳進.基于信念網絡的協同過濾圖模型的推薦算法[J].模式識別與人工智能,2016,29(2):171-176.

[15] 周金夢.基于學術異構網絡的學者影響力評估算法[D].大連理工大學,2016.

[16] 張君.基于異構學術網絡的學者影響力評估與預測[D].大連理工大學,2018.

[17] Tang J, Zhang J, Yao L, et al. Arnetminer: extraction and mining of academic social networks[A].Proceedings of the 14th ACM SIGKDD international conference on Knowledge discovery and data mining[C].ACM,2008:990-998.

[18] Sinha A, Shen Z, Song Y, et al. An overview of microsoft academic service (mas) and applications[A].Proceedings of the 24th international conference on world wide web[C].ACM,2015:243-246.

[19] Salton G,Wong A,Yang C S.A vector space model for automatic indexing[M].Communications of the ACM,1975.

[20] 王良芳.文本挖掘關鍵詞提取算法的研究[D].浙江工業大學,2013.

[21] 王進,陳恩紅,施德明,等.一種基于語義相似度的信息檢索方法[J].模式識別與人工智能,2006,19(6):696-701.

猜你喜歡
數據挖掘
基于數據挖掘的船舶通信網絡流量異常識別方法
探討人工智能與數據挖掘發展趨勢
數據挖掘技術在打擊倒賣OBU逃費中的應用淺析
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘在高校圖書館中的應用
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數據挖掘研究
利用數據挖掘技術實現LIS數據共享的開發實踐
主站蜘蛛池模板: 99视频在线看| 福利片91| 国产1区2区在线观看| 亚洲天堂777| 国产网站一区二区三区| 99这里精品| 国产91av在线| 成人免费午夜视频| 日韩久草视频| 免费网站成人亚洲| 日韩专区第一页| 欧类av怡春院| 亚洲日本中文字幕天堂网| 茄子视频毛片免费观看| 午夜毛片福利| 一级黄色网站在线免费看| 精品在线免费播放| 天天综合网色中文字幕| 99re这里只有国产中文精品国产精品 | 91小视频在线| 亚洲AV无码不卡无码 | 久久香蕉国产线| 欧美性色综合网| 天天色综合4| 97在线公开视频| 国产91av在线| 久久久久青草大香线综合精品 | 亚洲第一黄片大全| 欧美成人区| 99热这里只有精品久久免费| 无遮挡一级毛片呦女视频| 亚洲精品爱草草视频在线| 亚洲人成亚洲精品| 91久久国产热精品免费| 在线观看的黄网| 狠狠色成人综合首页| 国产福利不卡视频| 色婷婷综合激情视频免费看| 久久国产精品波多野结衣| 日韩在线第三页| 欧美人与牲动交a欧美精品| 无遮挡国产高潮视频免费观看| 国产一级小视频| 色AV色 综合网站| 欧美中文字幕无线码视频| 热热久久狠狠偷偷色男同| 久久99蜜桃精品久久久久小说| 国产女人在线视频| 国产性爱网站| 超碰精品无码一区二区| 免费国产小视频在线观看| 四虎影视无码永久免费观看| 任我操在线视频| 又大又硬又爽免费视频| 午夜国产理论| 福利片91| 国产成人久久综合一区| 在线精品亚洲一区二区古装| 99热在线只有精品| av午夜福利一片免费看| 婷婷综合色| 亚洲日韩在线满18点击进入| 国产精品久久久久久久伊一| 亚洲αv毛片| 色成人综合| 久久国语对白| 久久精品日日躁夜夜躁欧美| 日韩专区欧美| 国产99欧美精品久久精品久久| аⅴ资源中文在线天堂| 日韩av无码精品专区| 亚洲九九视频| 亚洲国内精品自在自线官| 国产日韩精品一区在线不卡| 98精品全国免费观看视频| 三区在线视频| 国产哺乳奶水91在线播放| 色综合中文综合网| 少妇高潮惨叫久久久久久| 色播五月婷婷| 日本精品影院| 亚洲日韩精品伊甸|