999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

科研重復率信息整合平臺的設計與實現

2020-03-10 20:12:19咸悅梁瑋琪
科學與財富 2020年33期
關鍵詞:文本挖掘

咸悅 梁瑋琪

摘 要:本文結合進行項目查重現有方法研究一種準確、高效的方式。總結了科技項目查重的一般過程,將其概括為文本預處理、特征提取、模型構建、相似度判別和專家審核。采用資源采集技術,文本數據庫加工技術,文本數據庫技術, 數字資源版權保護技術, 知識挖掘技術, 自然語言處理技術、快速比對技術等,從多方面進行數據采集,通過文本預處理、特征提取以及模型構建及相似度判別,從而為查重網站信息整合平臺做出有力的數據支撐,為查重體系提供必要的參考。

關鍵詞:科研項目;文本挖掘;精準對比

引言:

我國近年來不斷加大科研投入的規模和強度,科研項目的數量和經費規模均得到顯著的提升,形成了多個層次的國家科技計劃資助體系。然而,項目多頭申報、重復立項已成為科研項目管理領域的突出問題之一,尤其是跨科技計劃的重復立項問題。該問題不僅會造成國家科技資源的浪費,而且也會導致惡性的科研競爭環境,對科技創新發展的危害極大。因此,如何建立有效、可行的項目查重機制已經成為科技計劃管理部門的重要任務之一。

教育一直是整個社會的熱點問題和關鍵問題。但現在隨著互聯網的廣泛應用“抄襲借鑒”形成了一種風氣,教育部在《關于切實加強和改進高等學校學風建設的實施意見》中指出:“學風是大學精神的集中體現,是教書育人的本質要求,是高等學校的立校之本、發展之魂。” 誠信教育,是人類文化的重要組成部分,是弘揚人文精神的重要形式,在社會主義先進文化建設中發揮著不可替代的作用,要求我們大力弘揚愛國主義、集體主義、社會主義思想,以增強誠信意識為重點,加強社會公德、職業道德、家庭美德、個人品德建設。讓高校學生認識到誠信的重要性,將有助于學生樹立正確的學習目的和學習態度,并制定合理的學習計劃,并通過他們的努力實現自己具體的奮斗目標。論文查重需要強大的技術作為支撐,包括資源采集技術,文本數據庫加工技術,文本數據庫技術, 數字資源版權保護技術, 知識挖掘技術, 自然語言處理技術、快速比對技術等。因此,本文是針對于科研項目設計的查重整合平臺。

1.概述

為推動科技創新發展和提高科技競爭力,科技項目查重已成為科技管理領域常見的詞匯,科技項目查重一般是指從已有的項目數據中通過文本挖掘和綜合判斷,確認是否存在與待查項目的研究內容相同或高度相似的項目的過程。已有的項目數據包括通過正式立項的項目信息如項目名稱、關鍵詞、摘要和項目申報書等,也包括項目的關聯信息如學術論文、科技報告和科技成果等。此外,項目承擔人和承擔單位等信息也能提供一定的線索。基于文本挖掘的方法能自動的計算項目的相似性,但其準確性較差,可用于快速排除大量的無關項目。項目的重復性判斷是一個復雜的過程,需要專家的綜合判斷能力甄別出重復的項目,但需要耗費大量的人力。

結合上述方法進行項目查重才是一種準確、高效的方式。科技項目查重的一般過程,將其概括為文本預處理、特征提取、模型構建、相似度判別和專家審核。 采用資源采集技術,文本數據庫加工技術,文本數據庫技術, 數字資源版權保護技術, 知識挖掘技術, 自然語言處理技術、快速比對技術等。在海量的全文數據的基礎上實現快速準確的檢測,上述技術是基本的保證。另外,檢測比對庫里需要收錄期刊、學位論文、會議論文、報紙、年鑒、工具書、專利、外文文獻、學術文獻引文等與科學研究、學習相關的主要資源,才可以支撐起一個論文查重檢測系統。

2.平臺搭建

本文所設計一款基于HTML的查重網站信息整合平臺進行對外開放,主要針對于當代高校師生,隨著互聯網的普及與此同時隨著網絡成為新時代發展趨勢。本著端正學風的宗旨,本項目提出查重網站信息整合平臺要求學生要堅持“誠信立人”的原則,養成“嚴謹為學”的態度,促進學術的健康、良性發展保護個人知識產權。

1、科技項目查重信息整合平臺的設計:

平臺將從已有的科技項目大數據中通過文本挖掘和綜合判斷,確認是否存在與待查項目的研究內容相同或高度相似的項目,也包括項目的關聯信息如學術論文、科技報告和科技成果等。此外,項目承擔人和承擔單位等信息也能提供一定的線索,因此科技項目查重的一般過程將其概括為文本預處理、特征提取、模型構建、相似度判別和模擬專家審核;

2、科技項目比對庫:

科技項目查重信息整合平臺要建立一套科技項目比對庫,包含近年來已有的科研項目導入;

3、科技項目比對文檔:

通常是網頁在線格式或PDF格式,報告上會體現與已有的科研項目相似的比例、重復的內容、重復內容的來源等。

3.處理過程

論文查重系統看起來比較簡單,其實需要強大的技術作為支撐,包括資源采集技術,文本數據庫加工技術,文本數據庫技術, 數字資源版權保護技術, 知識挖掘技術, 自然語言處理技術、快速比對技術等。

1、預處理:

預處理是將科技項目的相關大數據信息處理為指定的規范格式,并對文本信息確定處理單元及進行分詞或分句、去停用詞等。

2、特征提取:

特征提取是從預處理后的數據中挖掘出能全面/部分描述項目內容且區別于其他項目的特征向量,一般由特征詞和權重組成,采用基于詞頻或 TFIDF 值的方法計算其權重,并在大數據挖掘和文本分析領域應用基于 TextRank 和主題模型的方法。

3、模型構建:

模型構建是按照數據規劃方式對特征向量進行整合,從而建立能準確、全面描述項目內容的模型。

4、相似度判別:

相似度判別是基于項目表示模型設計相似度判別函數,從已有項目的數據庫中發現疑似項目的過程。

5、模擬專家審核:

重復對疑似項目進行二次數據綜合分析和判斷,確定待查項目是否為重復項目并提供相關證據的過程。

4.結論

綜上所述,本文所提出的基于HTML的查重網站信息整合平臺能夠從多方面進行數據采集,通過文本預處理、特征提取以及模型構建及相似度判別,從而為查重網站信息整合平臺做出有力的數據支撐,為查重體系提供必要的參考。

參考文獻:

[1]李善青,邢曉昭,杜圣梅.科技項目查重方法研究綜述[J].科技管理研究. 2018(06)

*基金項目:本文為吉林農業科技學院自然科學類科研項目,項目編號吉農院合字第[校20190693]號。

(吉林農業科技學院? 吉林? 132000)

猜你喜歡
文本挖掘
基于貝葉斯分類器的中文垃圾短信辨識
科技資訊(2017年5期)2017-04-12 15:18:52
基于潛在特征的汽車評論要素挖掘
基于評論信息的淘寶服裝類評分體系優化
商情(2016年32期)2017-03-04 00:27:28
數據挖掘技術在電站設備故障分析中的應用
軟件導刊(2016年12期)2017-01-21 15:55:21
基于LDA模型的95598熱點業務工單挖掘分析
文本數據挖掘在電子商務網站個性化推薦中的應用
商(2016年34期)2016-11-24 16:28:51
從《遠程教育》35年載文看遠程教育研究趨勢
基于文獻的中西醫結合治療腦梗死藥物使用情況分析
基于改進Hadoop云平臺的海量文本數據挖掘
慧眼識璞玉,妙手煉渾金
主站蜘蛛池模板: 色婷婷电影网| 永久免费无码成人网站| 看av免费毛片手机播放| 伊人国产无码高清视频| 少妇精品网站| 青青青伊人色综合久久| 永久天堂网Av| 国产极品粉嫩小泬免费看| 国产菊爆视频在线观看| 国产伦片中文免费观看| 国产乱子伦视频三区| 91久久偷偷做嫩草影院电| 91久久精品国产| 99热线精品大全在线观看| 美女一级毛片无遮挡内谢| 亚洲人在线| 亚洲精品视频免费看| 久草中文网| 制服丝袜在线视频香蕉| 中文国产成人精品久久一| 九九热精品在线视频| 久夜色精品国产噜噜| 亚洲精品无码人妻无码| 91福利一区二区三区| 在线综合亚洲欧美网站| 91精品综合| 国产极品美女在线| 麻豆a级片| 亚洲欧洲日产无码AV| 日日拍夜夜操| 久久频这里精品99香蕉久网址| 免费国产好深啊好涨好硬视频| 在线视频一区二区三区不卡| 99精品高清在线播放| 国产区在线看| 亚洲无码A视频在线| 亚洲嫩模喷白浆| 免费国产小视频在线观看| 欧美性精品| 67194成是人免费无码| 91久久国产综合精品| 成人看片欧美一区二区| 热久久综合这里只有精品电影| 欧美A级V片在线观看| 国产剧情伊人| 久久精品午夜视频| 精品国产一区91在线| 国产成人成人一区二区| 国产主播在线一区| 国产成人无码Av在线播放无广告| www.youjizz.com久久| 亚洲日韩在线满18点击进入| 免费在线一区| 91区国产福利在线观看午夜| 一本色道久久88| 超清人妻系列无码专区| 欧美成人a∨视频免费观看| 国产免费高清无需播放器| 91系列在线观看| 国产精品吹潮在线观看中文| 色婷婷综合激情视频免费看| 欧美激情伊人| 国产超碰一区二区三区| 国产人妖视频一区在线观看| 91免费国产在线观看尤物| 亚洲综合婷婷激情| 国产人碰人摸人爱免费视频| 欧美国产在线精品17p| 国产精品午夜电影| 中国一级特黄大片在线观看| 亚洲欧洲日韩国产综合在线二区| 播五月综合| 四虎永久在线精品国产免费| 亚洲中文无码av永久伊人| 在线看国产精品| 久久久久久尹人网香蕉| 久久综合婷婷| 青青青国产视频| h视频在线播放| 欧美日韩动态图| 在线观看视频一区二区| 青青青草国产|