999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度卷積神經(jīng)網(wǎng)絡(luò)的科研項(xiàng)目不端行為識(shí)別研究

2021-03-21 07:04:48楊生舉
中國(guó)建材科技 2021年4期
關(guān)鍵詞:語義文本模型

楊生舉

(甘肅省科學(xué)技術(shù)情報(bào)研究所,甘肅 蘭州 730000)

0 引言

近年來,國(guó)家實(shí)施創(chuàng)新驅(qū)動(dòng)發(fā)展戰(zhàn)略,科技經(jīng)費(fèi)持續(xù)增加,科研項(xiàng)目數(shù)量大幅增長(zhǎng)。隨之而來的問題是,科研項(xiàng)目不端行為(Scientific Research Project Misconduct,SRPM)層出不窮,如重復(fù)申報(bào)、多頭立項(xiàng),申請(qǐng)書偽造、抄襲、剽竊等現(xiàn)象。

從2006年“漢芯事件”開始,越來越多的科研不端行為被披露、調(diào)查、處理。2015年科技部在申報(bào)的項(xiàng)目中發(fā)現(xiàn),因重復(fù)申報(bào),有13%的973計(jì)劃項(xiàng)目和20%的高新技術(shù)領(lǐng)域項(xiàng)目未能通過審查[1]。2016年12月12日,國(guó)家自然科學(xué)基金委員會(huì)通報(bào)了61份科研不端行為案件處理決定[2]。甘肅省通過項(xiàng)目相似度檢查系統(tǒng)查出2016-2017年5904項(xiàng)申報(bào)項(xiàng)目中相似性80%以上的占4.5%。

SRPM治理具有復(fù)雜性和艱巨性,不端行為很難被發(fā)現(xiàn),原因可能是單一數(shù)據(jù)庫(kù)源查全率低,新的項(xiàng)目、成果、獎(jiǎng)勵(lì)、報(bào)告和論文數(shù)據(jù)庫(kù)同步滯后,申請(qǐng)者對(duì)申報(bào)書有意識(shí)“修飾”,以及網(wǎng)絡(luò)時(shí)代造假手段多樣化等。

深入研究SRPM識(shí)別技術(shù)對(duì)遏止學(xué)術(shù)腐敗、保護(hù)原創(chuàng)成果、凈化學(xué)術(shù)氛圍、推進(jìn)科研誠(chéng)信有重要的現(xiàn)實(shí)意義。SRPM治理是一個(gè)世界性難題,也是我國(guó)科技創(chuàng)新面臨的重大課題。

1 國(guó)內(nèi)外研究現(xiàn)狀

1.1 科研不端識(shí)別系統(tǒng)及技術(shù)分析

治理和防范科研不端行為需要先進(jìn)的技術(shù)手段作為支撐。國(guó)外高校對(duì)于反剽竊的研究高度重視,技術(shù)較成熟,科研不端識(shí)別系統(tǒng)已成為歐美高校的必用軟件。Turnitin是全球最權(quán)威的學(xué)術(shù)不端識(shí)別系統(tǒng),幫助科研工作者偵測(cè)和比對(duì)科研成果中含有的不恰當(dāng)引用、潛在的剽竊行為。CrossCheck能最大程度檢查學(xué)術(shù)不端行為,全球會(huì)員單位包括自然出版集團(tuán)(NPG)、英國(guó)醫(yī)學(xué)期刊出版集(BMJ)和美國(guó)科學(xué)進(jìn)步協(xié)會(huì)(AAAS)等。

國(guó)內(nèi)科研不端識(shí)別系統(tǒng)代表性的是CNKI科技期刊學(xué)術(shù)不端文獻(xiàn)檢測(cè)系統(tǒng)(AMLC)、萬方論文相似性檢測(cè)系統(tǒng)和維普通達(dá)論文引用檢測(cè)系統(tǒng)[3]。

1.2 神經(jīng)網(wǎng)絡(luò)在語義相似度計(jì)算中應(yīng)用分析

科研項(xiàng)目不端識(shí)別的核心技術(shù)是語義相似度計(jì)算。最早的神經(jīng)網(wǎng)絡(luò)詞義相似度計(jì)算模型是神經(jīng)網(wǎng)絡(luò)概率語言模型,最有影響力的是Bengio等于2003年提出的神經(jīng)網(wǎng)絡(luò)語言模型(Neural Network Language Model,NNLM),研究者相繼提出CBOW及Skip-gram等簡(jiǎn)易模型,訓(xùn)練詞向量一般采用的算法是Hierarchical softmax[4]。

國(guó)內(nèi)外學(xué)者對(duì)將神經(jīng)網(wǎng)絡(luò)應(yīng)用于語義相似度計(jì)算進(jìn)行了卓有成效的研究。蔡旭勛(2017)研究基于神經(jīng)網(wǎng)絡(luò)的詞義相似度計(jì)算及其在文本檢索技術(shù)中的應(yīng)用,其算法提升文本檢索的準(zhǔn)確率、召回率與綜合評(píng)價(jià)指標(biāo)[4]。K. Selvi(2014)為了應(yīng)用奇異值分解,在給定的文檔中建立了詞對(duì)的頻率,提出了一種求解相似度量的人工神經(jīng)網(wǎng)絡(luò)算法[5]。Rui Cao(2015)基于語義相似性算法和人工神經(jīng)網(wǎng)絡(luò)的知識(shí)密集型的研究,提出了一種廣義回歸神經(jīng)網(wǎng)絡(luò)的語義相似度算法[6]。Hua He(2016)顯式地模擬成對(duì)詞的相互作用,并提出一種新的相似焦點(diǎn)機(jī)制來識(shí)別重要的對(duì)應(yīng)關(guān)系,以便更好地進(jìn)行相似性度量[7]。戶保田(2016)提出了基于深度卷積神經(jīng)網(wǎng)絡(luò)的語句表示模型,通過多層交疊的卷積和最大池化操作對(duì)語句進(jìn)行建模[8]。幸凱(2017)提出了基于主題詞向量和長(zhǎng)距離關(guān)聯(lián)的卷積神經(jīng)網(wǎng)絡(luò)句子文本表示模型[9]。Zeng Shuifei(2017)提出了一種改進(jìn)的文本表示模型提取文本特征詞向量方法,能較好處理高質(zhì)量的文本特征向量提取和表達(dá)序列[10]。以上研究為本研究提供了借鑒和參考。

2 基于卷積深度神經(jīng)網(wǎng)絡(luò)的語句匹配架構(gòu)

2.1 語句匹配架構(gòu)

如圖1所示,將語句SX和SY中的詞向量按照詞的順序排列。詞向量通過Word2vec訓(xùn)練得到,維度為50,在兩個(gè)語句上分別使用窗口大小為k1和k2的滑動(dòng)窗口。

圖1 基于卷積深度神經(jīng)網(wǎng)絡(luò)的語句匹配架構(gòu)圖

g(·)—為“門函數(shù)”;

2.2 語句匹配架構(gòu)的訓(xùn)練

式中,θ—卷積架構(gòu)與多層感知機(jī)的模型參數(shù);

α—正確的匹配對(duì) s (x,y+)得分比錯(cuò)誤的匹配對(duì)s (x,y-)得分至少大的差值。

對(duì)于給定的語句對(duì)(x,y),其輸出的匹配分?jǐn)?shù)為s (x,y)。然后在其上使用邏輯回歸分類器(logistic regression),則其類別“1”的概率見公式(6):

對(duì)于給定的語句對(duì)(x,y)的損失函數(shù),見公式(7):

式中,?取值為“0”或“1”,參數(shù)的更新采用基于隨機(jī)批處理的后向傳播算法。

3 結(jié)果與分析

3.1 試驗(yàn)數(shù)據(jù)

試驗(yàn)數(shù)據(jù)采用MSRP (Microsoft Research Paraphrase Corpus)。每個(gè)句子對(duì)的語義等效結(jié)果用0和1表示,1表示等效,0則反之。

3.2 評(píng)價(jià)指標(biāo)

試驗(yàn)結(jié)果采用了精度Prec、準(zhǔn)確度Acc、召回率Rec和F值作為衡量標(biāo)準(zhǔn)[11]。4個(gè)評(píng)價(jià)指標(biāo)定義如下:

Prec=(TP)/(TP+FP)

Acc=(TP+TN)/(TP+TN+FP+FN)

Rec=(TP)/(TP+FN)

F=(2×Prec×Rec)/(Prec+Rec)

其中,F(xiàn)P、TP分別是預(yù)測(cè)相似但實(shí)際不相似、預(yù)測(cè)和實(shí)際都相似的句子數(shù)量;TN、FN分別是預(yù)測(cè)和實(shí)際都不相似、實(shí)際相似但預(yù)測(cè)不相似的句子數(shù)量[12]。

3.3 試驗(yàn)結(jié)果

結(jié)果如表1所示。表中L&C和Lin是基于知識(shí)庫(kù)實(shí)現(xiàn)的方法,PMI-IR和LSA是基于語料庫(kù)實(shí)現(xiàn)的方法。

表1 文本相似性計(jì)算結(jié)果對(duì)比%

從表1可以看出,本文所用建模及計(jì)算方法有較高可行性。

4 結(jié)語

SRPM造成了學(xué)術(shù)資源和學(xué)術(shù)生命的極大浪費(fèi),破壞了正常的學(xué)術(shù)秩序,扼殺了創(chuàng)新活力,違背科學(xué)精神,加劇了社會(huì)腐敗的蔓延,阻礙了科技進(jìn)步和社會(huì)發(fā)展。本文研究大數(shù)據(jù)環(huán)境下科研項(xiàng)目不端行為的特征提取方法,提出基于深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)的語句表示模型和匹配架構(gòu),并對(duì)其進(jìn)行有效訓(xùn)練,以學(xué)習(xí)得到語句匹配在不同層次上的表示,提高模型的表示能力,從而提高文本相似度計(jì)算的準(zhǔn)確度和精度。

猜你喜歡
語義文本模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
語言與語義
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
“上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
認(rèn)知范疇模糊與語義模糊
主站蜘蛛池模板: 亚洲一区二区无码视频| 一级成人a毛片免费播放| 国产91无码福利在线| 成人在线亚洲| 亚洲中文在线视频| Jizz国产色系免费| 亚洲一区网站| 成人国产精品网站在线看| 成年看免费观看视频拍拍| 中文字幕波多野不卡一区| 无码免费视频| 欧美国产菊爆免费观看| 国产一级妓女av网站| 在线a网站| 波多野结衣在线一区二区| 鲁鲁鲁爽爽爽在线视频观看 | 在线视频一区二区三区不卡| 国产小视频a在线观看| 久青草网站| 亚洲最猛黑人xxxx黑人猛交| 国产精品丝袜在线| 国产美女叼嘿视频免费看| 国产真实乱子伦精品视手机观看| 亚洲欧美另类日本| 91免费观看视频| 99视频在线观看免费| 久久无码高潮喷水| 国产在线观看成人91| 最新痴汉在线无码AV| 少妇露出福利视频| 国产精品所毛片视频| 国国产a国产片免费麻豆| 99热国产这里只有精品9九| 毛片在线播放网址| 日本免费新一区视频| 久久人妻xunleige无码| 亚洲天堂免费| 成人在线综合| 国产成人精品日本亚洲| 国产色伊人| 亚洲欧洲国产成人综合不卡| 成人午夜视频在线| 99精品国产电影| 波多野结衣在线se| 日韩毛片免费视频| 久996视频精品免费观看| 国产青榴视频| 日韩欧美中文字幕在线精品| 久久这里只精品国产99热8| 91九色国产在线| 色婷婷色丁香| 免费A级毛片无码免费视频| av在线手机播放| 91色爱欧美精品www| 亚洲国产成人在线| 97国产精品视频自在拍| 一级毛片免费高清视频| 1级黄色毛片| 特级aaaaaaaaa毛片免费视频| 免费毛片在线| 999福利激情视频| 国产黑丝一区| 久久伊人操| 久久亚洲高清国产| 欧洲欧美人成免费全部视频| 亚洲国产精品国自产拍A| a天堂视频| 91色老久久精品偷偷蜜臀| 在线观看欧美精品二区| 无码中文字幕精品推荐| 午夜毛片免费观看视频 | 国产丝袜无码精品| 国产无码性爱一区二区三区| 日韩欧美中文| 国模沟沟一区二区三区| 欧美中文字幕在线二区| a级免费视频| 国产视频a| 夜夜高潮夜夜爽国产伦精品| 999精品在线视频| 欧美黄网站免费观看| 欧美成人免费一区在线播放|