999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于領域本體和詞序特征的科技文獻查重方法研究

2019-10-21 21:03:41劉慧媛林珠李帥
科學與財富 2019年25期

劉慧媛 林珠 李帥

摘 要:科技文獻查重在現階段常采用文本相似度計算自動識別科技文獻重復性,然而,面向科技文獻的獨特性,如何提升文本相似度計算的準確率和效率,仍是個值得探討的問題。

關鍵詞:領域本體;詞序特征;科技文獻查重;相似度計算

1.國內外研究現狀

在國外,Deerwester等人提出的Latent Semantic Indexing(LSI,即,隱性語義索引)[1]現階段已被廣泛應用并達到較好的文本相似度計算效果,隱性語義索引得到的結果比基于詞頻統計得到的結果更符合人類的閱讀思維方式,很大程度上提高了檢索結果的準確性,目前很多數據服務提供商和搜索引擎的算法都引入了該算法。Google就是典型的代表。LSI也是一種向量空間模型,在原來向量空間基礎之上做了一定的擴展,它不用對自然語言去理解,而是用統計的方法反映詞語之間內在的相關性,有很高效率。

國內專家學者研究文本相似度的計算過程中高度重視中文語義的識別,通過文本主題識別、語義相似度計算等方法提升相似度計算準確率,也有一些專家學者以詞語為研究對象,研究同一文本中不同詞語間的關聯信息。李善青提出一種整合科技項目相關產出信息的數據模型,采用文本相似度計算判斷項目重復率,也有一些學者引入領域本體提升相似度計算準確率,或者直接采用詞序特征輔助文本語義的識別,但尚未有兩者結合并應用于科技文獻查重領域,同時在查重算法的準確率和效率上仍留存一定的欠缺。

2.關鍵技術

2.1領域本體的構建

本體論(ontology) 是以一個數據模型(data model)去描述知識域 (knowledge domain)的概念、特性及概念之間的關聯,并建模于語義網絡(semantic network)中。它提供一個有系統性、可重用及便攜式的知識表述(knowledge representation)給予計算機軟件系統去推理(reasoning)、挖掘(mining)、聯系(co-relating)、解譯(interpreting)本體內容的語義意思。

針對科技文獻大數據構建的本體主要包括本體形式化描述語言、本體開發工具的選擇兩方面。本體形式化描述語言直接影響本體模型的表達能力和擴展能力,選用OWL(Web Ontology Language)進行本體描述。OWL的優點是以Web資源為描述對象,并且是基于描述邏輯的。

2.2詞序因子與領域文本的結合

通過領域本體進行語義相似度計算可以擴充關鍵詞范圍,并挖掘出與關鍵詞相關的隱性信息。而詞序特征能夠代表關鍵詞的邏輯性和時序性,因此,將代表著詞序特征的詞序因子直接引入領域文本概念相似度計算公式,從而實現兩者的結合。對于領域本體,當兩個概念具有某些共同特征時,則定義它們是相似的,用sin(A,B)表示概念A,B之間的相似度,A與B間的相似滿足以下幾點:1、sin(A,B)大小滿足sim(A,B)∈[0,1] ;2、如果兩個概念完全相同,則sim(A,B)=1 ,當且僅當A=B;3、如何兩個概念沒有任何共同特征,則相似度為0,即sim(A,B)=0

本體中的概念相似性與語義距離相關,語義距離是指本體樹中連接兩個節點的最短路徑所跨的邊數。本文采用語義距離來表示語義相似度,記作Distant(A,B) ,語義距離和語義相似度滿足以下幾點:1、兩個概念距離為0,則其相似度為1;2如果兩個概念距離為無窮大,則其相似度為0;3、兩個概念詞語義距離越大,則其相似度越小,反之亦然。由此本文采用以下公式定義兩個概念相似度:

其中α是可調節參數,此處引入詞序因子,通過兩個詞語的詞序因子的差值計算作為調節參數。

3.基于領域本體和詞序特征的科技文獻查重方法

本文提出了一種基于領域本體和詞序特征的科技文獻查重方法,通過對文獻文本的相似度計算判斷文獻是否重復,該方法中應用的領域本體是通過歷年的科技文獻資源構建的領域本體。該方法通過提取文本的特征詞匯后得出每個特征詞的詞序因子,這些詞序因子代表了各特征詞在文中的位置,能體現在文本的邏輯性。當文本引入領域本體進行詞語消歧和同義替換后,在進行概念相似度計算的環節中,引入特征詞的詞序因子,計算出詞語間的相似度值,根據詞序因子和各特征詞的相似度值進行統計后將得出文本相似值,從而達到科技文獻查重的目的。

4.算法實現

以科技項目查重為例來舉例說明本文的科技文獻查重方法,實驗數據來源于歷史科技項目申報數據、當前申報項目信息等構成的科技文獻數據,這些數據主要包括項目名稱、申請年度、學科領域、依托單位名稱、依托單位類型、以及申報的主體文本等,同時,歷史數據還具有是否立項的標簽信息。算法主要步驟如下:

第一步:構建領域本體:從歷史科技項目申報數據中獲取。

第二步:對歷年的科技項目立項信息數據進行中文分詞后再進行去停用操作,提取出歷年的科技項目立項信息數據的特征詞,對每一年的科技項目立項信息數據的特征詞構建最長公共序列來計算其特征詞的詞序因子;

第三步:對待查重的新申請項目進行中文分詞后再進行去停用操作,提取出該項目立項信息數據的特征詞,對該項目立項信息數據的特征詞構建最長公共序列來計算其特征詞的詞序因子;

第四步:將待查重的新申請項目的詞序因子和每一年的科技項目立項信息數據的詞序因子引入領域本體中概念相似度計算得出查重結論。

其中,第二步實現算法描述如下:

S21:將歷年的科技項目立項信息數據組成數據源C={C1,C2……Ci…},讀取其中任一文本Ci,對文本Ci進行中文分詞,將得到的分詞去停用詞,得到向量特征詞A=(A1,A2,……,An);

S22:用領域本體對向量A進行詞語消歧和同義替換實現文本降維,得到降維后的特征詞向量A=(A1,A2,……,Am) ,其中m

S23:通過隱馬爾可夫模型,計算特征詞向量A的詞序因子序列αi=(αi1, αi2,……, αjm);

S24:重復步驟S22-S23得到每一年的科技項目立項信息數據的詞序因子序列。

第三步實現算法描述如下:

S31:將待查重的新申請項目數據進行中文分詞,將得到的分詞去停用詞,得到特征詞向量B=(B1,B2,……,Bin);

S32:用領域本體對特征詞向量B進行詞語消歧和同義替換實現文本降維,得到降維后的特征詞向量B=(B1,B2,……,Bim) ,其中m

S33:通過隱馬爾可夫模型,計算特征詞向量B的詞序因子序列βi=(βi1, βi2,……, βjm)。

第四步實現算法如下:

將詞序因子序列βi=(βi1, βi2,……, βjm)和每一年的科技項目立項信息數據的詞序因子序列引入領域本體中概念相似度Kl計算,其中l表示年份:

其中,Xα 為任一年份的科技項目立項信息數據降維后的特征詞向量,Xβ 為待查重的新申請項目數據降維后的特征詞向量,Xα為Xα的詞序因子序列,bβ 為Xβ 詞序因子序列,aα、bβ是可調節參數,通過兩個詞序因子的差值計算作為調節參數,dist(Xα,Xβ)為語義相似度,語義相似度指領域本體樹中連接兩個節點的最短路徑所跨的邊數。

5.結論與展望

本文提出一種基于領域本體和詞序特征的科技文獻查重方法,結合領域本體和詞序因子兩種方法的優勢,在領域本體進行相似度計算階段引入詞序因子,從而達到更好的相似度計算效果。由于科技文獻數據類型多樣、數據量龐大,接下來需進一步研究將改算法改進成分布式架構和考慮信息融合技術,以適應科技大數據多源異構的特點,使該方法具有更好的適用性。

參考文獻:

[1]S.Deerwester, S.T. Dumains,G.W. Furmas,Indexing by Latent Semantic Analysis,Journal of the ASIS, 1986-1998,September 1990.

主站蜘蛛池模板: 国产天天色| 666精品国产精品亚洲| 呦女亚洲一区精品| 一本大道香蕉中文日本不卡高清二区| 欧美日韩国产在线人| 日日拍夜夜操| 国内毛片视频| 久久久波多野结衣av一区二区| 激情综合图区| 亚洲精品第1页| 亚洲美女一区| 在线观看精品自拍视频| 蜜桃视频一区| 亚洲欧美成人在线视频| 欧美怡红院视频一区二区三区| 亚洲av片在线免费观看| 成年女人a毛片免费视频| 精品伊人久久久久7777人| 日本a∨在线观看| 中文字幕久久精品波多野结| 国产制服丝袜91在线| 色婷婷狠狠干| 亚洲成人www| 亚洲视屏在线观看| P尤物久久99国产综合精品| 精品视频一区二区三区在线播| 大学生久久香蕉国产线观看| 国产精品播放| 国产农村精品一级毛片视频| 亚洲成AV人手机在线观看网站| 99视频全部免费| 国产精品亚洲天堂| 欧美一道本| 国产精品第一区在线观看| 不卡网亚洲无码| 国产9191精品免费观看| a级高清毛片| 欧美国产精品拍自| 人人爱天天做夜夜爽| 亚洲天堂网2014| 久久综合结合久久狠狠狠97色| 91国内视频在线观看| 欧美怡红院视频一区二区三区| 国产在线97| 国产二级毛片| 天堂网国产| 毛片国产精品完整版| 一本色道久久88亚洲综合| 国产区精品高清在线观看| 2019年国产精品自拍不卡| 丁香婷婷综合激情| 久久香蕉国产线看观看精品蕉| 美女内射视频WWW网站午夜| 日韩在线第三页| 成年人视频一区二区| 久久婷婷六月| 亚欧美国产综合| 亚洲精品无码人妻无码| 色婷婷色丁香| 伊人久综合| 国产国产人成免费视频77777 | 亚洲天堂视频在线观看| 在线视频亚洲欧美| 国产真实自在自线免费精品| 国产毛片一区| 超薄丝袜足j国产在线视频| 日韩大片免费观看视频播放| 国产三区二区| 人妻丰满熟妇αv无码| 中文字幕亚洲第一| 国产高清在线观看91精品| 无码人中文字幕| 精品国产成人三级在线观看| 亚洲日韩精品欧美中文字幕| 亚洲VA中文字幕| 亚洲一区国色天香| 911亚洲精品| 国产Av无码精品色午夜| 中国一级毛片免费观看| 一级毛片免费的| 国产精品视频观看裸模| 亚洲中文字幕久久无码精品A|