999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

油氣領域科技信息查重技術研究與應用?

2022-03-18 06:20:28段友祥
計算機與數字工程 2022年12期
關鍵詞:語義詞匯文本

陳 澤 段友祥

(中國石油大學(華東)計算機科學與技術學院 青島 266580)

1 引言

隨著國家國力的提升和科技力量的穩步增強,科技立項數目迅猛增加,但是隨之而來的重復立項問題也日趨嚴重[1]。重復立項嚴重浪費國家或相關領域科研資源。為促進科學立項,迫切需要進行重復立項查重。目前已有的科技信息查重檢測手段[2~6],無法有效研究和分析管道科技項目信息相似的特性指標和要素,需要探索契合管道科技領域特性的查重方法,建立基于計算機應用技術的科技信息查重檢測系統?,F有查重方法如向量空間模型(VSM)[7]或SimHash[8~9],由于詞匯間的相互獨立,僅視為基于字符的相似度評價方法,而基于知網[10]、同義詞詞林[11]或詞向量[12]方法可涉及到詞匯語義層面。

為更好適應面向領域的科技信息管理中的相似度計算問題,本文提出了下面的技術研究路線。1)構建領域同義詞詞林。鑒于領域科技文本的專業性,專業詞匯詞組的相似度衡量是首要解決的難題。特別是在領域限制的情況下,有限的專業詞組數目以及專業詞組的穩固性,使得創建成為可能。2)利用知網與同義詞詞林結合[13~14]進行非領域詞匯粒度語義相似度計算。3)探索基于句法依存信息的詞匯相似度融合方法。分析獲取句子依存結構信息,并利用依存路徑刻畫句子語義,基于路徑結構進行詞匯相似度融合,彌補文本相似度計算中未能考慮結構信息的不足。

2 相關技術簡介

2.1 依存句法結構

在依存句法理論[15]中,“依存”指詞與詞之間支配與被支配的關系,這種關系不是對等的,而是有方向的,處于支配地位的成分稱為支配者,而處于被支配地位的成分稱為從屬者。依存句法結構建立起由支配詞和從屬詞通過依存信息聯結而成的從屬關系。句子依存信息是多組形如“支配者-關系類型-從屬者”的三元組。根據依存信息可生成依存關系圖G=(N,E),其中頂點集合為N,邊集合是E。滿 足:?e?E,?ni,nj?N(i≠j),使 得e=(ni,nj)。

本文使用哈工大LTP分析模塊進行句子分詞、詞性標注、句法分析等操作,獲得句子的依存結構信息。

2.2 同義詞詞林

《同義詞詞林》是梅家駒等[16]于1983 年編纂而成。同義詞詞林是以樹狀形式將所有詞語編織在一起,將所有詞語分為大類、中類和小類。為了更細化各個詞語之間的語義關系,將小類又細分為詞群和原子詞群。于是,同義詞詞林可表示為5 層樹狀結構,結構如圖1所示。

圖1 同義詞詞林5層樹狀結構

2.3 知網(HowNet)

知網是1988 年由董振東先生[18~19]建設的一個漢語常識庫[20]。參考文獻[10]在僅考慮義原上下位關系的前提下,把兩個義原節點路徑長度作為義原相似度判定的標準,并經過簡單關系變換,具體計算如式(1):

其中,pi和pj表示兩個義原,dis(pi,pj)是pi和pj在義原層次體系中的路徑長度。α是一個可調節的參數,本文設置為1。

而義項是由義原通過四類描述構成,所以兩個義項si,sj的相似度由四描述的相似度sim1,sim2,sim3,sim4按式(2)計算:

其中:βi(1 ≤i≤4 )為各部分權重,且有β1+β2+β3+β4=1,β1>β2>β3>β4,本 文 設 置 為β1=0.6,β2=0.2,β3=0.1,β4=0.1。

sim1(si,sj)是語義表達式中第一義原相似度;

sim2(si,sj)是義原集合間相似度,通過基于二分圖最大權匹配算法求得加和均值;

sim3(si,sj)是對多對“屬性-值”集合的相似度。一般在屬性一致的前提下才能進行屬性值相似度判定。

sim4(si,sj) 多對“屬性-值”的特征集合,特征的屬性是一個關系義原,特征的值是一個集合,該集合的元素是一個基本義原,或一個具體詞。

對于兩個非領域詞匯wi,wj計算相似度,假設wi,wj所具有的義項數目分別為n,m,最終wi,wj的相似度是各個義項的相似度之最大值,計算如式(3):

3 結合依存信息與詞匯相似度的科技信息查重計算

3.1 構建領域同義詞林

領域詞林構建的核心思想與通用詞林[16]的構建一樣。面向《中華人民共和國石油天然氣行業標準_Y5510_92 油田化學常用術語》、《油氣田及管道腐蝕與防護工程基本詞匯》等直接抽取本領域常用的一級專業詞匯詞組,將一級專業詞匯詞組導入文本,利用詞語共現關系進行二級詞匯摘取。通過篩選與判斷,共摘取859 個領域詞匯詞組,作為構建領域同義詞林的重要來源。對以上摘取的八百余項詞匯詞組進行分類,共分三大類一百一十多小類(長期維護變化,細分小類增加,深度加深)。大類分為實體類、操作類、特性類,每個大類節點下,小類數目各異,做到領域詞匯詞組分類的正確與細化。

3.2 詞匯語義相似度計算

假設要計算比較的詞對是w§,wj,它們的語義相似度記作sim(wi,wj)。

1)若w§,wj均屬于領域專業詞匯。需依據領域詞林樹進行相似度計算。按文獻[17]提出的方法計算詞匯語義相似度,首先計算w§,wj路徑長度d以及最近公共父節點深度h。然后基于d,h,按式(4)計算詞匯語義相似度。

規 定 若d=0 ,則sim(wi,wj)=1 ;若h=1,sim(wi,wj)=0。

2)若w§,wj一個屬于領域專業詞匯,另一個不屬于,則sim(wi,wj)=0;

3)若w§,wj均不屬于領域專業詞匯,依據文獻[13]所提出的融合規則進行相似度計算。具體如下。

若w§,wj均屬于知網、詞林共有,則基于詞林計算相似度,即按式(4)計算得到s1,基于知網義原計算相似度,即按式(3)計算算得到s2,取sim(wi,wj)=0.5s1+0.5s2;

若w§,wj均屬于知網不屬于詞林,則基于知網義原計算相似度,即按式(3)計算得到sim(wi,wj),或w§,wj均屬于詞林不屬于知網,則基于詞林計算相似度,即按式(4)計算得到sim(wi,wj);

若w§屬詞林而wj屬知網,在詞林中尋找wi同義詞集合{wi1,wi2,…,wik} ,依次與wj基于知網義 原 按 式(4)計 算 相 似 度sim(wil,wj) ,取

3.3 依存路徑的相似度計算

依存圖中有且僅有一個節點與ROOT 直接相連,它是整個句子的核心動詞。依存路徑P定義為從句子核心動詞開始,到所有葉子節點之間所經過的一系列節點n?N與邊e?E組成的集合。路徑相似度對比,需考慮兩個方面:詞匯相似度與依存關系權重。

詞匯相似度計算采用3.2節提出的方法。句子結構復雜,依存關系權重采用文獻[21]中的研究結果對依存關系進行賦權值。依存關系權重值如表1。

表1 依存關系權重值表

定義路徑pi,pj的相似度SIM(pi,pj)計算公式如式(5):

3.4 文本粒度的相似度計算

文本di的依存路徑集合,文本dj的依存路徑集合。利用3.3節依存路徑相似度計算方法,計算可得兩份文本依存路徑集合相似度結果矩陣Mn×m。

定義文本di、dj相似度計算公式如式(6):

4 實驗與分析

4.1 詞匯語義相似度分析實驗

1)數據集

目前評測詞語相似度算法優劣標準普遍采用MC30詞對集[22]。該詞對集讓多位受試者面向多組詞對進行人工評測,取評測均值作為最終相似度結果。MC30 詞對集由10 組高相似性、10 組中相似性、10 組低相似性總計30 組詞對構成。本文隨機抽取詞對集中10 組詞對,并加入10 組領域專業詞對進行多種方法的詞匯相似度對比實驗。

2)對比實驗結果

分別采用基于知網、詞林、本文方法對1)得到的20組詞進行相似度計算實驗,實驗結果如表2。

表2 詞匯語義相似度計算實驗結果

本文方法、知網、詞林實驗結果與人工評測結果的皮爾遜系數如表3。

表3 多方法皮爾遜系數

4.2 文本語義相似度實驗

1)數據集

文本實驗數據集分為通用文本數據集與油氣領域科技項目書,其中通用文本數據集為西安科技大學中文語義相似度測試集[23]。通用文本數據集采用文本對排列方式,共計12747 對。每對文本均已人工標注相似度,相似度值范圍[0~5],0 代表語義不相干,5 代表語義完全一致。本文隨機選取100 份油氣領域科技項目書作為實驗數據,進行基于本文方法的科技信息文本粒度相似度計算實驗。本文將在以上兩類文本集進行多方法實驗對比,驗證本文方法的可行性,基于正確率作為評價指標,進行最終實驗效果比較。

2)對比實驗

本文引入正確率作為文本粒度相似度測評標準,具體如式(7):

其中sim(di,dj)是文本di與文本dj之間相似度,結果范圍在0~1 之間,放大5 倍與[0~5]的相似度標簽進行對比。由于相似度標簽為離散數值,規定計算結果與標簽之間差值的絕對值不超過1 則視為結果可信。統計所有可信結果的數目,與通用文本數據集總記錄數N(12747)的比值,即為最終正確率。在1)得到數據集上,進行了多組相似度計算比較實驗,實驗結果如表4。

表4 文本語義相似度實驗結果

4.3 實驗結果分析

從詞匯語義相似度實驗結果表2、表3可看出,本文方法的詞匯語義計算效果最好,在加入領域詞林后,能很大程度上解決專業詞組相似度計算正確率低的問題。本文方法的皮爾遜系數最高,可達0.89,達到實用水平。而基于知網或詞林的語義相似度計算方法雖能在通用領域詞匯語義計算上取得不錯效果,卻在專業詞組語義相似度計算上存在巨大不足。

從文本粒度語義相似度計算實驗結果表4 可知,本文提出的依存路徑詞語相似度融合方法在通用文本數據集上具有較高準確率。對比傳統文本相似度計算方法,特別是在領域限定情況下,本文方法具有明顯優勢,證明本文方法有效可行。

由于本文方法構建領域詞林,在科技信息數據集上實驗結果最高且大幅度領先其他方法,最終結果為71%左右準確率,具備領域專用特性,本文能在一定程度上滿足企業科技信息查重應用需求。

5 結語

科技信息查重是科技信息管理中的重要內容,對于發揮投入經費效益,維護良好的學術風氣等具有現實意義。但是由于專業領域的差異性很大,通用的查重算法還存在一些不足,為此,本文提出了詞匯語義相似度與依存路徑的融合的技術路線,并且搭建領域同義詞詞林,解決了領域詞匯詞組的相似度計算問題,提高了計算結果的可信度。實驗結果表明,本文提出的方法有效、可行,并將該方法應用到企業科技信息管理查重平臺的開發中,達到了預期目標。

猜你喜歡
語義詞匯文本
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
山東醫藥(2020年34期)2020-12-09 01:22:24
語言與語義
在808DA上文本顯示的改善
本刊可直接用縮寫的常用詞匯
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
認知范疇模糊與語義模糊
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 青草午夜精品视频在线观看| 精品视频一区在线观看| 一区二区三区在线不卡免费 | 欧美三级视频在线播放| 国产美女在线免费观看| 久久这里只有精品国产99| 久久永久视频| 国产99免费视频| 伊人丁香五月天久久综合| 狼友视频国产精品首页| 麻豆国产精品一二三在线观看| 在线欧美一区| 欧美激情网址| 国产欧美精品午夜在线播放| 久久国产热| 久久五月天综合| 日本精品影院| 制服丝袜亚洲| 亚洲欧美综合另类图片小说区| 永久免费精品视频| 免费人成黄页在线观看国产| 国产午夜人做人免费视频中文| 丝袜无码一区二区三区| 老司国产精品视频91| 欧美日韩国产在线播放| 综合色亚洲| 国产精品白浆无码流出在线看| 日韩精品高清自在线| 最新精品久久精品| 玖玖精品在线| 久久久久青草线综合超碰| 亚洲成a人片77777在线播放| 日本人妻丰满熟妇区| 精品一區二區久久久久久久網站| 五月六月伊人狠狠丁香网| 中文字幕日韩视频欧美一区| 中国毛片网| 中文字幕永久视频| 精品1区2区3区| 午夜免费小视频| 亚洲欧洲国产成人综合不卡| 狠狠v日韩v欧美v| aa级毛片毛片免费观看久| 国产农村妇女精品一二区| 国产成人精品高清不卡在线| 一级做a爰片久久毛片毛片| 亚洲中文无码av永久伊人| 成人另类稀缺在线观看| 国产三区二区| 国产人人射| 色哟哟色院91精品网站| 最新日韩AV网址在线观看| 欧美日韩成人在线观看| 日韩精品无码免费专网站| 国产特一级毛片| 澳门av无码| 国产理论最新国产精品视频| 欧美亚洲国产视频| 亚洲欧美日韩中文字幕在线| 色天天综合久久久久综合片| 亚洲a免费| 国产一区二区三区在线观看视频| 国产18在线| 免费人成网站在线高清| 国产精品青青| 欧美成人精品在线| 国产精品嫩草影院av| 热re99久久精品国99热| 噜噜噜综合亚洲| 毛片三级在线观看| 综合色区亚洲熟妇在线| 国产精品亚洲综合久久小说| 性欧美在线| 久久人人爽人人爽人人片aV东京热| 亚洲成人播放| 色九九视频| 国产成人调教在线视频| 亚洲大尺码专区影院| 中文字幕中文字字幕码一二区| 狠狠亚洲婷婷综合色香| 国内精品久久久久久久久久影视 | 久久久久国色AV免费观看性色|