999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Word2vec的鐵路工程地質(zhì)語(yǔ)料庫(kù)構(gòu)建與詞嵌入

2022-12-22 06:07:40戴均豪
科技創(chuàng)新與應(yīng)用 2022年35期
關(guān)鍵詞:語(yǔ)義鐵路模型

戴均豪

(中鐵第一勘察設(shè)計(jì)院集團(tuán)有限公司,西安 710043)

大量的高質(zhì)量、多類型的鐵路工程地質(zhì)文字資料隨著各地鐵路工程勘察設(shè)計(jì)、建設(shè)施工等工作的進(jìn)行而快速積累[1]。然而,文字資料的利用效率普遍較低,文字資料中蘊(yùn)含著的大量信息還有待挖掘。

在鐵路工程地質(zhì)領(lǐng)域信息化、智能化的背景下,圖件、數(shù)據(jù)和模型等內(nèi)容逐步實(shí)現(xiàn)了高效獲取、自動(dòng)分析等[2],而文字資料的智能化進(jìn)展較慢。

自然語(yǔ)言處理(Natural Language Processing,NLP)是計(jì)算機(jī)問(wèn)世之后,人們?cè)噲D探索以自動(dòng)的方式對(duì)自然語(yǔ)言進(jìn)行加工的方法,NLP本身是一個(gè)融會(huì)貫通了計(jì)算機(jī)科學(xué)、人工智能、語(yǔ)言科學(xué)、邏輯學(xué)和心理學(xué)等多領(lǐng)域知識(shí)與成果的跨學(xué)科研究[3]。NLP技術(shù)在語(yǔ)義分析、詞性標(biāo)注、實(shí)體識(shí)別、機(jī)器翻譯及情感分析等方面已取得一定進(jìn)展,并具有廣闊的探索空間[4]。語(yǔ)料庫(kù)和詞向量是NLP的先導(dǎo)工作,也是文檔資料智能處理的基礎(chǔ)。

目前存在的語(yǔ)料庫(kù)及語(yǔ)言模型大多面向通用領(lǐng)域,如維基百科、新聞和微博等。國(guó)內(nèi)外針對(duì)特定領(lǐng)域的語(yǔ)料庫(kù)也逐步開(kāi)展研究,如國(guó)防、醫(yī)學(xué)、新聞與航空等[5-8]。而通用語(yǔ)料和其他領(lǐng)域語(yǔ)料難以適應(yīng)鐵路工程地質(zhì)工作需要。因此,構(gòu)建面向鐵路工程地質(zhì)的語(yǔ)料庫(kù)、訓(xùn)練領(lǐng)域內(nèi)的語(yǔ)言模型十分必要。

1 Word2vec模型

Word2vec模型等詞嵌入方法誕生之前,自然語(yǔ)言處理過(guò)程通常將詞匯表示成單一的、離散的編號(hào),如獨(dú)熱碼表示法(One-hot Representation),其將詞語(yǔ)表示成0、1構(gòu)成的高維向量,維度大小即語(yǔ)料中詞匯量的大小,每個(gè)詞在它的特定維度值為1,其余位置填0。顯然,這種方法不能完全表達(dá)語(yǔ)義信息,且在計(jì)算過(guò)程中會(huì)造成維度爆炸。

Word2vec將語(yǔ)料的獨(dú)熱碼作為輸入和輸出,用神經(jīng)網(wǎng)絡(luò)模型的隱藏層參數(shù)當(dāng)作當(dāng)前詞語(yǔ)的分布式表征(詞向量)時(shí),能夠很好地獲取詞語(yǔ)之間的語(yǔ)義關(guān)系或語(yǔ)義相似度[9]。Word2vec包括CBOW和Skip-gram 2種詞嵌入模型,2個(gè)模型都包含輸入層、投影層和輸出層。其中,CBOW模型訓(xùn)練原理是在已知當(dāng)前詞的上下文的前提下預(yù)測(cè)當(dāng)前詞,而Skip-gram模型的訓(xùn)練原理是在己知當(dāng)前詞的前提下預(yù)測(cè)其上下文[10](圖1)。

圖1 Word2vec模型結(jié)構(gòu)示意圖

2 語(yǔ)料庫(kù)構(gòu)建

為訓(xùn)練面向鐵路工程地質(zhì)的Word2vec模型,需要構(gòu)建粒度為“詞”的語(yǔ)料庫(kù)。流程如圖2所示。

圖2 語(yǔ)料庫(kù)搭建流程圖

2.1 語(yǔ)料收集

本文針對(duì)鐵路工程地質(zhì)領(lǐng)域,收集了如下幾方面的語(yǔ)料:①領(lǐng)域相關(guān)的文獻(xiàn)300篇;②相關(guān)規(guī)范及工作手冊(cè)23冊(cè);③各環(huán)節(jié)程序文件105份;④教材和專著等11部。

2.2 預(yù)處理

以上各方面語(yǔ)料需統(tǒng)一為.txt文本格式以便于輸入計(jì)算機(jī)處理,隨后統(tǒng)一存放、利用Python中的os函數(shù)庫(kù)對(duì)路徑下的全部文件進(jìn)行讀寫(xiě)合并,形成生語(yǔ)料。將上述語(yǔ)料刪除亂碼、空行、特殊字符與字母數(shù)字等難以利用的文本。另外,將與文本語(yǔ)義無(wú)關(guān)的語(yǔ)氣詞、介詞、連詞、定語(yǔ),以及停用詞刪除。經(jīng)過(guò)上述2方面的文本清洗工作,隨后將語(yǔ)料利用Jiaba中文分詞函數(shù)庫(kù)進(jìn)行分詞。

Jiaba函數(shù)庫(kù)可以對(duì)日常用語(yǔ)進(jìn)行分詞操作,但是對(duì)于專業(yè)名詞繁多的地質(zhì)文本的分詞效果不好,此時(shí)需要準(zhǔn)備《地質(zhì)辭典》中的詞匯供Jiaba讀取,來(lái)提升分詞效果。另外,需要將工程地質(zhì)學(xué)、巖土工程勘察及鐵路工程施工等各分支學(xué)科下的復(fù)雜專業(yè)名詞匯總到地質(zhì)詞典中。

分詞后形成了可以輸入Word2vec的訓(xùn)練語(yǔ)料。但其中難免有個(gè)別專有名詞沒(méi)有被詞典收錄,需要根據(jù)分詞結(jié)果文件,挑選未分詞、誤分詞的詞語(yǔ),加入已有詞典。重復(fù)分詞、挑選分詞瑕疵,如此往復(fù),以尋求分詞效果的最大化,以獲得質(zhì)量最佳的語(yǔ)料庫(kù)(圖2)。最終獲得的語(yǔ)料庫(kù)總詞數(shù)為4 192 189詞,并完善鐵路工程地質(zhì)詞典37 975詞。

2.3 詞頻統(tǒng)計(jì)

為了實(shí)現(xiàn)快速理解語(yǔ)料主要概述內(nèi)容,對(duì)構(gòu)建的語(yǔ)料庫(kù)進(jìn)行詞頻統(tǒng)計(jì),可以繪制“詞云”圖、對(duì)語(yǔ)料庫(kù)做簡(jiǎn)單的關(guān)鍵詞提取[11]。由圖3可知,文字比例越大表示其重要度越高,“工程”“結(jié)構(gòu)”“地質(zhì)”“形變”等詞匯重要性最高。

圖3 鐵路工程地質(zhì)語(yǔ)料庫(kù)詞云

3 詞嵌入

3.1 詞向量訓(xùn)練

本文選用Word2vec模型中的Skip-gram模型來(lái)進(jìn)行詞嵌入。Skip-gram是一種簡(jiǎn)單卻實(shí)用的詞嵌入模型。在輸入層輸入該詞的獨(dú)熱碼,在第一個(gè)隱層,輸入該編碼的線性映射W*x+b(x即為該詞的獨(dú)熱編碼,W、b為參數(shù)),第三層可以看成分類器,使用Softmax回歸。訓(xùn)練樣本是當(dāng)前詞和上下文詞的One-hot編碼,模型的輸出為輸入詞的上下文取詞窗口中出現(xiàn)詞匯表中各詞匯的概率[10]。

依照上述方法,對(duì)前述工作中形成的語(yǔ)料庫(kù)輸入Skip-gram詞嵌入模型進(jìn)行訓(xùn)練,規(guī)定batch-size、詞嵌入維度、上下文取詞窗口大小及負(fù)采樣樣本數(shù)量等超參數(shù),獲取詞嵌入文件。此處詞嵌入初始維度為300維,即每個(gè)詞語(yǔ)映射在300維的向量空間中。

3.2 降維可視化

對(duì)于訓(xùn)練好的300維詞向量,由于維度過(guò)高,不便于理解和觀察,可以利用t分布隨機(jī)近鄰嵌入(t-SNE)算法進(jìn)行降維可視化[12]。本文隨機(jī)抽取所有詞向量中的500條詞向量,由300維投影至二維,即可在平面直角坐標(biāo)上刻畫(huà)各條詞嵌入的結(jié)果。由圖4可知,在向量空間中距離相近的詞語(yǔ)蘊(yùn)含著較高的語(yǔ)義相似度,如“不良地質(zhì)”“地質(zhì)災(zāi)害”“滑坡”“泥石流”等詞匯語(yǔ)義相似度較高。

圖4 鐵路工程地質(zhì)詞向量降維可視化

3.3 語(yǔ)義相似度計(jì)算

詞向量在高維空間中的歐氏距離,可以表達(dá)詞與詞之間的語(yǔ)義相似度。利用Gensim庫(kù)中的Similarity函數(shù)可以計(jì)算詞向量之間的語(yǔ)義相似度[13]。為檢驗(yàn)訓(xùn)練的詞向量的有效性,可選取具有連續(xù)性規(guī)律的地質(zhì)名詞來(lái)計(jì)算語(yǔ)義相似度。本文選取“侏羅系”來(lái)計(jì)算其和其他年代地層名詞來(lái)完成有效性驗(yàn)證。由圖5可知,隨著地質(zhì)年代關(guān)系越遠(yuǎn),語(yǔ)義相似度也越低。

圖5 年代地層名詞間語(yǔ)義相似度

3.4 聚類

為檢驗(yàn)所訓(xùn)練的語(yǔ)言模型能否有效區(qū)分2類鐵路工程地質(zhì)詞匯,將年代地層名詞與巖性名詞的詞向量進(jìn)行聚類后可視化。由圖6可知,2類詞匯的詞向量投影位置有著較為明顯的區(qū)分,絕大部分都聚類正確。

圖6 年代地層與巖性名詞聚類可視化

4 結(jié)論

利用NLP技術(shù),針對(duì)鐵路工程地質(zhì)領(lǐng)域開(kāi)展語(yǔ)料庫(kù)構(gòu)建和詞向量訓(xùn)練,得到以下結(jié)論。

(1)本文完善了1套構(gòu)建鐵路工程地質(zhì)語(yǔ)料庫(kù)的方法流程,構(gòu)建了4 192 189詞的語(yǔ)料庫(kù),完善了37 975詞的地質(zhì)詞典。

(2)本文在語(yǔ)料庫(kù)基礎(chǔ)上訓(xùn)練了Word2vec模型,獲取的詞向量能夠準(zhǔn)確表達(dá)語(yǔ)義,為后續(xù)鐵路工程地質(zhì)文本語(yǔ)義分析、實(shí)體識(shí)別等應(yīng)用完成前期基礎(chǔ)。

猜你喜歡
語(yǔ)義鐵路模型
一半模型
沿著中老鐵路一路向南
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
語(yǔ)言與語(yǔ)義
鐵路通信線路維護(hù)體制改革探索與實(shí)踐
3D打印中的模型分割與打包
“上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
無(wú)人機(jī)在鐵路工程建設(shè)中的應(yīng)用與思考
GSM-R在鐵路通信中的應(yīng)用
主站蜘蛛池模板: 性视频一区| 在线观看免费人成视频色快速| 美女无遮挡免费网站| 制服丝袜一区二区三区在线| 久久亚洲天堂| 日韩精品毛片| 三上悠亚一区二区| 国产精品一区二区国产主播| 国产免费精彩视频| 亚洲一区二区无码视频| 无码精品国产dvd在线观看9久| 日韩成人高清无码| 日韩无码黄色网站| 色综合狠狠操| 九九九久久国产精品| 欧美性色综合网| 一本一道波多野结衣一区二区| 亚洲综合第一页| 亚洲成人在线免费观看| 国产啪在线| 成人免费午夜视频| av在线5g无码天天| 国产成人麻豆精品| 99re精彩视频| 国产亚洲欧美日韩在线一区二区三区| 亚洲浓毛av| 凹凸国产熟女精品视频| 欧美黄网站免费观看| 亚洲国产日韩一区| 亚洲av无码成人专区| 亚洲AV无码一二区三区在线播放| 91精品久久久无码中文字幕vr| 国产欧美中文字幕| 欧美中文字幕无线码视频| 中国毛片网| 色婷婷亚洲综合五月| 久久免费视频6| 久久国产精品嫖妓| 精品国产Av电影无码久久久| 亚洲天堂日韩av电影| AV在线天堂进入| WWW丫丫国产成人精品| 亚洲精品男人天堂| 狠狠做深爱婷婷久久一区| 2021国产精品自产拍在线| 亚洲av日韩综合一区尤物| 99久久精品国产精品亚洲| 国产成人高精品免费视频| 国产a v无码专区亚洲av| 欧美精品一区在线看| 无码内射中文字幕岛国片| 国产成人福利在线视老湿机| 国精品91人妻无码一区二区三区| 呦系列视频一区二区三区| 大陆国产精品视频| 深爱婷婷激情网| 2021亚洲精品不卡a| 人人妻人人澡人人爽欧美一区| www精品久久| 在线国产三级| 亚洲中文在线看视频一区| 国产在线高清一级毛片| 日韩a在线观看免费观看| 91麻豆精品国产91久久久久| 亚洲自偷自拍另类小说| 刘亦菲一区二区在线观看| 免费国产高清精品一区在线| 国产99热| 不卡网亚洲无码| 国产激情影院| 午夜综合网| 国产成人AV综合久久| 国产高清精品在线91| 国产乱人乱偷精品视频a人人澡| 欧美另类视频一区二区三区| 久青草免费视频| 三上悠亚在线精品二区| 成人福利在线免费观看| 五月婷婷综合在线视频| 亚洲一区二区在线无码| 午夜爽爽视频| 亚洲视频在线青青|