999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Word2Vec詞嵌入和聚類模型的安全生產(chǎn)事故文本案例分類①

2021-01-22 05:42:30吳德平
計算機系統(tǒng)應(yīng)用 2021年1期
關(guān)鍵詞:分類生產(chǎn)模型

吳德平,華 鋼

1(中國礦業(yè)大學(xué) 信息與控制工程學(xué)院,徐州 221008)

2(江蘇安全技術(shù)職業(yè)學(xué)院 網(wǎng)絡(luò)與信息安全學(xué)院,徐州 221011)

安全生產(chǎn)事關(guān)生命財產(chǎn)安全.通過對安全生產(chǎn)事故劃分,對安全生產(chǎn)事故發(fā)生的行業(yè)、時間、地域、原因、教訓(xùn)等多個維度展開大數(shù)據(jù)分析,采用語義分析技術(shù),從客觀的數(shù)據(jù)中挖掘安全生產(chǎn)事故的特點與規(guī)律,為安全生產(chǎn)的應(yīng)急管理提供科學(xué)決策具有重要技術(shù)意義和參考價值.本文旨在通過NLP 技術(shù)實現(xiàn)安全生產(chǎn)事故大數(shù)據(jù)分析.圖1是安全生產(chǎn)事故分類的實現(xiàn)流程,通過該流程實現(xiàn)安全生產(chǎn)事故的分類.準(zhǔn)備大量的安全生產(chǎn)案例作為語料,jieba分詞工具實現(xiàn)語料分詞,將分詞后的單元輸入Word2Vec模型獲得詞向量,通過K-means 聚類對詞向量實現(xiàn)聚類實現(xiàn)安全生產(chǎn)事故的分類[1].

圖1 安全生產(chǎn)事故分類實現(xiàn)流程

1 文本表示

文本表示是把字詞處理成向量或矩陣,以便計算機能進(jìn)行處理.文本表示是自然語言處理的開始環(huán)節(jié).目前常用的文本表示模型有:詞袋模型、主題模型和詞嵌入模型等.詞袋模型主要有One-Hot (獨熱編碼)、n-gram、TF-IDF.本例采用One-Hot 編碼.

One-Hot 編碼,又稱一位有效編碼,其方法是使用N位狀態(tài)寄存器來對N個狀態(tài)進(jìn)行編碼,每個狀態(tài)都有它獨立的寄存器位,并且在任意時候,其中只有一位有效.本質(zhì)上是用一個只含一個1,其他都是0 的向量來唯一表示詞語.表1中安全生產(chǎn)事故性質(zhì)分類為例(僅考慮死亡人數(shù)),死亡人數(shù)1-9 的一種One-Hot 編碼如表1.

表1 One-Hot 編碼示意

2 利用Word2Vec 實現(xiàn)詞向量

2.1 分詞

分詞是實現(xiàn)中文文本詞性標(biāo)注、關(guān)鍵詞抽取等功能.jieba 分詞包是Python 中很好的分詞組件,通過加載大量安全生產(chǎn)案例的文本文件,先基于詞典分詞,然后進(jìn)行詞性標(biāo)注和發(fā)現(xiàn)新詞,同時進(jìn)行關(guān)鍵詞提取完成分詞.同時可使用jieba.suggest_freq(‘事故’,True)調(diào)節(jié)單個詞語的詞頻,使“事故”能被分出來,提高分詞效果[2-5].

2.2 CBOW 模型和負(fù)采樣

Word2Vec 是Google 推出的用于獲取詞向量的工具包.Word2Vec 作為神經(jīng)概率語言模型,采用兩種模型(CBOW 和Skip-gram) 與兩種方法(Hierarchical Softmax 和Negative Sampling)的組合.CBOW 是根據(jù)某個詞前面的N個詞或前后N個詞計算某個詞概率的模型,其模型如圖2.Skip-gram 是根據(jù)某個詞計算它前后出現(xiàn)某幾個詞的各個概率.

圖2 CBOW 模型

CBOW 模型一般采用3 層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),分為輸入層,隱藏層(嵌入層)和輸出層(Softmax 層).CBOW模型輸入上下文詞的One-Hot 編碼,然后連接一個全連接層,再連接若干個層,最后接Softmax 分類器,再通過梯度優(yōu)化和反向傳播讓模型逼近最小誤差就可以得到詞向量.由于神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練中生成的詞匯往往數(shù)萬以上,這大大降低了神經(jīng)網(wǎng)絡(luò)的訓(xùn)練速度,本例選用CBOW+負(fù)采樣提高訓(xùn)練速度,該組合具有運算快的特點.任何采樣算法應(yīng)該保證頻次越高的樣本越容易被采樣出來.負(fù)采樣的本質(zhì)就是每次讓一個訓(xùn)練樣本更新神經(jīng)網(wǎng)絡(luò)的部分權(quán)重.CBOW 模型中詞向量的數(shù)量大,神經(jīng)網(wǎng)絡(luò)則有龐大的權(quán)重數(shù),不同于原本每個訓(xùn)練樣本更新所有的權(quán)重,負(fù)采樣每次讓一個訓(xùn)練樣本僅僅更新一部分的權(quán)重,其他權(quán)重全部固定,這樣即可以減少計算量,同時在一定程度上增加隨機性,降低了損失值.具體代碼中l(wèi)oss 函數(shù)定義如下:

loss=tf.reduce_mean(tf.nn.nce_loss(weights=nce_we ights,biases=nce_biases,labels=train_labels,inputs=embed,num_sampled=num_sampled,num_classes=words_size)).

train_inputs 是中心詞,train_label 是該中心詞在滑動窗口內(nèi)的上下文詞.train_inputs 中會有連續(xù)n-1(n為滑動窗口大小)個元素是相同的.即同一中心詞.embddings 是要學(xué)習(xí)的詞向量的存儲矩陣[6-13].

2.3 利用Gensim 實現(xiàn)Word2Vec

Gensim 是一款開源的第3 方Python 工具包,用于無監(jiān)督地學(xué)習(xí)到文本隱層的主題向量表達(dá).主要用于主題建模和文檔相似性處理,在獲取單詞的詞向量等任務(wù)中非常有用.Gensim 中集成有CBOW+負(fù)采樣算法,Word2Vec 相關(guān)的API 都在包gensim.models.Word2Vec 中.本例中設(shè)置的主要參數(shù)如表2.

表2 Gensim 模型主要參數(shù)設(shè)定

2.4 詞向量實驗結(jié)果

實驗基于Tensorflow 和Python3.7,取樣1000 個安全生產(chǎn)案例,對100 個詞向量可視化結(jié)果如圖3.不難看出這些詞向量以安全生產(chǎn)為主題.主題擬合較好,如發(fā)生、事故、經(jīng)過、事故、原因等;同義詞檢測如年月日時語義相似度很高,數(shù)字的一致性檢查很好.

圖3 安全生產(chǎn)案例詞向量可視化

3 K-means 聚類

3.1 K-means 聚類算法

K-means 算法是一種迭代型無監(jiān)督學(xué)習(xí)聚類算法,采用距離作為相似性指標(biāo),從而發(fā)現(xiàn)給定數(shù)據(jù)集中的K個類,且每個類的中心是根據(jù)類中所有值的均值得到,每個類用聚類中心來描K-means 算法是一個重復(fù)移動類中心點的過程,把類的中心點,移動到其包含成員的平均位置,然后重新劃分其內(nèi)部成員.K是算法計算出的超參數(shù),表示類的數(shù)量;K-means 可以自動分配樣本到不同的類,但是不能決定究竟要分幾個類,K必須是一個比訓(xùn)練集樣本數(shù)小的正整數(shù).對于詞向量集D={X1,X2,···,Xm},K-means 算法針對聚類的分類C={C1,C2,···,Ck}最小化平方誤差為

其中,μi是第K個聚類的均值向量.每個類的畸變程度等于該類重心與其內(nèi)部成員位置距離的平方和.若類內(nèi)部的成員彼此間越緊湊則類的畸變程度越小,反之,若類內(nèi)部的成員彼此間越分散則類的畸變程度越大.求解成本函數(shù)最小化的參數(shù)就是一個重復(fù)配置每個類包含的觀測值,并不斷移動類重心的過程.其算法如圖4.

3.2 半監(jiān)督學(xué)習(xí)初始化聚類中心

由于安全生產(chǎn)事故分類,如重大事故指死亡10 人以上,30 人以下或重傷50 以上,100 以下;或直接經(jīng)濟損失5000 萬以上,1 億元以下.分類中死亡、重傷人數(shù),特別是財產(chǎn)損失數(shù)值范圍很大,特征空間會變得非常稀疏.為了解決這個問題,可通過線性回歸模型,利用半監(jiān)督學(xué)習(xí),即用已有的詞向量確定傷害與死亡、重傷較少人數(shù)(取30 人以下)的關(guān)聯(lián)度X1i、X2i和作為標(biāo)簽,令相應(yīng)的權(quán)重值分別為W1i、W2i,把經(jīng)濟損失與傷害人數(shù)關(guān)聯(lián)度Bi視為偏移量,線性回歸的預(yù)測函數(shù)為:

利用已有的樣本訓(xùn)練式(2)可確定相應(yīng)的學(xué)習(xí)參數(shù),如表3.如對于特大事故,利用學(xué)習(xí)好的參數(shù)W1i、W2i,再利用預(yù)測函數(shù)(2)和大量樣本確定X1n、X1n和Bn[14-16].

圖4 K-means 聚類算法流程圖

表3 事故性質(zhì)與關(guān)聯(lián)參數(shù)

對4 類安全事故,聚類簇數(shù)K=4,算法開始均值向量取值如下:

將μ1、μ2、μ3、μ4作為初始化聚類中心,然后按照圖4中算法計算,得到最終分類.

3.3 K-means 算法實驗結(jié)果

取1000 個安全生產(chǎn)事故為樣本,把樣本的詞向量作為聚類的輸入,按照上述實驗,圖示化結(jié)果如圖5.圖中,綠色為特大事故,藍(lán)色為重大事故,黃色為較大事故,紅色為一般事故。通過得到的詞向量和上述聚類算法,較好的實現(xiàn)安全生產(chǎn)事故分類.在樣本數(shù)萬時,分類正確率達(dá)93%以上.同時該模型對安全生產(chǎn)事故開展多個維度數(shù)據(jù)分析也有很好的借鑒意義.

圖5 安全生產(chǎn)事故分類圖

猜你喜歡
分類生產(chǎn)模型
一半模型
分類算一算
重要模型『一線三等角』
用舊的生產(chǎn)新的!
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
“三夏”生產(chǎn) 如火如荼
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
S-76D在華首架機實現(xiàn)生產(chǎn)交付
教你一招:數(shù)的分類
主站蜘蛛池模板: 国产不卡一级毛片视频| 欧美人与牲动交a欧美精品| 国产91精品久久| 亚洲黄色激情网站| www.精品国产| 91小视频版在线观看www| 在线观看国产黄色| www.亚洲天堂| 久久黄色毛片| 先锋资源久久| 亚洲精品黄| 99热最新网址| 久久精品女人天堂aaa| 国产在线91在线电影| 热这里只有精品国产热门精品| 91麻豆久久久| 国产精品粉嫩| 欧美日韩国产成人高清视频| 国产在线八区| 国产一级无码不卡视频| 91免费在线看| 精品国产99久久| 久久国产精品77777| 在线不卡免费视频| 2022国产无码在线| 久久免费成人| 亚洲成av人无码综合在线观看| 视频二区亚洲精品| 国产在线小视频| 日韩在线影院| 91精品国产福利| 免费不卡视频| 精品色综合| 成人日韩欧美| 亚洲一区二区三区中文字幕5566| 欧美日韩另类在线| 欧美日韩v| 成人无码一区二区三区视频在线观看 | 久久精品这里只有国产中文精品| 国产菊爆视频在线观看| 欧美激情视频二区| 永久免费av网站可以直接看的| 国产内射在线观看| 亚洲天堂网视频| 日本欧美视频在线观看| 毛片一级在线| 久久精品视频一| 国产无码性爱一区二区三区| 欧美国产日产一区二区| 热99精品视频| 成人免费黄色小视频| 亚洲天堂首页| 精品福利视频网| www.av男人.com| 成年人福利视频| 免费看a毛片| 日本午夜精品一本在线观看| 91亚洲精品第一| 手机在线免费不卡一区二| 女人一级毛片| 久久久久国产精品嫩草影院| 四虎影视8848永久精品| 99re经典视频在线| 最新亚洲人成无码网站欣赏网| 免费啪啪网址| 99热最新在线| 在线精品自拍| 国产成人久视频免费| 久久久久夜色精品波多野结衣| 精品久久高清| 欧美日韩精品一区二区在线线| 久久永久精品免费视频| 日本欧美一二三区色视频| 精品三级在线| a毛片免费观看| 99在线免费播放| 青青国产在线| 中文字幕在线看| 亚洲成aⅴ人在线观看| 欧美区一区二区三| 国产特一级毛片| AV在线天堂进入|