999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于分詞相關(guān)系數(shù)的垃圾焚燒“鄰避”事件文本相似度計算研究

2018-09-21 11:07:22謝豪
中國管理信息化 2018年13期
關(guān)鍵詞:案例文本

謝豪

[摘 要] 將文本相似度計算引入“鄰避”沖突事件的應急決策,通過對案例進行文本分詞、詞義相似度替換得到關(guān)鍵詞頻次,然后將數(shù)據(jù)矢量化得到可用于計算的關(guān)鍵詞權(quán)重表,最后通過皮爾遜算法對兩個案例進行文本相似度計算,進而通過分析相似度結(jié)果提供相應決策建議。

[關(guān)鍵詞] 文本分詞;垃圾焚燒;文本相似度

doi : 10 . 3969 / j . issn . 1673 - 0194 . 2018. 13. 070

[中圖分類號] TP391.3 [文獻標識碼] A [文章編號] 1673 - 0194(2018)13- 0157- 03

0 引 言

近年來,隨著工業(yè)化、城市化進程的加快,“鄰避”問題日益突出,給人民群眾的生活及健康造成了不利的影響[1]。據(jù)統(tǒng)計,近年來中國境內(nèi)規(guī)模在百人以上的群體性事件中,約32%與像垃圾焚燒這樣的“鄰避”項目密切相關(guān),因此“鄰避”沖突事件發(fā)生后如何通過科學決策和快速處置最大限度地降低事件造成的損失和社會影響成為建設生態(tài)文明、構(gòu)建和諧社會過程中亟需解決的現(xiàn)實問題[2]。

我國學者就“鄰避”問題的研究主要通過分析、比較真實發(fā)生的案例,運用經(jīng)濟學、政治學、社會學等學科的視角和研究方法,得出許多對現(xiàn)實有著指導意義的建議??傮w上,當今國內(nèi)關(guān)于“鄰避”問題的文獻中,研究方法仍以定性方法占多數(shù),而采用定量分析的文獻仍然較少,這與西方學界大量運用定量分析、以數(shù)據(jù)為支撐的研究仍有很大差距。為此,本文將基于文本分詞、詞義相似度替換以及皮爾遜相關(guān)系數(shù)法計算案例相似度的方法引入到“鄰避”沖突事件的應急決策中,為提出更加精準高效的決策提供支持。

1 文本分詞

1.1 基于Python結(jié)巴分詞的文本分詞

結(jié)巴分詞支持精準模式、全模式以及搜索引擎模式三種分詞模式,精準模式指將句子最精確地分開,適用于文本分析,全模式指把句子中所有的可以成詞的詞語都掃描出來, 優(yōu)點是速度非???,但是無法解決歧義,搜索引擎模式指在精確模式的基礎上,對長詞再次切分,提高召回率,適用于搜索引擎分詞。

結(jié)巴分詞自帶一個文本詞典,命名為“dict.txt”,其中包含了兩萬多條詞,包含了每個詞條出現(xiàn)的次數(shù)以及詞性(詞條次數(shù)是結(jié)巴分詞創(chuàng)造者基于人民日報語料等資源訓練得出來的)。結(jié)巴分詞屬于概念語言模型分詞,所謂概念語言模型分詞,是指在全切分所得的所有結(jié)果中求某個切分方案S,使得P(S)最大。

1.2 數(shù)據(jù)矢量化

數(shù)據(jù)矢量化是指將文本分詞得到的元數(shù)據(jù)按照關(guān)鍵詞表和對應的權(quán)重進行矢量化的過程。為了使文本分詞得到的結(jié)果能夠進行量化計算,我們將分詞結(jié)果與關(guān)鍵詞表進行對比去除無意義的詞,計算所有關(guān)鍵詞的權(quán)重,做出對應的鍵值對矢量表,其中鍵為關(guān)鍵詞,值為權(quán)重。

1.3 關(guān)鍵詞詞義相似度替換

不同人在表達相同的意思時可能會使用不同的詞語,僅僅通過文本分詞無法使數(shù)據(jù)矢量化過程結(jié)果準確,因此就需要用到關(guān)鍵詞詞義相似度替換,將與關(guān)鍵詞語義相似的詞語替換為關(guān)鍵詞本身。詞義相似度是指兩個給定詞語的語義相似度。我們使用百度AI開放平臺NLP(自然語言處理)接口,它依托全網(wǎng)海量優(yōu)質(zhì)數(shù)據(jù)和深度神經(jīng)網(wǎng)絡技術(shù),通過詞語向量化來計算兩個詞之間的相似度,基于自然語言中的分布假設,即越是經(jīng)常共同出現(xiàn)的詞之間的相似度越高。

百度AI開發(fā)平臺NLP接口使用百度大規(guī)模網(wǎng)頁數(shù)據(jù)進行模型訓練,具有樣本數(shù)據(jù)豐富且時效性高,收錄詞匯覆蓋度廣,召回率高的特點,同時其基于DNN深度學習大量樣本訓練模型,完成詞語的向量化,可建立高精度的詞向量表示體系,另外還基于高精度的詞向量表示系統(tǒng)及海量樣本訓練學習,能夠準確描述詞義相似度,滿足高精度要求的業(yè)務場景需求。

2 皮爾遜相似度計算模型

向量相似度的計算主要分為歐幾里得距離算法和皮爾遜相關(guān)系數(shù)算法(Pearson)。其中皮爾遜相關(guān)系數(shù)法是比歐幾里得距離更加復雜的計算向量相似度的一種方法。該相關(guān)系數(shù)是判斷兩組數(shù)據(jù)與某一直線擬合程序的一種試題,它在數(shù)據(jù)不是很規(guī)范的時候,會傾向于給出更好的結(jié)果。皮爾遜相關(guān)系數(shù)是一種度量兩個變量間相關(guān)程度的方法。其結(jié)果是一個介于-1到1之間的值,其中1表示變量完全正相關(guān),-1表示完全負相關(guān),0表示無關(guān)。我們使用該系數(shù)用來說明兩個文本案例之間的強弱程度,數(shù)值越大,兩個文本案例的相關(guān)性就越高,當系數(shù)為負時,表明案例間無相關(guān)[3]。其計算公式如下:

3 案例應用——垃圾焚燒事件

本文以垃圾焚燒“鄰避”事件為例通過上述方法進行文本相似度計算。將從網(wǎng)絡任意搜索的一則案例同時與一個垃圾焚燒發(fā)電廠順利落地的典型案例和一個遭受“鄰避”沖突的典型案例對比計算出相似度(典型案例可通過聚類方法得出),處理流程如圖1所示。

首先使用Python的結(jié)巴分詞對其進行文本分詞并與人工擬定的“垃圾焚燒”關(guān)鍵詞表對比計算頻次,然后調(diào)用百度AI開放平臺的NLP接口進行相似詞語替換(表1)后重新計算關(guān)鍵詞頻次,最后將得到的關(guān)鍵詞矢量化,得到如下結(jié)果(表2,其中佛山南海案例是順利落地的成功案例,薊縣是遭受激烈“鄰避”沖突的失敗案例,湖北仙桃案例是待分析案例):

通過對比兩個相似度結(jié)果可知,湖北仙桃案例與薊縣案例更為相似,因此需要借鑒佛山南海案例成功經(jīng)驗,擯棄薊縣案例的失敗決策,讓應急決策更加精準有效。

4 結(jié) 語

本文利用基于分詞相關(guān)系數(shù)的文本相似度計算模型,可以快速計算兩個文本案例之間的文本相似度。后期若通過聚類將案例分類后,選出各個類別最典型案例,將待分析案例與其逐一比較,從而將新案例進行歸類,而針對每種類別的案例其決策方式是不盡相同的,因此能夠為決策者提供快速解決此類事件的輔助決策方法,節(jié)省寶貴的時間,提高決策的科學水平。

主要參考文獻

[1]賀晶.淺談環(huán)境應急監(jiān)測質(zhì)量管理體系的建設[J].安全與環(huán)境工程,2012,19(1):51-53.

[2]張英菊.案例推理技術(shù)在環(huán)境群體性事件應急決策中的應用研究[J].安全與環(huán)境工程,2016,23(1):94-99.

[3]王玉山,林澤聰.基于皮爾遜相似度的食材推薦算法研究[J].信息與電腦:理論版,2017(4):100-102.

猜你喜歡
案例文本
案例4 奔跑吧,少年!
少先隊活動(2021年2期)2021-03-29 05:40:48
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
在808DA上文本顯示的改善
隨機變量分布及統(tǒng)計案例拔高卷
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
發(fā)生在你我身邊的那些治超案例
中國公路(2017年7期)2017-07-24 13:56:38
隨機變量分布及統(tǒng)計案例拔高卷
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉(zhuǎn)化
人間(2015年20期)2016-01-04 12:47:10
一個模擬案例引發(fā)的多重思考
主站蜘蛛池模板: 91无码网站| 亚洲日韩国产精品综合在线观看| 日韩精品毛片人妻AV不卡| 日本人妻一区二区三区不卡影院| 亚洲国产高清精品线久久| 成人伊人色一区二区三区| 日本在线亚洲| 综合色亚洲| 欧美国产综合视频| 欧美成人在线免费| 欧美中文字幕一区| 亚洲第一视频网站| 亚洲人成网线在线播放va| 亚洲大尺度在线| 中文字幕中文字字幕码一二区| igao国产精品| 亚洲精品另类| 99精品视频播放| 国产欧美专区在线观看| 在线观看亚洲精品福利片| 91精品网站| 亚洲国产欧美目韩成人综合| 国语少妇高潮| 国产日韩欧美中文| 精品国产中文一级毛片在线看| 91麻豆精品国产高清在线| 日本成人在线不卡视频| 婷婷色婷婷| 五月天丁香婷婷综合久久| 中文字幕天无码久久精品视频免费| 好吊色国产欧美日韩免费观看| 国产欧美在线视频免费| 亚洲成aⅴ人片在线影院八| 夜夜操国产| 少妇精品网站| 国产一级无码不卡视频| 欧美亚洲国产视频| 婷婷丁香色| 亚洲黄网视频| 欧美色视频在线| 99久久成人国产精品免费| 99久久亚洲综合精品TS| 亚洲一区无码在线| 久久这里只精品热免费99| 亚洲精品777| 久久久噜噜噜| 久久精品中文字幕免费| 亚洲欧美在线看片AI| 操美女免费网站| 国产福利不卡视频| 四虎精品免费久久| 久久人人爽人人爽人人片aV东京热| 欧美啪啪视频免码| 久久亚洲精少妇毛片午夜无码| 手机看片1024久久精品你懂的| 色天天综合| 成人国产一区二区三区| 午夜无码一区二区三区在线app| 国产一区二区三区视频| 国产久操视频| 日本免费福利视频| 亚洲欧洲国产成人综合不卡| 国产乱论视频| 伊人久久青草青青综合| 夜夜爽免费视频| 一本综合久久| 色综合中文综合网| 婷五月综合| 国产成人高清在线精品| 91青草视频| 亚洲无码精品在线播放| 久久99国产精品成人欧美| 亚洲免费三区| 麻豆精品国产自产在线| 蜜臀AV在线播放| 一级片免费网站| 91久久偷偷做嫩草影院精品| 国产不卡国语在线| 成年A级毛片| 2021国产精品自产拍在线| 麻豆精品在线| 国产亚洲欧美在线专区|