999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于SVM模型的濕法脫硫專利文本主題劃分

2021-07-12 07:09:32陶漢中
探索科學(學術版) 2021年4期
關鍵詞:詞匯分類利用

徐 巖 陶漢中

南京工業大學能源學院 江蘇 南京 210009

1 基于LDA的專利文本分類模型設計

利用LDA-SVM模型來進行分類,主要原因是能夠克服SVM模型在進行分類時需求空間太多,在使用過程中能夠避免文本考慮不全導致的分類不全面問題。利用LDA主題模型能夠自動分布語義相近的主題特點,從中改進SVM主題分類中語義特點重復問題。

1.1 LDA模型建模 LDA模型算法每次進行分類時,需要每次選擇概率向量,從而完成一個維度,保證其他的維度數值一致后,對新維度數值進行推算。不停的迭代讓其收斂后得出估計的數值。在整個創建模型中,對主題模型的最終模型結構中的數值K造成直接影響。主題的差異對實驗的最終結果也造成直接性的影響。

1.2 文檔的主題向量提取 在進行SVM訓練在前,首先要確定文本特征值的權重。通過了解準里文本的數據可知,專利文本的內容主要是將摘要、標題、主權等進行專利濃縮,其具有的特點詞匯成為代表,摘要表達的意義作為詞匯體現。在文檔中,位置不同呢,特點詞匯的代表程度也具有很大差異,例如在LDA模型中進行語料建模時,特點詞匯在文檔中的位置影響不做考慮時,文本的分類效果將受到嚴重的影響。因此,需要依據專利文本數據具備的特殊性,對特點詞匯在不同位置時體現的信息差異進行體現,利用某一個位置的詞匯加權來對文本主題向量進行計算。

2 分類器訓練

2.1 實驗數據獲取與處理 實驗中使用的數據主要來源為專利數據庫中,以這些專利數據作為本次實驗的文本數據,從中選擇一萬條與濕法脫硫相關的專利數據,然后從其中隨機選擇一定的文本數量,以選擇出來的文本數據進行模型測試與訓練樣本。其中五千條作為模型訓練數據,主要進行模型分類訓練;五千條作數據作為模型測試,主要利用其來對模型分類的準確率進行檢測。根據搜索,濕法脫硫文本中有16709條數據屬,從其中選擇1條至5500條當做實驗檢測數據。

2.2 實驗過程 對于全部的實驗文本數據進行處理與篩選時,專利文本中存在大量的連接性詞匯與計量單位數據,因此,在進行語料清洗過程中,必須依據中文詞匯表述來展開詞匯分類,同時必須將專利文本里無意義的固定詞匯添加帶停用表格中。以上個章節作為基礎,展開文本分類,對于摘要部分,依舊利用jieba分詞處理。以相同的方式清除其中的介詞、數量詞以及定冠詞等等,同時依據第四章節中的處理方式得出對其他特點造成影響的停用詞。

本文主題數為8,將實驗文本的數據和主題展開人為的調節,因此,本文以實驗得出的數據作為主題標準。并且在主題數據為8時,表示訓練數據和文本主題標準接近,因此,在LDA分析數據設立為:主題數K等于8,表示成50/K=6.25,超參數β表示成0.1,代數表示成500。

使用SVM進行數據分類時,必須設置參數設置。SVN屬于二類分類器,與上文中的8類分類方式成為一對一形式實現方式是四種類型中選擇兩種類型,并且設計相同的支持向量機SVM,所以得出28個不同的SVM。在展開數據分類檢測過程中,次數在其中最多的類型便稱之為所屬類型。本文利用LIBSVM進行方案分類。SVM中選擇函數來計算高維空間,因此,必須設置LIBSVM核函數數據。假如m維空間的計算中存在問題,核函數的計算公式變為,n維空間的輸入值表示為x和y,f(x)表示為x在m維中形成的映射,相同道理,f(y)也表示為y在m維中形成的映射。目前具有很多形式的函數值,例如線性、多項性、高斯以及Sigmoid等形式的核函數。因濕法脫硫具有不確定性,因此文本會使用高斯核函數來進行最終驗證。提取特點詞匯-主題概率的分布過程中,會對文本的特點詞匯空間-主題的概率分布利用RBF核函數計算,通過10次驗證后確定最終數據。

3 實驗結果分析

本文利用Gibbs抽樣方式選擇出最佳的LDA的主題數據,得出LDA提取主題的方式,然后使用文本特點來實現SVM分類模型訓練,最后得出LDA-SVM專利文本的分類模型。

LDA提取特點方式作為特點的分類方式,以主題為標簽進行分類檢測時,總體分類的準確率達到80%以上。依據F1數值的大小效果進行評價,數值越大,分類的效果就越標準,利用主題的特點展開分類能達到良好的效果。利用IPC標簽分類方式進行分類時,得出的結果非常差,準確率約為50%。實驗表明,利用IPC標簽分類方式對對主題展開的分類結果非常不準確,造成其主要是因素為:1、IPC分類方式不能全面表示文本中的信息,專利文本中具有多個不同的主題內容。2、IPC分類不能對主題進行統計,同時也不能深入分類文本中的內容信息,分類出來的主題非常粗糙。從中可見,利用LDA主題分類方式展開的主題特點提取,能夠將文本主題特點進行加密,從而了解文本特點中不具備語料的多種問題。在對專利文本展開文本分類時,利用專利文本中不同主題展開可行性分類,并且依據專利文本的主題數據展開詳細分析。

4 結論

本文主要利用濕法脫硫專利分類方式來實現自動化模型分類,依據模型分類方式對濕法脫硫主題進行劃分達到的效果。利用LDA模型分類方式來提取濕法脫硫摘要文本的特點,主要將文本主題的概率作為分類器的特點進行訓練。最后得出依據濕法脫硫摘要文本主題的模型分類,其分類結果具有確定性,對于之前使用的特點提取分類器更加明確,同時還能解決語義問題和準確性問題,并且實現了預期設置的濕法脫硫專利主題的分類任務。之后在依據主題展開詳細的文本分類,讓整個文本主題的分類更加快捷,結果更加明確科學。

猜你喜歡
詞匯分類利用
利用min{a,b}的積分表示解決一類絕對值不等式
中等數學(2022年2期)2022-06-05 07:10:50
分類算一算
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
山東醫藥(2020年34期)2020-12-09 01:22:24
利用一半進行移多補少
本刊可直接用縮寫的常用詞匯
分類討論求坐標
利用數的分解來思考
Roommate is necessary when far away from home
數據分析中的分類討論
主站蜘蛛池模板: 欧美日韩激情在线| 国产美女丝袜高潮| 国内嫩模私拍精品视频| 91亚洲精选| 国产精品网址你懂的| 真人免费一级毛片一区二区| 91视频区| 日韩精品无码不卡无码| 国产欧美视频一区二区三区| 亚洲欧美日韩中文字幕在线一区| 国产理论一区| 99在线视频免费| 久久综合色天堂av| 全部免费毛片免费播放 | 国产成人精彩在线视频50| 色噜噜狠狠色综合网图区| 精品久久久久久中文字幕女 | 亚洲欧美精品一中文字幕| 热re99久久精品国99热| 人人91人人澡人人妻人人爽| 综合网久久| 99久久精品久久久久久婷婷| 日本人妻丰满熟妇区| 亚洲熟妇AV日韩熟妇在线| 国产麻豆另类AV| 真人高潮娇喘嗯啊在线观看| 国产精品尤物铁牛tv| 少妇精品在线| 狼友视频一区二区三区| 国产96在线 | 久久九九热视频| 欧美中文字幕第一页线路一| 免费亚洲成人| 亚洲欧洲天堂色AV| 99久久免费精品特色大片| 国产精品无码翘臀在线看纯欲| 真实国产乱子伦视频| 五月丁香在线视频| 国产美女在线免费观看| 久久综合干| 国产成人无码久久久久毛片| 欧美精品另类| 超碰免费91| 在线免费无码视频| 国产成人a毛片在线| 中文成人在线视频| 91成人试看福利体验区| 夜色爽爽影院18禁妓女影院| 免费国产小视频在线观看| 在线欧美一区| 2019国产在线| 国产黄色片在线看| a级毛片免费在线观看| 亚洲无线国产观看| 国产日本一线在线观看免费| 亚洲第一黄片大全| 亚洲色图在线观看| 免费无码AV片在线观看中文| 精品国产三级在线观看| 操国产美女| 在线色国产| 茄子视频毛片免费观看| 色有码无码视频| 久久久受www免费人成| 97se亚洲| 老汉色老汉首页a亚洲| 91无码国产视频| 成人中文字幕在线| 亚洲国产中文欧美在线人成大黄瓜 | 秘书高跟黑色丝袜国产91在线| 亚洲精品第五页| 91在线视频福利| 亚洲国产成人精品一二区| 理论片一区| 久久国产V一级毛多内射| 亚洲综合婷婷激情| 国产一级毛片高清完整视频版| 久久伊人操| 亚洲无码A视频在线| 国产香蕉在线| 婷婷色婷婷| 国产欧美另类|