999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于文本聚類的檔案數據全自動分類方法研究

2021-08-18 08:33:48于紅
電子測試 2021年14期
關鍵詞:分類文本

于紅

(吉林省琿春市敬信鎮衛生院,吉林延邊,133300)

0 引言

隨著網絡化、信息化的發展,檔案因關聯內容多樣、涉及范圍廣,數據量和規模面臨著規模化的遞增發展趨勢,并以文本形式存儲于計算機上,而此時,以往的人工分類、歸檔已經無法適從,亟待進行分類方法的變革。而文本聚類作為一種文本處理方法,其目的是將存在某種語義或主題關聯的數據集依照某種結構予以分類,劃歸為不同的聚類,而K-means算法作為應用最廣泛的文本聚類方法,具有運算簡便、收斂速率快等優點,但也存在易于陷入局部最優解的缺點,而以往多將PSO 與之融合,但并未解決問題。而GWO 算法作為一種新型的群智能算法,與PSO 相比搜索能力更強、收斂速度更快,可滿足海量檔案數據快速分類的需求,為此,本文結合該算法的優勢,著眼于檔案數據分類的準確性、效率性,借鑒以往研究來對GWO 算法進行優化,以化解PSO、K-means 算法早熟收斂、局部最優解問題,以此提升檔案數據分類的準確性,而后,引入FastText 深度學習模型,通過分類訓練實現檔案數據的全自動分類,實現檔案數據分類的高效性。

1 文本聚類的算法改進

1.1 GWO 算法改進

PSO 是文本聚類最常用的方法,但檔案數據的海量性使其搜索空間維數過稿,且特征稀疏下種群差異縮小,易于陷入局部最優解,且經過多方研究未找到有效解決方法,影響了分類的準確性。而灰狼優化算法(Grey Wolf Optimizer,GWO)是基于灰狼捕食獵物活動而設計的一種新型群智能優化算法,其因搜索能力、收斂性能較強,且參數運算少、易于實現而被推廣應用[1],但是,在迭代逐漸增加時,因種群多樣性減弱,個體差異縮減,易產生早收斂問題,后期易于陷入局部最優解,影響文本聚類的準確性。為解決上述問題,優化檔案數據分類的可靠性,本文對該算法進行如下改進。

改進1:免疫克隆操作,為實現種群中個體的優選,將對精英個體進行克隆與變異操作以構建新種群,而后,從新種群中選出適應度更優的個體進行迭代,直至免疫克隆選擇達到最大迭代次數[2],具體的操作步驟如下:

依據適應度函數從灰狼種群中優選出m 個個體組成精英種群;而后,對該種群中全部個體進行克隆,組建Nc大小的臨時種群T,如此即可保證精英種群中各個個體均匹配一定數量的克隆體[3]:

而后,通過下式對種群中所有個體的高頻變異,來獲取精英個體附近最優的候選解:

改進2:以改進DE 算法更新個體,因DE 算法利用種群中隨機選取的個體構造差分量,而后,以最優個體作為目標向量進行交叉融合生成后代,以依據適應度值進行個體更新生成新種群,但是,因為種群個體的聚類中心排序完全隨機,而在個體間進行自我尋優和全局尋優交叉操作時,不同簇類上差異較大的聚類中心會在出現在同一維度上,如此,個體將無法獲得有效的搜索經驗,彼此間的學習效果也將受到影響,甚至會偏離全局最優解的搜索方向,陷入局部最優解。故而,本文將針對個體間學習與更新中,種群個體的聚類中心向量排序隨機對其的負面影響,設計一種自適應調整排序方法,也即基于個體間相似度排序,盡量將相似度最高的聚類中心排列在同一維度,以個體ix、x j為例,該方法構建過程如下。

2 檔案數據的快速分類方法

結合上述方法,在優化文本聚類準確性基礎上,為實現檔案數據的快速分類,本文引入FastText 深度學習模型,其旨在協助創建文本表達和分類的可伸縮解決方案的資料庫,主要由輸入層Inputlayer、隱藏層hidder layer、輸出層out layer 等構成,整體結構如圖1 所示。

圖1 FastText 深度學習模型的結構

結合上圖,輸入層是添加文本n-gram 特征的詞語詞向量,可準確表征存在矢量特征的詞語語義,以確保語義表達的準確性;而隱藏層則用于各個詞向量均值的求解,并使用優化器和梯度下降算法完成權重參數的更新,而后,進一步計算出損失函數及與對應的分類,通過輸出層輸出分類概率,完成檔案數據的快速分類。與其他分類方法不同的是,FastText 利用分層分類器將檔案數據的不同分類整合為樹形結構,且為優化分類效率,其引入Softmax 分層技術,利用Huffman 編碼進行文本數據標簽的編碼,以提升分類模型訓練的效率,具體,FastText 分類模型訓練的步驟如下:

首先,對檔案的文本數據A 進行分詞、去停用詞的預處理,并增添標簽于每行結尾,初始化詞語向量;同時,設置選取損失函數LOSS、分類訓練的學習率為lr,并選定文本輸出對應的類別;而后,利用梯度下降算法完成各個詞語向量權重的計算,并據此,在分類訓練過程中實時更新詞向量數據、標簽數據的權值,進行分類模型的訓練,以實現檔案數據全自動分類。

3 結束語

檔案數據的海量性、高速更新性,使得其歸類管理面臨諸多難題,而且,多領域、不同描述的多模態數據,更是增加了其聚類分析的維度和運算量,且PSO 固有的局部最優問題也無法得到根本解決。為此,上述研究借鑒免疫克隆與DE 算法個體更新的優勢性,通過對GWO 算法進行改進,來實現可靠的文本聚類;同時,利用FastText 深度學習模型來進行權自動分類設計,由此從準確性、效率上雙重驅動檔案數據分類優化發展。

猜你喜歡
分類文本
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
主站蜘蛛池模板: 欧美精品高清| 亚洲av无码牛牛影视在线二区| 国产国语一级毛片在线视频| 毛片在线播放a| www成人国产在线观看网站| 午夜啪啪福利| 亚洲一级毛片在线观播放| 国产成人夜色91| 99精品视频在线观看免费播放| 91国内外精品自在线播放| 亚洲欧洲日韩久久狠狠爱| 精品一区国产精品| 成人精品区| 欧美全免费aaaaaa特黄在线| 97在线公开视频| 欧美区一区二区三| 91久久偷偷做嫩草影院| 欧美亚洲欧美| 韩日免费小视频| 亚洲VA中文字幕| 国产精品偷伦在线观看| 成人国产精品网站在线看| 小说 亚洲 无码 精品| 老司国产精品视频91| 欧美三级不卡在线观看视频| 欧美国产在线看| 国产区在线观看视频| 日韩精品高清自在线| 亚洲中文在线看视频一区| 亚洲人成网站日本片| 亚洲男人在线| 免费观看国产小粉嫩喷水| 国产一区二区三区精品久久呦| 国产91精选在线观看| 又粗又硬又大又爽免费视频播放| 福利一区在线| 国产特级毛片| 日韩AV手机在线观看蜜芽| 亚洲丝袜第一页| 在线观看国产黄色| 国产日韩欧美中文| 中文精品久久久久国产网址| 72种姿势欧美久久久大黄蕉| 五月婷婷综合网| 欧美成人看片一区二区三区| 久久伊人操| 尤物精品国产福利网站| 韩日无码在线不卡| 亚洲男人的天堂视频| 亚洲日韩AV无码一区二区三区人| 亚洲精品第一在线观看视频| 久久精品国产91久久综合麻豆自制| 国产浮力第一页永久地址 | 国产欧美精品午夜在线播放| 萌白酱国产一区二区| 中文字幕调教一区二区视频| 午夜不卡视频| 久久香蕉国产线看精品| 91区国产福利在线观看午夜| 午夜毛片免费观看视频 | 日本一区二区不卡视频| 秋霞午夜国产精品成人片| 欧美日韩午夜视频在线观看| 色婷婷天天综合在线| 香蕉网久久| 日韩精品一区二区三区大桥未久 | 日韩视频福利| 一区二区三区在线不卡免费| 一区二区在线视频免费观看| 国产大片喷水在线在线视频| 露脸一二三区国语对白| 人妻无码中文字幕一区二区三区| 老司机久久99久久精品播放| 91在线无码精品秘九色APP| 欧美国产成人在线| 日韩经典精品无码一区二区| 亚洲国产精品久久久久秋霞影院| 日韩第九页| 最新午夜男女福利片视频| 亚洲国产清纯| 国产成本人片免费a∨短片| 亚洲第一区欧美国产综合|