999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

分類算法在科研管理系統數據挖掘中的應用

2016-12-01 08:18:14李景民
黑龍江科學 2016年19期
關鍵詞:分類方法

李景民

(吉林工商學院,長春130000)

分類算法在科研管理系統數據挖掘中的應用

李景民

(吉林工商學院,長春130000)

分析了科研管理系統自動分類的現狀,指明了網頁自動分類當前主要采用的是文本自動分類的方法;確定了在分類時的重點和難點問題;提出了一種新型的分類算法,根據實際應用情況將KNN算法和Rocchio算法有機結合,應用了一種Rocchio-KNN分類算法,經實際應用證明,該方法不僅保證了一定的分類準確率,而且還可以提高分類效率。

分類算法;科研管理;數據挖掘;文本分類

在高校的科研管理系統中,隨著數據挖掘技術的發展,網上需要管理的數量龐大,需要對這些數據進行分類,但是傳統管理方法采用人工的方法進行分類,無法完成對龐大數據的大范圍覆蓋,因此自動分類技術已經成為組織和管理在線文本數據的關鍵技術。

從近期的研究結果分析,即使自動分類的準確率不十分高,自動分類的研究對基于內容的信息檢索、Web數據挖掘等應用仍然具有較為深遠的意義。

1 自動分類技術的應用概況和主要存在的問題

研究者從不同角度已經提出了很多行之有效的文本分類方法,這些方法大多是基于機器學習方法的,根據其分類原理的不同,分為線性分類器、統計學習分類器、基于實例的分類器、決策樹方法、支持向量機方法等。

線性分類器學習算法的主要目的是建立類的特征向量。基于實例的學習方法也被叫作被動學習方法,此方法的全部處理工作需要延時到分類時才能進行[1],這種方法的缺點是因為缺少必要的訓練,計算的開銷相對比較大,分類的速度相對比較低。其優點是針對每個新的實例可以進行局部的和差異的估算,特別是當目標函數較為復雜的時候,此種處理具備顯著的優勢。

2 新分類器的基本設計思路和實現步驟

筆者研究的分類系統主要是科研管理系統中面向大規模的網頁集,要求的實時性比較高,因此在確保一定分類準確率的基礎上,分類速度的提升才是我們的側重點。常用的基于向量空間模型,KNN方法雖然是較好的方法之一,但是這種方法復雜性過高,特別是當樣本規模比較大的情況下,其分類速度是較慢的。Rocchio方法雖然是在向量空間模型的架構下最簡單且有效的一種方法,但是它的分類精度不是很高。本文融合了Rocchio及KNN方法的優勢設計了一種Rocchio與KNN相結合的分類器,簡稱Rocchio-KNN分類器。

2.1分類器的分析與設計

分類器的主要功能是訓練學習和自動分類,而KNN的方法沒有訓練學習的過程,因而在訓練學習的階段考慮用Rocchio的方法。Rocchio方法的主要問題是建立合適的類別中心向量。初始項權重、正例平均權重、反例平均權重三部分構成了類別中心向量的項權重[2]。因為我們采用類別獨立的特征選擇方案,網頁的表示也是類別獨立的,所以可以忽略反例平均權重的影響。如何降低KNN的時間復雜性,是在自動分類階段應解決的主要問題。實際可從減少向量比較時的冗余計算和縮小測試樣本的比較范圍兩個層面考慮[3]。減少向量比較時有大量權值為0的項,它們對比較沒有幫助,因此可以不參與運算。

另外一個重點問題是縮小測試樣本的比較范圍,采用只與限定類別的訓練樣本進行比較的方式是一種常用的方法。關鍵在于需要獲得能夠比較的類別,處理方法是引入一個調解因子,類別基準值減去調解因子即成為該類別的閥值[4]。確定K值的辦法是先設定初始值,然后采用實驗的方法進行調整。

2.2分類器的具體實現

根據上述的設計思路,實現Rocchio-KNN分類器的步驟大致分為以下幾步:第一,分析計算不同類別的對應的特征向量,由計算結果推得各類別的相似度閥值。第二,用向量形式表示測試網頁的不同類別,根據余弦距離公式計算其相似度。第三,把大于相似度閥值的樣本組成新的比較集合。第四,集合初始值是空集,的每一項對應測試網頁與相應訓練網頁的距離。第五,簡化測試樣本向量,保留非0的項的權值和位置號,計算被測樣本與中樣本的距離,把計算結果和標識放在中。第六,按升序將中的項目進行排序,計算前K項,確定測試網頁的類別。

2.3實驗數據和效果分析

我們分別利用KNN方法、Rocchio方法和Rocchio-KNN方法進行分類,在此過程中特征詞的抽取使用基于多步過濾漢字結合模式的無詞典特征抽取方法,特征選擇使用基于改進的MI函數的特征選擇方法。因為至今沒有中文訓練及測試語料的標準,所以筆者從某網站收集了由領域專家分類網頁語料1 180個作為訓練語料,得到類別分布表如下:

筆者使用的是開放的測試方法,在不同時段的從某網站上收集與訓練網頁,總數為899個。測試語料庫的類別分布如下:

表1 類別分布表Tab.1 Category distribution table

表2 測試語料庫的類別分布表Tab.2 Test the category distribution table

在網頁分類的過程中,兩個主要的指標是分類準確率和分類速度。評定分類準確率,主要考慮召回率和準確率兩個方面。筆者使用可平衡測量召回率和準確率的F1測量法計算。

測試分類速度過程中,采用KNN方法時事先假設的K=500,采用Rocchio-KNN方法時假設類別相似度調解因子值等于0.1,經測試得到準確率和分類時間的實驗結果如下表所示:

表3 分類準確率實驗結果Tab.3Classification accuracy rate of experimental results table

表4 分類時間實驗結果Tab.4Sorted time results table

通過數據分析發現,使用Rocchio-KNN算法分類準確率較好,分類時間較短。在處理大量的訓練樣本、分類樣本和類別數目的情況下,這種方法更加適合。

3 總結

本文提出了一種新的自動分類器,經實驗證明,在滿足準確率的條件下,進一步提高了分類效率,能夠適應大規模樣本集實時自動分類的工作。

[1]王昊,鄧三鴻,蘇新寧.中文短文本自動分類中的漢字特征優化研究[J].情報理論與實踐,2015,(06):121-122.

[2]鄭津,景彥昊.中文網頁自動分類構架設計[J].福建電腦,2014,(04):153-154.

[3]李瑞.海量文本信息的Web采集與自動分類研究[D].北京:北京郵電大學,2014.

[4]繆建明,賈廣威,張運良.基于摘要文本的專利快速自動分類方法[J].情報理論與實踐,2016,(08):103-105.

Application of classification algorithm in scientific research management system data mining

LI Jing-min
(Jilin Business and Technology College,Changchun 130000,China)

This paper analyzes the status of research management system automatic classification,indicates the current web page automatic classification method is mainly used in automatic text classification;determines the focus and difficulty in classification;proposes a new classification algorithm,and a Rocchio-KNN classification algorithm was applied whichcan not only guarantee the certain classification accuracy,but also improve the classification efficiency.

Classification algorithms;Research management;Data mining;Text classification

TP311.13

A

1674-8646(2016)19-0058-02

2016-09-12

李景民(1974-),男,副教授,碩士。

猜你喜歡
分類方法
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
學習方法
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
給塑料分分類吧
主站蜘蛛池模板: 久久午夜夜伦鲁鲁片不卡| 亚洲精品天堂自在久久77| 精品无码国产自产野外拍在线| 欧美高清国产| 久久亚洲日本不卡一区二区| 免费看久久精品99| 欧美在线观看不卡| 国产视频一区二区在线观看 | 国产91小视频| 国产精品网曝门免费视频| 日韩高清无码免费| 国产精品不卡永久免费| 中文字幕无码中文字幕有码在线| 成年A级毛片| 囯产av无码片毛片一级| 成人另类稀缺在线观看| 超碰色了色| 无码一区二区三区视频在线播放| 熟女成人国产精品视频| 色香蕉网站| 全部无卡免费的毛片在线看| 一本一道波多野结衣一区二区| 在线色综合| 亚洲国产一成久久精品国产成人综合| 国产va在线| 欧美亚洲欧美| 国产精品亚洲一区二区三区z | 国产区在线观看视频| 亚洲午夜国产片在线观看| 一本色道久久88综合日韩精品| 香蕉eeww99国产在线观看| 欧美日韩激情| 亚洲专区一区二区在线观看| 欧美曰批视频免费播放免费| 999精品在线视频| 91外围女在线观看| 国产一区二区三区夜色| 制服丝袜一区| 凹凸精品免费精品视频| 欧美69视频在线| 无码有码中文字幕| 青青青视频蜜桃一区二区| 日韩毛片免费| 亚洲a级毛片| 亚洲日韩欧美在线观看| 亚洲大学生视频在线播放| 亚洲AV无码久久天堂| 五月天丁香婷婷综合久久| 日韩欧美高清视频| 国产一区成人| 人妻丝袜无码视频| 精品三级网站| 99精品视频在线观看免费播放| 国产资源站| 999福利激情视频| 青青国产视频| 国产一区二区免费播放| 欧美精品综合视频一区二区| 欧美怡红院视频一区二区三区| 99久久国产自偷自偷免费一区| 国产午夜无码片在线观看网站 | 亚洲一级毛片在线观| 精品一区二区三区水蜜桃| 中国精品自拍| 2020久久国产综合精品swag| 亚洲五月激情网| 亚欧成人无码AV在线播放| 欧美成人精品高清在线下载| 欧美视频在线播放观看免费福利资源| 亚洲福利视频一区二区| 中文国产成人精品久久一| 国产精品太粉嫩高中在线观看| 亚洲欧美自拍中文| 日韩高清一区 | 日本91视频| 欧美成人aⅴ| 老司机精品久久| 国模粉嫩小泬视频在线观看| 久久semm亚洲国产| 伊人天堂网| 97在线视频免费观看| 99热这里只有精品在线播放|