999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

文本分類中支持向量機研究

2019-10-21 07:21:05何焱
河南科技 2019年29期

何焱

摘 要:隨著我國現代科技的快速發展,文本分類逐漸在信息化技術與數字化技術領域得到重視。利用計算處理系統處理文本信息,能夠有效提升文本分類的質量與效率,提升數據信息的利用率,從而促進信息化技術的普及。而支持向量機是處理文本內容,加強文本分類速度,并通過文檔建模、中文分詞、分類器評估等形式,構建出的行之有效的統計語言模型,它可以推動文本分類工作的發展。本文結合國內外研究現狀,探析文本分類內涵及支持向量機原理,提出基于支持向量機的文本分類算法。

關鍵詞:文本分類;支持向量機;統計語言模型

中圖分類號:TP391.1文獻標識碼:A文章編號:1003-5168(2019)29-0008-03

Research on Support Vector Machine in Text Categorization

HE Yan

(Zunyi Medical and Pharmaceutical College,Zunyi Guizhou 563002)

Abstract: With the rapid development of modern science and technology in China, text classification has gradually gained attention in the field of information technology and digital technology. The use of the computing processing system to process text information can effectively improve the quality and efficiency of text classification, improve the utilization of data information, and promote the popularization of information technology. The support vector machine is a statistical language model that is effective in processing text content, enhancing text classification speed, and constructing it through document modeling, Chinese word segmentation, and classifier evaluation, which can promote the development of text classification work. Based on the research status at home and abroad, this paper analyzed the text classification connotation and the principle of support vector machine, and proposed a text classification algorithm based on support vector machine.

Keywords: text classification;support vector machine;statistical language model

大數據時代,數據信息技術逐漸成為推動我國社會經濟快速發展的重要途徑,同時也是加速城市智能化、現代化發展的關鍵手段。隨著云計算、物聯網等技術的快速發展,數字信息技術得到我國社會各領域的廣泛重視。然而,如何提升現代信息的利用效率,凸顯數字信息的時代價值呢?人們需要從文本分類手段出發,整合現有的文本信息,使其成為大數據技術及云計算技術的重要組成部分。

1 國內外研究現狀

20世紀中葉,文本分類得到了迅速的發展,并利用知識工程理論實現了人為定制分類體系的建構目標。而在21世紀初,相關專家和學者開始嘗試利用機器學習的形式實現對文本的分類。這種不需要人為干預的文本分類方法得到快速的發展,并逐漸成為文本分類的主要研究內容[1-3]。2002年,美國學者提出基于權重修復的分類器,并對數據檢索展開分析研究,提出了召回率、準確率等相關概念。2005年,英國學者提出使用向量機開展文本分類工作的理論方法,而在“深度學習”理論不斷發展的過程中,神經網絡逐漸被廣泛應用到現代網絡分類體系中,并且獲得了顯著的效果。

現階段,文本分類的主要研究熱點有四。首先是多語種分類,即如何通過分類器對跨文化文本進行分類。其次是噪聲問題,即如何破解文本分類中所固有的噪聲問題,尤其是短文本問題。再次是規模性文本分類,即如何在大規模數據文本中構建有效的分類器。最后是層次化分類,即根據文本內容間的主從關系、邏輯關系、依賴關系實現分級分類。

在文本分類理論研究過程中,我國學者通過明確“深度學習”理論的內涵、深化召回率與準確率等概念,從實際應用層面闡述文本分類的現實價值。文本分類是互聯網檢索技術、大數據技術、云計算技術、數據庫技術等多種技術的基礎性技術,在實際研究過程中,能夠有效提升數據的檢索質量與傳輸質量[4-6]。以現代檢索技術為例,當前的檢索平臺以關鍵詞檢索為主,在數據文本的檢索過程中存在著明顯的局限,即60%的數據信息屬于無效文本。而在文本分類技術快速發展的過程中,檢索平臺能夠根據關鍵詞的主題內容,向用戶推送與之“存在內部邏輯關系”即依賴關系的數據信息,以此提升文本數據的利用率。

2 文本分類內涵與分類任務

2.1 文本分類的基本內涵

文本分類主要指通過計算機技術對文本集或物件,根據特定的分類標準或機制進行智能化、自動化分類標記的過程。具體屬于樸素貝葉斯分類手法。在概念界定上,文本分類是基于用戶興趣、資訊過濾的自動分類,同時也是針對關鍵詞、關鍵字的統計分類,更是以學科為基礎的專業分類手段。在應用背景層面,伴隨我國社會經濟的快速發展,電子文檔逐漸取代紙質文本成為現代文本數據的重要載體。相關數據顯示,當前的互聯網系統中依舊存在上百億級別的網頁數據,并以數千萬級的發展速度增長著。因此,面對指數增長且基數龐大的數據世界,如何組織文本數據并從中探尋出有效的數據信息是當前信息化技術發展的挑戰。為有效探尋解決方案,人們需要對數據信息進行檢索、分類,以此提升數據資源的有效利用率。

2.2 文本分類的主要任務

根據相關理論定義,文本分類是各種自然語言分析、處理、檢索任務的基礎。通常來講,文本分類與傳統的監督方法相同,需要根據已知標記的數據模塊上構建模型,并將模型進行存儲以便開展后續的文本分析工作。而針對新文本,模型將會根據文本的特征及特點給出類別。與傳統“監督”任務的不同之處在于,互聯網技術難以從原始數據中獲取信息,所以需要對文本的基本特征進行表示。其中,“特征表示”主要是指將文檔數據作為語意信息或統計信息,以此使計算機系統能夠有效識別文本單元內部的信息內容。其間往往需要利用特征向量的方式,對文本數據進行表示。通常采用的表示方式有詞向量與TF-DF兩種。在意義層面,文本分類能夠有效縮短文本資料的處理時間,可以對數據信息進行檢索,有利于文本的管理、儲存與歸類。通過文本分類,人們能夠有效認知并區分事物,進而提升接觸并了解自然物質世界的水平。

在文本分類力量研究上,我國相關專家學者主要的研究方向如下。首先是冗余過濾。如何過濾冗余信息,如何在重復性文本中篩選出性價比高的文本內容,是冗余過濾研究中的重點內容。其次是文檔組織。文檔組織具體指在文本分類的同時將具有內在邏輯的文本進行組織規劃,以此提升文本與文本間的協調性。例如,在農業文本中,小麥種植應與小麥病害防范組織在一起,而根據實際應用需求,也可將小麥種植與大豆種植進行組織。再次是信息檢索,信息檢索的本質是利用已分類的文本,提升社會各領域的生產質量及工作效率。其間需要相關人員根據文本的主題特征及關鍵詞等要素,作為檢索標記或通過語段描述特征的分析方式,對不同語段的連詞、動詞、名詞進行分析及處理,進而形成完整的文本標記庫,以此通過計算機對文本內容的識別,提升文本檢索質量。最后是信息過濾,信息過濾具體指與文本分類主體不存在主從關系、邏輯關系的其他信息,其中包括網絡推廣信息、廣告信息等。

3 支持向量機原理及算法

3.1 支持向量機的基本原理

支持向量機是美國學者Vapnik通過統計學原理提出的機器學習法。在具體的文本分類過程中,支持向量機以結構風險小的優勢,通過篩選函數子集及子集內部的判別函數,促使學習機的風險維持最小,以此確保在通過有限的樣本訓練獲得的分類器對測試文本時,誤差仍最小,進而獲得擁有推廣泛化與最優分類等能力的智能學習機。從理論層面來分析,支持向量機的主要思想是根據給定的有限訓練樣本的文本學習任務,對給定訓練內容進行無差別的學習訓練,以此獲得最優的學習性能。而支持向量機的識別原則是以構建超平面平臺作為決策主體,以此使正負間的有效空白最大化。其根本任務是建設目標函數集,并劃分出不同的函數子集,進而實現文本分類的目的。而在線性不可分與可分的不均衡背景下,支持向量機能夠將文本分類問題轉化為規劃問題,并利用線性折射的方式,將輸入的數值映射到特殊維度的空間中,以此在構造有效的超平面空間時,進行線性分類。

近年來,支持向量機應用理論以其良好的特性與扎實的理論基礎得到了廣泛的支持與關注。在最開始時,它主要是為兩種文本分類問題設計的,然而在具體應用過程中,多類分類較為普遍。文本分類則屬于多類分類范疇。所以,如何使支持向量機的性能應用到文本分類范疇中,提升向量機的決策速度與訓練質量是解決當前向量機文本分類問題的重要內容與課題。在理論應用中,支持向量機采用訓練及學習的方式,提升自身性能,其基本內涵是對現有的分類方法及組合形式進行歸納與應用,以此實現自動化、智能化分類的效果。在具體文本分類過程中,支持向量機需要根據特定的算法,構建相應的分類器,并對分類器的分類程序進行整理及運算,從而形成子分類器。在標記樣本的正類或負類的過程中,最終完成對文本類型的分類。

3.2 支持向量機的主要算法

3.2.1 組合法。支持向量機組合法中最早形成的文本分類算法是1-A-R算法,也稱“一對多法”。在實際的文本分類過程中,人們需要應用到不同類型的分類器。其間往往構建兩類分類器,每個分類器又需要將其中的內容進行二級分類,即在不同類別的分類器體系下,構建大量分類模塊,從而輸入有效的X歸屬集。通常來講,一對多法主要是對k類文本問題建造k個支持向量機子分類系統,并在建立第n個子分類系統時,需要將從屬第n類的文本樣本標記為正向類。而不屬于n類的文本樣本則需要標記為負向類。

在具體的數據測試過程中,人們需要分別核算不同子分類體系的函數值,進而選取數值比較大的類別作為核算文本的基本類別。在現代文本分類過程中,一對多分類法簡單易行,得到廣泛的推廣與應用。但是,一對多分類法存在諸多的缺陷,譬如泛化能力差,尤其在訓練樣本和訓練時間成正相關時,訓練難度較大,繼而造成向量機訓練不均衡等問題。在對規模較小的樣本類別進行識別時,識別進度較低。而組合法中的一對一分類法,雖然與一對多分類法相似,也是采取兩類分類器進行運算,然而在構建過程中,則采取類別q與類別o的數據樣本作為數據訓練基礎,能夠有效解決一對多算法的弊端。

3.2.2 決策樹法。決策樹通常是支持向量機的重要文本分類法,并通過相互融合的形式,形成類別多樣的識別器。根據相關理論分析,人們能夠發現,支持向量機決策樹擁有較為分明的層次結構,不同層次的子分類器的重要性與級別各不相同,并且訓練結合的內容與構成也存在較大的差異。人們需要根據不同層次間的邏輯結構進行文本分類測試,并輸入不同的樣本,子分類器的規模與數目必須介于決策樹的縱向深度與數值1之間。因此,在具體測試過程中,樣本測試速度比較快。由于決策樹分支與節點的劃分缺乏充足的理論依據,所以操作人員需要擁有充足的知識。

在具體應用過程中,向量機決策樹能夠同時處理規模龐大的文本類別與樣本,保障每一個文本分類問題都能夠得到有效解決。在測試及分類過程中,決策樹對分類器的需求較少,能夠保障最優的性能。從實效性角度來分析,決策樹分類法的基本優勢是訓練樣本與向量機分類器的數量較少,能夠在節約成本的同時提升后續工作的分類水平。在文本分類過程中,操作人員不需要估計所有分類器,因此,在文本分類的應用過程中,決策樹分類法具有顯著的分類速度與訓練速度。

4 結語

我國現代數據化技術與信息化技術的快速發展對文本分類提出了全新的要求,尤其是大數據時代,文本分類不僅要具有準確性、保真性、時效性,更要深入到不同語種、不同學科專業的文本分類過程中,進而在支持向量機的幫助下,推動我國數字信息化技術的快速發展。

參考文獻:

[1]周慶平,譚長庚,王宏君,等.基于聚類改進的KNN文本分類算法[J].計算機應用研究,2016(11):3374-3377.

[2]羅玉華,左軍,李巖.SVM及其在文本分類中的應用[J].科技信息,2010(3):441-442.

[3]丁勇,秦曉明,何寒暉.支持向量機的參數優化及其文本分類中的應用[J].計算機仿真,2010(11):187-190.

[4]張小艷,李強.基于SVM的分類方法綜述[J].科技信息,2008(28):344-345.

[5]祝曉魯,白振興,賈海燕.自動文本分類技術研究[J].現代電子技術,2007(3):121-124.

[6]王義忠,劉循,吳迪.一種改進的SVM文本分類算法[J].現代計算機,2014(26):16-20.

主站蜘蛛池模板: 亚洲成a人片| 一级成人a做片免费| 国产精品yjizz视频网一二区| 国产JIZzJIzz视频全部免费| 色爽网免费视频| 亚洲天堂777| 91香蕉国产亚洲一二三区| 日韩最新中文字幕| 波多野结衣在线se| 亚洲美女一级毛片| 国产精品久久精品| 国产精品第5页| 亚洲精品日产AⅤ| 国产精品妖精视频| 91久久精品日日躁夜夜躁欧美| 亚洲欧美国产视频| 精品无码国产一区二区三区AV| 日韩久久精品无码aV| 99精品视频九九精品| 久久亚洲国产一区二区| 日韩不卡高清视频| 99re热精品视频国产免费| 久久综合干| 91美女视频在线| 巨熟乳波霸若妻中文观看免费 | www.99在线观看| 动漫精品中文字幕无码| 天天做天天爱夜夜爽毛片毛片| 国产白浆一区二区三区视频在线| 欧美高清视频一区二区三区| 日韩黄色精品| 在线观看av永久| www.亚洲国产| 国产精品成人久久| 国产欧美在线观看一区| 99在线视频精品| 午夜毛片免费观看视频 | 精品综合久久久久久97| 亚洲精品无码日韩国产不卡| 精品五夜婷香蕉国产线看观看| 日韩在线第三页| a毛片在线免费观看| 最新无码专区超级碰碰碰| 国产国产人成免费视频77777| 91精品免费久久久| 久久亚洲日本不卡一区二区| 国产日韩欧美一区二区三区在线| 高潮毛片免费观看| 欧美精品黑人粗大| 国产最爽的乱婬视频国语对白| 免费啪啪网址| 四虎影视库国产精品一区| 亚洲成a人片| 国产1区2区在线观看| 亚洲中久无码永久在线观看软件| 91麻豆精品视频| 69av免费视频| 为你提供最新久久精品久久综合| 久久动漫精品| 亚洲AV无码乱码在线观看裸奔 | 狠狠色香婷婷久久亚洲精品| 在线观看亚洲成人| 91在线激情在线观看| 国产午夜福利在线小视频| 国产在线98福利播放视频免费| 欧美成人h精品网站| 波多野结衣中文字幕一区| 精品国产免费观看一区| 18禁黄无遮挡免费动漫网站| 国内熟女少妇一线天| 国产va在线观看免费| 日韩国产综合精选| 精品久久777| 99re在线免费视频| 成人综合久久综合| 亚洲成人福利网站| 综合色天天| www.99精品视频在线播放| 国外欧美一区另类中文字幕| 一区二区三区成人| 亚洲天堂在线免费| 久99久热只有精品国产15|