張健
(成都文理學院,四川成都,610401)
為保證大數據文本自動分類處理系統能夠安全穩定的運行,可選擇Hadoop 分布式計算平臺,該平臺是云計算背景下,誕生的先進的系統運行平臺。Hadoop 分布式計算平臺可為文本自動分類處理系統設計提供一個分布式系統集成框架,用戶可以在不了解分布式底層細節的情況下,發布分布式程序,利用集群的高速運算和存儲。而且該平臺中的分布式文件系統由一個管理結點和N 個數據結點共同組成,在每個結點上可布置一臺計算機。存儲在HDFS 中的文件可被細分為多個小塊,滿足用戶創建文件的需求,而且HDFS 內部的通信都是基于標準的TCP/IP 協議,可為文本自動分類處理系統設計提供良好條件。
先進性和可用性。在文本自動分類處理系統設計中,要尋找現已成熟的B/S 架構、C/S 架構、JAVA 語言,同時學習和借鑒目前比較成功的案例,以保證系統具有良好的可用性。
標準性和共享性。在設計中需要嚴格遵循開發標準流程,為提升跨平臺使用,需要按照標準接口設計跨平臺可互聯的接口, 既要支持都中平臺使用,也要設置多種網絡傳輸協議,提升數據信息的共享效率。
開放性和可擴展。云計算自身就具有很強的開放性,任何都可以使用,這就需要文本自動分類處理系統在設計中要充分考慮未來企業業務發展需求,保證系統具有良好的開放性和擴展性。
為保證大數據文本自動分類處理系統具有良好可用性、便捷性,需要在統一的架構和標準接口上進行設計,共分為三個層級,包括:系統表示層、業務邏輯層、系統數據層,具體的體系結構示意圖如圖1 所示。
圖1 中,最上層為系統表示層,主要作用是實現大數據文本自動分類處理系統和操作人員之間的數據交互和數據顯示,可直接提供系統運維、管理、數據查詢、數據顯示等功能,在設計中可選擇通過GUI、Web 瀏覽器、標準的外部系統接口來實現這一作用。

圖1 大數據文本自動分類處理系統結構示意圖
中間層為業務邏輯層,是實現業務處理的關鍵環節,涉及到的內容包括:數據采集、數據預處理、公文管理、信息公告等多方面的管理【1】。
最下層為系統數據層,包括公文信息、用戶基礎信息、管理人員信息等,是數據存儲中心,用于實現大數據文本自動分類處理系統基礎信息的存儲、數據查詢、數據處理操作等。
數據模擬層是大數據文本自動分類處理系統的核心組成結構,其主要作用為文本自動分類系統在運行中,提供自動化分類所需的各種測試文本數據、訓練文本數據,由數據獲取、數據解析、數據重構等組成,用于模擬大規模的非結構文本數據,保證系統運行的穩定性。
在數據獲取環節設計中,要保證系統能夠自行獲得數據,可通過網絡爬蟲Heritrix 來實現網絡數據爬取。比如:在網易新聞網站就是通過此種設計方式來爬取網絡上的體育、教育、娛樂、科技、財經等文明信息,爬取到的數據信息,可作為大數據文本自動分類處理系統訓練文本集源數據。但通過網絡爬蟲Heritrix 獲取到的信息內容比較多,而且比較廣泛,為保證數據具有針對性,比如:避免在體育文本信息中混入科技信息、財經信息等,還要設定相應的過濾器,只爬取分類好的數據信息,為滿足爬取數據量的需求,還要合理設定爬取深度【2】。
文本信息解析和重構的主要作用對爬取下來的文本進行全面解析,以快速獲得關鍵文本信息進行重構,以形成不同種類和不同樣式的非結構化文本。因此,在文本信息解析和重構環節的設計中,可采用HtmIParser 工具,此工具是一種僅由JAVA 語言編寫的HtmI 解析數據庫,無需其他JAVA 庫文件也可以獨立運行,多應用在改造和提取HtmI,具有非常快速的解析速度。在大數據文本自動分類處理系統設計中,可利用該工具來快速提取網頁關鍵標簽標記的內容,并快速生成后綴名為.doc、.xls、.xml 或者是.pdf 的文檔,滿足大數據文本自動分類處理系統對非結構化文檔多樣化的需求。
此層的主要作用是對數據模擬層得到的數據進行特征提取,通過文本特征詞來構建語言向量模型中文本特征向量,是大數據文本自動分類處理系統的主要環節。保證此功能能夠順利實現,在設計中可采用中文分詞器IKAnalyzer 來對需要處理的文本進行中文分詞,中文分詞器IKAnalyzer 可看作是一個開源的獨立使用的庫,在使用中通過調用相關分詞接口就能實現分詞處理,分詞詞庫和停詞表,可采用中文分詞器IKAnalyzer 中自帶的常用詞庫進行最大分詞處理,這就要求在使用中能夠引入相關的包,并保證其能夠準確快速的導入配置文件中,從而實現對使用詞庫和停詞表的有效配置【3】。在具體設計中可將中文分詞器IKAnalyzer 部署到項目的lib 目錄中,對數據庫中的文件進行有效配置,包括:擴展詞庫中的停詞表、分詞中的停詞表都能到有效配置。
在大數據文本自動分類處理系統中,文本分類層的主要作用文本分類進行具體操作,為提升自動分類的效果,可采用K 最鄰近分類算法,對特征層提取層進行處理,并輸出分類結果。文本數據自動化分類流程如下:
第一步,分詞。將連續的字序列,按照特定的規范和要求,重新組合成新的詞序列,分詞面對的對象多為中文文本,外文文本通常不需要此步驟。
第二步,對文本進行向量化處理。為促使分詞之后的文本能夠被轉化為計算機能識別并且自動處理的形式,在文本自動分類之前,就需要將文本中的詞進行量化處理,形成文本的特征向量,在具體設計中可通過VSM 來實現這一效果。
第三步,進行特征選擇。在大數據文本自動分類處理系統中,文本中詞的特征,會都在文本向量特征空間的高維性和稀疏性,這就需要采取一種行之有效的特征選擇方法,來降低特征空間的維數,以提升文本自動分類的效率和精度【4】。
在信息化時代,如何有效評價文本分類的好壞,直接關系到文本自動分類的效果,在具體設計中,必須綜合考慮此問題,保證通過分類結構的評價,能夠從側面反映出分類算法的好壞,以及大數據文本自動分類處理系統運行的效果和整體性能,常用的文本分類評價方法有:召回率、查準率、F-Measure 等,但相比而言,召回率和查準率比較簡單且有效,在本系統設計中,就采用召回率和查準率來評價文本分類的好壞。召回率指的是評價樣本和屬于該類有樣本的樣本的總數之比,而準確率則指的是屬于該類樣本所占的比例。
為保證大數據文本自動分類處理系統能夠穩定運行,在平臺設計中可從硬件、軟件、開發環境三個方面入手,來保證系統運行的整體效果。在硬件平臺設計中可5 臺個人計算機,配置上主頻為2.0GHz 的CPU,2G 內存。軟件平臺設計時可通過部署Hadoop 將5 臺計算機連接成一個整體,形成分布式集群,大數據文本自動分類處理系統在Hadoop 上運行,通過5 臺計算機,就能實現分布式處理,提升文本自動分類處理效果【5】。系統開發環境設計中,可選擇eclipse 開發平臺,而項目管理工具則可以采用maven,二者相互作用,就能實現各項目開發。
綜上所述,本文采用理論結合實踐的方法,分析了云計算背景下大數據自動分類處理系統設計,分析結果表明,云計算為大數據自動分類處理系統的建設提供了新的技術支持,借助云技術,設計有針對性、有效的系統,可大幅度提升數據自動分類處理效率,提升海量數據處理速度,保證各項數據、各項信息都能得到有效利用,發揮出信息數據的價值,促使各行各業穩健發展。