999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

云計算背景下大數據自動分類處理系統設計

2021-09-18 02:57:38張健
電子測試 2021年16期
關鍵詞:分類文本信息

張健

(成都文理學院,四川成都,610401)

1 大數據文本自動分類處理系統的運行平臺和設計原則

1.1 運行平臺

為保證大數據文本自動分類處理系統能夠安全穩定的運行,可選擇Hadoop 分布式計算平臺,該平臺是云計算背景下,誕生的先進的系統運行平臺。Hadoop 分布式計算平臺可為文本自動分類處理系統設計提供一個分布式系統集成框架,用戶可以在不了解分布式底層細節的情況下,發布分布式程序,利用集群的高速運算和存儲。而且該平臺中的分布式文件系統由一個管理結點和N 個數據結點共同組成,在每個結點上可布置一臺計算機。存儲在HDFS 中的文件可被細分為多個小塊,滿足用戶創建文件的需求,而且HDFS 內部的通信都是基于標準的TCP/IP 協議,可為文本自動分類處理系統設計提供良好條件。

1.2 設計原則

先進性和可用性。在文本自動分類處理系統設計中,要尋找現已成熟的B/S 架構、C/S 架構、JAVA 語言,同時學習和借鑒目前比較成功的案例,以保證系統具有良好的可用性。

標準性和共享性。在設計中需要嚴格遵循開發標準流程,為提升跨平臺使用,需要按照標準接口設計跨平臺可互聯的接口, 既要支持都中平臺使用,也要設置多種網絡傳輸協議,提升數據信息的共享效率。

開放性和可擴展。云計算自身就具有很強的開放性,任何都可以使用,這就需要文本自動分類處理系統在設計中要充分考慮未來企業業務發展需求,保證系統具有良好的開放性和擴展性。

2 云計算背景下大數據自動分類處理系統設計要點

2.1 體系結構設計

為保證大數據文本自動分類處理系統具有良好可用性、便捷性,需要在統一的架構和標準接口上進行設計,共分為三個層級,包括:系統表示層、業務邏輯層、系統數據層,具體的體系結構示意圖如圖1 所示。

圖1 中,最上層為系統表示層,主要作用是實現大數據文本自動分類處理系統和操作人員之間的數據交互和數據顯示,可直接提供系統運維、管理、數據查詢、數據顯示等功能,在設計中可選擇通過GUI、Web 瀏覽器、標準的外部系統接口來實現這一作用。

圖1 大數據文本自動分類處理系統結構示意圖

中間層為業務邏輯層,是實現業務處理的關鍵環節,涉及到的內容包括:數據采集、數據預處理、公文管理、信息公告等多方面的管理【1】。

最下層為系統數據層,包括公文信息、用戶基礎信息、管理人員信息等,是數據存儲中心,用于實現大數據文本自動分類處理系統基礎信息的存儲、數據查詢、數據處理操作等。

2.2 數據模擬層設計

數據模擬層是大數據文本自動分類處理系統的核心組成結構,其主要作用為文本自動分類系統在運行中,提供自動化分類所需的各種測試文本數據、訓練文本數據,由數據獲取、數據解析、數據重構等組成,用于模擬大規模的非結構文本數據,保證系統運行的穩定性。

在數據獲取環節設計中,要保證系統能夠自行獲得數據,可通過網絡爬蟲Heritrix 來實現網絡數據爬取。比如:在網易新聞網站就是通過此種設計方式來爬取網絡上的體育、教育、娛樂、科技、財經等文明信息,爬取到的數據信息,可作為大數據文本自動分類處理系統訓練文本集源數據。但通過網絡爬蟲Heritrix 獲取到的信息內容比較多,而且比較廣泛,為保證數據具有針對性,比如:避免在體育文本信息中混入科技信息、財經信息等,還要設定相應的過濾器,只爬取分類好的數據信息,為滿足爬取數據量的需求,還要合理設定爬取深度【2】。

文本信息解析和重構的主要作用對爬取下來的文本進行全面解析,以快速獲得關鍵文本信息進行重構,以形成不同種類和不同樣式的非結構化文本。因此,在文本信息解析和重構環節的設計中,可采用HtmIParser 工具,此工具是一種僅由JAVA 語言編寫的HtmI 解析數據庫,無需其他JAVA 庫文件也可以獨立運行,多應用在改造和提取HtmI,具有非常快速的解析速度。在大數據文本自動分類處理系統設計中,可利用該工具來快速提取網頁關鍵標簽標記的內容,并快速生成后綴名為.doc、.xls、.xml 或者是.pdf 的文檔,滿足大數據文本自動分類處理系統對非結構化文檔多樣化的需求。

2.3 文本特征提取層設計

此層的主要作用是對數據模擬層得到的數據進行特征提取,通過文本特征詞來構建語言向量模型中文本特征向量,是大數據文本自動分類處理系統的主要環節。保證此功能能夠順利實現,在設計中可采用中文分詞器IKAnalyzer 來對需要處理的文本進行中文分詞,中文分詞器IKAnalyzer 可看作是一個開源的獨立使用的庫,在使用中通過調用相關分詞接口就能實現分詞處理,分詞詞庫和停詞表,可采用中文分詞器IKAnalyzer 中自帶的常用詞庫進行最大分詞處理,這就要求在使用中能夠引入相關的包,并保證其能夠準確快速的導入配置文件中,從而實現對使用詞庫和停詞表的有效配置【3】。在具體設計中可將中文分詞器IKAnalyzer 部署到項目的lib 目錄中,對數據庫中的文件進行有效配置,包括:擴展詞庫中的停詞表、分詞中的停詞表都能到有效配置。

2.4 文本分類層設計

在大數據文本自動分類處理系統中,文本分類層的主要作用文本分類進行具體操作,為提升自動分類的效果,可采用K 最鄰近分類算法,對特征層提取層進行處理,并輸出分類結果。文本數據自動化分類流程如下:

第一步,分詞。將連續的字序列,按照特定的規范和要求,重新組合成新的詞序列,分詞面對的對象多為中文文本,外文文本通常不需要此步驟。

第二步,對文本進行向量化處理。為促使分詞之后的文本能夠被轉化為計算機能識別并且自動處理的形式,在文本自動分類之前,就需要將文本中的詞進行量化處理,形成文本的特征向量,在具體設計中可通過VSM 來實現這一效果。

第三步,進行特征選擇。在大數據文本自動分類處理系統中,文本中詞的特征,會都在文本向量特征空間的高維性和稀疏性,這就需要采取一種行之有效的特征選擇方法,來降低特征空間的維數,以提升文本自動分類的效率和精度【4】。

2.5 文本分類評級層設計

在信息化時代,如何有效評價文本分類的好壞,直接關系到文本自動分類的效果,在具體設計中,必須綜合考慮此問題,保證通過分類結構的評價,能夠從側面反映出分類算法的好壞,以及大數據文本自動分類處理系統運行的效果和整體性能,常用的文本分類評價方法有:召回率、查準率、F-Measure 等,但相比而言,召回率和查準率比較簡單且有效,在本系統設計中,就采用召回率和查準率來評價文本分類的好壞。召回率指的是評價樣本和屬于該類有樣本的樣本的總數之比,而準確率則指的是屬于該類樣本所占的比例。

2.6 系統運行平臺設計

為保證大數據文本自動分類處理系統能夠穩定運行,在平臺設計中可從硬件、軟件、開發環境三個方面入手,來保證系統運行的整體效果。在硬件平臺設計中可5 臺個人計算機,配置上主頻為2.0GHz 的CPU,2G 內存。軟件平臺設計時可通過部署Hadoop 將5 臺計算機連接成一個整體,形成分布式集群,大數據文本自動分類處理系統在Hadoop 上運行,通過5 臺計算機,就能實現分布式處理,提升文本自動分類處理效果【5】。系統開發環境設計中,可選擇eclipse 開發平臺,而項目管理工具則可以采用maven,二者相互作用,就能實現各項目開發。

3 結束語

綜上所述,本文采用理論結合實踐的方法,分析了云計算背景下大數據自動分類處理系統設計,分析結果表明,云計算為大數據自動分類處理系統的建設提供了新的技術支持,借助云技術,設計有針對性、有效的系統,可大幅度提升數據自動分類處理效率,提升海量數據處理速度,保證各項數據、各項信息都能得到有效利用,發揮出信息數據的價值,促使各行各業穩健發展。

猜你喜歡
分類文本信息
分類算一算
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 99re热精品视频国产免费| 成人av手机在线观看| 亚洲国产精品日韩欧美一区| 伊人久久婷婷| 成人综合网址| 日韩大片免费观看视频播放| 亚洲va在线观看| 国产精品性| 在线看片国产| 久久青草视频| 国产成人AV综合久久| 97久久精品人人做人人爽| 波多野结衣无码视频在线观看| 亚洲中文字幕手机在线第一页| 免费网站成人亚洲| 婷婷亚洲视频| 无码内射中文字幕岛国片| 欧美激情综合一区二区| 成人福利在线看| 99人体免费视频| 99这里只有精品6| 91青青视频| 青青久久91| 亚洲一级色| 视频一本大道香蕉久在线播放 | 国产91线观看| 黄色网页在线播放| 中文字幕在线永久在线视频2020| 无码乱人伦一区二区亚洲一| 精品亚洲国产成人AV| 激情国产精品一区| 日韩无码黄色| 又爽又大又光又色的午夜视频| 精品黑人一区二区三区| 久久伊人操| 国产精品视频a| 亚洲欧美在线综合一区二区三区| 一级做a爰片久久毛片毛片| 亚洲中文无码av永久伊人| 国产精欧美一区二区三区| 欧美成人日韩| 97国产在线观看| 99在线视频免费| 国产aⅴ无码专区亚洲av综合网| 欧美五月婷婷| 青青青伊人色综合久久| 欧美精品在线免费| 香蕉在线视频网站| 99无码熟妇丰满人妻啪啪| 成人夜夜嗨| 国产成人午夜福利免费无码r| 91麻豆国产在线| 亚洲天堂网站在线| 九九九九热精品视频| 玩两个丰满老熟女久久网| 无码日韩人妻精品久久蜜桃| 欧美激情综合一区二区| 国产精品久久国产精麻豆99网站| 玖玖精品视频在线观看| 波多野结衣一区二区三区四区视频 | 国产丝袜啪啪| 自拍欧美亚洲| 亚洲第一成网站| 台湾AV国片精品女同性| 国产美女在线观看| 欧美激情第一欧美在线| 日韩在线2020专区| 国模粉嫩小泬视频在线观看| 国产在线观看一区二区三区| 亚洲成人一区二区| 91美女在线| 亚洲人成日本在线观看| 国产一区在线视频观看| 有专无码视频| 久久成人免费| 欧美成一级| 中文国产成人精品久久| 久久人搡人人玩人妻精品| 日本在线欧美在线| 亚洲国产午夜精华无码福利| 夜精品a一区二区三区| 亚洲AⅤ无码国产精品|