999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Hadoop的精準扶貧大數據的數據挖掘研究

2022-02-15 02:33:42張向榮
湖北農業科學 2022年22期
關鍵詞:特征

張向榮

(商洛職業技術學院,陜西 商洛 726000)

中國是世界上人口第一大國,盡管貧困人口的基數不大,但是貧困戶的絕對數量依舊比較多。以習近平總書記為核心的黨中央實施精準扶貧戰略,持續增加扶貧投入,因人因地分類施策,從而更好地打贏脫貧攻堅戰。扎實推進精準扶貧工作開展的關鍵是對精準扶貧大數據的數據挖掘,通過數據挖掘技術來提供準確、全面、高效、個性化服務,滿足精準扶貧工作者對貧困人群海量信息的查詢、檢索需求[1]。分布式技術是當前提升數據檢索效率的最佳選擇,通過分布于不同節點的數據來執行數據檢索任務,達到提升海量大數據檢索整體效率的目的。Hadoop 是分布式系統基礎架構,被廣泛應用于海量大數據的數據挖掘中。王倩等[2]針對傳統單機大數據集存儲與計算能力不足的問題,構建了基于Hadoop 集群平臺的中醫數據挖掘系統,該系統具有良好的交互性與完備性功能,效率高、結果準確,能夠有效推動互聯網和中醫藥健康服務的深度融合發展。楊夏薇[3]針對傳統人力資源決策技術對海量人力資源數據辨別能力不高的問題,構建了基于Hadoop 大數據平臺的人力資源決策技術,通過決策樹分類算法生成人力資源決策分析報表,該決策技術相對于傳統的人力資源決策技術決策結果的完整度大大提升,能夠更好地滿足當前企業的發展需求。李爽等[4]提出基于Hadoop 框架的K 均值聚類算法,并將其應用于Higgs 數據集上進行聚類分析,表明該算法能夠在確保聚類準確率的前提下大幅度提升K 均值聚類算法的運算效率。

本研究在前人研究的基礎上,從檢索工作前期預處理的角度出發對數據識別進行判斷,挖掘和檢索信息化高度相關的數據集進行定位來提升檢索效果,提出了基于Hadoop 的分布式貧困戶檢索算法,有效規避全節點過濾不充分的問題,并將參數設置個性化應用于不同的場景中,達到個性化最佳效果,使得提出的數據挖掘算法具有更廣的應用價值。

1 基于遠程方法調用的查詢系統體系

本研究采用Hadoop 實現分布式信息檢索查詢,其基礎為面向對象的遠程方法調用(Remote Method Invocation)RMI技術。

1.1 RMI遠程方法調用

分布式系統的基礎是遠程通信問題,解決本地調用遠程服務器。遠程調用是分布式系統進行遠程通信的核心,其實現了本地進行遠程服務器方法的調用。RMI基本體系結構如圖1 所示[5]。

圖1 RMI 體系結構

Stub/Skeleton 層,該層提供了客戶程序和服務程序彼此交互的接口;遠程引用層,該層是Stub/Skeleton 層和傳輸協議層之間的中間件,負責處理遠程對象引用的創建和管理;傳輸協議層提供了數據協議,用以通過線路傳輸客戶程序和遠程對象間的請求和應答。

1.2 基于遠程方法調用的分布式體系結構

并行系統軟件設計包括分治策略、階段并行、流水線方式、工作池方式以及主從模式5 種設計模式[6,7]。本研究設計的初始分布式檢索模型以主從模式為拓撲結構、以RMI 調用為技術原型,使得Client 端的調用與Server 端的調用完全一致,無需再考慮消息的組包、拆包等網絡通信問題。利用Java 反射機制,客戶和服務器之間的通信直接傳遞對象。Server 端采用一個接收線程、多個處理線程結構,通過一個call對象隊列連接。Client與Server 用一個線程保持一個連接,與同一個Server 的不同調用通過call對象的id 區分。系統結構如圖2 所示。

該系統由若干個數據服務器和一個主服務器組成[8-10],主服務器主要完成用戶查詢詞的向量轉換,維護一個數據服務器列表文件,建立遠程連接和檢索結果合并等工作。向量模型表示該步主要用來完成將用戶提交的檢索詞表示成向量模型。從查詢串中分出的每一個詞都是一個特征詞,同時用系統默認或者用戶自定義的方式為每一個特征詞賦予權值。服務器列表文件用來存儲數據服務器的訪問地址,通過在主服務器上設置一個簡單的數據服務器列表文件,方便管理員對數據服務器的了解。

1.3 基于數據特征的分布式檢索系統的體系結構

由于體系架構上的每個信息節點檢索系統僅對本地的數據對象建立索引。當用戶提出一個檢索請求時,由于該系統本身沒有存儲被檢索數據的相關描述,每個檢索請求會被統一地分發到整個系統中的每個數據節點執行計算,即為全文檢索工作,信息節點的持續增加、服務器性能等原因會制約整個系統的性能與可靠性。因此,本研究提出了基于數據特征的Hadoop 分布式檢索模型,將同類的數據聚合在一起,并且根據需要將聚合在一起的數據集模擬出一定維數的特征向量表示,當系統收到一個查詢請求的時候,首先會將檢索關鍵詞和特征索引表中的各向量做相似性比較,計算出一個數值,只有當該數值大于某個閾值的時候才認為該向量所表示的數據是真正和檢索項相關的,那么檢索詞被分發到此處進行檢索,使系統既有好的檢索結果,又有很高的搜索效率。基于數據特征的Hadoop 分布式檢索系統的體系結構如圖3 所示。

其中,數據分類模塊運用文本聚類方法將原始數據分割成子數據集,每個子數據集里包含的數據有較高的相似性,而不同的數據集之間在內容上有較大的差異。初始數據被分割成一塊塊按照內容相似度排列的子數據集后,數據特征抽取模塊負責抽取出各子數據集的特征向量。抽取得到的特征向量通過網絡發送到主服務器。

主服務器使用特征合并模塊,收集所有來自數據服務器的特征向量。根據各特征向量的相似度,將相似度較高的向量合并,合并后的特征向量被發送給數據特征索引表。該表記載最終的特征向量和該特征向量表示的數據集的訪問地址。查詢詞被封裝成特征向量后,進行全節點遍歷被發送到和向量相關的數據集,而與查詢向量內容不相關的數據集對于本次檢索不做任何工作,從而提升檢索效率。

2 基于Hadoop的分布式查詢體系實現

2.1 分布式環境建立

基于數據特征的分布式檢索系統體系結構搭建的Hadoop 分布式系統包括一個分布式主節點、一個分布式主節點備份節點和若干個分布式從節點,主要由語言層、存儲層、執行層和業務層4 部分構成,如圖4 所示。

圖4 Hadoop 分布式系統架構

語言層主要用于在Hadoop 基礎上搭建的頂層Hive 組件,該組件支持HQL 查詢語言以及Java 開發語言,存儲層使用NHadoop 的時間優先的存儲策略,按照數據特征項及其對用時間戳的存儲結構HDFS中完成數據組織,執行層采用并行計算框架MapReduce 可以直接訪問HDFS 中建立的時空索引結構。業務層將傳統的空間區域查詢操作以函數式編程MapReduce 的結構執行在分布式系統框架上。

2.2 建立數據特征索引表的生成和檢索

數據特征抽取完成后建立數據特征索引表,基于數據特征的分布式檢索系統就是利用數據特征索引表來存儲節點的特征表示和訪問地址的。數據特征索引表存儲了三維數據,其結構可形式化地表示為<Id,Character,Address>,其中Id 表示類別編號,Character 表示數據特征,Address 表示與該特征對應的數據訪問地址。特征索引表的建立過程如圖5 所示。

從圖5 中可以看出,使用數據特征抽取步驟的輸出結果,對按權重排序的文件解析成向量模型,將這些向量統一發送到主服務器上,主服務器對這些向量進行相似性計算,合并相似的向量,并將合并得到的向量插入數據特征索引表中。

圖5 數據特征索引表建立過程

雖然同數據點上的數據被分成了多個類別,但是不同數據節點上的數據集可能比較相似,因此該向量是計算了所有節點上的向量相似度后得到的最終綜合向量。相似度的計算方法可用式(1)表示:

其中,w1k和w2k分別表示向量V1和V2的第k個特征項的權值。

生成一個聚類索引表的過程如圖6 所示。

圖6 特征索引表生成程序

2.3 相似性閾值設置

不同地區的精準扶貧大數據之間具有比較大的差別,使得相似性閾值的設置應該結合不同的應用場景進行個性化設置。計算查詢向量與文檔特征向量之間的相似性,通過相似度來判斷查詢詞語數據群之間的相似關系。如果計算的相似性值大于設定的閾值,那么認為數據是相關的;反之認為數據是不相關的。

對于一維查詢向量,直接給該維特征的權重設置為1。在這種情況下,查詢向量和文檔特征向量的相似性計算可以簡單地理解為判斷在文檔特征向量中是否包含指定查詢詞的問題。如果查詢向量超過一維,對于5 維以內數據系統設置了默認權重,按照查詢關鍵詞的出現順序,初始值設置如表1 所示。

表1 查詢向量初始權重

為了驗證算法能夠結合參數設置被廣泛使用于不同的場景,選擇12 個不同類別的精準扶貧數據集,包含家庭基本情況、家庭貧困原因等多個方面的信息,并將其抽象為12 個特征向量,同時設置權重最高的前6 000 維參與運算。提交20 次檢索請求,統計平均值,統計結果如圖7所示。由圖7可知,當相似性閾值選擇在0.15 左右時,具有較好的效果,結果集包含相似的數據點,同時又過濾不相似的數據點。

圖7 相似性閾值統計

3 實證結果與分析

3.1 試驗環境

系統基于Linux 環境,通過3 臺PC 機組成6 個節點搭建Hadoop2.7.2 集群作為服務器。3 臺PC 機的配置一樣,CPU 為Intel(R)Core(TM)i7-7700 CPU@3.60 GHz,RAM 為8.00 GB,操作系統為Windows 7旗艦版,模擬程序由Java 編寫。試驗采用了TanCorpV1.0 的中文語料庫,共有23 368 個文檔,數據集的向量模型中特征詞的個數一般都在15 000 以上。

3.2 檢索結果測試

檢索結果主要利用查全率和查準率兩個方面來評價。查準率=(檢索出的相關信息量/檢索出的信息總量)×100%。查全率=(檢索出的相關信息量/系統中的相關信息總量)×100%。

在全節點遍歷和基于數據特征兩種分布式環境下進行檢索操作,數據結果如圖8 所示。

圖8 前N 條記錄的查準率

系列1 代表的是在全節點遍歷模式下N取不同值時,前N條記錄的查準率的大小。

系列2 代表的是系統使用的文檔特征向量占整個文檔特征向量總長度的2/3 時,前N條記錄的查準率的大小。

系列3 代表的是系統使用的文檔特征向量占整個文檔特征向量總長度的1/3 時,前N條記錄的查準率的大小。

從圖8 中可以看出,當N增大時,查準率降低,結果中包含的非相關文檔出現的幾率越大。本研究提出基于數據特征的分布式檢索系統的查準率總體高于全節點遍歷式的分布式檢索系統好,且在相對于結果集長度而言,N不是很大,參與計算的文檔特征維數在合理范圍內越小,前N條記錄的查準率越高。

系列1 為全節點遍歷,系列2 和系列3 分別表示在基于數據特征的分布式檢索系統中。由圖9 可以看出,在檢索結果文檔數目相同的情況下,基于數據特征的分布式檢索系統訪問的數據遠小于全節點遍歷模式,減少了訪問的數據源數量,節省了系統的總體計算和網絡資源。

圖9 檢索結果與文檔訪問數量的關系

4 小結

本研究提出了基于Hadoop 的分布式貧困戶檢索架構,結合數據的特征項提取及文本聚類技術,對相似文本進行聚合,根據查詢精度要求建立對應文本特征向量空間,同時,過濾關聯性差的數據,使其不參與搜索,以提升系統的執行效率降低內執行速度。貧困戶檢索算法可以結合參數設置個性化使用不同的應用場景,查全率和查準率對比全節點遍歷檢索具有較高的查全率和查準率,減少訪問的數據源數量,節省了系統的總體計算和網絡資源,具有很大的應用推廣價值。

猜你喜歡
特征
抓住特征巧觀察
離散型隨機變量的分布列與數字特征
具有兩個P’維非線性不可約特征標的非可解群
月震特征及與地震的對比
如何表達“特征”
被k(2≤k≤16)整除的正整數的特征
中等數學(2019年8期)2019-11-25 01:38:14
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
詈語的文化蘊含與現代特征
新聞傳播(2018年11期)2018-08-29 08:15:24
抓住特征巧觀察
基于特征篩選的模型選擇
主站蜘蛛池模板: 日韩欧美高清视频| 中文国产成人精品久久| 国产97色在线| 日本午夜在线视频| 成年A级毛片| 亚洲视频a| 欧洲免费精品视频在线| 狠狠色香婷婷久久亚洲精品| 欧美亚洲综合免费精品高清在线观看| 国产激情无码一区二区APP| 欲色天天综合网| 99久久精品免费看国产免费软件| 日本午夜三级| 99re视频在线| 亚洲免费人成影院| 无码网站免费观看| 亚洲色成人www在线观看| 欧美精品成人| 久久久久青草线综合超碰| 亚洲综合香蕉| 亚洲一区毛片| 亚洲二三区| 国产成人综合在线视频| 高潮毛片免费观看| 好吊妞欧美视频免费| 成人福利在线观看| 亚洲美女高潮久久久久久久| 欧美日韩一区二区三| 啊嗯不日本网站| 99re热精品视频中文字幕不卡| 五月天久久综合国产一区二区| 国产女主播一区| 久久香蕉国产线| 欧美午夜网| 99热这里都是国产精品| 中文字幕欧美成人免费| 亚洲欧美日韩成人在线| 日韩无码一二三区| 午夜视频在线观看免费网站| 久久久黄色片| 久久久久人妻一区精品色奶水| 日韩在线欧美在线| 免费无码在线观看| 亚洲黄色激情网站| 国产区免费| 国产主播一区二区三区| 久草热视频在线| 国产精品免费电影| 91久久国产成人免费观看| 久久久精品国产SM调教网站| 亚洲国产成人精品一二区| 国产成人精品亚洲77美色| 欧美日韩中文国产| 国产精品乱偷免费视频| 久久成人免费| 欧美色99| 亚洲美女一级毛片| 91午夜福利在线观看| 中文字幕在线一区二区在线| 亚洲高清中文字幕在线看不卡| 日韩资源站| 夜夜操天天摸| 国产高清无码第一十页在线观看| 亚洲国产精品美女| 嫩草国产在线| 亚洲男人在线天堂| 久久一日本道色综合久久| 亚洲国产综合精品中文第一| 色欲综合久久中文字幕网| 性欧美在线| 国产成人精品视频一区二区电影 | 91亚洲精品国产自在现线| 蜜桃视频一区二区| 五月激激激综合网色播免费| 国产精品2| 91精品人妻互换| 日韩欧美高清视频| 久久96热在精品国产高清| 波多野结衣二区| 在线免费无码视频| 国产在线观看精品| 中文字幕在线看|