999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Hadoop云計算平臺的圖像分類與標注*

2014-02-28 06:16:28陸寄遠黃承慧
電信科學 2014年2期
關鍵詞:分類用戶模型

陸寄遠,黃承慧,侯 昉,李 斌

(1.廣東金融學院計算機科學與技術系 廣州510521;2.甲骨文研究開發中心(深圳)有限公司 深圳518057)

1 引言

隨著網絡的普及以及多媒體數據獲取設備的發展,圖像和視頻的數量都飛速增長,多媒體資料的存儲和檢索成為熱門的研究領域?;趦热莸膱D像檢索、對象識別、標注等都是現在的研究重點。各種分類算法、模型和系統不斷涌現,如基于SVM(support vector machine,支持向量機)、pLSA(probabilistic latent semantic analysis,概率潛在語義分析)或決策樹的圖像分類方法[1]。其中,基于內容的圖像檢索是形成基于內容的標注和圖像之間的映射。有了這些標注,就可以將用戶的查詢分解到標注的概念,以檢索出結果。

圖像分類和標注的問題可以理解為模式識別的問題,計算機無法像人類一樣具有抽象概括的能力,只能利用圖像的底層特征進行識別分類?,F有的圖像分類系統大部分是按照如圖1所示的工作流程:從圖像中提取視覺描述子向量;利用已經學習到的碼本(codebook)對這些描述子向量進行編碼,使得相似的描述子向量得到相近的標簽;根據每個標簽的出現頻率統計出圖像內容的全局直方圖,得到圖像的視覺特征表示;將直方圖導入分類模型中,估計該圖像的類別標簽。

圖1 圖像分類系統的一般工作流程

目前已經有兩類圖像檢索系統:基于文本的圖像檢索(text based image retrieval,TBIR)系統和基于內容的圖像檢索(content based image retrieval,CBIR)系統。在基于文本的系統中,圖像要進行人工標注,然后通過這些標注信息進行檢索。然而,在CBIR中是由圖像的視覺特征(如顏色、紋理、形狀等)建立索引。很多人在該領域中取得了出色的研究成果,現在已經可以使用的CBIR系統有QBIC、Informedia-Ⅱ、ALIPR、GazoPa等[2,3]。隨著研究的深入,人們發現CBIR系統存在兩個明顯的不足:低層可視特征和高層語義概念之間存在巨大鴻溝;與人類視知覺機制具有明顯的不一致性。為了縮小圖像底層特征和用戶檢索語義概念之間的“語義鴻溝”,部分研究者開始進行語義圖像檢索的研究。微軟亞洲研究院開發了一個Web圖像檢索系統[4],目的是將傳統Web圖像檢索返回的結果重新進行聚類。搜索的結果被聚類成不同的語義類別,對每個類別,都會選出幾張代表性的圖片,使用戶能夠馬上了解到這一類的主題。每一類里面的圖片則根據它們的視覺特征進行組織,使其顯示結果更符合用戶的需求。其中,訓練集的大小和質量是影響分類效果的重要因素,現在基本使用人工收集訓練集,這是件復雜的工作,當需要分類的對象越多,要收集的訓練集越大,消耗的人力也越多時。本文的重點是要解決該問題,高效地獲取訓練分類模型所需的訓練集圖像。本文所提出的解決方案為:一是依靠云計算技術解決訓練集大小的問題,二是通過pLSA主題聚類的方式實現人機交互的訓練集選取,從而提高效率。

2 基于Hadoop的圖像分類與標注系統

云計算是一種新的IT資源提供模式,依靠強大的分布式計算能力,使成千上萬的終端用戶能夠依靠網絡連接的硬件平臺的計算能力實施多種應用。Hadoop[5]是一個分布式系統基礎架構,由Apache基金會開發。使用者可以在不了解分布式底層細節的情況下,搭建分布式計算平臺。Hadoop的核心組件有兩個:Hadoop分布式文件系統(HDFS)和MapReduce,如圖2所示。HDFS是一個隱藏下層負載均衡、冗余復制等細節的分布式文件系統,適合部署在廉價的機器上。它能提供高吞吐量的數據訪問,非常適合大規模數據集上的應用,并對上層程序提供一個統一的文件系統API(應用程序接口)。從圖2(a)可以知道,HDFS只有一個名字節點,負責管理元數據操作和控制數據塊的放置,由數據節點實際保存數據塊。另外,MapReduce代表了map和reduce兩種操作,如圖2(b)。大多數分布式運算可以抽象為MapReduce操作。map是把輸入分解成中間的key/value對,reduce把key/value合成最終輸出。這兩個函數由程序員提供給系統,下層設施把map和reduce操作分布在集群上運行,并把結果存儲在分布式文件系統上。從圖2(b)可以知道,用戶提交MapReduce任務給主節點,JobTracker負責將任務分配到各個子節點上,實現并行處理。

考慮到Hadoop的開源以及容易進行開發的特點,同時為了保證平臺的穩定性,本系統以Hadoop+Ubuntu的方式進行構建。Ubuntu是一個完全以Linux為基礎的操作系統,可自由地獲得,并提供社區和專業的支持。本系統的框架設計如圖3(a)所示。首先,利用云技術發揮互聯網中多臺硬件的計算能力,加快圖像抓取的速度,并獲取所需要的原始圖像集。其次,當抓取到足夠的原始數據集以后,使用訓練集提取模塊通過交互的方式幫助用戶選取恰當的訓練集。第三,通過分類器學習模塊訓練分類器。最后,分類標注模塊利用這些分類器對新圖像進行分類標注。系統的硬件拓撲,如圖3(b)所示。從圖中可以看出,圖像抓取平臺中有一個主節點,抓取任務通過安全外殼(SSH)協議提交到主節點,由該節點負責將任務分配到所有的子節點。

圖3 基于Hadoop+Ubuntu的系統架構

從圖3(a)可以知道,分類標注系統要滿足4個功能需求:原始圖像抓取、訓練集提取、分類器模型學習和分類標注。用戶通過訓練集提取可以從原始數據集中生成訓練集,然后學習分類器模型,利用分類器模型進行圖像的分類和標注,并對分類標注結果進行存儲,以供用戶查詢或者檢索系統。本節將介紹分類標注系統功能模塊設計。結合系統的架構,把系統分為圖像抓取模塊、訓練集提取模塊、分類器學習模塊、分類標注模塊,如圖4所示。

圖4 分類標注系統的模塊結構

其中,圖像抓取模塊負責將用戶的抓取任務提交到圖像抓取平臺,通過SSH協議連接到云計算平臺的主節點,從互聯網中抓取所需的原始圖像集;訓練集提取模塊負責對原始圖像集進行基于pLSA模型的主題聚類分析,通過用戶交互的形式選取出訓練集圖片;分類器學習模塊的任務是根據用戶提供的訓練集圖像學習分類器模型,并保存為分類器模型文件;分類標注模塊完成對圖像或者圖像序列進行分類標注的任務,并生成分類標注文件。

訓練集提取模塊分為3個子模塊:更新參數模塊、pLSA聚類模塊和選取訓練集模塊。用戶通過更新參數模塊設置訓練集提取任務的參數,pLSA聚類模塊根據用戶的參數設置進行原始圖像的主題聚類分析,完成后用戶可以通過訓練集選取模塊選取所需的訓練集圖片。

分類器學習模塊進一步分為更新參數、SVM學習和更新分類器模型3個子模塊。用戶通過更新參數模塊設置分類器學習任務的參數,SVM學習模塊根據用戶的參數設置從訓練集中學習分類器模型,運行成功后更新分類器模塊負責存儲更新分類器模型。

分類標注模塊分為更新參數、SVM分類和生成類別標注3個子模塊。用戶通過更新參數設置模塊設置任務的參數,SVM分類模塊根據用戶的參數設置對圖像(或圖像序列)進行分類標注,并通過生成類別標注模塊生成類別標注文件。

3 實驗結果

系統使用操作系統平臺為Ubuntu Desktop 9.10,分布式系統平臺為Hadoop 0.19.2。圖像抓取模塊主要用Java開發,開發工具為Eclipse,運行環境為sun-6-jdk、sun-6jre。選取2組測試集,第一組是 “Caltech-256 object category dataset”[6],第二組是利用網絡抓取平臺抓取的原始數據集,如圖5所示。通過實驗發現,對原始圖像集進行10個主題的聚類,取得了較好的效果。下面將展示摩托車、蝴蝶測試的結果。

利用訓練集提取模塊對原始圖像集進行10個主題的聚類,結果見表1。從表1中可以看出,大部分聚類還是比較理想,可以直接去掉如聚類1、聚類3、聚類4、聚類7、聚類8、聚類10,從而實現了“按類選取”,加快了訓練集的篩選速度。

圖5 原始圖像集

表1 摩托車和蝴蝶的10個主題聚類測試結果

4 結束語

隨著網絡的普及和多媒體數據獲取設備的發展,圖像和視頻的數據量都在飛速增長,多媒體資料的存儲索引成為熱門的研究領域。本文針對當前圖像分類技術中都要面對的提取訓練集問題,提出了一個基于Hadoop云平臺的解決方案。該方案基于現有文本圖像搜索引擎的圖像抓取器,實現基于云計算的圖像抓取平臺,并在此基礎上利用pLSA模型,采用MSER和STAR區域特征,實現了主題聚類的訓練集提取,同時通過對原始圖像集進行基于主題的聚類,使得用戶可以“按類”篩選訓練集,比“逐張”篩選要有效率得多。

1 Moosmann F,Nowak E,Jurie F.Randomized clustering forests for image classification.IEEE Transactions on Pattern Analysis and Machine Intelligence,2008,30(9):1632~1646

2 ALIPR.Automatic photo tagging and visual image search.http://www.alipr.com/,2012

3 GazoPa.Similar image search.http://www.gazopa.com/,2010

4 Cai D,He X F,Ma W Y,et al.Organizing www images based on the analysis of page layout and web link structure.Proceedings of 2004 IEEE International Conference on Multimedia and Expo,ICME’04,Sorrento,Italy,2004

5 Grangier D,Bengio S.A discriminative kernel-based approach to rank images from text queries.IEEE Transactions on Pattern Analysis and Machine Intelligence,2008,30(8):1371~1384

6 Griffin G,Holub A,Perona P.Caltech-256 Object Category Dataset.Technical Report,California Institute of Technology,2007

猜你喜歡
分類用戶模型
一半模型
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
3D打印中的模型分割與打包
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
主站蜘蛛池模板: 亚洲欧美成人网| 国产无码精品在线播放| 国产无码在线调教| 激情国产精品一区| 手机精品福利在线观看| 奇米影视狠狠精品7777| 国产精品自拍露脸视频| 18禁影院亚洲专区| 99re这里只有国产中文精品国产精品 | 小蝌蚪亚洲精品国产| 夜色爽爽影院18禁妓女影院| 91精品国产综合久久不国产大片| 亚洲一区二区在线无码 | 日韩麻豆小视频| 亚洲V日韩V无码一区二区| 国产精品女同一区三区五区| 99在线国产| 99在线视频精品| 亚洲AV无码精品无码久久蜜桃| 精品91视频| 91欧洲国产日韩在线人成| 免费国产高清视频| 91福利免费视频| 欧美a在线视频| 狠狠色成人综合首页| 日韩a级毛片| 欧美一区二区福利视频| 欧美日韩一区二区在线免费观看| 91亚洲精品国产自在现线| 国产久操视频| 国产美女91呻吟求| 无码中文字幕加勒比高清| 午夜老司机永久免费看片 | 国产成人精品一区二区免费看京| 成人午夜网址| 国产大片黄在线观看| 久久成人国产精品免费软件| 狠狠做深爱婷婷久久一区| 精品自窥自偷在线看| 国产美女无遮挡免费视频| 免费精品一区二区h| 97人人做人人爽香蕉精品| 国产精品亚洲日韩AⅤ在线观看| 欧美日韩一区二区三区在线视频| 亚洲性影院| 欧美午夜网| 中国一级毛片免费观看| 国产在线观看精品| 色有码无码视频| 亚洲一级色| 极品性荡少妇一区二区色欲| 国产麻豆91网在线看| 亚洲国产精品无码久久一线| 美女被操91视频| 色欲国产一区二区日韩欧美| 国产成人亚洲毛片| 欧美中文字幕在线二区| 国产肉感大码AV无码| 就去色综合| 免费a在线观看播放| 一级做a爰片久久免费| 亚洲日本www| 国产成人a在线观看视频| 亚洲制服丝袜第一页| 理论片一区| 久久精品欧美一区二区| 欧美一区国产| 久久99国产视频| 婷婷六月天激情| 亚洲色欲色欲www网| 99精品国产自在现线观看| 99ri国产在线| 毛片免费视频| 国产成人免费视频精品一区二区| 午夜色综合| 欧美一区精品| 国产鲁鲁视频在线观看| 亚洲国产成人精品无码区性色| 在线欧美一区| 国产福利一区二区在线观看| 免费女人18毛片a级毛片视频| 国产成人欧美|