999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

半監督多視圖學習在大數據分析中的應用探討

2015-11-04 01:05:57藍超饒泓浣軍
中興通訊技術 2015年5期
關鍵詞:大數據

藍超饒+泓浣軍

中圖分類號:TN929.1 文獻標志碼:A 文章編號:1009-6868 (2015) 05-0032-003

摘要:半監督多視圖學習是機器學習領域一種極具潛力的大數據處理和分析方法,該方法能有效處理異構和半監督數據,并能方便地在線化和并行化,適合處理海量數據。該方法在大數據時代的應用前景值得研究人員和業界關注。指出未來需要通過引入其他領域新的研究技術和成果,不斷豐富和完善半監督多視圖學習的理論體系和算法設計,并在實驗和實踐中不斷檢驗和探索。

關鍵詞:半監督;多視圖;大數據;并行化

Abstract:This paper introduces a promising machine-learning paradigm called semi-supervised multi-view learning. With this paradigm, information is extracted from heterogeneous and semi-supervised data sets. Lately, multi-view learning has been scaled up online and through parallelization to deal with emerging big data challenges. Due to its successful application in many research domains and the fact that it has been explored and used by leading companies, multi-view learning may have a future in the big-data era as a major data analytic technique. New research techniques should be introduced into this area to improve the theoretical system and algorithm design of semi-supervised multi-view learning.

Key words: semi-supervised; multi-view; big data; parallelization

機器學習已成為產業界大數據分析的主流工具。在2015年北京全球軟件開發大會上,基于大數據的機器學習和數據挖掘專題討論得到了業界廣泛參與,如百度、搜狗、阿里巴巴、京東、美團、猿題庫等著名企業參與了該專題的討論。當前,機器學習在產業界的推廣正處于白熱化階段。與此同時,如何結合大數據的特點,選擇恰當的學習方法仍是值得探討的問題。

從數據角度而言,大數據之“大”并不僅限于容量,也指數據類型多和收發速度快,三者統稱為大數據的“3V”特征[1]。因此,若想迅速有效地處理和分析大數據,不僅需要從數據庫和計算機體系結構等入手(如IBM的Hadoop,微軟的大數據生態系統),更需選擇合適的數據分析方法,才能充分挖掘海量數據中潛在的信息和價值。

除了3V,大數據普遍存在卻鮮有討論的另一特征是半監督性。在傳統機器學習中,用于訓練分類系統的數據大多是有監督的,即數據的實際分類已知。然而,許多應用問題如自然語言處理,大部分數據都不知道實際分類,這類數據稱為無監督數據。如何有效利用無監督數據,使其幫助有監督數據一起訓練分類系統,是半監督學習[2]研究的核心問題。隨著大數據時代的到來,大量無監督數據將被采集,導致越來越多應用問題演變成大規模的半監督學習問題。

大規模半監督學習在學術界的探討可追述到2005年Delalleau提出的高效無參歸納法[3]。在該論文中,作者提出將用于構造核矩陣的(無監督)數據集進行下采樣,減小核矩陣大小,從而提高算法的存儲和計算效率。在此思想基礎上衍生出來的工作有很多,其中以大規模化基于核或基于圖的半監督學習方法為主。除了數據下采樣,也有研究員通過構造混合分布模型以減小參數估計的計算復雜度。此外,半監督學習的大規模化也可通過提高優化算法效率或并行程度來實現。

盡管有著近十年的研究歷史,目前大部分的大規模半監督學習方法仍具有局限性。一方面,它們大都基于傳統的單視圖機器學習方法,忽略了大數據的異構性,容易導致信息丟失;另一方面,規模化算法的策略較為傳統,如下采樣或加速優化,無法有效滿足大數據帶來的新的挑戰,如數據的在線化和分布化等。

文章結合大數據的特點介紹機器學習領域的一種新興的半監督學習方法——多視圖學習。它不僅在許多研究領域已得到成功應用,更因具備有效利用無監督異構數據的能力和迅速發展的大規模化算法,有望成為大數據時代最具潛力的數據分析工具之一。

1多視圖學習優點多

1.1多視圖學習及其優點

多視圖學習[4]是指專門針對多視圖數據而進行建模和學習。其中,多視圖數據是指由多組(往往具有不同意義的)特征進行描述的數據,而每一組特征稱為一個視圖。多視圖學習的主要思想是基于無監督數據的視圖一致性,即分類器在同一無監督數據不同視圖下的分類結果應基本一致。將此約束加入學習法則,多視圖學習便能巧妙利用無監督數據幫助分類器的訓練。

多視圖學習的一個顯著優點是緩解過學習問題,即由于模型過于復雜而將數據噪聲也學入分類法則的現象。傳統的機器學習方法大多將數據的所有視圖堆砌成一個高維的單視圖數據,進行建模和學習。此時,如果視圖間存在冗余信息,為高維數據所建的模型將比實際需求更為復雜,容易導致過學習。而多視圖學習則為每個視圖分別建模,有效降低了模型復雜度。

多視圖學習的另一優點是提升數據的總體分類能力。當數據特征所蘊含的分類信息總體較弱時,可將特征集拆分成多個視圖進行多視圖學習[5]。通過各視圖的弱分類器協同訓練,達到各視圖“單獨學習弱,集成學習強”的目的。endprint

另外,多視圖學習還能有效處理異構數據[6]。大數據時代,數據的異構性越來越強。比如,客服中心為了提高工作效率,需要根據來電客戶的個人信息和語音信息對其來電目的進行快速預測。這里,用戶的個人信息是靜態文本數據,而語音信息則是動態時序數據,兩者不僅數據類型不同,也往往服從不同的后驗(預測)概率分布。強行統一或堆砌兩類特征不僅給建模帶來困難,也容易導致信息丟失,失去大數據分析的優勢。多視圖學習則允許各視圖分別選擇合適的分類器,再通過協同訓練提高視圖整體的分類能力。

1.2 多視圖學習的理論研究

多視圖學習的理論分析主要基于其分類器的泛化誤差。一個分類器的泛化誤差是其在指定數據分布下,錯分數據的概率。許多理論研究證明:多視圖中的協同學習方法在滿足條件時,分類器的泛化誤差將以極大的概率收斂到極小的范圍之內。

多視圖學習的早期理論分析基于兩個假設[7]:視圖充分性,即每個視圖能分別提供充分的(但不必很強)分類信息。該假設在大數據中較容易被滿足;各視圖間條件獨立,即給定數據分類,其各視圖間統計獨立。

多視圖學習另一個理論研究是其樣本復雜度。樣本復雜度指通過多少數據的訓練就能保證分類器收斂到預期的泛化誤差。目前,多視圖學習的樣本復雜度分析主要集中于主動學習,即選取哪些無監督數據進行人工分類,才能使分類器的訓練最快收斂。在此問題中,有監督數據的樣本復雜度被證明與泛化誤差的倒數成log比[8],而無監督數據樣本復雜度則與泛化誤差的倒數成正比[9]。在大數據時代,無監督數據的容量常常遠大于有監督數據,是計算機的存儲和計算的主要負擔。因此,提高無監督數據的樣本復雜度的效率是值得關注的問題。

1.3 多視圖學習的常見算法及

大規模化算法

大部分多視圖算法為每個視圖分別建立分類器,基于協同訓練方式的不同,有兩種主要的多視圖算法:一是基于迭代的協同訓練算法[7],另一個是基于協同正則化的算法[10]。基于迭代的協同訓練算法的每個回合由一個視圖的分類器標注一部分無監督數據的類別,并將它們加入有監督數據集,一起重新訓練其他視圖的分類器,以達到視圖一致,提高視圖總體的分類能力。這類算法直觀有效,也較容易處理異構數據,但因其迭代的訓練方式,學習效率相對較低;基于協同正則化的算法為所有視圖的分類器統一建立一個目標函數,通過特定約束條件達到視圖一致,并一次性地訓練完所有分類器。該類方法避免了迭代訓練,計算效率往往更高。

為各視圖分別建模能最大程度保留視圖的個性特征,但對視圖一致性的要求也更高。當一致性不能被較好滿足時,該類算法的效果會有所下降[11]。另一類多視圖學習算法則側重于將多個視圖進行有機融合成單視圖,再進行單視圖學習[12]。這類算法有利于提高特征的魯棒性和泛化能力,不同于簡單的堆砌視圖,但也具有丟失視圖個性特征的風險。為此,有學者提出同時學習視圖的共性特征和個性特征[13]。

除了改良傳統算法,多視圖學習也正沿著在線化和并行化的方向發展,以迎接大數據的新挑戰。在線多視圖學習假設訓練數據分批,依次呈現給分類器進行學習。此時,如何為分類器設計高效的更新算法,是在線多視圖學習的研究問題。目前研究的主流算法是基于協同正則化的算法,而其在線化的主要策略是通過引入隨機梯度下降法,實現目標函數的在線優化[14]。該策略的優點是計算速度快,存儲空間小,但對學習參數的敏感性較高。

目前的并行多視圖學習研究主要基于MapReduce的框架。如愛立信研究院提出[15]將不同數據的不同視圖被分配到不同計算單元進行計算,以提高計算效率。但由于視圖一致性的要求,不同計算單元間往往需要頻繁通信,這成為系統效率的決定性瓶頸,也是當前分布式機器學習的一個研究熱點。并行或分布式多視圖學習中通信量如何增長?有哪些影響因素?如何設計低通信量的高效算法?這些都是大規模多視圖學習需要探索的問題。

2 多視圖學習應用廣

多視圖學習在許多研究領域都已獲得成功應用,包括網頁分類、自然語言處理,計算機視覺、醫療診斷、藥物分析和化學分析。在網頁分類中,每個網頁的內容和鏈表可表示為兩個視圖;在文本分類中,同一文本的不同語言版本可表示為不同視圖;在用戶決策識別系統中,用戶的語音和姿勢可表示成兩個視圖;在圖像檢索和標識中,圖像本身和周邊的文本信息可表示成兩種視圖。即使在一些數據并不自然展示出多個視圖的問題中,也可通過從單視圖中提取多個視圖進行多視圖學習,以充分發揮多視圖學習的優勢。

多視圖學習在工業界也被積極探索和推廣,涉及領域包括機器翻譯、情感預測、圖像檢索和推薦系統等。在微軟研究的機器翻譯中[16],測試文章在不同解碼器下的譯文被視作不同視圖下的準參考譯文加入訓練集參與翻譯器的特征權重的訓練,從而使翻譯器更全面的適應測試集領域的文章的特點,達到領域自適應的目的。

3 結束語

半監督多視圖學習是大數據時代極具潛力的分析工具。其在許多研究領域已獲得成功應用,并在工業界被積極推廣。但同時也需指出,大數據的大容量、分布式和在線化等特征為半監督多視圖學習帶來了新的挑戰。比如,如何有效降低無監督數據的樣本復雜度,如何降低分布式視圖間的通信量等。要解決這些問題,需要通過引入其它領域新的研究技術和成果,不斷豐富和完善半監督多視圖學習的理論體系和算法設計,并在實驗和實踐中不斷檢驗和探索。endprint

猜你喜歡
大數據
基于在線教育的大數據研究
中國市場(2016年36期)2016-10-19 04:41:16
“互聯網+”農產品物流業的大數據策略研究
中國市場(2016年36期)2016-10-19 03:31:48
基于大數據的小微電商授信評估研究
中國市場(2016年35期)2016-10-19 01:30:59
大數據時代新聞的新變化探究
商(2016年27期)2016-10-17 06:26:00
淺談大數據在出版業的應用
今傳媒(2016年9期)2016-10-15 23:35:12
“互聯網+”對傳統圖書出版的影響和推動作用
今傳媒(2016年9期)2016-10-15 22:09:11
大數據環境下基于移動客戶端的傳統媒體轉型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數據背景下的智慧城市建設研究
科技視界(2016年20期)2016-09-29 10:53:22
數據+輿情:南方報業創新轉型提高服務能力的探索
中國記者(2016年6期)2016-08-26 12:36:20
主站蜘蛛池模板: 国产69囗曝护士吞精在线视频| 成人免费黄色小视频| 中文字幕乱码中文乱码51精品| 最新国产精品第1页| 欧美影院久久| 亚洲Aⅴ无码专区在线观看q| 手机在线看片不卡中文字幕| 91在线高清视频| 亚洲综合中文字幕国产精品欧美| 巨熟乳波霸若妻中文观看免费| 欧美亚洲国产精品久久蜜芽| 久久久久国产精品嫩草影院| 日本三级精品| 久久婷婷六月| 久久久久88色偷偷| 国产91小视频在线观看| 在线精品视频成人网| 农村乱人伦一区二区| 国产91九色在线播放| 亚洲人成网址| 国产日韩丝袜一二三区| 亚洲天堂网2014| 一级一级一片免费| 久久综合色天堂av| 午夜视频免费一区二区在线看| 久久精品波多野结衣| 亚洲av无码片一区二区三区| 亚洲天堂网站在线| 欧美视频在线第一页| 日韩不卡免费视频| 精品国产99久久| 高清无码不卡视频| 国产无码高清视频不卡| 亚洲国产成人精品青青草原| 波多野结衣一区二区三区88| 亚洲色图欧美激情| 在线播放国产99re| 日韩国产综合精选| 97se亚洲综合在线天天| 亚洲成人黄色网址| 国产91小视频| 丰满人妻被猛烈进入无码| 亚洲无码高清免费视频亚洲| 理论片一区| 色噜噜狠狠狠综合曰曰曰| 亚洲a级在线观看| 亚洲综合网在线观看| 青青操视频免费观看| 欧美成人综合在线| 国产视频自拍一区| 日韩在线视频网站| 国产激爽大片在线播放| 亚洲黄色片免费看| 华人在线亚洲欧美精品| 狠狠久久综合伊人不卡| 欧美精品在线免费| 久久精品中文无码资源站| 波多野结衣一级毛片| 亚洲无码熟妇人妻AV在线| 中国一级毛片免费观看| 97视频在线观看免费视频| 亚洲人在线| 亚洲天堂自拍| 最新无码专区超级碰碰碰| 国产综合欧美| 91成人免费观看在线观看| 久草青青在线视频| 国产成人啪视频一区二区三区| 伊人大杳蕉中文无码| 黄片一区二区三区| 国产97公开成人免费视频| 99re经典视频在线| 精品精品国产高清A毛片| 色综合激情网| 国产精品一区二区久久精品无码| 亚洲无码高清免费视频亚洲 | 无码'专区第一页| 日韩激情成人| 在线欧美一区| 日韩精品毛片人妻AV不卡| 国产小视频网站| 不卡的在线视频免费观看|