999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于上限分析的機器學習系統最佳優化決策選擇

2017-09-18 02:41:39房楚堯夏金杰趙家培
智能計算機與應用 2017年4期
關鍵詞:機器學習

房楚堯++夏金杰++趙家培

摘要: 本文的重點是使用上限分析法解決在機器學習系統開發中無法判斷哪部分最值得優化的問題,以便于做出最佳的優化決策。以一個簡單的圖像文字識別系統為實例,對其的文字偵測、字符分割、字符識別三個部分使用上限分析法進行模擬,得出各個部分的潛在上升空間,然后比較對3個部分分別進行優化對最終預測結果的影響,從而了解該系統中已經達到“最高水平”的部分,做出最佳的優化決策,避免開發中資源的浪費。

關鍵詞: 機器學習; 上限分析; 圖像文字識別; 決策優化

中圖分類號:TP181

文獻標志碼:A

文章編號:2095-2163(2017)04-0037-02

0引言

在一個基于機器學習的預測類應用中,通常需要經歷幾個步驟才能得到最終的預測結果,一般來說很難憑直覺去決定優化一個機器學習流水線的某個特定部分,在這時就可以使用上限分析法(Ceiling Analysis)[1]來對一機器學習系統進行模擬以找出最佳優化的決策。上限分析法是一種評估機器學習流水線中各個部分對整個機器學習系統結果的優化影響大小的方法,根據分析所得的結果就可以知道在整個機器學習系統中對哪個部分進行優化對最后所得的結果最為有益。這一分析方法與“天花板效應”[2]的概念相關,即在一個系統中的一個獨立變量在達到一定水平后就不再對因變量產生影響。在機器學習系統的優化中,這種效應可以看作是因為機器學習系統已經達到“最高水平”而不再可能通過提高某個組成部分的性能(自變量)來改善預測結果(因變量)。

1上限分析法模型

開發一個機器學習系統時,可能會花費很多資源來嘗試提高某個組成部分的性能,但是卻不會在整個系統中得到很好的效果,這就是要使用上限分析法的一個原因。上限分析可以減少在開發中資源的花費,明確了解要著重處理的部分,以便在預測結果的準確度上獲得更為顯著的改進;在提出優化方法前,就可以確定每個處理部分可能對結果提供的潛在上行空間,進行其理想性能中的每一部分的仿真分析。因此,當模擬每個部分時,就已經使用類似預測精度的度量來確定整個系統的性能的上行空間。圖1即給出了一個由3個部分組成的機器學習流水線和仿真流程的示例,該過程的主要思想是分別模擬每個部分的精度為100%,從而得出每個部分對提高整個系統的性能的能力。模擬是以連續的方式設計展開的,就是開始從左到右添加模擬部分,直至最終宣告完成。

2上限分析法在圖像文字識別中的應用

[JP3]本文將使用上限分析法對圖像文字識別應用問題進行優化,圖像文字識別的常規處理過程如圖2所示。這個機器學習系統由3個部分組成:文字偵測(Text detection)、字符切分(Character segmentation)和字符分類(Character classification)[3]。[JP]第一個部分是提取更容易找到文字的較小圖像,因為當圖像中大部分是文字時,更容易識別文字。第二部分是將提取出的文字進行分割,為了更好地識別文字。最后一部分是字符分類,用于識別各個文字。當前一個部分結束運行后會將結果輸入到下一個部分,還有一個連接到分類器的訓練部分,則是使用有監督學習生成的分類器模型。[JP]

在圖像文字識別這一機器學習系統中,首先要進行文字偵測,旨在選擇出可能找到文字的較小圖像。為了實現這一部分的功能,將訓練一個模型能夠區分字符與非字符,然后運用滑動窗口技術識別字符[4],繼而再將識別得出的區域設計生成一定的擴展,而后將重疊的區域執行合并,最后以寬高比作為過濾條件,過濾掉高度比寬度更大的區域(因為一般單詞的長度大于高度)。第二部分訓練一個多變量邏輯回歸的二分類模型來研究支持將文字分割成一個個字符的處理過程,訓練集是單個字符的圖片和2個相連字符之間的圖片[5]。在達到字符分割目的后,則把分割的字符轉化為18*18像素的圖片送入字符分類部分進行識別。最后一個部分是字符分類階段,將訓練一個BP神經網絡 [6]來識別文字。

在每一部分均將分別手工提供百分之百正確的數據給下一部分使用,實際上不需要模擬最后一個部分,因為最后的上限為100%。在上限分析中,還需要創建一個表格,即如表1所示。其中指定了當前處理部分在每個階段的上升空間。第一行顯示了沒有加入任何模擬的系統精度,計算出整個系統上升空間的起點,上升空間是用當前部分加入模擬后的精度減去前一個部分加入模擬后的精度。最后,整個模擬過程將顯示哪個部分會提供最大的上升空間,更值得投入精力和時間去實施優化,所以上限分析將可看作是以一種可靠的方式來決定哪個部分應該進行更多的優化,哪個部分已經不需要優化,因為這一過程顯示了改進該要素是否會提高整個系統的精度以及最終將具體提高了多少。

用于此次分析的圖片是來自imagenet上的1 000張彩色照片,圖片中包括了各種大小不一的字體,天氣狀態也有所不同。1 000張照片被分為3個部分,即訓練集、交叉驗證集和測試集,[JP2]分別占總數量的60%、20%、20%[7]。[JP2]訓練設定了文字[JP]

[LL]偵測、字符切分、字符識別三個模型后輸入驗證集,得出未加入模擬時整個機器學習系統的結果,然后對3個部分分別進行模擬,得出表2。為了更好地衡量系統的精度,在這里引入F1-socre(可看作是模型準確率和召回率的一種加權平均)。理論上,上限分析時不需要對字符識別部分進行模擬,因為當手工提供100%正確率的字符識別部分預測結果時,準確率就是100%。

根據上限分析表中所得出的結果,可以看出這個圖像文字識別系統中,優化文字偵測和字符識別部分對整個系統預測結果的提高有很大幫助,上升空間分別達到了14.2%和10%,而字符切分的部分的水平已經接近到上限,上升空間僅有1.5%,如果花費大量時間來對字符切分進行優化,對整個系統的預測精度也不會有很大的提升。

3結束語

本文提出了一種使用上限分析法開發和分析圖像文字識別的方法,探索了優化過程中在研究上應該著重推進的部分,結果說明在開發這個圖像文字識別應用時文字偵測部分和字符識別部分的潛在上升空間更大,這意味更應該投入精力去優化這2部分,對字符切分部分進行優化幾乎不能提高整個系統的預測精度。

參考文獻:

[1] WANG Lijuan, ZHANG Zhiyong, MCARDLE J J, et al. Investigating[JP] ceiling effects in longitudinal data analysis[J]. Multivariate Behavioral Research,2008,43(3):476-496.

[2] 盧璟,磨玉峰. “玻璃天花板”效應研究綜述[J]. 商業時代,2008(34):58-59.

[3] 蔣東玉,田英鑫. 印刷體英文OCR系統的研究與實現[J]. 智能計算機與應用,2014,4(4):111-112,117.

[4] 柴子峰. 基于滑動窗口的弱標記物體檢測方法研究[D]. 哈爾濱:哈爾濱工業大學,2016.

[5] LI Lianhuan. Research on character segmentation method in image text recognition[J]. Advanced Materials Research,2012,1909(546):1345-1350.

[6] LI Wenjie, ZHANG Jie, TIAN Kelun,et al. The design of the BP neural network character recognition in Matlab environment[J]. Advanced Materials Research,2014,3382(1006):1117-1120.

[7] 范永東. 模型選擇中的交叉驗證方法綜述[D]. 太原:山西大學,2013.[ZK)][FL)]endprint

猜你喜歡
機器學習
基于詞典與機器學習的中文微博情感分析
基于網絡搜索數據的平遙旅游客流量預測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
科教導刊(2016年26期)2016-11-15 20:19:33
下一代廣播電視網中“人工智能”的應用
活力(2016年8期)2016-11-12 17:30:08
基于支持向量機的金融數據分析研究
基于Spark的大數據計算模型
基于樸素貝葉斯算法的垃圾短信智能識別系統
基于圖的半監督學習方法綜述
機器學習理論在高中自主學習中的應用
極限學習機在圖像分割中的應用
主站蜘蛛池模板: 日本欧美中文字幕精品亚洲| 国产a v无码专区亚洲av| 国产日本一区二区三区| 国产精品污视频| 拍国产真实乱人偷精品| 在线视频精品一区| 凹凸国产分类在线观看| 最新痴汉在线无码AV| 国产精品自在在线午夜| 欧美成人精品高清在线下载| 免费视频在线2021入口| 无码日韩人妻精品久久蜜桃| 国产成人精品视频一区二区电影| 韩国福利一区| 色婷婷综合在线| 97精品国产高清久久久久蜜芽 | 中文字幕一区二区人妻电影| 免费高清毛片| 全午夜免费一级毛片| 天天综合亚洲| 一级在线毛片| 亚洲第一区在线| 亚洲三级色| 亚洲国产午夜精华无码福利| 中文精品久久久久国产网址| 激情无码视频在线看| 久久国产av麻豆| 九九热视频在线免费观看| 国产91久久久久久| 亚洲成人网在线观看| 全部毛片免费看| 欧美天堂在线| 国产一级毛片yw| 天天爽免费视频| 高清不卡毛片| 国产日产欧美精品| 欧美区一区二区三| 激情無極限的亚洲一区免费| 最新国产成人剧情在线播放| 人妻夜夜爽天天爽| 色哟哟精品无码网站在线播放视频| 中文字幕在线视频免费| 91小视频在线播放| 久久夜色精品| 国产二级毛片| 9cao视频精品| 黄色网址手机国内免费在线观看| 欧美国产日韩在线观看| 视频一区视频二区日韩专区| 久久这里只精品国产99热8| 爽爽影院十八禁在线观看| 亚洲制服丝袜第一页| 在线观看国产精美视频| 日本久久网站| 手机在线国产精品| 老司机午夜精品网站在线观看| 亚洲精品福利视频| 久久精品66| 久久久久夜色精品波多野结衣| 潮喷在线无码白浆| 久久国产V一级毛多内射| 精品无码一区二区三区电影| 亚洲欧美日韩成人高清在线一区| 日本欧美在线观看| 久久永久视频| 国产91色| 日韩无码黄色网站| 亚洲视频影院| 国产麻豆精品手机在线观看| 韩日免费小视频| 亚洲第一黄片大全| 91午夜福利在线观看精品| 日韩在线欧美在线| 男女猛烈无遮挡午夜视频| 久久国产精品77777| 一级黄色欧美| 亚洲一区网站| 亚洲天堂伊人| 国产成人亚洲毛片| 91在线高清视频| 国产精品第页| 波多野结衣一区二区三视频|