劉博文
(鄭州市第七中學,河南鄭州,450000)
五十多年來,物體識別與檢測技術取得了突飛猛進的進步,這主要得益于國際競賽PASCAL VOC競賽的舉行。近幾年,該競賽在國際社會的影響力越來越大,參賽團隊也越來越多,參賽者也更為多樣化,他們的成果對之前的相關技術進行了很大程度上的改進與加深,這樣我們的各種算法便得到了優化,更準確也更簡潔,速度精度都得到了一定程度上的提升,為人類科學作出了巨大貢獻。我們的目標檢測技術也依賴于該競賽快速進步。
PASCAL VOC競賽主要運用基于詞包模型的物體分類算法。
所謂詞袋模型(Bag of Words, BOW),就是拿一張圖像的主要特征來描述這張圖像。形象地說,我們要事先準備一套“字典”,里面包含眾多的基本圖像元素,比如:“一把椅子”、“一輛車”、“一臺電視機”等等,然后我們處理一張輸入圖片時,就照應著“字典”上的基本圖像元素來對它的特征進行簡潔量化地描述,用數學公式方法可以如下表述:
記“字典”中的元素“豬”為q,“羊”為w,“牛”為e,“狗”為r等等,接下來輸入一張有2頭牛、一條狗的圖片A,那么根據圖A具有的基本圖像元素可以將其特征這樣表達:

由于“字典”是固定的,所以就可以利用簡單的公式來表達一副圖片的意義了,也可以運用向量的相關運算比較多幅圖片的相似程度,作用多樣,應用廣泛。但是由于詞袋模型只是考慮了某元素“是否出現”與“出現數量”而不考慮“出現在哪”,所以存在很多局限性。比如,我們輸入了一張尾巴長在牛頭上的牛的圖片,經過“字典”處理篩選時,可以識別出牛的各部位從而認為這是牛,但這明顯不符合一頭牛的傳統概念,因此這種方法存在諸多缺陷。
基于深度學習的物體檢測方法目前已經取得了極大的進展,它來源于人們對人工神經網絡的研究,主要模擬人類大腦的工作機制進行學習分析[1]。2006年,自Hinton等人發表一篇論文開始,深度學習逐漸走進了人們的視野,目前已經在業界獲得了極大的關注。近些年來,深度學習取得了顯著的進步,成為現在目標檢測領域最常用的方法[2]。本次有關VR手術的創新,特別是病變部位的識別檢測將用到這一模型,下文將詳加敘述。
主要對基于深度學習的圖像檢測儀器RCNN、Fast RCNN、Faster RCNN的工作方式原理展開敘述。
Region CNN(RCNN)首先利用深度學習進行物體檢測[3]。RCNN的運行需要訓練深度網絡進行特征提取,一般會提供兩個訓練庫:一個較大的識別庫和一個較小的檢測庫。識別庫可以對RCNN進行預訓練,調節卷積神經網絡(CNN)的權重,即初步修改w、b等的數值,之后用檢測庫調優參數w、b并進行檢測。主要訓練過程如下:
準備大量同類與不同類的較為典型圖片輸入RCNN儀器[4],進入卷積神經網絡后,卷積層中多重的卷積核會將圖片進行多通道卷積,然后將提取的像素輸入池化層進行主要特征的提取。接下來提取到的像素信息會輸入全連接層,調試權重。由于全連接層的存在,每個元素間均有連接、交集使得卷積神經網絡可以考慮到所有的主要特征像素。因此全連接層不可或缺,在RCNN的卷積神經網絡中扮演著十分重要的角色[5]。為了保證這一步驟的準確性,我們要從檢測庫中挑選輸入盡量多的圖片進行訓練調試其權重。主要訓練過程如下文所述:
輸入一張圖片,卷積層按照一定大小和步長對其進行多通道卷積,輸出經輕度處理后的像素,然后池化層按照既定大小提取每個區域內的有著最顯著特征的像素,然后進行拼接重組、輸出,輸入全連接層。在這里,方格狀的像素集合會被拉成長條狀的像素集合,并與隱藏層次序相連運算,這里的計算就會有權重w、b的參與。全連接層實例如圖1所示。

圖1 神經網絡結構
RCNN雖說是物體識別檢測領域的里程碑式的發現,但卻存在速度方面的巨大缺陷,其原因顯而易見:在獲取候選框時,我們是把所有隨機生成的數千個小圖像方框都輸入進了深度網絡中進行運算即特征提取,然后才能進行分類。這樣子我們就會有許多重復的計算,再加上我們使用RCNN時要將候選區域resize到同一大小輸入CNN,便導致了計算速率的緩慢。
作為改正,2015年Ross B.Girshick提出了深度學習目標檢測算法Fast RCNN,將原RCNN算法提速了100倍左右。主要改進措施:
(1)本來需要對數千個隨機區域進行運算的RCNN改進為Fast RCNN后只需要對原圖進行一次運算即可選定候選區域,這種提速效果不言而喻。
(2)全連接層的輸入必須是同一尺度大小的候選區域,因此RCNN要事先統一諸多候選區域的 大小。ROI Pooling可以把不同大小的輸入映射到一個固定尺度的特征向量,然后再進行分類。
有了這些改進,物體的識別與檢測上升到了新的高度。
Fast RCNN雖然速率已經達到了一個較高水平,但仍有進步改進的空間。因此,我們提出了Faster RCNN。Faster RCNN,顧名思義,是更快的RCNN,由任少卿等人于2016年提出,是目前最快最先進的RCNN系列目標識別與檢測儀器。由于Fast RCNN存在著需要找出所有的候選框、選擇性搜索等影響速度的步驟,人們想出了這樣的一個解決方法: Region Proposal Network(RPN)將選取候選框的任務也由神經網絡來計算解決,功能強大。要使它來工作,我們必須要將其放在最后一個卷積層的后面,并直接訓練得到候選區域。那RPN究竟具體是怎么工作呢?
(1)在feature map上滑動窗口;
(2)建一個神經網絡用于物體分類+框位置的回歸;
(3)滑動窗口的位置提供了物體的大體位置信息;
(4)框的回歸提供了框更精確的位置。
說明:整個過程需要多個loss損失函數來解決問題。
首先,我們要事先準備大量病變器官與完好器官的典型圖像,然后將其輸入到Faster RCNN中,用loss損失函數不斷訓練與調試權重w與b的值,直到可以準確判斷出病變部位并將其完整框出為止。然后將檢測結果中檢測到疾病部位切割出來然后對這個部位再進行一次圖像分類徹底確定其疾病類型。由于該設備用于醫學領域,與人們的身體安全生命健康聯系緊密,一有不慎就會錯過最佳治療時機,因此我們要準備盡可能典型與數量巨大的圖片進行調試。訓練完成后,我們可以將儀器拉入病房做現場的實驗檢測,然后再通過醫生的視覺判斷及實際的診斷結果來評判該儀器是否能準確判斷病變部位的位置。如果可以,即可生產實戰;如果不行,則說明在選出的訓練圖片不夠典型或者硬件存在問題,那我們還需要進行維修與重試,直到通過檢測為止。
以Fsater RCNN為主導的識別檢測系統能在醫生輸入一張病人的人體器官圖像后進行人類的感官不能進行的通過計算實現的感知,可以在較為混亂的人體器官內部環境進行精準的識別,框出病變部位,較醫生的判別準確率60%左右有一個極大的提升,不僅提高了醫生的診斷準確性,更是提高了醫生診斷的速度,很是適應現今社會的快節奏,再加上中國是一個人口大國,“患多醫少”問題在各城市地區均十分嚴重,那么這樣一個識別技術就會在這樣的一個社會現狀中大放光彩,顯現科學的力量與對社會的重要性,落實理論科學變為實際的、腳踏實地的方略。綜上,該技術的運用有著顯著的意義。
在利用目標檢測技術進行診斷的領域目前還沒有太多歷史與經驗。最開始2007年胡洪濤等人利用BP神經網絡對病變部位圖像進行識別,主要是根據食道癌的已有樣本圖像來對BP神經網絡進行訓練;2008年Kage A等人設計了一款計算機輔助診斷食道癌的系統,主要是根據已被標記、分類的感興趣區域提取的特征向量構成的數據庫來識別分類食道癌。最近的2016年孔喜梅等人采用主成分分析法提取特征。可以說,在利用人工智能、深度學習方面的知識來進行醫療診斷技術的發展還有巨大的空間,急需著人們進行創新。
所謂醫療、救助,就是要首先發現、識別出需要治療的地方即發病的部位,尤其是表露在局部身體部位上的病癥,才能進行下一步的診斷與治療。診斷治療方面目標檢測技術可能并不能發揮出它的作用,但是在發現病癥這一方面卻絕對有著巨大的發展空間。醫學的發展,不就是要從最基礎的地方,即檢測病變部位發展起嗎?而要完全解決發現病癥這一方面的問題,僅僅依賴傳統的機器拍照醫生根據經驗的微自動化識別是遠遠不夠的,科學技術才是最嚴謹的。毋庸置疑,物體識別與檢測技術應該甚至必須要在醫療領域走得越來越遠才能符合人們日益增長的對身體健康和快節奏生活的需要。更為具體地說,在手術、臨床醫學這種更加需要高精度、高安全性、高嚴謹的工作中,物體識別與檢測技術顯得尤為重要,基于VR的手術輔助設備和本技術也是再搭不過了,這也是我們本次創新的原因之一。不管從什么方面上來講,物體識別與檢測技術在醫療方面的應用前景都是十分廣闊的,以后也必將成為社會上的一大熱門研究方向。
那么本技術這樣的應用有沒有什么缺陷呢?肯定是有的,任何人造技術設備都會存在缺陷。目標檢測技術用于基于VR的手術輔助設備主要的缺陷就是它的準確性還達不到一定的高度,而且由于病原體存在著分化變異等特征不穩定的狀況,我們并不能單單只拿幾萬張或者幾百萬張之前發現過的病癥樣貌圖像進行訓練就能很好地發現所有人體的病變部位,畢竟病原體分化變異的同時可能會出現一種全新的病變部位的樣貌,或者一種人類從未發現過的病原體感染的病變部位也是全新樣貌的,這幾種情況下我們的技術并不能發現并標出異常,而這是由我們數據庫是既定的導致的缺陷,很難去改正,這就需要科研工作者的進一步改進改善了。總而言之,利用物體識別與檢測技術進行病變部位的識別從而運用到基于VR的手術輔助設備雖然意義重大、前景曠闊,但仍存在許多缺陷,需要我們去克服。