
中圖分類號:G434文獻標識碼:A論文編號:1674—2117(2025)19-0089-03
在人工智能教學中,“特征”是一個核心概念。無論是圖像分類還是語音識別,算法的目標都是從數據中提取有意義的特征。傳統方法依賴人工設計規則,而深度學習模型則能自動學習特征,但這個過程往往像一個“黑箱”,難以直觀理解。為此,筆者設計了一個圖像特征提取與比較實驗,嘗試打開這個黑箱,幫助學生理解機器是如何“看”圖像的。
圖像特征提取的技術與工具
圖像特征提取主要有兩種思路:一種是傳統算法,依靠人工設計的規則提取圖像中的顏色、形狀、紋理等基本信息;另一種是深度學習方法,通過神經網絡自動學習圖像的層次化特征。在傳統算法中,HOG(方向梯度直方圖)通過統計圖像局部區域的梯度方向來構建特征,常用于描述物體輪廓。LBP(局部二值模式)則通過比較像素之間的灰度差異來提取紋理特征。這些方法簡單有效,但對光照、角度變化敏感,難以應對復雜場景。深度學習方法如卷積神經網絡(CNN),通過多層網絡結構逐步提取圖像中的邊緣、紋理、部件等特征,最終形成具有語義信息的特征向量。這類方法適應性強,能自動從數據中學習,更適合現代視覺任務。
若要比較不同方法的特征提取效果,可選擇一組圖像,先分別提取特征再計算它們之間的相似度。常用的工具有OpenCV(支持HOG等傳統算法)、BaseNN(提供多種預訓練CNN模型)以及XEduHub中的CLIP模型(支持圖像與文本聯合理解)。XEduHub還提供了方便的相似度計算函數,便于比較特征向量。
圖像特征提取實驗的設計
本實驗旨在通過具體操作,比較不同特征提取方法的效果,并引導學生思考特征背后的機器視覺原理。
1.實驗目標
設定實驗目標如下:
① 比較傳統算法與深度學習在特征提取中的差異;② 檢驗預訓練模型是否能夠有效區分不同圖像;
③ 探究模型參數數量是否影響特征提取效果;④ 評估CLIP模型在圖像理解方面的獨特優勢。
2.實驗準備
實驗選用五張圖像:兩只不同的貓、一只長得像狗的貓、一條狗和一只鳥(如圖1)。這些圖像在視覺上具有一定梯度,便于觀察特征提取方法是否能夠反映人類對圖像的理解。實驗基于XEdu環境,使用Python編程,調用OpenCV、BaseNN和XEduHub等庫。
3.實驗核心環節
實驗分為三個環節,分別使用傳統算法、CNN模型和CLIP模型進行特征提取與比較。
環節一:基于傳統算法的圖 像特征提取
使用OpenCV中的HOG算法提取圖像特征。為避免圖像尺寸不一致導致特征維度不同,所有圖像統一調整為 256×256 像素。核心代碼如圖2所示。
在提取特征后,使用XEduHub中的get_similarity函數計算余弦相似度。計算結果如圖3所示,HOG算法對圖像內容的語義理解能力較弱,甚至出現“鳥與貓”相似度較高的不合理情況,說明傳統方法在復雜場景下存在局限。
環節二:基于BaseNN的圖像 特征提取
BaseNN提供了extract_feature函數,可方便地使用預訓練CNN模型提取圖像特征。筆者嘗試了ResNet18、ResNet50和MobileNetV3等模型,參考代碼如圖4所示。
計算結果如下頁圖5所示。實驗發現,ResNet18在相似度排序上表現最佳/貓與自身最相似,其次是另一只貓,接著是像狗的貓、狗,最后是鳥,符合人類認知。經過測試,參數更多的ResNet50并未顯著優于ResNet18,說明模型不是越大越好,合適才最重要。
環節三:基于CLIP模型的圖 像特征提取
CLIP模型(ContrastiveLanguage-Image Pre-training)是一種多模態預訓練模型,由OpenAI在2021年提出。CLIP模型內置了圖像編碼器。





與鳥?機器需要學習什么才能接近這種能力?特征向量中的每一個數字究竟代表了什么?這些問題的探討,有助于學生跳出代碼實現,觸及人工智能的核心—如何讓機器形成對世界的抽象表達。
未來,教師還可將實驗拓展至多模態任務,如嘗試用文本描述檢索圖像,或比較同一模型對不同藝術風格圖像的特征提取效果,從而幫助學生理解視覺表征的多樣性與復雜性。通過這類實驗,不只是教授技術,更是在培養學生對智能本質的認知與思考。 e
用XEduhub內置的CLIP模型提取圖像特征向量的代碼如圖6所示。
③ 模型參數越多不一定效果越好,應根據任務需求選擇合適模型。
④ CLIP模型憑借其多模態訓練背景,在圖像語義理解方面表現突出,特別適合開放環境下的圖像理解任務。
CLIP模型提取的圖像編碼雖然只有512維向量,比起HOG和ResNet18的1000維來說要“輕量”很多,但是具備強大的多模態理解能力。相似度比較結果顯示,CLIP能準確識別圖像之間的語義關系,排序合理且區分度明顯,展現了其在零樣本學習任務中的潛力。
圖像特征提取實驗的實施反思
圖像特征提取實驗的研究結論
通過實驗,可以得出以下結論:
圖像特征提取實驗不僅是一次技術操作,更是一次理解機器如何“看”世界的思維訓練。通過對比傳統方法與深度學習的特征提取效果,學生能直觀感受到從“人工設計規則”到“機器自動學習”的范式轉變。傳統方法如HOG雖能捕捉輪廓紋理,卻難以理解語義,而CNN通過層次化學習,逐步構建起從邊緣到物體的認知邏輯,CLIP則進一步打破模態界限,展現出跨模態理解的潛力。
① 傳統算法在形狀描述上有效,但缺乏語義理解能力;深度學習方法能捕捉更高層次的特征,更適合復雜圖像。
② 預訓練CNN模型能有效區分常見圖像,輕量模型如ResNet18在多數任務中已足夠使用。
在教學中,教師可引導學生深入思考:為什么人眼能輕易區分貓