網羅千象，析其機要

2025-04-03 00:00:00陳凱

中國信息技術教育 2025年7期

摘要：通過設計特定任務讓學生親身體驗數據采集、整理、處理和分析的全過程，對于促進學生深刻理解機器學習算法、提升信息技術核心素養是有益的，然而，現場采集標本建立數據集的活動在頻率、范圍及適應學生多樣性等方面存在挑戰。因此，本文提出可以利用網絡，在線進行數字化標本的搜集整理來構建數據集，并介紹了三個基于在線數字化標本搜集整理的機器學習實驗項目：利用線性分類來分辨早開堇菜和紫花地丁這兩種植物圖像、基于K近鄰算法分辨公園和居民小區衛星圖像，以及構造決策樹來分辨玄武巖和流紋巖的圖像。這些項目展示了在線標本采集的便捷性和高效性，為學生提供了更加豐富多樣的學習體驗，同時提高了數據集的構建效率，更為方便地展現出不同的機器學習算法對于不同種類數據的適用性。

關鍵詞：實驗教學；人工智能教學；在線標本；數據集；生成式人工智能

中圖分類號：G434" 文獻標識碼：A" 論文編號：1674-2117（2025）07-0015-05

在人工智能實驗教學開展過程中，設計特定任務讓學生親身體驗數據采集、整理、處理和分析的全過程，不僅能夠提高觀察能力、動手能力和數據處理能力，還有助于讓學生更好地理解和應用機器學習算法。盡管如此，現場采集標本并建立數據集的活動在適應學生多樣性的自主學習和研究性學習方面卻面臨很大的挑戰：不同學生擁有不同的興趣點、學習節奏和偏好，現場采集活動往往難以兼顧所有學生的個性化需求；受學生活動范圍、時間及技術水平的制約，能夠在自然環境中現場采集獲得并用于較為基礎的人工智能實驗的數據種類是相當有限的，較難體現出機器學習作用的普遍性，也較難體現出不同機器學習算法對不同數據的適用性；此外，現場采集活動通常需要大量的時間和資源準備，這在一定程度上限制了活動的頻率和范圍，限制了組織實驗教學的靈活性。相較于現場采集，利用網絡在線標本搜集整理來構建數據集，雖然在具身體驗上有所欠缺，但能展現出獨特的便捷性和高效性。下面，筆者通過三個例子，介紹基于在線標本搜集整理任務的機器學習實驗項目，并歸納此類實驗任務的優勢。

從早開堇菜和紫花地丁的分辨到線性分類

早開堇菜和紫花地丁都是堇菜科堇菜屬的多年生草本植物，它們都在早春時節開花，花和葉子的形態非常相近，很容易認錯。但兩者有一個大概率存在的區別，就是花的顏色有微妙的不同。網絡上的資料在提及分辨方法時，一般會說，紫花地丁的顏色比早開堇菜略深一些，但實際上，只憑借這樣的信息，仍然不容易區分早開堇菜和紫花地丁，因為無論是早開堇菜還是紫花地丁，不同植株花的顏色深淺在整體上是有所不同，如果以灰度為深淺標準，早開堇菜的花色也常常深于紫花地丁。如果勉強要用語言描述，只能說，早開堇菜的花色更接近于木槿的堇色，而紫花地丁的花色更接近紫水晶的堇色。

有理由猜測，早開堇菜的花色的RGB值，即紅色、綠色和藍色的亮度值，和紫花地丁的花色的RGB值，有各自獨特的內在的比例關系。如果能夠采集到較多的兩種花的顏色數據，然后對顏色中的R值、G值和B值與花的種類關系進行線性分類，并根據分類的模型對測試數據進行驗證，如果此分類模型識別正確率高，則說明以上猜想是正確的，同時也說明，通過對兩種花的顏色的RGB值進行線性分類來區分早開堇菜和紫花地丁是可行的。

數據采集可以在“中國植物圖像庫”等較權威的植物圖像網站進行，這些網站通常提供了同一植物物種在不同地域的記錄照片。在網站上可以看出，即便是同一種花，花瓣的顏色差異也是很大的，如標本號1635352、3354151、137973、105646這四株紫花地丁花瓣顏色直觀感受有著明顯不同。在采集過程中，可以規定所要采集的顏色固定在花的某個位置，比如說，可以取5枚花瓣中上方花瓣的尖銳處邊緣部分顏色，并避開深色紋路，而不采集朝向下方的唇瓣的顏色（如圖1）。作為對照，也可以隨機選擇花瓣不同部分采集顏色，經實驗證明，如果數據足夠多，并且避開顏色過淺過亮的區域，即便是隨機選擇花瓣的區域采集顏色，對最終分類結果的影響也并不是很大，這是因為雖然花瓣各處顏色深淺有較大差異，但顏色RGB值的比例仍然保持著一定的關系。由于采集工作可以由全體學生集體實施，采集方法也很簡單，所以很快就能獲取大量數據。

利用生成式人工智能以及Scikit-Learn庫，能夠很方便地生成線性分類程序代碼。可以嘗試按顏色RGB值中R值和G值、G值和B值、R值和B值不同的組合來進行線性分類，通過分割訓練集和測試集，檢驗分類效果。經實驗，發現對R值和B值數據進行線性分類效果最好，正確率可達70%左右。

如果按兩種花的所取像素的R值和B值數據繪制出帶種類標簽的散點圖（如圖2），可以直觀地顯現出，何以線性分類是有效的，同時也能看出，有少部分早開堇菜和紫花地丁的顏色的確是難以分辨的，這也就是線性分類正確率有限的原因。

從公園和居民小區的分辨到K近鄰算法

在線衛星地圖是另一種較為容易獲得圖像標本的平臺。考慮這樣的任務：基于K近鄰算法構造模型，使之能夠在城區中分辨公園和居民小區。實驗可以按以下步驟進行：

①在衛星地圖上分別截取不同的公園和居民小區的圖像，按公園和居民小區分別進行標注，如公園圖像文件名均以P開頭，居民小區圖像文件名均以R開頭；

②將圖像裁剪到同樣的尺寸，如80*80像素，可以利用生成式人工智能生成程序代碼來實現圖片的自動裁剪，產生的圖片如圖3所示；

③提取特定的圖像特征信息，可以利用生成式人工智能來生成程序代碼，實現特定特征的自動提取；

④按訓練集中已提取的特征及已有標簽，利用生成式人工智能生成代碼，對測試集的圖像基于K近鄰算法進行分類。

在以上步驟中的第3步，需要考慮提取哪些圖像特征更適合于K近鄰算法的運用。可以優先采用一些比較簡單也很容易理解原理的方法，如提取顏色、計算信息熵等，并且，這些特征也已經在信息技術必修模塊中提及。當然，也不排除可以采用過濾器來提取邊緣或紋理信息，但對于提取出來的邊緣和紋理，如何轉換成適合K近鄰算法處理的數據，存在一定的難度。特征提取的方案具有開放性和多樣性，較容易激發出學生構想不同的方案并進行進一步實驗的熱情——由于有了生成式人工智能的幫助，很多方案可以快速有效地驗證其效果。例如，可以枚舉圖像中的像素，當某像素的灰度值大于110，并且該像素右側的第5個像素的灰度值小于70的時候，則對計數器加1，由于居民小區中常常布局了有規律的成排房屋，通過這種亮暗匹配，計數器的值就會變得很高，雖然這個結論對少數別墅區并不成立，但有很大概率識別出較大型的成規模的居民小區，如圖4所示。圖5顯示了基于像素中G值平均值高低和圖像信息熵這兩個特征值繪制的帶標簽的散點圖，可以看出，居民小區的特征點集中在左上角和中間區域，公園的特征點則差不多集中在對角線上。通過圖示可知，用K近鄰算法，對衛星地圖中的公園和居民小區進行分類是可行的。

在人們的想象中，公園的植物覆蓋率高，像素顏色G值的平均值也應該高，但實際上，某些公園有大片水域覆蓋，像素顏色中G值未必高于一些綠化較好的居民小區，不過，存在大片水域的公園圖像整體信息熵也比較低。這個例子可以說明，采用K近鄰算法，可以解決用線性分類難以解決的問題。具體的借助生成式人工智能生成K近鄰算法，對訓練集的數據進行處理并對測試數據進行預測的過程比較容易，已有大量資料可借鑒，這里就不贅述了。

從玄武巖和流紋巖的分辨到決策樹

對非專業人士來說，巖石的手標本鑒定（現場采集巖石，僅僅依靠手眼鑒定的標本）是具有相當大的難度的，但是，如果對巖石大類進行限定，如限定在最為常見的噴出巖（巖漿經火山口噴出到地表后冷凝而成）的框架中，那么僅僅通過觀察巖石的照片對巖石進行分類，就能夠保證一定的成功率。例如，玄武巖和流紋巖在肉眼觀察下可以通過顏色、外觀、結構與紋理等特征進行區分，新鮮的玄武巖通常呈現暗色或黑色，氧化后可能變為紫紅色，表面可能發育有氣孔構造和杏仁構造，其結晶粒度較細，整體呈現均質結構，而流紋巖的顏色通常為灰色、淺灰色等，有時也可能呈現粉紅色或磚紅色，表面常見流紋構造，結晶粒度相對較粗，晶體較容易觀察到，常呈現斑狀結構，圖6所示的是某玄武巖和某流紋巖的數字化標本圖像。之所以選取這兩種巖石，一個很重要的原因，就在于它們的形態差異相對明顯。可以注意到，可以通過有或沒有某種特征來區分玄武巖和流紋巖，并且，是否具有某種特征，與具有此特征的巖石究竟屬于哪種巖石還存在著一定的不確定性，這就意味著，可以采用決策樹的方法，來構建自動巖石識別模型。

在中國國家標本資源平臺、國家巖礦化石標本資源共享平臺提供了大量可供觀察的數字化的巖石標本，以下是實驗大致過程：

①教師從數字化標本資源平臺隨機選取玄武巖和流紋巖圖片，隱去巖石種類標簽，僅提供巖石編號；

②要求學生按編號觀察巖石，并按特定的特征填寫表格，記錄巖石編號和特征，相對來說比較容易觀察到的特征有是否有氣孔、顏色是否深、晶粒是否細密等，教師結合巖石的種類標簽，完成可供機器學習算法處理的數據集，圖7顯示了某次巖石數字化標本的數據采集的表格樣式；

③基于決策樹算法，利用生成式人工智能處理包含了巖石特征和巖石種類標簽的數據集，生成能夠構造決策樹并通過決策樹進行推理的代碼。圖8顯示了對某一批數據進行處理所生成的決策樹。

結論

在線標本采集不受地域和時間的限制，學生們可以輕松獲取到來自世界各地的樣本，為機器學習模型提供更加全面和多樣化的訓練數據。同時，在線標本通常經過了專業鑒定和分類，具有較高的準確性和權威性，這有助于減少數據集中的錯誤和噪聲，提高模型的準確性。此外，利用計算機視覺庫和自動化處理工具，學生們可以更加快速、準確地提取出標本的關鍵特征，提高數據采集和記錄的效率。并且，部分在線采集任務也可以和信息技術必修模塊中網絡資源獲取相關活動結合起來。在線標本采集不僅節省了時間和精力，還使得數據集的構建過程更加高效和可靠，同時也為學生們提供了更加豐富多樣的學習體驗。

然而，需要補充的是，真實環境下的現場數據采集仍然是重要且值得操作的，許多信息難以完全通過在線方式獲取，現場數據采集能夠提供更為真實、直觀的樣本信息，為學生提供領悟世界復雜性與解決問題多樣性的具身體驗。尤其在跨學科活動中，現場采集任務能讓學生親身體驗數據的來源和背景，加深對相關專業知識的理解，不僅能鍛煉學生的實際操作能力，還為更全面、更深入的思考和探索提供實踐基礎。因此，在線標本數據采集與現場數據采集應相輔相成，共同促進學生綜合能力的提升。