


摘要:本文圍繞具有跨學科特性的利用人工智能進行校園植物觀測的活動,探討用于人工智能學習的本土對象的數據集構建的相關問題,提出應該從學生日常生活出發,結合真實情境,為數據采集和分類任務建立具有一定合理性、真實性的目標框架,可以為分類目標限定范圍,分類任務中的對象的特征既要有相似性又要有區分度,可以通過計算機視覺庫的自動化處理來提高特征數據采集和記錄的效率。
關鍵詞:人工智能;自然觀測;數據集
中圖分類號:G434 文獻標識碼:A 論文編號:1674-2117(2024)19-0015-04
用于人工智能教學的數據集可以是人為主動生成的,如用攝像頭拍攝手勢、用加速度傳感器記錄人的運動狀態、對電腦中的涂鴉截屏等,也可以利用機器學習庫生成某些帶有隨機性的數據。更多情況下,數據集的數據來自真實環境中某些對象的特征,如道路、建筑、動物、植物等對象的某些特征數據。對于具有跨學科特征的與自然觀測相關的實踐活動或自主研究項目,往往希望學生能夠完整地體驗到在自然環境中采集數據、整理數據、處理和分析數據的過程,其中面臨的一些問題就是應當采集哪些對象的數據、采集哪一方面特征的數據、如何采集數據等。
雖然有很多數據集采集自真實世界中的某種自然的對象,但它們可能距離學生的生活較遠。例如,鳶尾花數據集(Iris Dataset)是在機器學習和統計學中常用的一個經典數據集,該數據集包含了150個樣本,分為山鳶尾(Iris-setosa)、變色鳶尾(Iris-versicolor)和維吉尼亞鳶尾(Iris-virginica)三種類別,每類包含50個樣本,每個樣本有花萼長度(Sepal Length)、花萼寬度(Sepal Width)、花瓣長度(Petal Length)和花瓣寬度(Petal Width)四個特征。由于數據集結構簡單且易于理解,常被用作人工智能教學中的示例或實驗素材??墒?,由于活動范圍的限制,筆者尚未親眼見到鳶尾花數據集中三種鳶尾中的任意一種,筆者所處的上海市區,常見的是公園中作為園林花卉栽種的路易斯安那鳶尾、西伯利亞鳶尾或日本鳶尾。但這些鳶尾采集數據卻存在頗多問題,如:較少有學校同時種植多個品種的鳶尾;鳶尾花雖然花期可能長達三個月,但對于全年的教學安排來說,可供觀察和記錄數據的時間相對有限;較少有供學生自由對鳶尾花開展測量的場所;這些種類的鳶尾花的顏色和形態差異太大,利用機器學習進行分類的必要性不足。
因此,本文圍繞具有跨學科特性的利用人工智能進行校園植物觀測的活動,來探討構建用于人工智能學習(而非科學研究)的本土對象的數據集的相關問題。為了方便說明問題,本文的討論基于這樣的活動過程:首先,安排學生在校園內采集標本;其次,將標本輸入計算機,生成數據集,繼而由機器學習算法或人工神經網絡進行訓練生成分類模型;最后,針對測試集的樣本驗證分類效果。
數據采集
需要結合教學情境,為數據采集建立具有一定合理性、真實性的目標框架。從學生日常生活出發創設情境,相較專業的科學研TEwFPT+8Ym/z7IiEKxo7jw==究的分類,更容易找到具有合理性、真實性的分類任務。例如,首先,可以讓學生仔細觀察道路兩旁的行道樹,思考如何通過觀察特征來區分不同的行道樹種類;其次,用現有的人工智能軟件來對行道樹的種類進行區分;接著,討論人工智能軟件是如何成功進行分類的;再次,采集標本,記錄數據,借助生成式人工智能,利用機器學習庫或神經網絡庫,自行架設機器學習或人工神經網絡模型;最后,用這些模型進行分類測試。
以行道樹為數據采集對象的原因有:①行道樹種類不多,相較極為龐大的植物家族來說,僅對行道樹分類是一個相對可控的分類任務,當然可能有其他的分類任務框架,如分辨校園中的玉蘭科植物、分辨薔薇科植物等,特定范圍的限定,能夠極大地簡化分類任務。②獲取行道樹的特征數據也較容易。例如,容易采集到樹木的落葉,除了秋季能采集到多種樹木的落葉外,春季也有多種樹木在換葉期,如香樟、女貞、廣玉蘭等,香樟和女貞的樹葉形態相近但又略有區別,用來作為機器學習分類任務的對象,既為特定情境提供任務(人可能因為樹葉形狀相似而誤認),又具有用人工智能解決問題的挑戰性(需要研究如何合理選取特征數據)。在教學過程中,可以安排學生拾取校園中的落葉帶至教室再用攝像頭進行記錄,建議在拍攝時設置統一的背景,便于后期圖像處理。除了樹葉,不同樹種的樹皮紋理也是一個可以較為方便獲得的特征。如圖1所示是香樟和女貞這兩種樹木的樹皮圖像數據的一部分。
在植物學中,植物分類主要以植物的花、果實和種子作為分類依據,且尤其突出花作為分類依據的作用。原因主要是花、果實和種子受環境影響較小,形態結構相對穩定,在進化過程中,花、果實和種子的形態結構變化不大,保持了相對的穩定性,它們的形態結構特征能夠反映植物之間的親緣關系和進化關系;相比之下,植物的莖、葉等器官在生長周期中變化較多,更易受外界環境的影響,形態、大小、顏色等方面與植物種類對應關系不確定,所以不太適合作為植物分類的主要依據。不過,如果是在校園環境中實施利用人工智能進行植物分類的活動,情況就有所不同,因為校園中植物的類別總體有限,植物的莖、葉等器官能夠和有限的植物種類建立起對應關系。而若要對花進行觀測和數據采集,容易受到多方面的限制,如:花的花期是有限的;不同花的開放時間不同;較難將花單獨摘取下來記錄數據,而若不摘取下來,測量和記錄又比較麻煩;另外,花的形態更為多樣細致,數據描述更為困難,對圖片的像素要求高,在后期自行構造人工智能分類模型時,可能會有算力上的壓力。當然,可以設法人為地解決以上困難,如為人工智能教學建設一塊專用的植物試驗田。
圖像處理與數據記錄
在教學過程中,雖然可以人工測量并記錄特征數據,但這通常需要花費大量時間,測量過程也較容易受主觀因素影響,所以,可以利用計算機視覺庫(如OpenCV庫)自動測量并獲取特征數據。自動采集的數據可能有偏差,但只要樣本數量足夠大,記錄得到的特征數據仍然是可靠的。
以樹葉為例,可以通過視覺庫獲取特征數據——樹葉的顏色、長寬比例、邊緣平滑程度、圖像信息熵等,相關代碼可以利用生成式人工智能快速編寫完成。例如,為了獲得樹葉的多項特征,可撰寫如下提示語句交由生成式人工智能處理:“讀取當前文件夾下所有圖片,選取每張圖片正中間19*19像素區域,獲取其RGB值,將R值除以G值所得到的數據存儲于dataset.csv文件的color字段中;選取圖片背景中的唯一物體,計算其邊緣平滑程度,將數據存儲于dataset.csv文件的edge字段中;計算該物體長度除以寬度數據,存儲于dataset.csv文件的shape字段中;根據文件名首字母判斷物體種類到底是A還是B,存儲于dataset.csv文件的species字段中?!碑斎?,在實際操作中,需要調整提示詞以及生成代碼中的閾值參數,以求得較佳效果。如果后續實驗是利用人工神經網絡構造樹葉的分類模型,則需要根據實際的算力,將圖像轉換成灰度并降低像素值,當然,這樣會面臨顏色信息丟失的問題,可以通過顏色空間轉換,或提取顏色信息作為神經網絡的輔助輸入等方法解決問題。
如圖2所示是利用生成式人工智能的代碼,測量樹葉并獲取相關數據的dataset.csv文件內容的局部。其中,第0個字段表示種類,A代表香樟落葉,B代表女貞落葉;第1個字段是顏色數據,表示樹葉紅色成分比上綠色成分的程度;第2個字段表示樹葉邊緣光滑程度;第3個字段表示樹葉所占區域矩形長度和寬度的比例。從數據中可以看出,香樟落葉偏紅一些,女貞落葉偏綠一些;香樟落葉邊緣沒有女貞落葉邊緣平滑;香樟落葉比女貞落葉長寬比例更小一些,也就是說,香樟落葉看上去更胖一些。當然,這些特征是從樣本數據的整體程度上體現出來的,每一片樹葉個體上的特征有時候和種類關聯性不強,但機器學習算法通過處理大量數據,以及同時考慮多個特征的綜合影響,來更準確地預測植物種類。對于獲取到的樣本數據,可以采用特定的機器學習算法來生成預測模型并進行分類測試,比較容易理解的機器學習算法有K近鄰、樸素貝葉斯、決策樹等。
值得一提的是,現實世界具有高度的復雜性,特征數據的提取過程必然經過高度的抽象,抽象簡化了計算過程,但也掩蓋了部分真相。例如,香樟樹葉和女貞樹葉的長寬比例事實上非常接近,它們的邊緣本來也都相當光滑,但在樹葉落下后,香樟樹葉和女貞樹葉分別以不同的方式蜷曲,許多香樟樹葉邊緣容易蜷曲,產生邊緣不光滑的視覺效果,許多女貞樹葉以主葉脈對稱作整體蜷曲,如果不將樹葉壓平而是自然放置,就產生出瘦長的視覺效果。所以,對香樟和女貞掉落樹葉進行分類,相較于對摘取樹枝上的樹葉進行分類,對初學者而言,實施分類任務的難度反而降低了。
數據集的使用
如果利用生成式人工智能和機器學習庫,那么分類模型的構建是相當方便的。例如,圖3所示的是用Scikit-learn庫劃分數據集,并采用K近鄰算法為樹葉數據建立分類模型,并對測試集進行測試的例子。即便采集的樣本數量不是特別多,也能夠利用傳統的機器學習算法構建分類模型,不過,需要通過人為觀察選擇出適合用于分類模型的特征。若是利用人工神經網絡來進行分類,那就不需要人為選取特征,但需要有更多樣本來供神經網絡訓練學習,而且訓練耗時也較長。圖4所示的是用neurolab庫,對轉換為40*30像素灰度的樹皮的圖案,用人工神經網絡進行分類訓練的Python代碼。
學生親自采集樣本、測量樣本、記錄數據,并利用機器學習算法或人工神經網絡對數據進行分類,相比于單純下載和使用數據集進行人工智能學習,具有以下幾個顯著的好處。
①通過親手采集樣本、測量和記錄數據的過程,不僅鍛煉了學生的觀察力和動手能力,還能讓他們了解數據處理和分析的基本步驟,在理論知識與實踐的結合中,增強學習興趣和記憶深度。
②加深學生對真實世界問題的理解。來自現實世界的數據往往比用于理論學習的數據更加復雜和多變。學生通過處理自己采集的樣本數據,能更好地理解實際情況下可能遇到的各種數據問題,如數據獲得方式、數據選取方式等,同時,在實踐過程中,學生能建立起與數據的更深的情感聯系。
③引導學生更加重視現實中的問題,如環境保護和生物多樣性的問題,增強他們的環保意識和責任感。學生需要對自己的數據負責,確保數據的準確性和可靠性,這樣有助于培養研究中的科學精神和嚴謹態度。
④活動具有跨學科特性,涉及生物學、統計學、機器學習等領域的知識。在任務實施過程中,學生需要將不同學科的知識技能進行整合。