付睿云 白慶春 呂泰
1.上海開放大學浦東東校
2.上海開放大學上海開放遠程教育工程技術研究中心
人工智能技術發展帶來了諸多便利,但所引發的問題也受到廣泛關注。谷歌人工智能負責人約翰·詹南德雷亞認為人工智能真正的安全問題是:“如果我們給系統有偏見的數據,它們就會有偏見。”[1]英國學者塔迪歐建立的三元數據倫理框架認為偏見來自數據、算法以及實踐。[2]國內學者沈苑認為在人工智能教育應用研發過程中,偏見來自設計偏見、數據偏見以及算法偏見,其中數據偏見是社會結構性壁壘的復制與重現。[3]李昭熠從智能傳播數據庫層面分析,認為數據庫的偏見來自數據庫本身的隱形偏見。[4]在文獻梳理過程中,筆者發現對偏見的研究主要是從人工智能整體角度或數據倫理角度進行研究,并且針對人工智能教育應用的數據偏見及其治理的研究,大多比較簡略。另外,從人工智能教育應用的生命周期角度來看,偏見的源頭是數據。同時,人工智能的反饋循環設計思想還可能會放大預先存在的偏見,走向一種復雜混沌的局面。這些顯性或隱形的問題,導致人們必須重新考慮數據。因此,從數據層面研究此類偏見具有重要意義。
數據偏見的治理有具體的內容和特定的結構,需要自上而下、由表及里、系統全面地推進。而在教育界,基礎教育和高等教育對數據偏見的思考和規劃不盡相同。高等教育往上走,注重理論性、科學性、技術性的創新治理,而基礎教育往下走,更貼近學生,需要可操作性強、適應性強的治理方案。因此,研究基礎教育中如何有效進行數據偏見的治理成為本文研究的重要動因。
教育數據偏見可理解為人工智能教育應用所使用的數據包含“根深蒂固”的顯性偏見,抑或“無意識”的隱性偏差,具有主觀性、否定性、排斥性和消極性的特點,最終反映到輸出模型存在偏見。隨著越來越多的教育實踐被數據化,數據偏見引發的問題也逐漸暴露和發酵。通過教育數據偏見的外在表現例子,可理解其帶來的負面影響。一是數據偏見導致教育公平性受阻。2013年美國德克薩斯大學曾開發一套名為GRADE(GRaduate ADmissions Evaluator)的機器學習系統,用于簡化招生流程及節省招生時間。通過對自然語言的處理,可基于推薦信上的內容建立識別模型,對候選人的簡歷打分,并按分數降序,審查申請人情況。[5]但在2020年,因為擔心機器學習系統使用的教育數據集存有偏見,有可能帶來不公平或錯誤的結論或決定,該系統被迫停用。二是數據偏見抑制學生全面發展。學生畫像即通過算法捕捉學生的個人喜好和動態需求,建立多維度的畫像標簽。這些個性化算法技術的底層邏輯是基于使用者的本能喜好,提供學習支持服務,形式上屬于精準式投喂信息。[6]但由于相同樣本數據的積累和放大,忽略了多樣性的數據,限制了學生的全面發展。三是數據偏見加劇教育質量鴻溝。人工智能教育應用缺少涵蓋特殊群體的數據,有可能發生教育領域內的馬太效應,即“富者愈富,窮者愈窮”現象。
對人工智能教育應用的數據處理,通常涵蓋數據獲取、數據分級、數據分析、應用和可視化等階段,數據偏見可歸納為四種成因方式。需要說明的是,四種類型的偏見劃分,只是一種原則性的劃分,標識不同偏見的特點,并不具有精確的劃分意義。同時,這些偏見不是彼此割裂、相互獨立,而是相互聯系,并常常交叉重疊。
數據是人工智能教育應用的基礎。雖然更多的數據并不意味著更好的結果,但一般來說,數據越多,模型越可能取得良好和穩健的表現。例如,在機器學習和深度學習領域,樣本數量不足的模型容易陷入過擬合以及對目標任務的欠擬合。但當前人工智能教育應用所需要的數據資源可獲取的途徑十分有限。因此,人工智能教育應用的提供者不得不在真實存在的學生身上開展實驗,以不斷調整優化應用。
學生的學習過程是多模態的,需要多模態的人工智能技術感知不同的信息維度和信息來源,以滿足復雜環境下的學習測量與評價。但目前國內大部分智能教育產品都處于弱AI的范疇[7],主要用于作業測評與個性化推薦方向。以學習軌跡分析為例,傳統的學習管理系統(Learning Management System)主要依靠學生到課率、資源點擊率、作業完成率等表層數據進行分析,基于同理心、情緒、腦電、眼動等深層次的信息無法感知。即使在明確教學原則的情況下,人工智能無法多源感知數據和理解學生,容易專注于可用的數據,忽略有效數據或者關鍵數據,而不是從教育的基本原理出發,揭示教育發生的一般規律,有目的地收集數據,這種單一模態特征采集的數據容易產生偏見。
權重型偏見指的是有成見、刻板印象或錯誤社會假設的數據,導致某些元素相對其他元素具有更大的權重。雖然人工智能教育應用在設計時盡量避免嵌入偏見,但中立的數據是人們烏托邦的想象。例如,機器學習可對大量歷史數據進行學習,進而利用生成的經驗模型指導業務。在機器學習訓練過程中需要進行必不可少的特征標注,旨在找出對教育模型有益的特征交叉關系,特征標注過程就反映著標注者的個人性格、所屬的文化格局以及代表的社會結構。即使刪除或忽略這些敏感特征也并不能阻止偏見模型的產生,因為其他相關特征(也稱為冗余編碼)可能被用作它們的代理。
在大數據時代,人工智能教育應用產生指數倍增長的數據,如果沒有統一的教育數據標準,難以對數據進行有效和持續性的存儲、分析和利用。數據標準是保障數據使用和交換過程一致性和準確性的規范性約束。[8]同時,標準需要基于教育理論與教育實踐,但不同學科存在學習和教育過程的認識論差異和行為差異,教師在教育教學過程中所需的各類標準不一。另外,教師有著自身的知識盲區和認知局限性,在不具備充分的教學法、技術或學習評價等方面知識的情況下,即使相似類型的數據,也可能進行不一致的標記。如果在輸入算法之前未考慮教育數據標準性,會不可避免地導致數據偏見。
數據偏見的治理已經成為人工智能和數據倫理領域的重要問題。楊慶峰教授認為,從解釋學的“偏見—理解”框架看,作為在先的行動或者理解的前提,數據偏見是無法消除的。[9]但如果從數據歧視、數據虛假、數據缺失以及數據污染角度來看,數據偏見可以消除。
教育數據偏見治理是當下未來學校教育生態治理的重要標向,家校共治則是基礎教育治理現代化的有效途徑。一方面,從內涵要求上,共治是對傳統教育治理方式的超越,共治強調教育主體(教師、家長、學生)的多元性,強調數據治理過程的民主性,體現基礎教育數據治理的務實性,符合現代教育治理的內涵和要求。另一方面,從價值層面,人工智能的公平性和包容性是每個教育組織的核心價值。實現這樣的價值目標,要建立健全家長參與學校數據治理的制度、體系、機制等。除傳統層面加強學校自治以外,現代教育治理體系要將教育治理參與權與決策權下放給其他教育主體,實現分權共治,順應人工智能的價值指向。家校共治路徑探索如右圖所示。
《上海市教育數字化轉型實施方案(2021-2023)》提出打造教育數字基座,開展數據教育治理與應用。搭建校級數字化基座不僅實現了各級數字基座聯接和復用,而且通過實現大規模結構化、非結構化的數據采集、數據認證、數據授權以及數據的標準化等工作,使得數據民主化。所謂的“數據民主化”是指賦予人們,特別是弱勢群體或處于不利境地的,接近數據的權利,以確保利益訴求得以實現。首先,打造校級數字基座,聯通數據孤島,搭建數據門戶,創建可視化內容,開放訪問路徑,建立有效的信息交流機制。其次,注重基座內的數據透明度、可審計性和可問責性,如掌控數據決策過程、明確的文件記錄數據采集過程等。最后,便于教育主體自行獲取數據,自行分析和驗證。在數據安全、數據合規、安全管理框架下,數據可流動、可獲取、可應用,人、物、數據實現互通互聯,使用者的數據邊界被拓寬,教育主體的參與程度得以拓展。
在理想情況下,教師是人工智能教育應用間接的建設者和維護者,是教育數據直接的使用者和解讀者,是數據工作者和學生之間的溝通者。雖然教師不需要具備良好的數據和算法程序的編寫經驗,不必成為數據科學專家,但需要掌握數據科學的基本知識,運用數據的基本倫理規范辨識數據在教育環境中的優劣勢和真偽性,并能解釋人工智能系統中所使用和提供的數據,在協同學習和工作中分享真實、科學、有效的數據。教師作為利益相關者應參與到人工智能教育應用中。一方面,教育工作者的基本責任首先是不造成傷害[10],在沒有得到支持或允許的情況下,限制教師自身行為,提高紅線意識,防止燈下黑,確保學生不會受到意外傷害;另一方面,教師作為監督者,需要主動維護數據安全,了解數據隱私等行政和監管政策的必要性,防止人工智能教育應用的創建者加入偏見和傷害。

計算思維屬于信息技術學科思維,包含算法思維、評估、分解、抽象、概括五大要素。[11]在傳統中小學信息技術課程設置上,課程主要偏向于程序設計語言和技術工具應用,教學中很少涉及人工智能的倫理問題,特別是數據偏見問題。聯合國教科文組織認為,中小學人工智能課程需涉及編碼,而更重要的是要教會學生計算思維,這種思維能讓學生知道對機器的決策何時該信任,何時該不信任。基于此,應適當增加基礎教育階段適齡學生的人工智能與社會、人工智能與人類智能的正式和非正式學習內容。正式學習以《人工智能保護海洋》(AI for Oceans)為例,此活動由美國公益組織Code.org開展,學生先區分海洋中的物體是不是魚,確認是垃圾后再進行清除,然后不斷地通過添加其他海洋生物來擴大數據集。通過這項活動,幫助學生理解在組織或系統中,不同利益相關者所扮演的角色和發揮的能動性,以及這些利益相關者如何在算法和倫理矩陣中融入自己的價值觀和偏見。非正式學習形式則可安排學生觀看Netflix的紀錄片Coded Bias或HBO的紀錄片Persona等,將計算思維融入到學生生活和學習中。
在現代教育治理的視域中,家庭、家長或者其他監護人也是治理主體,基礎教育的學生無法維護個人的權益,需要家長及時介入。[12]很多家長無法從海量數據中搜索出需要的資源(技術層面),不了解大數據殺熟、過濾氣泡、信息繭房、回聲室效應等數據概念和技術內涵,未意識到數據對自身以及孩子帶來的影響(認知層面)。因此,開展家長數據教育培訓活動,提升家長數據意識,提高家長的網絡素養水平,顯得尤為重要。家長要承擔起陪伴成長發展的第一責任,注意培養和提高孩子獲取、選擇、分析、應用信息的能力,讓孩子逐步形成判斷信息真偽和良莠的能力。