王利東 劉婧 張運杰


[摘 要]大數據時代,個人生活、科學研究乃至社會管理都需要依靠數據進行決策,現代所有人都應該具備大數據的理念和思維方式,數據素養成為一項通用的技能。線性代數作為一種數學工具是工科專業的必修課,同時也是眾多數據分析技術的理論基礎之一。靈活掌握線性代數知識對于數據素養的培養至關重要。本文以數據處理原理為引例,探索將數據素養教育融于線性代數教學及自主學習中的教學方法,并以此引導學生掌握數據科學的數學理論,培養學生的創新精神,提高對新知識的求知欲,擴展學生處理大數據的思維方式。
[關鍵詞]線性代數;教學模式;數據素養
[中圖分類號] G642.0 [文獻標識碼] A [文章編號] 2095-3437(2020)06-0094-03
一、背景
“大數據”作為繼云計算、物聯網之后的又一顛覆性技術,已成為決定國家綜合國力強弱的關鍵資源,因此了解大數據的理念、培養大數據的思維方式是非常重要的。普遍認為的數據素養是指個體在一定行為規范內讀取、理解、創建和分享數據的能力。擁有數據素養就是具備了一項通用的技能,使得自己在“一切都被記錄,一切都被分析”的數據化時代更好的生存和發展[1]。較好的量化推理能力和數據思維已被公眾認為是最該具備的素養。
目前,國內高校所開設的數據素養通識課程大都以圖書情報信息檢索為主要授課內容,這與當今流行的數據技術以及與培養數據思維相關的教學內容有較大差別。由于這些課程面向的是本專業學生,對前期專業基礎知識要求較高,即便是眾多高校均開設相關課程,也尚未達到通識教育目的,因此需要發展多方位的數據素養教育實踐活動。培養數據素養應是一種終身學習過程,學習教育對學生的影響不能追求立竿見影的效果,因此應該做長遠打算,追求潛在的、深遠的謀略。讓學生產生興趣,進而將學習的積極性調動起來,這是最好的學習方式。因此,以通識教育為原則,以培養開闊的視野,提升終身學習能力為目標,把數據素養的教育融入本科生基礎課教學過程是非常必要的大學生的未來發展將起著重要的作用。
二、線性代數與數據素養
近年來隨著科技發展和社會進步,數學在大數據、互聯網、通信技術、人工智能等各個新興領域中得到重視,并在某些領域發揮了關鍵的作用。知名通信科技企業華為公司也宣稱他們真正的核心科技是數學。最近阿里巴巴公司發起全球數學競賽,獎金百萬,鼓勵年輕人熱愛數學,從數學中發現新知。線性代數作為一門重要的數學課程,具有強大的應用背景,其理論和方法已經滲透到數學的許多分支,同時也成為人工智能與大數據技術支撐的數學理論基礎之一[2]。無人駕駛、圖像處理、社交網絡和通信系統中的主流智能算法無不以線性代數為其支撐原理,其重要性不可否定。
三、線性代數教學模式的思考與借鑒
在國外,線性代數教學主要采用兩種手段。一種是概念公理化教學,突出線性空間理論、培養學生抽象思維的教學模式。另一種是應用型導向的直覺化教學,突出計算與應用能力[3]。這兩種教學模式各有優勢和不足,前者有益于數學思維的培養,對學生后續學習和發展有著重要作用,但學生會感覺枯燥。后者具有直觀的優點,有助于引導學生入門,但在基于大量軟件教學的模式下,學生對軟件有著依賴性,對培養概念理解能力及深層邏輯思維不利。朱琳和蔣啟芬兩位學者對美國和法國各自線性代數教學模式的爭論與優缺點、三種實踐教學過程的收獲與不足進行了多視角評析,其研究成果為我們本土院校開展教學改革提供了參考[3]。從歷史分析與認識學習視角分析看,兩種教學模式可以相互促進,初始階段的直覺化教學會對后期概念公理化教學產生積極作用,符合學生學習的認知過程。
目前,線性代數的概念公理化與直覺化協同教學已經引起教師的重視,廣泛采取的方法是以生產實踐中實例作為引例進行概念講解,并結合數學軟件進行授課。透過這些實例,讓學生看到數學的廣泛應用及掌握相關的數學概念的重要性[4-6]。但是基于實例的教學研究與數據素養有聯系也有一定差別。前者強調的是應用性,特別是專業領域的應用;而數據素養強調的是一種通識教育,培養較強的數據意識。在大數據環境下,旨在培養數據素養的線性代數教學在強調直觀教學的同時,也更需要加強對基本概念和基本理論的深入理解,了解現象背后的數學原理,加強數學概念的深化教學。本文探索如何將數據素養教育融于線性代數教學及自主學習中,并以范德蒙德行列式和最大無關組的案例教學方式(證明過程此文略去)進行展示。
四、教學設計與擴展分析
范德蒙德行列式和最大無關組是線性代數中的兩個概念。前者在教材中以例題的形式出現:作為一類特殊的行列式,它有著獨特的形式極其簡明的計算結果;教學中更多關注于它的各種擴展形式的計算(例如加邊法計算范德蒙德行列式)。最大無關組則被用來刻畫向量之間、線性空間結構等問題。范德蒙德行列式與最大無關組不僅是數學領域中重要的數學概念,而且在數據處理中有著重要的地位。通過了解數據處理中的數學原理,可使得學生了解基本的數據處理技能及數據意識,更有助于提升他們的學習興趣。
(一)范德蒙德行列式、矩陣及其應用
背景介紹:已知前四個數字為1,8, 27, 64,預測第五個數字。課堂上學生很快給出答案是125。這是因為他們觀測到了數字的變化規律f(n)=n3。但對于復雜的猜字游戲我們很難立刻給出答案,例如1 ,3 ,6 ,10 的下一位數字是什么?
問題分析:事實上,數字是按照先后次序出現的,可以用序對(n, f(n))來刻畫每一個出現的數,既有(1,1),(2,3),(3,6),(4,10)??苫谶@些點通過構造一個三次多項式函數f(x)=c3x3+c2x2+c1x+c0來刻畫數據變化規律。因此,只需計算出常數c1,c2,c3, c0即可預測下一個數據。為此構造方程組:
利用范德蒙德行列式計算公式和克拉默法則求解Ac=y,得出c0= c3=0,c1= c2=0.5,由此可知數字規律公式為f(n)=0.5(n2+n),f(5)=15。以上恰是數據擬合的主要過程,更特別地,在Matlab軟件內部曲線擬合函數p=polyfit(x,y,1) 編程過程中也主要體現了這一點。
擴展分析:猜數字游戲直覺上是找規律,背后蘊含著線性方程組求解問題。以上預測方法巧妙利用范德蒙德行列式求構造多項式函數,以冪函數作為基函數來逼近任何形式的函數,這種方法不但容易求解,而且可以使得結果具有良好的數學性質。
下面將以指數型函數作為基函數做出逼近曲線并將兩者進行對比。假設曲線過(1.2, 0.91),(1.5, 0.69),(1.9, 0.43), ?(2.5, 0.27), ?(2.6, 0.25)五個點,從圖像上看這些點位于指數函數y=3ex圖像附近。我們可基于這些點通過構造一個四次多項式f1(x)=c4x4+c3x3+c2x2+c1x+c0,通過建立方程組可求得c4=-0.3323,c3=2.5625,c2=-6.9402,c1=7.2474,c0=-1.5320。同時選指數函數1,ex作為基函數來生成曲線逼近以上五點。通過求解獲得逼近曲線f2(x)=2.9427ex+0.0214,其與f1(x)對比見圖1。由圖1可以看出,盡管五個點位于指數函數y=3ex數的附近,但f1(x)的逼近效果要比f2(x)好。實際上還可進一步借助逼近誤差來論述這一斷言。
(二)最大無關組及應用
問題引入:在自然界中,大部分彩色均可由三種基色按一定比例混合而成;反之,任意一種彩色均可被分解為三種基色。作為基色的三種彩色不是唯一的,但它們之間要相互獨立,即其中任何一種基色都不能由另外兩種基色混合來產生。通常人眼對紅、綠、藍最為敏感,大多數的顏色可以通過紅、綠、藍作為三基色按照不同的比例合成產生。但是除了紅綠藍作為基色外,還可以選擇其他的三種顏色作為基色,見圖2。
問題分析:實際上圖像的每個像素點是一個三維向量(R, G, B),其分量值分別代表紅綠藍的分量[7]。任何像素點的顏色均由三個向量按照不同比例配置而成,而這三種顏色缺一不可。例如:Red=(255, 0, 0), Green=(0, 255, 0),Blue=(0,0,255). Yellow=Red+Green=(255, 255, 0)。與顏色組合類似,討論向量組線性關系問題時,我們希望掌握部分向量從而把握全局。這少數部分向量應該滿足:1.不能相互代替——彼此線性無關;2.其余的向量都可以用它們表示——其余向量可由這部分向量線性表示。 滿足以上兩條的向量組就是全體向量組的一個最大無關組。用數學語言表達如下:
定義引入:設存在向量組a1,a2,…, as的一個部分組ai1,ai2,…,air,滿足:
(1) ai1,ai2,…, air線性無關;
(2)任意的向量ai均與ai1,ai1,ai2,…,air線性相關(等價于任意的ai均可由ai1,ai1,ai2,…,air線性表示),則稱部分組[αi1,αi2,…,αir]是向量組a1,a2,…, as的一個最大線性無關組(簡稱最大無關組)。
擴展分析:直覺上,最大無關組是選最優代表問題,其背后是尋找向量空間基的過程。在數據挖掘中也有著類似的過程,特征選擇或屬性選擇的目的是從已有的M個特征中選擇N(N≤M)個特征使得系統的特定指標最優化,降低數據集的維度。要求滿足選擇出的N個特征之間的重疊性盡可能小,且與類別信息關聯性較大(特征子集信息量大,冗余?。?。這個原則與最大無關組很接近,但又不能直接照搬。這是因為,不同特征向量,很少具有線性關系,往往采用其他度量方法(一致性、互熵、皮爾遜系數、依賴度和分類誤差等)作為特征選擇的衡量標準。但無論使用何種標準,其思想與最大無關組都有相似之處。
現以Iris數據集的特征選擇為例。Iris數據集是數據挖掘領域最著名的公開數據集,其中文名是安德森鳶尾花卉數據集。Iris包含150個樣本,每個樣本對應著四個特征(花萼長度、花萼寬度、花瓣長度、花瓣寬度四個特征)和類別信息(山鳶尾、變色鳶尾、維吉尼亞鳶尾),所以Iris數據集是一個150行5列的二維表?,F在需要判斷樣本屬于山鳶尾、變色鳶尾還是維吉尼亞鳶尾。我們希望采用最少的特征來建立分類器,故需要探索各個特征的重要性。由Iris數據的散點圖(圖3)可知,花瓣長度、花瓣寬度對分類貢獻率最大,因此只選這兩個特征來建立分類器就能達到較好的分類效果。至于花瓣長度、花瓣寬度兩個特征關聯性是否較大,可采用數據挖掘中最大相關最小冗余方法進一步探索。
提高學生的數據素養單單依賴課堂教學遠遠不夠,在提升他們學習興趣的同時,應考慮如何給學生提供一個提升數據素養能力的重要途徑。這需要將教學和科研、生產實踐有效地結合起來,讓學生廣泛參與到科研活動中。在課后可以以專業實驗室和科研課題為依托,以通識教育為主,深入剖析基本理論適用價值及數據信息提取的意義;對于掌握了統計學的基本知識和計算軟件的學習者,可以以課外實踐訓練為主,鼓勵學生參與教師的課題進行探索達到對實際數據的理解、推理、發現和建模決策能力。
五、結論
本文以實例為背景探索了引入線性代數相關定義及計算方法的教學模式,通過搭建線性代數與數據分析的橋梁,使得學生直觀體會到線性代數在數據分析中的重要性,并加以概念化掌握理論知識點,了解解決實際問題的方法。在各章節的教學中,通過將相關的算法思想和實際應用案例貫串其中,潛移默化,進而培養學生的數據素養,使其自覺地去認識與體驗數據處理的方法。這不僅有助于提升學生學習積極性,更有益于學生今后的職業發展。然而,目前的線性代數知識對于大數據和人工智能所需的理論基礎還遠遠不夠,那些涉及矩陣論與優化算法相關知識的實驗活動可作為課外擴展來進行。
[ 參 考 文 獻 ]
[1] 周濤. 為數據而生:大數據創新實踐[M]. 北京:北京聯合出版公司, 2016.
[2] 趙月瑩. 從數學思維角度淺析傳統數學運算在未來計算機科學術領域中人工智能方面的應用[J]. 中國戰略新興產業, 2018(4): 3-4.
[3] 朱琳, 蔣啟芬. 國外線性代數的教學研究述評[J]. 數學教育學報,2018(1): 79-84.
[4] 王利東, 劉婧. 從應用實例出發的線性代數教學模式探討[J]. 數學教育學報, 2012(3): 83-85.
[5] 劉耀軍,張姍梅. 基于問題解決的線性代數概念教學[J]. 高師理科學刊,2016(2): 50-54.
[6] 田仁碧. 大數據背景下線性代數課程教學改革初探[J]. 數學學習與研究,2017(9):34.
[7] 黃靜靜. 基于建模案例的極大線性無關組微課教學設計[J]. 課程教育研究, 2015(13):120.
[責任編輯:林志恒]