王泰 曾悅



[摘? ?要] 研究者們常采用傳統的機器學習方法在虛擬學習社區中提取以中心性或聲望為主要標準的領袖節點。這些方法雖然簡潔直觀,但容易遮蔽虛擬學習社區的部分特點,忽視非領袖節點中也可能存在其他類型的“關鍵少數”。為了深入理解虛擬學習社區的人際關系網絡,文章以某門慕課討論區中26次討論的86名學習者為例,采用基于正則等價的塊模型方法,從中劃分出4個不同角色,并解釋了他們在知識構建過程中發揮的作用。結果發現:可根據知識傳遞的關系,將學習者的角色分為“導學者”“善學者”“熟練者”和“初學者”4類。這一結果不僅表明基于正則等價的虛擬學習社區學習者角色分類方法比傳統機器學習分類方法(如K-means)劃分出來的角色更細致,更能夠發現直觀視野之外的“關鍵少數”,還給虛擬社區的教學實踐帶來新的啟發。它啟發我們:如果能對不同的角色采用不同的教學策略,有可能進一步減輕社區助教的工作負荷,用更少的干預促進虛擬學習社區形成更濃厚的學習氛圍。
[關鍵詞] 虛擬學習社區; 角色分類; 塊模型; 正則等價; 社會網絡分析
[中圖分類號] G434? ? ? ? ? ? [文獻標志碼] A
一、引? ?言
虛擬學習社區是在聯結主義的啟發下出現的一種學習組織,也是將社交網絡與在線學習相結合的產物[1-2]。在虛擬學習社區中,不同的人群對構建知識的貢獻和所起的作用不盡相同[3]。如果能對不同的角色采取不同的支撐策略,必將進一步促進虛擬學習社區的繁榮與發展[4]。而要達此目的,我們需要更深一步地認識和理解虛擬學習社區中的各類角色。
社會網絡分析是一種用途十分廣泛的網絡分析方法[5]。研究者們使用社交網絡中的密度、出度/入度、社群圖、中心性等基本屬性來分析學習者的交互結構[6-7],大多將虛擬學習社區中的群體劃分成核心、積極和非積極三類。已有學者為了研究學習者在構建知識中的角色和在虛擬社區中的地位,使用了結構洞[8]、凝聚子群[9]、塊模型中的結構等價[10]等方法。在這些方法中,塊模型(Block-model)是專門劃分社交網絡中行為人地位的方法。在塊模型中,具有相同地位的行為人被劃分為同一類角色。所謂相同地位,是指這些行為人與其他行為人之間的聯系存在等價性,在某些場合下可以互相替代,類似于行政崗位中的A、B角。塊模型方法可以依據不同的等價規則,構造出不同的分類結果。等價規則一般分為兩種:結構等價和正則等價。
結構等價的定義是:如果兩個行為人與所有第三人的聯系都相同,就稱這兩個行為人結構等價。而正則等價的定義是:只要兩個行為人都與某一部分行為人存在相同的聯系,就可以稱為正則等價。結構等價一般針對具有相似興趣的成員,而正則等價則側重于角色的社交學概念[11]。例如,結構等價意味著某類學習者在回答其余所有人的問題方面具有可替代性(等價),而正則等價則意味著某類學習者在回答某一部分學習者的問題方面具有等價性,即使回答對象不固定亦如此。正是因為結構等價的定義比正則等價嚴苛,所以在小規模的、自發形成的社交網絡中,很難找到能夠結構等價的兩個節點[12-13]。像虛擬學習社區中常見的場次多但參與人數不多的討論,用正則等價比較容易實現區分角色的目標。
本文采用基于正則等價的塊模型方法分析學習者在虛擬學習社區的角色與地位。首先,構建學習者角色分類的正則等價分析模型;其次,結合討論文本,分析學習者之間的聯系,并據此劃分角色;然后,比較這種角色分類的結果與傳統機器學習中分類算法的結果,總結基于正則等價的塊模型的有效性與優勢;最后,根據分析結果,提出對虛擬學習社區(如慕課)建設的啟發。
二、數據與方法
(一)數據來源
本文使用的數據來源于中國大學慕課中《新媒體概論》課程(第4次開課,2016年2月29日—2016年5月5日)的課后討論區26次討論(一次討論可含多個帖子,主題帖以下至最后一帖算作一次討論),包含86名學習者的昵稱和發言文本。
(二)基礎理論和方法
1. 正則等價性
正則等價性是指具有某種社交地位的行為人與另一部分行為人之間的聯系模式相同[14]。例如,在學校里,教師給學生上課,同時也受教研組指導,所以教師在這樣的場景中具有相同的社交地位。盡管教師執教的班級不盡相同,各個班級的學生不同,也未必受相同的教研組指導,但在給學生上課和受教研組指導的這兩種關系之下,教師的角色和地位是相同的。用數學語言描述即為:如果行為人i和行為人j是正則等價的,且行為人i與某個行為人k存在直接的聯系R,則行為人j必與某個行為人l存在同類型的聯系,而且行為人k與行為人l也是正則等價的。
學者們依據正則等價的結構關系,研究了把整個社交網絡中的行為人分配到相應子集的方法,使得行為人的正則劃分在某種程度上是最佳或最符合實際情況的,即處于同一子集的行為人幾乎完全正則等價,實現這一目標的方法是禁忌搜索算法(Tabu Search)[15-16]。
2. 正則等價的塊模型表示
塊模型常用于社交角色的代數分析[17]。將正則等價結構與塊模型的構建結合,可以實現正則等價下的角色劃分[18]。例如,9位行為人的聯系如圖1所示。由于是有向圖,所以其社交關系矩陣并不必然是對稱陣。從分塊的社交關系矩陣轉化到正則等價塊模型的映射矩陣需遵循密度準則:當塊密度(社交關系矩陣的子矩陣中聯系標記為“1”的個數在該子矩陣中元素個數的占比)大于或等于總體密度(社交關系矩陣中聯系標記為“1”的個數在社交關系矩陣中元素總數的占比),定義為1-塊,否則定義為0-塊。在分塊時,1-塊與0-塊的區別度盡可能大,以保證其分塊的穩定性與可靠性。因此,依據分塊的社交關系矩陣中元素0和1出現的疏密程度,可以得到正則等價塊模型的映射矩陣,繼而得到角色關系圖。圖1中所示的角色關系圖提示我們:這9個行為人可以分成3類角色,類別之間存在單向聯系。其性質類似于教研組長(第1類)、指導教師(第2類)、教師指導學生(第3類)。
基于正則等價的塊模型記錄了兩種內容:一是根據正則等價性定義,由行為人到等價類的映射;二是任意兩個等價類(地位)是否存在聯系。
3. 禁忌搜索算法(Tabu Search)
在構建基于正則等價的塊模型的過程中,人們常用Tabu算法劃分出符合正則等價要求的子群體。該算法的基本要領是:依據正則等價的計算方法,計算社交網絡中各學習者的正則等價性程度,得到最初的聚類解;在標記這些局部最優解后,再一步步迭代,將這些已經找到的局部最優解作為下一步搜索的禁忌,跳過這些禁忌,繼續搜索整個網絡,最終得到整個網絡的聚類最優解。
如上所述,正則等價塊模型會產生兩種塊:0-塊和1-塊,Batagelj等人將劃分之后實際獲得的0-塊和1-塊與相應的理想正則等價塊之間的誤差和定義為Tabu算法中正則等價的準則函數[18]。該函數在UCINET軟件中被稱為代價函數,用以度量與理想正則等價塊接近的程度。代價函數的值越小,表示越接近理想正則等價。Tabu算法除了求解全局最優外,還能加快迭代求解的過程。具體過程如下:
Step1:給禁忌表賦空值作為初始值(H=?覫),并選定一個初始解X。
Step2:代價函數的值不能再小或者減小的程度不明顯時,停止計算,輸出矩陣塊;否則,在X的鄰域N(X)中選出一個不在H內的候選集C(X),在C(X)中找到一個使代價函數值最小的解Xi,將其賦給X,即X=Xi,更新H,保存該代價函數值,重復Step2。
Step3:在保存的代價函數值中選取與最小值對應的解,該解所表示的正則等價劃分就是最優劃分。
三、結果分析
我們用鄰接矩陣來表示數據集中的提問與回答,并用UCINET繪制這種社會聯系,如圖2所示。一個箭頭兩端的節點分別表示提問(用射出的箭頭表示)與回答(用射入的箭頭表示)。
從圖2可以看出,回答多,提問少,既提問又回答的學習者更少。該圖蘊含的鄰接矩陣,經過Tabu算法的處理,生成的正則等價分塊矩陣①如圖3所示。
在實際分塊矩陣與理想分塊矩陣之間的誤差最小這一準則的作用下,Tabu算法劃分出4類角色,所以圖3中的分塊矩陣有4×4=16個子塊。各塊的密度見表1。由于總體密度為0.012,根據密度準則,可以寫出類似圖1中的映射矩陣,繼而產生如圖4所示的角色關系。該圖中的4個節點代表4類角色,箭頭的含義與圖2相同。箭桿寬度表示塊密度,也就是兩角色間交流的頻繁程度。交流得越多,箭桿越粗。
我們可以根據圖4所蘊含的關系,推測這4類角色具體的內涵。
第4類角色:其他角色均有箭頭指向它,而它卻沒有指向其他角色的箭頭。這說明這類角色總是在回答其他角色的提問,但自己不提問。依據這樣的關系模式,可以將這類角色命名為“導學者”,類似于助教在答疑解惑。
第2類角色:這是唯一的一類既回答又提問的角色。具體來說,以回答問題為主(射入的箭桿比射出的箭桿粗)。而提出的問題只有“導學者”回答。因此,該類角色在知識構建過程中的地位接近“導學者”,可以把這類角色命名為“善學者”。
第1類和第3類角色都是只提問,卻不回答。然而,這兩個角色在提問的頻率和所起的作用方面卻存在顯著差異:第1類角色提問的頻率顯著高于第3類(由第1類發出的箭桿都明顯比第3類發出的箭桿粗);第1類角色提出的問題得到了“導學者”(第4類)和“善學者”(第2類)的回答,而第3類角色提出的問題只有“導學者”(第4類)在回答。據此,我們可以認為,第1類的角色是“初學者”,而第3類的角色是“熟練者”。
我們用4類角色的行為人在知識構建中的貢獻率p來比較他們在學習社區中的作用。其中:
p表示行為人用自己的知識填補他人知識空白的程度。在其定義式中,出度和入度分別加1作為分母和分子,可以防止因分子為0或分母為0而出現大量相同的數據,可以更細致地看出貢獻率的分布。盡管既不提問也不回答的學生,由上述定義式計算出的貢獻率是1,但是在本文中,這些沒有參與討論的“圍觀”學生因沒有編號而不會影響我們的研究。上述86名行為人的貢獻率隨角色的分布如圖5所示。
四、與常見的聚類算法進行對比
從效果來看,基于正則等價的塊模型實際上是對參與構建知識的虛擬學習社區的節點進行了聚類。而在常見的聚類算法中適合本研究場景的是K-means算法。在本節中,我們先獲得K-means算法的運行結果,再比較它與上一節的結果之間的差別。
本節在具體調用Matlab提供的K-means函數時,所采用的數據集為學習者的出度(Outdegree)、入度(Indegree)和貢獻率(p)。這些原始數據在三維散點圖中就已經呈現了聚集現象。
在確定最合適的聚類數量(即k值)時,需要用到手肘法則(Elbow Method)①。當k取值為3時,聚類最佳。
根據各組學習者行為模式(出度、入度、貢獻率),我們將K-means分出的3組學習者分別命名為:高質量提問者、一般學習者和活躍答疑者,并將他們的具體成員與基于正則等價的塊模型方法的劃分結果一起放入圖6。K-means的結果與社會網絡分析中依據中心性聚類的結果一致。事實上,我們可以從圖2中直接看出如下現象:回答數較多的是2號(系一位助教),引發回答多的提問者是17號、27號(由于他們提出的問題引發了較多的回答,所以我們推定他們的提問具有較高的質量,故稱之為高質量提問者)。盡管K-means的聚類結果與直觀感受相符,但是該結果忽視了除2號(只回答)、17/27號(只提問)以外還存在的其他兩類角色:既提問又回答的22號和26號,以及雖然也是只提問但頻次卻少很多的18號。而這些被忽視的角色在第3節中都能被基于正則等價的塊模型方法區分出來。
為了更精確地比較這兩種分類結果的差別,我們引入了Jaccard相似度。在數學中,集合之間的Jaccard相似度等于交集大小與并集大小的比例。Jaccard相似度的值越小,兩個集合的差別越大。K-means與基于正則等價的塊模型方法的劃分結果的相似程度見表2。
由表2可以看出,除一般學習者與導學者較為相近外,其他類別的差別都較大,相似程度不超過20%。該表再次說明K-means劃分角色的能力比較有限,只能挖掘出行為頻次較為突出的學習者,而不能像正則等價塊模型那樣刻畫不同角色之間信息交流的方向(即學習社區中提問與回答)。而信息交流的方向恰恰能體現學習者在學習社區中的地位、在知識建構過程中所起的作用與角色。
五、總? ?結
通過正則等價的塊模型,我們發現虛擬學習社區的學習者在知識構建的過程中自發地形成了若干不同的角色。他們在交流討論、知識傳遞的過程中表現出了不同的特征。“導學者”在學習交流中起著類似助教的作用,用自己的知識填補他人知識結構的空白。“善學者”和“熟練者”不僅提出問題,還主動思考、幫助他人。盡管二者在提問與回答兩種行為的頻次方面存在顯著差別,但都發揮了傳遞知識的“經紀人”作用。這種兼提問和回答二者于一身的角色,雖然人數不多,但起到了穿針引線、活躍交流氣氛、縮短學習者之間社交距離的紐帶作用。“初學者”雖然沒有回答問題,但正因問題是由他們提出的,其他角色才有機會發揮作用。從哲學角度來看,“初學者”角色與其他角色“對立統一”于虛擬學習社區之中。
上述研究結論給虛擬學習社區的組織帶來了如下啟發:(1)除了助教以外,還存在許多愿意貢獻知識的導學者,如果能以適當的方式鼓勵在他們之中成立“助教團”,就可以縮短其他提問者等待回答的平均時間。(2)在劃分學習小組時,“善學者”和“熟練者”值得更多關注,他們是保持與活躍學習氣氛的“關鍵少數”。如果這些人能夠成為小組學習活動的召集人或者組織者,可能會比隨機分組的效果更好。
限于篇幅,我們僅舉兩個例子印證上述啟發,在某種程度上也可以視為是對當事人進行的回溯式訪談。一個例子是被劃為“善學者”的22號學生(網名“m18220059799”)。這名學生在回答“舊媒體或者傳統媒體是什么?”的討論題時,是唯一的一個把“幻燈片”也列入傳統媒體的學生,反映了其視野的開闊和思維的靈活。同時,這名學生還比較早地(作者注:2016年3月)提出了一個頗具前瞻性的問題,大意是:新媒體(作者注:他所指的新媒體可能主要指自媒體)的出現推動了整個社會的發展,卻沒有應用到教育教學中(作者注:現在已經應用到教學中了)。另一個例子是被劃為“熟練者”的18號學生(網名是“匿名”)。這名學生直接在教師答疑區提了一個比較具有挑戰性的問題,大意是:報紙也應該算作新媒體的歷史。這反映了其思維活動已經具有某種思辨的色彩。而提出的問題也確實屬于對課程內容的熟練程度達到一定水平之后才會提出來的問題。這兩個例子說明了虛擬學習社區中的學生的言(發帖或者回帖的內容)與行(基于正則等價的塊模型發現的關系)存在某種程度的一致性。這樣一來,就值得我們去設計某種算法或者開發某種插件,能夠自動向慕課助教或者教師推薦基于行為關系而不是基于文字言論(對于程序來說較難識別)的“學生助教”或者小組討論的召集者。
未來工作包括研究虛擬學習社區中如何根據日志文件盡快識別這些“關鍵少數”,以便分組時選擇合適的角色作組長,并觀察這種分組模式下學習的績效與體驗。
[參考文獻]
[1] 張婧婧,楊業宏,王燁宇,陳麗. 國際視野中的在線交互與網絡分析:回顧與展望[J]. 電化教育研究,2019(10):26-34.
[2] 甘永成,陶舟. E-Learning、知識管理與虛擬學習社區[J]. 電化教育研究,2006(1):18-22.
[3] 段金菊,汪曉鳳. 在線開放課程背景下高低績效學習者的社會化交互行為及參與模式研究[J]. 電化教育研究,2016 (11): 43-50.
[4] 柴少明. 網絡學習社區中基于對話的知識建構:理論與模型[J]. 電化教育研究, 2017(5): 71-76.
[5] CHEN H, JIN H, WU S. Minimizing inter-server communications by exploiting self-similarity in online social networks[J]. IEEE Transactions on parallel and distributed systems, 2016, 27(4): 1116-1130.
[6] 覃學健,李翠白. 虛擬學習社區的社交網絡分析研究[J]. 現代教育技術,2009,19(2):26-29.
[7] 戴心來,王麗紅,崔春陽,李玉斌. 基于學習分析的虛擬學習社區社交性交互研究[J]. 電化教育研究,2015,36(12):59-64.
[8] 戴心來,劉聰聰. 基于結構洞理論的虛擬學習社區信息交互中介性研究[J]. 現代遠距離教育,2018(3):21-28.
[9] 王陸. 虛擬學習社區社交網絡中的凝聚子群[J]. 中國電化教育, 2009(8):22-28.
[10] 袁華文. 虛擬學習社區中網絡互動影響因素及策略研究[J]. 中國教育信息化,2016(24):9-12,15.
[11] 張樹森,梁循,齊金山. 社交網絡角色識別方法綜述[J]. 計算機學報,2017,40(3):649-673.
[12] 約翰·斯科特. 社交網絡分析法[M]. 3版. 劉軍,譯. 重慶:重慶大學出版社,2016.
[13] HANNEMAN R A, RIDDLE M. Introduction to social network methods[DB/OL]. [2020-05-18]. http://faculty.ucr.edu/~hanneman/nettext/.
[14] 斯坦利·沃瑟曼,凱瑟琳·福斯特. 社會網絡分析:方法與應用[M]. 陳禹,孫彩虹,譯. 北京:中國人民大學出版社,2011.
[15] GLOVER F. Tabu Search - Part I[J]. ORSA journal on computing, 1989,1(3): 190-206.
[16] GLOVER F. Tabu Search - Part II[J]. ORSA journal on computing, 1990,2(1): 4-32.
[17] WHITE H C, BOORMAN S A, BREIGER R L. Social structure from multiple networks—Blockmodels of roles and positions[J]. American journal of sociology, 1976(81): 730-779.
[18] BATAGELJ V, DOREIAN P, FERLIGOJ A. An optimizational approach to regular equivalence[J]. Social networks,1992(14):121-135.