聚類分析在高考成績研究主題發現中的應用

2017-05-31 19:39:38曹樹貴李文陳軍霞

軟件導刊 2017年5期

曹樹貴　李文　陳軍霞

摘要摘要：2006年以來，高考成績研究的學術關注度呈直線上升趨勢，探究該領域研究的主題分布，有助于對高考成績的深入研究及開發利用。以中國知網（CNKI）高考成績相關研究文獻為數據源，在對關鍵詞進行數據清洗的基礎上，構建高頻詞共現矩陣，繼而對共現矩陣進行聚類分析，從而發現了高考成績相關研究的10個主題方向。

關鍵詞關鍵詞：高考成績；共詞分析；聚類分析

DOIDOI：10.11907/rjdk.171095

中圖分類號：TP319

文獻標識碼：A文章編號文章編號：16727800（2017）005013503

0引言

利用中國知網（CNKI）對高考成績相關文獻進行指數分析，可以發現2006年以前，高考成績研究的學術關注度較低，且發展平穩，而2006年以后，高考成績研究的學術關注度呈現直線增長。探究該領域研究的主題分布，有助于對高考成績的深入廣泛研究及開發利用。

1研究理論與方法

本文以文獻關鍵詞為數據對象，采用聚類分析方法對高考成績相關研究文獻進行分析，從而發現該領域的研究主題及分布。這里的關鍵詞指文獻中作者指定的旨在反映文章主題內容的詞。當兩個關鍵詞在同一篇文獻中出現時，表明這兩個詞之間具有一定的內在關系，并且出現次數越多，表明關系越密切、距離越近[1]。聚類分析是數據挖掘的典型方法，該方法根據數據對象的特征對研究個體進行劃分，同一類中的個體具有較大相似性，而不同類的個體之間存在不同程度的差異[2]。聚類分析可根據文獻關鍵詞的距離，將關鍵詞分成不同類團，從而有助于發現所研究領域的主題分布情況。

具體研究過程如下：①數據準備：包括文獻題錄數據收集、文獻關鍵詞抽取、關鍵詞數據清洗、共現矩陣生成等環節；②聚類分析：對關鍵詞共現矩陣采用SPSS聚類分析方法生成類團，對各類團進行解析，從而確定高考成績研究的主題。

2數據準備

2.1數據收集

文章以中國知網（CNKI）為文獻數據源，以“TI=高考 and主題=（成績+數據+分數）*（分析+統計+剖析+挖掘+評價+預測+實證+差異）”為檢索式，限定時間從2006～2015年，共獲得期刊文獻530篇，會議文獻25篇，博碩論文359篇。在此基礎上參照題名、關鍵詞、摘要進行人工篩選，共獲得380篇文獻的題錄信息作為研究的數據對象，其中期刊文獻293篇，會議文獻19篇，博碩論文69篇。

2.2數據清洗

將采集到的文獻題錄導入到國內學者劉啟元[3]開發的文獻題錄信息統計分析軟件SATI3.2中，抽取到文獻關鍵詞994個，累計頻次1 640次。這些關鍵詞存在著過于寬泛、主題不相關、不規范、一意多詞等問題，因此利用3種方式對數據進行清洗。

（1）舍棄。舍去過于寬泛的詞，如 “分析”；舍去與主題無關的詞，如“高潮期”。

（2）合并。合并意義相同或相近的詞，如將“相關性分析”、“相關分析”合并為“相關分析”。

（3）集中。將一些出現頻次較少但反映特定內容的詞，集中起來用上位詞代替[4]。如將低頻詞“皮爾遜相關分析”、“偏相關分析”集中到高頻上位詞“相關分析”。

2.3高頻關鍵詞提取

高頻關鍵詞是出現頻率較高的關鍵詞，能很好地反映領域內的關注點。數據清洗后，取頻次大于等于5的42個關鍵詞作為數據對象，表1列舉了部分高頻關鍵詞。

2.4共現矩陣建立

針對以上高頻關鍵詞建立高頻詞共現矩陣，矩陣數據為兩詞共現的頻次，對角線上數據為該詞出現總頻次，如表2所示。

為避免關鍵詞共現頻次受各自詞頻大小的影響，采用Equivalence等價系數將共現矩陣轉化為元素值在[0，1]區間的相關矩陣。在此基礎上，用1與相似矩陣中的各個數字相減，以減小因0值過多帶來的計算誤差，得到高頻詞相異矩陣，如表3所示。相異矩陣中元素越接近于1，所對應的行列關鍵詞相似度越小；越接近于0，所對應的行列關鍵詞相似度越大[2]。

Equivalence等價系數計算方式為[5]：

Eij=CijCi×CijCj（1）

其中，Eij為相似矩陣中第i個詞與第j個詞的等價系數，即相似矩陣中對應的元素值，Cij為共現矩陣中第i個詞與第j個詞的共現次數，Ci、Cj分別為第i個詞與第j個詞的頻次。

3聚類分析

將相異矩陣導入SPSS20.0，進行層次聚類分析（采用組間連接法，Euclidean區間距離）得到聚類樹，根據聚類樹可以獲得10個分別代表不同研究主題的關鍵詞類團：T1，T2，……T9，T10（見圖1）。

現對各類團關鍵詞及其代表的研究主題進行詳細解析：

（1）T1類團關鍵詞包括：高考志愿、數據倉庫、OLAP、數據挖掘、關聯規則、決策樹，代表數據挖掘相關技術在高考志愿分析中的應用。數據倉庫與OLAP是商務智能領域的重要技術方法，采用數據倉庫及OLAP技術可以對大規模高考數據進行有效集成，并進行多維度分析；關聯規則挖掘、決策數挖掘是數據挖掘的常用技術，可發現隱藏在高考成績、報考學校、專業、考生信息等多維度之間的規則，建立基于考生信息、成績信息、招生學校及專業信息的高招錄取預測模型，從而為志愿填報提供知識支撐。

（2）T2類團關鍵詞包括：高考英語、效度、信度，代表高考英語效度和信度研究。效度是衡量考試有效性和正確性的指標，信度是衡量考試可靠性、穩定性和一致性程度的指標[6]。在高考科目中，英語作為高考的重要考試科目，其效度及信度研究倍受關注。

（3）T3類團關鍵詞包括：高中生、自我效能，代表高中生自我效能對高考成績的影響研究。自我效能指人們對自己實現特定領域行為目標所需能力的信心或信念[7]。在所考察的文獻中，高中生的自我效能對高考成績影響的研究文獻只有3篇，但已形成一個新的方向，受到一些學者的關注。

（4）T4類團關鍵詞包括：學業成績、差異分析、性別差異、城鄉差異、教育公平、高考改革，代表高考成績群體差異研究。該主題關注的是高考成績中體現出不同群體學生的差異性，如性別差異、城鄉差異、區域差異、學校差異（如重點高中、普通高中）等，而群體差異的顯著性，引發了學者關于教育公平及高考改革的問題探討。

（5）T5類團關鍵詞包括：體育高考、影響因素、評分標準，代表體育高考成績影響因素及評分標準研究。該主題主要探尋體育高考成績與項目內容之間的關系及其它影響因素。另外，測試項目評分標準的制定及實施如何體現科學、合理、公平競爭的原則，也是研究方向之一。

（6）T6類團關鍵詞包括：模擬考試、預測、線性回歸、灰色系統，代表報考預測研究，包括高考成績預測、分數線預測、命題分布預測、報到率預測等。線性回歸模型是經典預測模型之一，在高考成績預測中得到了較多的應用。灰色系統理論則更適用于部分信息已知、部分信息未知的預測系統。對于高考預測而言，影響因素很多，但可度量的因素不多，解決這樣的問題，灰色預測模型具有一定優勢。

（7）T7類團關鍵詞包括：教育質量評價、增值評價、教育測量理論、Rasch模型、貝葉斯網絡，代表教育質量評價研究。教育測量理論是教育質量評價的理論體系，Rasch測量是具有客觀等距量尺的測量，可克服經典測量的測驗工具依賴和樣本依賴的局限[8]。貝葉斯網絡是基于概率推理，并以圖論的形式來表達和描述數據實例中的關聯或因果關系的方法[9]，可對教育質量評價系統進行建模，從而對教育質量各影響因素進行分析。

（8）T8類團關鍵詞包括：大學成績、大學英語、高等數學、相關分析、回歸分析、SPSS，代表高考成績與大學成績的相關性研究。該主題關注的是大學成績與高考成績的相關性，尤其是大學英語、高等數學等基礎課程與高考成績的相關性。建立高考成績與大學成績的回歸模型，可依據高考成績對大學成績作出預測，為高校招生或教學管理提供參考。SPSS在該類團出現，說明了該軟件在相關分析及回歸分析中得到了普遍應用。

（9）T9類團關鍵詞包括：大學生、高等學校、高考招生、錄取、生源質量，代表高考招生生源質量研究。高考招生分數在一定程度上代表了學校的生源質量，對它的研究可以得出高校生源質量的規律性認識[10]。因此，基于高考成績的生源質量分析、評價、規律探索等研究文獻近年來呈現增長趨勢。

（10）T10類團關鍵詞包括：難度、區分度，代表高考試卷區分度與難度研究。對于高考而言，難度是非常敏感的問題，受到考試設計者、教育考試機構、學校、考生、教研部門的普遍關注[11]，因而是試題分析的重要功能指標。區分度，又稱為鑒別力，指試題對不同水平考生的區分程度，同樣是選拔性考試的另一個重要指標。

綜上所述，根據聚類分析所發現的高考成績研究主題如表4所示。

另外，從聚類分析所得到的研究主題中，也可以發現目前研究的一些不足，主要表現在：①數據挖掘技術研究主要集中在高考志愿分析上，而在其它方面的研究不足；②高考信度和效度研究，集中在高考英語科目上，而對其它科目的研究不足；③針對體育高考成績的研究較多，而對藝術類高考成績研究很少；④高考成績與大學成績相關性研究主要體現在高等數學與英語等基礎課程上，而高考成績與專業課成績的相關性研究則相對較弱。

4結語

文章采用聚類分析方法發現了10個高考成績研究主題，以及高考成績研究方向上的不足。需要說明的是，以下因素或對本文結論的嚴謹性產生一定影響：①檢索文獻所采用的檢索式不能找到所有符合要求的文獻；②在對關鍵詞的舍棄、合并、集中過程中帶有一定主觀性；③剔除低頻關鍵詞或共現強度弱的共詞對，將不利于探測潛在主題或處于上升期的主題[5] 。

盡管受到以上因素的影響，本文結論或存在一定誤差，但總體方向上是正確的。筆者將在此基礎上，繼續探析高考成績研究主題的核心邊緣分布，從而發現哪些是核心主題，哪些是邊緣性主題，哪些是熱點主題以及有潛力的主題等。

參考文獻參考文獻：

[1]朱慶華，彭希羨，劉璇. 基于共詞分析的社會計算領域的研究主題[J]. 情報理論與實踐， 2012，35（12）：711， 6.

[2]王一博，郭鑫，王繼民. 國際大數據研究主題的可視化分析[J]. 數字圖書館論壇， 2014（7）：5257.

[3]劉啟元，葉鷹. 文獻題錄信息挖掘技術方法及其軟件SATI的實現——以中外圖書情報學為例[J]. 信息資源管理學報， 2012（1）：5058.

[4]錢澄，李剛. 國內近十年檔案網站研究的核心問題與熱點分析——基于2000-2011年學術文獻共詞分析[J]. 檔案與建設， 2012（5）：1317.

[5]唐果媛，張薇. 基于共詞分析法的學科主題演化研究進展與分析[J]. 圖書情報工作， 2015（5）：128136.

[6]陳亞麗. 關于教育測量的要素分析[J]. 無錫商業職業技術學院學報， 2005（1）：8384.

[7]田常琴. 高三學生自我效能、自我妨礙對高考成績的影響[D]. 重慶：西南大學， 2011.

[8]王蕾. Rasch測量原理及在高考命題評價中的實證研究[J]. 中國考試：研究版， 2008（1）：3239.

[9]謝斌，劉長建. 基于貝葉斯網絡構建的學生成績評價系統及影響分析[J]. 中國科教創新導刊， 2011（31）：3435.

[10]羅良針，張陽. 普通高校本科生源質量規律研究——基于江西24所高校招生數據的實證分析[J]. 教育學術月刊， 2013（6）：8689.

[11]趙海燕，臧鐵軍. CTT框架下基于數據分析的高考試題質量評價標準——對20042008年高考北京卷的實證研究[J]. 中國考試：研究版， 2009（8）：316.

責任編輯（責任編輯：黃健）