999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

聚類分析在高考成績研究主題發現中的應用

2017-05-31 19:39:38曹樹貴李文陳軍霞
軟件導刊 2017年5期
關鍵詞:分析研究

曹樹貴 李文 陳軍霞

摘要摘要:2006年以來,高考成績研究的學術關注度呈直線上升趨勢,探究該領域研究的主題分布,有助于對高考成績的深入研究及開發利用。以中國知網(CNKI)高考成績相關研究文獻為數據源,在對關鍵詞進行數據清洗的基礎上,構建高頻詞共現矩陣,繼而對共現矩陣進行聚類分析,從而發現了高考成績相關研究的10個主題方向。

關鍵詞關鍵詞:高考成績;共詞分析;聚類分析

DOIDOI:10.11907/rjdk.171095

中圖分類號:TP319

文獻標識碼:A文章編號文章編號:16727800(2017)005013503

0引言

利用中國知網(CNKI)對高考成績相關文獻進行指數分析,可以發現2006年以前,高考成績研究的學術關注度較低,且發展平穩,而2006年以后,高考成績研究的學術關注度呈現直線增長。探究該領域研究的主題分布,有助于對高考成績的深入廣泛研究及開發利用。

1研究理論與方法

本文以文獻關鍵詞為數據對象,采用聚類分析方法對高考成績相關研究文獻進行分析,從而發現該領域的研究主題及分布。這里的關鍵詞指文獻中作者指定的旨在反映文章主題內容的詞。當兩個關鍵詞在同一篇文獻中出現時,表明這兩個詞之間具有一定的內在關系,并且出現次數越多,表明關系越密切、距離越近[1]。聚類分析是數據挖掘的典型方法,該方法根據數據對象的特征對研究個體進行劃分,同一類中的個體具有較大相似性,而不同類的個體之間存在不同程度的差異[2]。聚類分析可根據文獻關鍵詞的距離,將關鍵詞分成不同類團,從而有助于發現所研究領域的主題分布情況。

具體研究過程如下:①數據準備:包括文獻題錄數據收集、文獻關鍵詞抽取、關鍵詞數據清洗、共現矩陣生成等環節;②聚類分析:對關鍵詞共現矩陣采用SPSS聚類分析方法生成類團,對各類團進行解析,從而確定高考成績研究的主題。

2數據準備

2.1數據收集

文章以中國知網(CNKI)為文獻數據源,以“TI=高考 and主題=(成績+數據+分數)*(分析+統計+剖析+挖掘+評價+預測+實證+差異)”為檢索式,限定時間從2006~2015年,共獲得期刊文獻530篇,會議文獻25篇,博碩論文359篇。在此基礎上參照題名、關鍵詞、摘要進行人工篩選,共獲得380篇文獻的題錄信息作為研究的數據對象,其中期刊文獻293篇,會議文獻19篇,博碩論文69篇。

2.2數據清洗

將采集到的文獻題錄導入到國內學者劉啟元[3]開發的文獻題錄信息統計分析軟件SATI3.2中,抽取到文獻關鍵詞994個,累計頻次1 640次。這些關鍵詞存在著過于寬泛、主題不相關、不規范、一意多詞等問題,因此利用3種方式對數據進行清洗。

(1) 舍棄。舍去過于寬泛的詞,如 “分析”;舍去與主題無關的詞,如“高潮期”。

(2) 合并。合并意義相同或相近的詞,如將“相關性分析”、“相關分析”合并為“相關分析”。

(3) 集中。將一些出現頻次較少但反映特定內容的詞,集中起來用上位詞代替[4]。如將低頻詞“皮爾遜相關分析”、“偏相關分析”集中到高頻上位詞“相關分析”。

2.3高頻關鍵詞提取

高頻關鍵詞是出現頻率較高的關鍵詞,能很好地反映領域內的關注點。數據清洗后,取頻次大于等于5的42個關鍵詞作為數據對象,表1列舉了部分高頻關鍵詞。

2.4共現矩陣建立

針對以上高頻關鍵詞建立高頻詞共現矩陣,矩陣數據為兩詞共現的頻次,對角線上數據為該詞出現總頻次,如表2所示。

為避免關鍵詞共現頻次受各自詞頻大小的影響,采用Equivalence等價系數將共現矩陣轉化為元素值在[0,1]區間的相關矩陣。在此基礎上,用1與相似矩陣中的各個數字相減,以減小因0值過多帶來的計算誤差,得到高頻詞相異矩陣,如表3所示。相異矩陣中元素越接近于1,所對應的行列關鍵詞相似度越小;越接近于0,所對應的行列關鍵詞相似度越大[2]。

Equivalence等價系數計算方式為[5]:

Eij=CijCi×CijCj(1)

其中,Eij為相似矩陣中第i個詞與第j個詞的等價系數,即相似矩陣中對應的元素值,Cij為共現矩陣中第i個詞與第j個詞的共現次數,Ci、Cj分別為第i個詞與第j個詞的頻次。

3聚類分析

將相異矩陣導入SPSS20.0,進行層次聚類分析(采用組間連接法,Euclidean區間距離)得到聚類樹,根據聚類樹可以獲得10個分別代表不同研究主題的關鍵詞類團:T1,T2,……T9,T10(見圖1)。

現對各類團關鍵詞及其代表的研究主題進行詳細解析:

(1)T1類團關鍵詞包括:高考志愿、數據倉庫、OLAP、數據挖掘、關聯規則、決策樹,代表數據挖掘相關技術在高考志愿分析中的應用。數據倉庫與OLAP是商務智能領域的重要技術方法,采用數據倉庫及OLAP技術可以對大規模高考數據進行有效集成,并進行多維度分析;關聯規則挖掘、決策數挖掘是數據挖掘的常用技術,可發現隱藏在高考成績、報考學校、專業、考生信息等多維度之間的規則,建立基于考生信息、成績信息、招生學校及專業信息的高招錄取預測模型,從而為志愿填報提供知識支撐。

(2)T2類團關鍵詞包括:高考英語、效度、信度,代表高考英語效度和信度研究。效度是衡量考試有效性和正確性的指標,信度是衡量考試可靠性、穩定性和一致性程度的指標[6]。在高考科目中,英語作為高考的重要考試科目,其效度及信度研究倍受關注。

(3)T3類團關鍵詞包括:高中生、自我效能,代表高中生自我效能對高考成績的影響研究。自我效能指人們對自己實現特定領域行為目標所需能力的信心或信念[7]。在所考察的文獻中,高中生的自我效能對高考成績影響的研究文獻只有3篇,但已形成一個新的方向,受到一些學者的關注。

(4)T4類團關鍵詞包括:學業成績、差異分析、性別差異、城鄉差異、教育公平、高考改革,代表高考成績群體差異研究。該主題關注的是高考成績中體現出不同群體學生的差異性,如性別差異、城鄉差異、區域差異、學校差異(如重點高中、普通高中)等,而群體差異的顯著性,引發了學者關于教育公平及高考改革的問題探討。

(5)T5類團關鍵詞包括:體育高考、影響因素、評分標準,代表體育高考成績影響因素及評分標準研究。該主題主要探尋體育高考成績與項目內容之間的關系及其它影響因素。另外,測試項目評分標準的制定及實施如何體現科學、合理、公平競爭的原則,也是研究方向之一。

(6)T6類團關鍵詞包括:模擬考試、預測、線性回歸、灰色系統,代表報考預測研究,包括高考成績預測、分數線預測、命題分布預測、報到率預測等。線性回歸模型是經典預測模型之一,在高考成績預測中得到了較多的應用。灰色系統理論則更適用于部分信息已知、部分信息未知的預測系統。對于高考預測而言,影響因素很多,但可度量的因素不多,解決這樣的問題,灰色預測模型具有一定優勢。

(7)T7類團關鍵詞包括:教育質量評價、增值評價、教育測量理論、Rasch模型、貝葉斯網絡,代表教育質量評價研究。教育測量理論是教育質量評價的理論體系,Rasch測量是具有客觀等距量尺的測量,可克服經典測量的測驗工具依賴和樣本依賴的局限[8]。貝葉斯網絡是基于概率推理,并以圖論的形式來表達和描述數據實例中的關聯或因果關系的方法[9],可對教育質量評價系統進行建模,從而對教育質量各影響因素進行分析。

(8)T8類團關鍵詞包括:大學成績、大學英語、高等數學、相關分析、回歸分析、SPSS,代表高考成績與大學成績的相關性研究。該主題關注的是大學成績與高考成績的相關性,尤其是大學英語、高等數學等基礎課程與高考成績的相關性。建立高考成績與大學成績的回歸模型,可依據高考成績對大學成績作出預測,為高校招生或教學管理提供參考。SPSS在該類團出現,說明了該軟件在相關分析及回歸分析中得到了普遍應用。

(9)T9類團關鍵詞包括:大學生、高等學校、高考招生、錄取、生源質量,代表高考招生生源質量研究。高考招生分數在一定程度上代表了學校的生源質量,對它的研究可以得出高校生源質量的規律性認識[10]。因此,基于高考成績的生源質量分析、評價、規律探索等研究文獻近年來呈現增長趨勢。

(10)T10類團關鍵詞包括:難度、區分度,代表高考試卷區分度與難度研究。對于高考而言,難度是非常敏感的問題,受到考試設計者、教育考試機構、學校、考生、教研部門的普遍關注[11],因而是試題分析的重要功能指標。區分度,又稱為鑒別力,指試題對不同水平考生的區分程度,同樣是選拔性考試的另一個重要指標。

綜上所述,根據聚類分析所發現的高考成績研究主題如表4所示。

另外,從聚類分析所得到的研究主題中,也可以發現目前研究的一些不足,主要表現在:①數據挖掘技術研究主要集中在高考志愿分析上,而在其它方面的研究不足;②高考信度和效度研究,集中在高考英語科目上,而對其它科目的研究不足;③針對體育高考成績的研究較多,而對藝術類高考成績研究很少;④高考成績與大學成績相關性研究主要體現在高等數學與英語等基礎課程上,而高考成績與專業課成績的相關性研究則相對較弱。

4結語

文章采用聚類分析方法發現了10個高考成績研究主題,以及高考成績研究方向上的不足。需要說明的是,以下因素或對本文結論的嚴謹性產生一定影響:①檢索文獻所采用的檢索式不能找到所有符合要求的文獻;②在對關鍵詞的舍棄、合并、集中過程中帶有一定主觀性;③剔除低頻關鍵詞或共現強度弱的共詞對,將不利于探測潛在主題或處于上升期的主題[5] 。

盡管受到以上因素的影響,本文結論或存在一定誤差,但總體方向上是正確的。筆者將在此基礎上,繼續探析高考成績研究主題的核心邊緣分布,從而發現哪些是核心主題,哪些是邊緣性主題,哪些是熱點主題以及有潛力的主題等。

參考文獻參考文獻:

[1]朱慶華, 彭希羨, 劉璇. 基于共詞分析的社會計算領域的研究主題[J]. 情報理論與實踐, 2012,35(12):711, 6.

[2]王一博, 郭鑫, 王繼民. 國際大數據研究主題的可視化分析[J]. 數字圖書館論壇, 2014(7):5257.

[3]劉啟元, 葉鷹. 文獻題錄信息挖掘技術方法及其軟件SATI的實現——以中外圖書情報學為例[J]. 信息資源管理學報, 2012(1):5058.

[4]錢澄, 李剛. 國內近十年檔案網站研究的核心問題與熱點分析——基于2000-2011年學術文獻共詞分析[J]. 檔案與建設, 2012(5):1317.

[5]唐果媛, 張薇. 基于共詞分析法的學科主題演化研究進展與分析[J]. 圖書情報工作, 2015(5):128136.

[6]陳亞麗. 關于教育測量的要素分析[J]. 無錫商業職業技術學院學報, 2005(1):8384.

[7]田常琴. 高三學生自我效能、自我妨礙對高考成績的影響[D]. 重慶:西南大學, 2011.

[8]王蕾. Rasch測量原理及在高考命題評價中的實證研究[J]. 中國考試:研究版, 2008(1):3239.

[9]謝斌, 劉長建. 基于貝葉斯網絡構建的學生成績評價系統及影響分析[J]. 中國科教創新導刊, 2011(31):3435.

[10]羅良針, 張陽. 普通高校本科生源質量規律研究——基于江西24所高校招生數據的實證分析[J]. 教育學術月刊, 2013(6):8689.

[11]趙海燕, 臧鐵軍. CTT框架下基于數據分析的高考試題質量評價標準——對20042008年高考北京卷的實證研究[J]. 中國考試:研究版, 2009(8):316.

責任編輯(責任編輯:黃健)

猜你喜歡
分析研究
FMS與YBT相關性的實證研究
2020年國內翻譯研究述評
遼代千人邑研究述論
隱蔽失效適航要求符合性驗證分析
視錯覺在平面設計中的應用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
EMA伺服控制系統研究
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
新版C-NCAP側面碰撞假人損傷研究
電力系統及其自動化發展趨勢分析
中西醫結合治療抑郁癥100例分析
主站蜘蛛池模板: 亚洲国产成人无码AV在线影院L| 国产精品七七在线播放| 99热在线只有精品| 日韩精品一区二区三区中文无码| 99久久精品国产综合婷婷| 亚洲青涩在线| 日韩高清成人| 日本黄网在线观看| 日本福利视频网站| 亚洲乱码视频| 日韩欧美综合在线制服| 精品少妇人妻一区二区| 美女内射视频WWW网站午夜 | 亚洲a级毛片| 国产网站免费观看| 99热国产这里只有精品无卡顿"| 亚洲中文字幕精品| 制服无码网站| 国产在线专区| 一区二区偷拍美女撒尿视频| 国产自在线播放| 高清免费毛片| 亚洲综合天堂网| 色综合久久无码网| 久久精品一品道久久精品| 久久久亚洲色| 国产乱子伦手机在线| 99偷拍视频精品一区二区| 丝袜国产一区| 在线a视频免费观看| 伦伦影院精品一区| 呦系列视频一区二区三区| 亚洲成人在线网| 成人福利在线视频| av在线5g无码天天| 18禁黄无遮挡免费动漫网站| 丰满人妻中出白浆| 国产区在线观看视频| 国产乱人免费视频| 久久一日本道色综合久久| 国产成人三级在线观看视频| 免费毛片全部不收费的| 久久青青草原亚洲av无码| 色九九视频| 欧美精品黑人粗大| 国产91小视频| 性视频一区| 国产美女自慰在线观看| 91小视频在线观看| 第九色区aⅴ天堂久久香| 亚洲色精品国产一区二区三区| 亚洲视频免费播放| 国产成人高清在线精品| 国产一区在线观看无码| 欧美一级夜夜爽www| 国产成人精品高清不卡在线| 欧美一区日韩一区中文字幕页| 51国产偷自视频区视频手机观看| 成人另类稀缺在线观看| 伊人丁香五月天久久综合 | 欧美翘臀一区二区三区| 亚洲欧洲日韩久久狠狠爱| 狠狠操夜夜爽| 欧美亚洲欧美| 青青青伊人色综合久久| 色久综合在线| 欧美日韩亚洲综合在线观看| 白丝美女办公室高潮喷水视频| 朝桐光一区二区| 无码高潮喷水专区久久| 老汉色老汉首页a亚洲| 国产在线观看第二页| 日韩色图区| 色精品视频| 国产在线观看第二页| 狠狠色成人综合首页| 996免费视频国产在线播放| 国产你懂得| 色悠久久久| 成年免费在线观看| 97国产精品视频自在拍| 色综合五月|