999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數據挖掘工具在教育技術學文獻研究中的應用

2012-12-03 06:06:06匡慧姝
中國教育技術裝備 2012年33期
關鍵詞:數據挖掘可視化分析

匡慧姝

湖南科技學院信息技術與教育系 湖南永州 425100

隨著傳統文獻轉換成數字文獻后,文獻的數量呈幾何數增長。對于科研人員來講,要在浩瀚的文獻中快速找到所需的文獻資料,并且提取文獻中有用的價值信息,相對困難。同時國內外的一些數據庫(如CNKI、SCI等)的檢索功能雖然強大,但是基于關鍵詞匹配的檢索算法邏輯性言語的表達,使其檢索的結果不能令人滿意(往往會檢索到冗余文獻)。因此,利用EndNote和RefViz數據挖掘工具,可以方便快捷地將檢索的文獻信息轉換成可視化的信息,并且根據自動分類功能,分析同組環境下文獻信息的關聯性。此外,根據RefViz中的主題詞信息,分析學科領域中的熱點信息及學科發展趨勢。因此,基于文獻數據挖掘(Data Mining)技術在任何一個學科領域都具有強大的生命力,對學科的發展具有深遠的意義。

1 數據挖掘的概念

數據挖掘(Data Mining)具有關聯、聚類、分類、異常、特異群組和演變分析的功能,與文獻研究的目的相同。數據挖掘是從大量的、不完整的數據中,提取隱含在浩瀚數據中的具有規律性和潛在價值的信息的過程[1]。

1.1 數據挖掘技術對文獻研究的作用

1)減輕研究人員負擔,提高研究效率。傳統文獻研究需要研究人員閱讀大量的文獻材料,然后人工進行文獻的整理與分類,同時對所要研究的問題做系統性分析。當文獻數據的量非常大時,傳統的文獻研究法便有些力不從心,即使花費大量的人力和時間,也有可能無法完成。將數據挖掘技術引入文獻研究領域,代替人工進行數據檢索、篩選、統計、聚類分析等,可以大大減輕研究人員的負擔,提高研究效率。

2)彌補傳統文獻研究的不足。文獻研究法中既有非結構式定性分析,又有結構式定量分析,它們從不同的側面對文獻中所包含的信息進行加工和整理。傳統的文獻研究法多為結構式定性分析,使用數據挖掘技術對文獻進行定量分析具有明顯性、客觀性、系統性等特點,因而可彌補定性研究缺乏直觀性和系統性的不足。

1.2 數據挖掘工具的類型

數據挖掘技術用于文獻研究主要是對文獻進行聚類、預測、關聯和相關性分析等,因此,根據數據挖掘的功能將其分為共引分析、共著分析、著者分析、共詞分析和共篇分析等[1]。下面簡要介紹共詞分析和共篇分析。

1)共詞分析。共詞分析是一種內容分析方法,通過分析同一個文本的主體內容,統計對單詞或短語出現的頻度,從而確認文本所代表的學科領域中各個研究熱點的相互關系,進而探索學科的發展趨勢[1]。共詞分析首先從文獻數據庫中抽取出現頻次超過一定閾值的高頻主題詞,兩兩統計這些主題詞在同一篇文章中同時出現的次數,形成共詞矩陣,然后圍繞這個共詞矩陣進行分析。

2)共篇分析。共篇分析是指兩篇或者兩篇以上的文獻具有一個或多個相互聯系的關鍵詞,這類關鍵詞連結多篇文獻的紐帶,這種紐帶的關系可稱之為文獻關鍵詞鏈。用途主要包括:①從內容上了解文獻之間的內在聯系,了解該領域在研究方向上的類同和相關聯程度;②分別統計具有相同主題詞的文獻作者群,能了解該主題研究領域在世界范圍內的分布和發展趨勢。

2 EndNote和Refivz工作原理簡介

2.1 EndNote工作原理簡介

EndNote是一款功能強大的科技文獻管理軟件,其友好的界面風格受到廣大科研人員的好評,并得到廣泛應用。EndNote的最新版本提供了3200多種期刊的參考文獻的格式。此外,其開放的過濾器和期刊樣式編輯方式為用戶提供了個性化的選擇。

2.2 RefViz工作原理

RefViz是Thomson ISI Research Soft和OmniViz公司共同推出的一款可視化的文本分析工具,能對大量文獻數據進行歸類和分析,是典型的共篇分析軟件。

RefViz功能非常強大:

1)該軟件能將參考文獻庫中參考文獻的主題內容進行組織排列,并以直觀的圖形方式將其呈現在一個可視化的交互窗口中;

2)提供在線搜索工具,用戶可以隨意指定軟件內置的各類數據庫,為用戶進行跨庫檢索提供了方便;

3)能實現與文獻管理軟件(如EndNote、Reference Manager等)的無縫連接,即可以隨意將EndNote的數據與RefViz直接進行數據的導入導出操作[2]。

RefViz工作的原理是一種“reading-finding-dividing”的過程。RefViz首先通過閱讀文章內容(包括標題和摘要),發現詞的范式及詞與詞之間的聯系。與其他軟件不同,RefViz通過一種復雜的數學統計模型找出詞的重要程度,將其分為三個等級;然后利用這些最重要的詞和次重要的詞對每篇文章進行標識;再通過標準的聚類方法將這批文獻分成基于主題內容的若干組(group),每一組文獻都通過三個不同重要性詞和描述詞予以標識,用以描述文獻間的聯系和主要概念[3]。

3 RefViz的應用案例

圖1 檢索結果在EndNote中

利用ISI Web Science數據,檢索國外教育技術學1994—2012年發表的文獻資料,運用RefViz數據分析軟件,探討教育技術學目前的研究熱點和未來趨勢。以下是RefViz的具體分析過程。

3.1 數據檢索

首先打開ISI Web of Knowledge數據庫(http://www.isiknowledge.com/)。在該數據庫中輸入主題詞“education technology”,選擇年限跨度為18年(1994—2012年),然后進行相關內容的檢索。其檢索結果為:共檢索1834條信息。然后將檢索到的數據信息通過web of science頁面中自帶的EndNote功能,將數據保存至EndNote中,如圖1所示。

3.2 數據導入

將檢索到的1834篇文獻以“education technology”(主題詞)的格式導入RefViz中進行分析,如圖2所示。

3.3 對結果進行干預處理

在主題/檢索窗口可以看到:意義相同或相近的詞沒有區分開來,主要是主題詞過多,并包含了一些無實質意義的詞或與分析主題無關且范圍過寬的詞,因此需要重新調整主題詞進行分析。一般有兩種處理方法:

1)將主要主題詞中的次要概念與專指度較低的詞降級(demote),如field、range等,同時將主要概念與專指度較低的詞進行升級,如instructional、instructions等為其同義詞;

2)利用此表工具,為指定目標詞添加同義詞,對同義詞進行控制,如指定instruction為目標詞,instructional和instructions等為其同義詞。

圖2 數據導入后的界面

圖3 干預后的結果

圖4 Galaxy顯示結果

表1 運算結果分組情況及各組主題詞

3.4 RefViz運算及顯示結果

RefViz通過數學聚類算法,將已經檢索的1834篇文章按照干預后的主題詞的相關性分成若干個組,其結果如圖3所示。

4 文獻數據結果分析

該研究的過程主要是對RefViz生成的兩個圖形進行分析,分別是Galaxy圖和Matrix圖。這兩個圖雖然表示的內容是一樣的,但是根據不同的內容和圖形的分布,會有些區別。下面分別就兩個圖形的內容進行分析。

4.1 Galaxy的結果分析

由圖Galaxy(圖4,文獻組大小可以代表文獻的多少)得出:將檢索的文獻分為41組,每組均有不同數量的文獻。本文在41組文獻中,選取篇數在100以上的文獻,共7組文獻數量較大,如表1所示。

通過對圖4中各個文獻組的相似性分析可知:第18組、23組和32組相似度極高,其主題詞為“education,technology”;第7組和第5組相似度高,其主題詞為“education,computer”。此外,針對具體文獻數的分析與閱讀,認為教育技術的研究熱點比較多,其重點表現在:對教育技術定義的研究;通過計算機網絡的形式開展教育技術研究;從設計、運用、開發和評價四個維度開展研究。

4.2 Matrix顯示結果分析

圖5 Matrix顯示結果

如圖5所示,在Matrix顯示的結果可以看出,“student”與“education”為正相關關系,因此根據相關度的篩選標準(relevant)≥0.5[1],通過Matrix分析文獻組與主題詞、主題詞與主題詞之間的關系,其主題詞student與37組文獻(education、engineer、instruction)密切相關。

4.3 結論

1)根據RefViz對教育技術學外語文獻的數據分析,結合相應的文獻閱讀,可以清晰地看到國外對教育技術學的研究大多數依據94定義而展開,形成許多研究熱點,如對教育技術概念的界定與闡釋、計算機網絡在教育技術中發揮的作用,同時從設計、開發、運用和評價四個維度進行詳細闡述,在課程教學中注重教學設計、行動研究和運用教育技術手段解決現實生活中的各種問題。

2)通過Matrix圖可以分析不同主題詞與研究熱點的關系,如“student”與“education”就構成相似性關系,并通過這種關系閱讀相關文獻內容,得出具體的研究結果。

3)RefViz是一個可視化的文獻分析軟件,可以幫助人們在大量文獻資料整理與分析中,提煉出需要的內容和當前的研究熱點。此外,RefViz與EndNote軟件可實現無縫連接與數據交換,極大地方便人們對數據的處理。因此,在課題的研究中,值得進行探索性嘗試。

5 結束語

數據挖掘技術應用于文獻研究領域中,能從數據的汪洋大海中及時發現有用的信息,提高信息利用率,極大地提高文獻研究工作的效率和水平,有力地支持各領域研究工作的開展,從而促進各學科的繁榮和科學技術的良好發展。隨著文獻數據庫技術的不斷豐富和完善,各種可視化的數據挖掘工具的升級與進步,數據挖掘技術將會廣泛應用于文獻研究領域,其功能也將會越來越強大,數據挖掘工具必將成為廣大研究人員的研究利器。

[1]羅式勝.篇名關鍵詞鏈特征的統計分析和應用[J].中國圖書館學報,1995(1):27-29.

[2]王穎,戎文慧.可視化文本分析和數據挖掘工具RefViz[J].中華醫學圖書情報雜志,2006,15(6):61-64.

[3]RefViz Frequently Asked Questions[EB/OL].[2010-4-29].http://refvis.com/support/rvsupport.asp.

[4]王保成.聯合應用EndNote和RefViz探索課題情報分析[J].圖書情報工作,2008(增刊):248-251.

[5]楊振恒.國外頁巖氣研究熱點:基于可視化文獻分析軟件RefViz的研究[J].石油工業計算機應用,2010(2):30-32.

猜你喜歡
數據挖掘可視化分析
基于CiteSpace的足三里穴研究可視化分析
基于Power BI的油田注水運行動態分析與可視化展示
云南化工(2021年8期)2021-12-21 06:37:54
探討人工智能與數據挖掘發展趨勢
隱蔽失效適航要求符合性驗證分析
基于CGAL和OpenGL的海底地形三維可視化
“融評”:黨媒評論的可視化創新
傳媒評論(2019年4期)2019-07-13 05:49:14
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
電力系統及其自動化發展趨勢分析
一種基于Hadoop的大數據挖掘云服務及應用
主站蜘蛛池模板: 极品国产在线| 五月婷婷丁香综合| 亚洲第一视频网站| 黄网站欧美内射| 青青热久免费精品视频6| 日韩视频福利| 亚洲日产2021三区在线| 色妞永久免费视频| 国产在线小视频| 国产精品吹潮在线观看中文| 亚洲免费播放| 久久网欧美| 在线观看无码av免费不卡网站 | 久久精品无码中文字幕| 奇米精品一区二区三区在线观看| 四虎免费视频网站| 日韩二区三区无| 国产成人精品在线1区| 91青青草视频在线观看的| 亚洲精品成人福利在线电影| 久久精品人人做人人综合试看| 蜜臀AV在线播放| 狠狠色丁香婷婷综合| 自拍偷拍欧美日韩| 久久一色本道亚洲| 精品国产黑色丝袜高跟鞋| 亚洲天堂色色人体| 美女裸体18禁网站| 精品国产香蕉在线播出| 亚洲一区二区三区国产精华液| 欧美成人精品在线| 91成人在线观看视频| 91在线免费公开视频| 欧美综合中文字幕久久| 国产一区二区网站| 国产成人超碰无码| 亚洲第一区精品日韩在线播放| 丁香婷婷综合激情| 88国产经典欧美一区二区三区| 欧美成人在线免费| 国产高清不卡| h网址在线观看| 亚洲av色吊丝无码| 91福利免费视频| 欧美黄网站免费观看| 天天综合亚洲| 久久精品欧美一区二区| 国产一级妓女av网站| 91九色视频网| 白浆视频在线观看| 亚洲视频免费在线| 久热re国产手机在线观看| 中文国产成人精品久久| 性视频一区| 亚洲精品大秀视频| 亚洲三级成人| 欧美特级AAAAAA视频免费观看| 熟女日韩精品2区| 天天综合网站| 日韩123欧美字幕| 亚洲无码高清一区二区| 欧美日韩一区二区在线播放| 国产资源站| 久久综合结合久久狠狠狠97色| 亚洲中久无码永久在线观看软件 | 精品国产网站| 日韩成人午夜| 亚洲精品无码在线播放网站| 色天天综合久久久久综合片| 国产手机在线小视频免费观看| 蜜桃臀无码内射一区二区三区| 国产网站黄| 2018日日摸夜夜添狠狠躁| 亚洲成a人片在线观看88| 国产精品毛片一区| 亚洲第一成网站| 尤物视频一区| 思思热在线视频精品| 成人国产免费| 91久久青青草原精品国产| 成人无码区免费视频网站蜜臀 | 狠狠色综合网|