邱奕敏(武漢科技大學信息科學與工程學院,武漢 430081)
云計算的多源信息挖掘實驗教學研究
邱奕敏
(武漢科技大學信息科學與工程學院,武漢430081)
信息服務對現代服務業起著支撐作用。但在云計算環境下,伴隨著信息的爆炸性增長,出現了信息異構、冗余、沖突和不可信等諸多問題。針對這些熱門問題,通過實驗教學的方式輔助學生,利用多源信息挖掘的實驗來掌握整合資源的知識,為學生加深專業理解做鋪墊。
云計算;多源信息;數據挖掘;實驗教學
近年來,云計算技術越來越受到重視,得到了迅速的發展,在企業中的初步推廣和應用收到了顯著的經濟和社會效益,成為目前的研究熱點。云計算通常涉及互聯網來提供虛擬的信息資源[1,2]。它提供可用的、便捷的、按需的網絡訪問,將傳統的任務處理方式轉到網絡,進入可以配置的計算資源共享來支持各類應用。作為新世紀的人才,筆者所在的學院開設了有關云計算專業課程,以擴大學生的知識面,緊跟學科發展的腳步。
隨著應用需求的不斷增加,用戶希望從海量信息源中快速獲取有用信息并進行處理,對軟硬件系統和信息源進行操作。然而,這些信息源物理上可能分布在異構環境的多個自治域中,具有不同的數據格式、存儲方式、訪問控制策略,并在邏輯上存在著很大差異[3],這些差異可能是在數據模型中,或者是數據語義等方面。已有的各種異構數據管理系統,可以利用多源信息服務系統針對不同的訪問方法和用戶界面做處理,讓用戶能夠訪問多種異構數據源,提供一個信息交互處理平臺來處理數據查詢結果。由于云計算不對用戶集中控制,因此用戶通過簡單的界面,可以得到他所需要的計算資源和信息服務[2,4]。因此,將云計算與多源信息結合起來,能夠便捷地實現不同設備間的數據和應用共享,提高當前計算資源的利用率,降低服務的能耗量,并且有效降低計算資源的出錯概率。
在云計算環境下,多源信息資源是通過互聯網找到可用的信息的。網頁和Web服務的集合是目前互聯網上的主要信息資源,隨著信息資源提供方式的改變,傳統的網頁集合變為Web服務[5]的集合,面向服務的方式變為目前的重要方式。當前信息資源的發現機制是基于語法上的和基于語義上的,前者利用關鍵詞精確匹配,后者利用語義本體。關鍵詞精確匹配的發現機制通過UDD I來實現。基于語義本體的發現機制則分為單獨建立語義和對UDD I進行語義擴展兩種。
由于技術的發展,許多領域都積累了海量數據,通過數據挖掘才能將有用的數據發現和提取出來。因此我們開設云計算的多源信息挖掘實驗課程,用以幫助學生加深對數據庫、語義、體系結構、網絡等領域的理解。將該實驗課作為一個輔助手段,提高學生的專業知識,其意義非常重大。
因此,需要從以下方面來加深理解:
(1)由于不同的數據有不同的特點,因此需要用與之相關的算法來挖掘,這就需要學生們在課下做好預習工作,了解常用的挖掘算法,并將其在計算機上用程序實現。
(2)由于挖掘算法和需求的不同,例如有的可能獲取的是描述型、容易理解的知識(如,采用規則表示的挖掘方法優于神經網絡之類的方法),而有的獲取的是預測準確度盡可能高的預測型知識。所以需要學生們根據自己的需要選擇挖掘算法,之后就可以實施數據挖掘操作,獲取有用的模式。
(3)了解了數據的特點和挖掘算法后,還需要使信息資源和用戶需求匹配,即用戶需求經過語義處理后可以和信息資源通過本體匹配,實現用戶需求和信息資源的語義匹配。這就需要學生們實驗時對本體和匹配知識有一定的了解,查詢相關的概念和資源,幫助更好的實現多源信息挖掘實驗。
(4)由于云計算的多源信息挖掘囊括了很多領域的知識,因此實驗教學的難度很大,需要教師和學生的默契配合,實驗教師應該根據知識的特點,利用各式各樣的例題來幫助學生加強理解;學生也需要對書上的例題多加練習,多在互聯網上查詢相關的資料。
多源信息是目前和未來互聯網環境中數據挖掘的重要研究點,云計算的多源信息挖掘機制能保證精準高效的信息查詢。云計算的多源信息服務系統研究,雖然是一個較新的研究方向,但由于它的研究主要是從知識管理、軟件工程和信息檢索應用技術發展起來的,其涉及到的機器學習、信息融合與信息集成已經取得了眾多的研究成果。信息檢索、語義Web、本體學習、W ebServices的相關方法和技術都可以作為參考和借鑒。這些知識的融合可以幫助學生提高興趣,加深對專業領域的理解,并能夠作為相關知識的一個延續,促使學生緊跟專業發展的腳步。
[1]Peter Fingar著,王靈俊譯.云計算21世紀的商業平臺[J].北京:電子工業出版社,2009(09).
[2]陳全,鄧倩妮.云計算及其關鍵技術[M].計算機應用,29(09),2009,pp. 2562-2567.
[3]Anastasios Kementsietsidis, Marcelo Arenas. Data Sharing Through Query Translation in Autonomous Sources. In Proceedings of the 30th International Conference on Very Large Data Bases (VLDB 2004), Toronto, Canada, 2004:468-479.
[4]楊善林,羅賀,丁帥.基于云計算的多源信息服務系統研究綜述[N].管理科學學報,15(05),2012,pp.83-96.
[5]吳朱華.云計算核心技術剖析[J].人民郵電出版社,2011.