楊 立 波,李 新 宇
(1.太原學院計算機工程系,山西 太原030032;2.山西省工業管理學校,山西 太原030012)
隨著互聯網用戶的不斷增加,web頁面和web服務越來越受歡迎。近十幾年來在線門戶網站、電子學習、電子政務、電子商務成為網絡熱門。為了能提供更好的服務質量和個性化服務,門戶網站都要有一個語義結構和智能邏輯。它們是通過結合兩個學科實現的:語義web和web挖掘。目前,web挖掘和語義web在web中被廣泛研究,因為它們都被尋址,所以這兩個學科可以同時被使用,并彼此履行理論或以自動化的方式檢查大量數據,同時挖掘數據,發現和獲取有意義的結果[1]。通過對教育目的的語義web挖掘的應用,特別是在遠程教學和課程管理中,語義web挖掘可以作為對傳統教育和遠程學習的支持技術,二者都可以使用語義web挖掘來獲取知識。在當前的電子學習門戶和課程管理系統中,可以通過語義web服務和語義web代理,發現學生的學習模式和個性化需求。在早期的研究中,給出web挖掘的一個簡要的解釋,語義web挖掘和他們在教育系統的應用實例。在這項研究中,可以體現出電子學習的優勢和劣勢。盡管如此,語義web挖掘依然被認為是網上學習的重要部分。
萬維網的開發是一個人類知識庫,允許在遠程站點的合作者分享他們的想法和一個共同的項目數據的各個方面。web2.0通過web服務實現自動化,它背后有一個語義結構。在通過web服務實現自動化的同時,根據用戶興趣實現個性化和數據可視化。這樣的普及也帶來了功能性和自身可用性。使得在電子商務、電子政務、電子學習領域中web變得普遍。考慮到電子商務、電子政務中這樣的應用是不難實現的,而應用在電子學習中將會使教育領域中的專家體會從未有的,不同于現實生活中的面對面的互動[2]。
在傳統教育的情況下,教育者應當了解每個學生的情況,還應當努力提高學生的學習方法,就是讓他或她更成功。在電子教學中如果要實現這一個性化的需要,應該有相應的一些技術讓網絡用戶依據他們的興趣來進行個性化的配置。智能web代理或電子學習服務可以用來構建教育領域的語義學習機制。
在提供個性化的電子學習中,已經提出了將內容組織成獨立的單元,成為學習對象(LO),并可以動態地結合建立個性化的學習門戶網站。學習對象被定義為在技術支持的學習期間中的任何實體、數字或非數字。學習對象元數據(Learning Object Metadata)是由IEEE組織定義并命名的,稱為一種元數據實例,主要是針對于學習對象而言的,它描述了學習對象的相關特性。在IEEE學習技術標準中,學習對象元數據還包括教學屬性,如:教學或交互方式、年級、掌握水平和先決條件。對于任何給定的學習對象都有可能有超過一組以上的學習對象元數據。國際上建立有IMS全球學習聯盟,不斷嘗試改善IEEE LOM的早期版本,并支持早期的數據模型草案作為IMS學習資源元數據規范的一部分。在IMS LRM第三版中,IMS數據模型和IEEE XML作為基礎結構,IMS LRM還提供了一個實現導向和一個 XSL(從 IMS LRM XML遷移到 IEEE LOW XML)。一些學者使用本體來描述LO內容模型的規范化,而另外一些學者使用XML來描述LO的內容模型。本體基于人工智能和語義web構建了互聯網的架構,并通過資源描述框架(RDF)和XML(萬維網w3c)進行定義。基本上,本體代表構成域的基礎的概念間的關系。隨著本體論的使用,結合信息檢索技術和web代理,數據的語義結構可以通過數據挖掘技術的應用被建立,這個目標是通過web挖掘(WM),語義web(SW)和兩者的混合實現語義的web挖掘(SWM)。在此基礎上我們可以提供個性化內容和個性化服務。
虛擬教育環境是在試圖建立一個替代傳統的教育環境,虛擬教育環境伴隨著互聯網技術的發展而快速發展。在20世紀90年代,虛擬教育環境是在單向結構中形成,但是可以看到,僅僅過去10年,虛擬教育環境已提出雙向互動和完全三維的學習環境,它被視為虛擬教育環境。并且試圖建立由虛擬圖書館、虛擬測驗、指導服務組成的新的虛擬教育環境。智能內容系統和教育管理系統替代傳統教育類環境,同時可以看出,在所有這些元素中最缺乏的無疑是知識。隨著互聯網技術的發展,更多的在線溝通和教育環境開始被使用,特別是新技術帶來的便利,和被視為互聯網革命的web2.0工具的使用。虛擬學習系統和學習管理系統都是web2.0工具下的應用程序,通過使用可以提高更多用戶的滿意度,web3.0技術是未來的發展方向,將提出更加人性化和更加有意義的web體系結構,在提供人性化的同時,還將形成一個社交網絡和在線通信區域組成的重要實踐平臺。語義web應用程序提供這個實踐平臺的前端,該平臺可用于在線交流和教育,被命名為社會軟件。
我們簡要描述了web挖掘,語義web和語義web挖掘的概念。在1.1節中,描述了web挖掘。在1.2節中,解釋了語義web和語義web挖掘。在1.3節中,對在電子學習系統中語義web挖掘之前的應用與他們的優點和缺點進行了解釋。
web挖掘(WM)是應用數據挖掘技術在web日志,web內容和web結構中。因此,它是“識別有效的非平凡的過程,以前未知的、潛在有用的模式”。在給出的定義,WM有三種不同類型的分析規格:web使用挖掘(WVM)、web內容挖掘(WCM)和web結構挖掘(WSM)。VM電子學習的具體分析類型是WVM和WCM。
隨著web挖掘的深入,從電子商務應用到電子學習應用的分析,web挖掘是“試圖從在線網站的內容中”得到有用的知識,從互聯網中提取用戶感興趣的、有用的模式,web挖掘的使用在兩個不同的領域中,第一個是有關內容的挖掘,第二個是基于用戶的交互分析。web內容挖掘是對web頁面和后臺交易數據庫進行挖掘;而用戶交互指定為信息和內容有關的行為和用戶訪問頁面的行為描述,分析用戶訪問行為可以得到有關用戶的一些有用信息。包括,用戶選擇的課程,分析課程的時間等等。在之后的研究中,提出了一個新的思路,關系到釋放基于文本的web用戶訪問寄存器,其中應用程序開發和程序編譯開發是基于java的SAS基礎軟件環境,得到的有意義和有趣的信息,這在很大程度上促進了web挖掘技術的應用,從基于文本的web用戶訪問到寄存器文件,這是復雜的、不規則的和毫無意義的。
web使用挖掘試圖找出用戶在使用網絡時正在尋找什么,同時web使用挖掘也有助于為屬于某一地區的一類特定人群找到感興趣的模式。網站內容挖掘是一種在web內容上的文本挖掘應用。該方法可用于創建學習對象元數據(LO)構建的本體和語義結構。
語義web是W3C中作為數據的通用媒介,完成信息和知識交換的媒介。它是web2.0的產物(第二代web)使得網絡本身能夠去理解和滿足用戶請求和web代理或機器使用web的內容。可以使用搜索引擎幫助用戶上網檢索有用的知識過程,建立網頁之間的鏈接。語義web是將更加微小的信息互連起來,讓他們產生直接的聯系,例如一條街道與一份地圖等。在語義網中,用戶能夠將兩個沒有任何聯系的東西連接在一起,例如企業的報表和日歷。用戶可以直接將企業的報表拖動到日歷上,也可以將日歷拖動到企業的報表上,這樣就可以知道什么時候進行提交報表。因此,語義網呈現給用戶的是一個所有數據可以無縫的連接。但是面臨的挑戰是要找到一種好的方法來表示所呈現的數據,這樣就可以在連接到網絡時,數據可以被識別并建立和其他數據之間的聯系,進而形成鏈接。
語義web可以提供各種依賴于語義的自動化服務,例如企業和客戶的交易服務、企業和企業的交易服務、客戶和客戶的交易服務、分類和搜索服務、數據庫服務、目錄服務、天氣預報服務、航班查詢服務等等。通過對內容進行語義標注與分析,可以克服關鍵字查詢產生的歧義性,提高了查詢的精確度。斯坦福大學的研究人員對語義WEB進行研究發現,查詢語言DBQ是一個很有影響的系統,它是基于DAML的體系。另一個基于DAML的語義web檢索,它是美國Marylang設計和研發的HOWLIR系統,它采用了daml-jessdb,它是一個基于DAML推理的一個推理引擎系統,其中,關于語義web的文本檢索和知識管理也是目前計算機領域的一個研究熱點。
語義web是以本體的形式來描述知識的,這樣可以將語義知識用于web挖掘中,以實現不同的目的。在web內容挖掘中,通常是采用本體知識來選擇源數據,得到相關數據、預處理輸入數據,最終得到有用的模式過程,但是常常得到大量的冗余數據。而語義web在進行挖掘數據時,因為數據本身已經有了明確的語義信息,因此在選擇數據時,就可以采用這些已知的語義信息來選擇相關數據,除去冗余數據。此外也可以采用語義知識對web挖掘中的源數據事先進行預處理,這樣可以減少算法的時間復雜度,提高算法的執行效率。同時web挖掘可以理解為強調這個范圍的研究領域之間可能的相互作用。web挖掘能夠進行語義挖掘,進而讀取語義知識。同時語義web挖掘很容易通過web日志描述。“語義web挖掘的目的是結合語義web和web挖掘兩個領域。設想如下,我們觀察到的趨勢收斂于這兩個領域,用于提高web挖掘的結果。通過在網絡上的語義結構開發,并利用web挖掘技術可以用于挖掘語義web本身。
針對所給出的定義,為任何可用的課程使用web日志在任何課程管理系統或電子學習門戶網站的語義信息調查都是有可能的。在學者Moodle案例研究中,給出了數據挖掘技術的應用案例研究。在這些研究中,對數據的檢索和管理的可能采用的技術,教育家必須運行第三方應用程序手動檢索信息,為教育工作者進行簡要的說明。一個語義的實時系統,web服務和web代理被宣布是有用的。同時可信的數據是非常重要的,因為它可以使算法或挖掘技術錯誤或導致不當的結果。在這一點上,我們獲取數據的來源是多方面的,可以來自于學生的回答或語義實時系統中的信息數據。我們認為這些數據是可靠的,同時我們也可以運行數據挖掘算法來避免沖突,過濾有用的知識,解答疑惑。
使用LOM和本體是用戶進行數據挖掘的要求。本體是體現用戶共同認可的知識,它是反映某類本體有關領域大家公認的概念,是針對的團體不是個體。本體的目標是提取有關領域的知識,提供對這個領域知識的公共理解,明確該領域內大家公認的詞匯,并且從不同層面上給出這些詞和詞之間的相關關系的定義。本體可以包括一個領域的知識,也可以包括各種領域之間的知識,因此這種方式使得知識本身越來越重要,提升了其價值。在形成知識系統時,不同本體將會扮演不同角色,例如,領域本體是針對特定的應用領域。通用本體是描述客觀世界的一般性知識,通常用于多個領域。用于型本體是針對特定領域知識建模的定義。表示本體通常不會限制到一個具體的領域,僅提供一種表示實體的方法,但是沒有規定其必須表示什么。語義web中的本體是描繪語義文檔的一種方式,使得這些文檔的語義可以被web使用和智能代理使用,使用本體構造和定義聚集和標準化后的元數據時非常有用的,在某種意義上可以達到人們的概念層次之上。本體對于要查找或合并信息的應用是很關鍵的,雖然DTD和Schema對于兩個實現約定的協議應用是足夠的,但是它們缺乏語義,這樣使得機器是很難利用新XML詞匯來執行我們所需的任務。RDF和RDF Schema通過聯系和標識符的語義來處理相關問題,RDF Schema是一種非常簡單的本體語義。為了使得許多獨自發展和管理模式間的交互操作,豐富的語義是很重要的。同時我們還描述了每種技術的實現方式,可以看出XML被廣泛用于執行LO,LOM甚至本體。它提到使用RDF或XML本體設計,但在許多RDF的應用中,它是用XML語法寫的。而說到本體,本體論的需求必須定義好。我們看到,通常使用領域本體和學生本體。通過移動設備學習也被包括在電子學習中,我們可以使用另一個本體,優先命名為裝置本體。教學信息比另一個被稱為教學本體的應用可能更重要。
本文介紹了當前web挖掘技術和語義web應用,在電子學習中web挖掘已經成為教育的一個基本組成部分。我們相信,以學生為中心的教育,選擇其他個性化取決于學生的學習方式,這是教育領域的關鍵。在這種情況下,遠程學習或電子學習被應用,個性化學習作為一個新的手段出現,因為它通過分析學習者先前的學習使用模式來預測將來的學習使用模式。根據這些學生的特征,web挖掘可以動態的根據學習者的情況推薦教學資源,為學習者提供學習內容鏈接。同時語義程序也已經被用于最小化傳統學習和電子學習中。Demeo等人宣布了在電子學習現象中的優點和缺點,指出個性化和靈活的學習程序,可以動態構造滿足這些差距。
電子學習門戶網站對學生是無風險的,可以嘗試新事物,不披露自己犯的錯誤,電子學習門戶網站為所有學生提供更好的個性化的學習機制,信息被分布在同一水平的質量,學生可以使用服務于他們自己的時間表和可用信息中獲取知識,在任何他們想要的時間,對于任何主題也更容易更新內容。
在教育領域,教育結果可以通過數據挖掘技術和更現實的教育來模擬(是理想的、更接近于傳統學習機制)和歸納和分析。例如,教育者跟蹤學習者的心理狀況,了解學習者的學習障礙在什么地方,這樣有助于提高學習者的學習能力。也試圖通過一個強大的對LOM的支持或對教學本體論的支持來解決問題,把當前系統用更好的教學方式來表示。制訂和實施這些教學信息和本體是不容易的,但還必須考慮到要超過他們現有的內容。考慮到學習者可能有不同的學習風格和能力,顯示和強迫學生從同一內容中獲取有用的信息,主要是文本或圖像,基于此類獲取信息的方法將不會成為在所有電子學習中的一個好的解決方案。在此基礎之上,也是構建語義結構的一種思路。
[1]俞勇.語義web技術基礎[M].北京:清華大學出版社,2012.
[2]何豐.語義web服務組合若干關鍵技術研究[M].北京:科學出版社,2013.