薄 璐 ,莫 倩,王 芳
(1.陜西職業技術學院,西安 710100 2.北京工商大學,北京 100048 3.北京航空航天大學,北京 100191)
社會計算的交流平臺,開辟了一個令人振奮的Internet 新局面,它正從根本上改變著人們共享信息和交流的方式,深刻的影響著全球經濟、社會互動和人們生活的各個方面,教育也必然身置其中。作為提高公眾素質的一個重要因素,科普教育構成了現代教育的核心。本文提出了一種基于社會計算的科普教育平臺框架,旨在有助于科普知識的普及和全民素質的普遍提高。
基于社會計算的科普教育平臺是一個集Wiki 和社會化科普搜索引擎于一體的面向科普領域的開放教育平臺。在此平臺中,科普領域的專家、教師、學生、甚至對科普感興趣的任何人都可以添加科普領域的術語詞條,日積月累逐漸形成一個科普完整的、嚴密的和相對權威的專業知識系統——科普Wiki。圖1 描述了基于社會計算的科普教育平臺框架。
社會計算是同互聯網密切相連的,是一門現代計算技術與社會科學之間的交叉學科,分為微觀技術和宏觀社會兩個層面。由于Web2.0 文化是一種平等、開放、自由的網絡社區文化,所以在這個背景下的用戶對搜索引擎提出了更高的要求。融入了社會計算概念的科普搜索引擎更加社會化,通過用戶通過對搜索結果進行評分能夠影響科普搜索引擎對結果的排序,搜索Wiki 元數據包括詞條編輯時間、編輯次數、點擊率等人文因素,在檢索時的分檔評分中這些社會因素乘以一定的閾值也將影響到結果排序,對搜索結果排序更加人性化,使用戶享受到更為透明的搜索服務。其主要由科普主題分類機器人、索引器、查詢器和查詢接口組成。
2.1.1 主題分類機器人架構設計
主題分類機器人主要完成從Web 中采集科普領域信息并入庫的工作。機器人的制作使用基于工作流/組件技術的網頁信息抽取系統VWIE 來完成。利用VWIE 的組件可擴展性,我們為其添加了分類器組件以及域名判斷組件,用以實現具有頁面過濾和站內頁面判斷功能的主題分類機器人。
2.1.2 分類器核心算法

2.1.3 分類器準確率實驗

圖1 基于社會計算的科普教育平臺框架
1)分類訓練樣本設置
SVM 算法分類需要給出訓練樣本。本文的實驗訓練樣本分為科普和非科普兩類,但由于兩類覆蓋范圍較大,無法用一個簡單合理的特征集來描述兩個主題,因此我們對這兩類進行了細分,盡可能多的將其劃分為小類,若網頁屬于小類,則其必屬于此小類所屬的大類。我們的子類別劃分及各個類別訓練樣本如表1 所示:

2)實驗結果
我們從搜狗互聯網分類語料庫中依照非科普類子類目錄,共選出5000 篇語料作為非科普測試集,從百度百科開放分類中的自然、地理和歷史三個大類中抽取每個子類的前20~30個詞條,共抽取5000 篇文章作為科普測試集,兩者合計共10000 篇用作實驗的開放測試數據集。測試結果如表2 所示:

衡量分類器的重要指標是召回率和準確率。召回率(Recall)是檢索出的相關文檔數和文檔庫中所有的相關文檔數的比率,準確率(Precision)是檢索出的相關文檔數與檢索出的文檔總數的比率。本文分類器召回率和準確率如下所示:

實驗結果表明:本文基于SVM 算法的科普主題分類器具有較高的分類準確率和召回率,能提供專業的科普知識搜索功能。
2.1.4 基于Lucene 的檢索機制
科普社會化搜索引擎在信息檢索部分使用Lucene 實現索引器和查詢器功能,Lucene 具有索引文件格式獨立于應用平臺、優秀的面向對象架構、分塊索引、語言和文件格式易于擴展等諸多優點,并且已經默認實現了一套強大的查詢引擎,我們無需自己編寫代碼即使系統可獲得強大的查詢能力,但Lucene 中文分詞并不十分理想,因此利用Lucene 的可擴展性我們使用現較為流行的開源中文分詞庖丁解牛技術代替原有的分詞。實踐證明,替換后效果非常明顯,很大程度上優化了索引質量和查詢效果。
隨著Wiki 技術的發展,出現了種類繁多的Wiki 引擎,使用較為廣泛的有JSPWiki、WikiMedia、WakkaWiki 、CooCooWakka 等。本系統采用JSPWiki 引擎,JSPWiki 引擎是一個基于文本文件的簡易Wiki 系統,包括了版本控制、身份認證等基本功能。JSPWiki引擎中的用戶只分為注冊用戶和非注冊用戶,用戶信息在XML 文件中存儲,為了便于用戶權限管理,本文采用MySQL 數據庫來存放用戶信息。
本文綜合運用主題搜索引擎技術和Wiki 等技術,設計并實現了一個基于社會計算的科普教育平臺。該平臺中科普搜索引擎部分針對科普領域信息的特點,采用人工干預與先采集后過濾相結合的主題搜索引擎信息采集策略,應用基于SVM 分類器的主題分類機器人進行數據采集,在檢索部分引入社會因子并且允許用戶對搜索結果評分使得此平臺能夠為用戶提供更加專業準確的搜索服務。基于社會計算的科普教育平臺對普及科普知識,提高全民素質,推進素質教育具有重要意義。
[1]劉潤英;胡航;任友群.社會計算視野下的教與學[J].現代教育技術,2008,18(13):10-14.
[2]M Parameswaran,AB Whinston.Whinstone Social computing:an overview.Communications of the Association for Information Systems Volume 19,2007,P762-780.
[3]Yutaka M.Junichiro M.Masahiro H.An Advanced Social Search Engine System from the web.In Proceedings of the 15th International Conference on World Wide Web,May,2006,Edinburgh,Scotland:397-406.
[4]Jo T,Japkow Icz N,Stephens.The Class Imbalance Problem:A Systematic Study[J].Intelligent Data Al1alysis,2002,6(5):203-231.
[5]李東方.Web2.0 環境下互聯網信息過濾理論與方法研究[D].合肥:中國科學技術大學,2009.
[6]Mo Qian,Du Junping.The Design of a News Knowledge Portal System with Topic Tracking Technology.Proceedings of the 2006 International Symposium on Artificial Intelligence,Beijing,China,2006.8:258-262.