楊仁廣,張 艷
網絡多媒體教學資源是指存在于Internet中的多媒體教學資源,其中包括圖像、聲音、視頻、動畫等。網絡多媒體教學資源主題搜索系統(tǒng)是專門為搜索Web中存在的多媒體教學資源設計的。主題搜索器在構造上和常規(guī)的主題搜索器相同,主題蜘蛛是整個主題搜索器的核心,圖1是該主題搜索器的體系結構圖,各個組成部分相互交錯、相互依賴。

圖1 網絡多媒體教學資源主題搜索器體系結構
“主題蜘蛛”從互聯(lián)網上抓取網頁,提取網頁的兩部分信息,一是網頁內容,以此來確定此網頁與查詢多媒體主題的相關度;二是網頁鏈接,確定主題蜘蛛的即將爬行頁面。“主題蜘蛛”通過“HTML解析器”獲取此網頁的文本信息,并將其和網頁鏈接存入“網頁數據庫”中。“網頁內容相似度計算”用于判斷此網頁和查詢多媒體主題的相關度;“主題蜘蛛”同時提取出網頁的URL,然后判斷此網頁是否包含多媒體,如果包含則進行“URL規(guī)則訓練”,將其用于“鏈接相似度計算”,經過內容和鏈接相似度計算后的網頁鏈接與“URL數據庫”中的網頁鏈接進行“網頁鏈接加權”,從而確定下一步要爬行的網頁,經過“URL鏈接過濾”確定“網絡蜘蛛”的爬行方向;如果不包含多媒體,則直接將提取的網頁鏈接存入“URL數據庫”中,等待“網頁鏈接加權”對其進行權值的分配。最終搜索得到的多媒體鏈接經過“媒體屬性信息提取”后和表征多媒體內容的信息一起存入“多媒體數據庫”中,同時也要將其存入“URL數據庫”中用于指示“主題蜘蛛”下一步爬行的方向。
1.網絡多媒體信息的內容表征與提取
網頁一般是由超文本標記語言HTML(hypertext markup language)編寫的,筆者提取以下信息用來表征多媒體的主題:(1)網頁的URL;(2)網頁
(1) 該文本的字號比周圍文本的大;
(2) 該文本與周圍文本的顏色不同;
(3) 該文本字數很少(一般少于10個);
(4) 該文本獨立成段。
2.網絡多媒體主題搜索策略
筆者基于網絡多媒體資源在Web中分布的特點,對傳統(tǒng)的Shark-Search[2]主題搜索算法進行改進,實驗結果表明搜索效率有顯著提高。搜索算法的改進主要體現在2個方面:第一,內容相似度的計算方法;第二,鏈接相似度的計算方法。本系統(tǒng)使用的改進Shark-Search的搜索策略具體為:
(1)內容相似度的計算
在計算多媒體內容相似度的時候,筆者把“主題團”標題加入到計算過程中,具體為:
Content_score(ui)
=Score(block_title)[β×Score(anchor)
+(1-β)×Score(url)]
(1)
其中,Score(block_title)是鏈接ui所在“主題團”標題與主題的相關度,計算時采用向量空間模型VSM,Score(anchor)和Score(url)分別表示鏈接ui的錨文本和URL地址與主題的相關度,采用布爾模型進行計算;β為相關因子,用以調節(jié)鏈接的錨文本和URL地址所占的比重。
(2)鏈接相似度計算
在鏈接相似度計算方面,首先將網頁按照“主題團”進行網頁分塊,然后用網頁的父鏈接和兄弟鏈接的相關度來揭示鏈接結構對一個URL鏈接相關度的影響,同時將“主題團”標題與主題的相似性加入到算法的計算過程中,算法的具體公式為:
(2)
其中,ui是正在爬行的鏈接,t是父鏈接的總數,λ(dj)是動態(tài)因子,P(dj)表示從父鏈接繼承來的鏈接相關度和已爬行過兄弟鏈接的平均鏈接相關度。它來衡量通過父鏈接能爬行到多少主題相關頁面的能力,其計算公式為:
(3)

(3)內容相似度和鏈接相似度的歸一化
為了提高整個網頁的主題相關性和權威性,筆者采用內容相似度和鏈接相似度按不同權值相加所得結果來標識。在這里將二者歸一化,計算得到的值作為“網絡蜘蛛”即將爬行鏈接的依據。計算公式為:
S(i)=λ×Content_score(ui)
+(1-λ)×Structure_score(ui)
(4)
3.基礎教育網絡多媒體教學資源主題詞集的建立
為了確定在Web中搜索的多媒體資源的主題,筆者從人教版中小學課本中提取了與多媒體資源可能有關的主題詞[3],按學科、學段分類,建立了高中語文、數學、物理、化學、生物,初中語文、數學、物理、化學、生物,小學語文、數學、科學、社會、思想品德與生活等15個主題詞集[4],同時每個詞集下面又分為:視頻詞集、音頻詞集、動畫詞集3個子詞集。
為了更好地驗證網絡多媒體教學資源主題搜索系統(tǒng)對Web中包含的多媒體資源的搜索效果,筆者做了以下實驗:首先將網絡多媒體教育資源主題詞集中初中物理和高中物理主題詞集合并為一個的物理詞集(192個詞條)。先用通用搜索系統(tǒng)進行多媒體搜索,然后使用網絡多媒體主題搜索系統(tǒng)進行搜索,實驗對比結果如表1。

表1 對比實驗結果
由表1可以看出,多媒體主題搜索將查詢主題加入到搜索過程中,搜索結果的主題相關度遠遠高于通用搜索系統(tǒng)的主題相關度,由于在搜索策略中加入了很多信息的計算,所以多媒體主題搜索的平均爬行速度要低于通用搜索,但運行時間卻遠遠小于通用搜索。
本文詳細介紹了整個網絡多媒體教學資源主題搜索系統(tǒng)的各個環(huán)節(jié),實驗效果良好。但系統(tǒng)的性能仍需在以下方面加以完善:第一,擴展基礎教育主題詞集,擴大搜索的范圍,即時更新“多媒體數據庫”中的記錄。第二,繼續(xù)提高多媒體主題搜索算法的效率,著重優(yōu)化實驗算法中各個參數。第三,考慮對存在于多媒體網絡的數據庫(動態(tài)網頁)中多媒體資源的獲取。
[1] 宋宇,孟祥增.基于改進Fish-search算法的多媒體檢索[J].計算機工程,2008(11):189-193.
[2] 楊仁廣,孟祥增.一種基于網頁內容和鏈接分析的主題搜索算法[J].情報雜志,2008(6):64-66.
[3] 張鷹.基于CRP理念的學習化社區(qū)網絡建構[J].江蘇廣播電視大學學報,2010(1):32-34.
[4] 孟祥增.多媒體網絡教學資源的內容特征提取與搜索研究[J].電化教育研究,2007(12):33-37.