999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于HTML語義的多媒體資源數據采集研究

2016-02-17 10:38:29涂婧璐海南政法職業學院海南海口571100
中國現代教育裝備 2016年7期
關鍵詞:數據采集多媒體

郭 毅 涂婧璐海南政法職業學院 海南海口 571100

?

基于HTML語義的多媒體資源數據采集研究

郭 毅 涂婧璐
海南政法職業學院 海南海口 571100

摘 要:在互聯網多媒體資源日益豐富的當代,想收集相關的多媒體資源并使用是一件費時費力的工作。為了能更好地收集使用網絡上的多媒體資源,我們考慮在分析多媒體資源的特點的基礎上,結合Web網頁中與多媒體資源相關的上下文環境及HTML標簽的語義來實現能夠自動采集多媒體資源的應用。

關鍵詞:多媒體;HTML語義;數據采集

隨著計算機技術、通信技術和互聯網技術的迅速發展,網絡已成為當今人們獲取信息的重要途徑,各種網絡資源應用對人們的學習和生活的影響也日漸深刻和廣泛。多媒體資源作為網絡資源的重要組成部分,具有形象、生動、直觀、信息量大的優點,不受時間和空間的限制,能夠情景再現,動靜結合,將抽象的內容具體化、復雜的問題直觀化,刺激學習者的感觀和想象能力,激發學習興趣,使學習者在短時間內獲取盡可能多的信息。但是面對浩瀚的網絡世界里的多媒體資源爆炸式增長,學習者想要快速、準確地找到所需要的內容往往是件不太容易的事情。教師們備課時需要在網絡上不斷尋找資源并整理加工,在重復的勞動中消耗時間和精力,能夠高效地將所需資源整合起來為工作和學習所用較困難。

在互聯網世界中絕大多數的多媒體資源載體是基于Web網頁形式存在的。因此,如果實現一種自動采集Web網頁上的多媒體資源數據功能的應用,將能大大提高學習者效率,減輕學習者因資源收集所帶來的壓力,轉而將時間和精力集中到學習本身上,將起到事半功倍的效果。

目前,多媒體采集方法主要有基于內容和基于文本的多媒體信息提取,其中前者很大程度上依賴于對采集條件的精確描述程度,另外對于多媒體信息的深層語義分析還很困難,相對來說基于內容的多媒體采集技術還不是很成熟。

在Web網頁中的多媒體資源總是處于一定的上下文環境中,它們的語義與上下文環境有著密切的關系。從多媒體資源所在網頁的標題、文件名、周圍文本等相關信息中可以提取出反映多媒體資源的主題、主體等關鍵信息,對多媒體資源采集具有重要意義,因此,基于文本的采集方法更成熟,采集命中率更高。

1 多媒體資源的特點

目前所說的多媒體資源主要包括文本資源、圖片資源、音頻資源、視頻資源、動畫資源等幾類。

文本資源:是指計算機中的文字內容,是最有效、快速傳播知識信息的媒體元素。Web中的文本資源主要是以HTML中的文本標記來標記文字或以附件文件的形式下載,主要有TXT,DOC,WPS等格式。

圖片資源:生動直觀,很容易被認知和接收,是多媒體資源庫中最重要的資源之一,也是決定多媒體應用視覺效果好壞的關鍵因素。Web網頁中常見的圖像格式有JPEG,GIF,PNG等。其中,JPEG格式圖片占用空間小,是web網頁中最常見的圖像格式;GIF支持簡單動畫及透明效果;PNG結合前兩者優點,不失真,文件小,能顯示透明圖像。

音頻資源:音頻資源媒體一般以分為音樂、語音和效果音。Web 中常見的音頻格式有WAV,MP3,WMA,MIDI等格式。其中,WAV格式示壓縮,用于聲效和背景音樂;MP3格式壓縮率高,文件小,音質好,支持流媒體在線播放,適用于網絡傳輸;WMA格式是帶版權保護技術,壓縮率更高,音質強于MP3;MIDI格式是一組聲音信息指令,占用空間小。

視頻資源:視頻資源包括生活錄像、影視剪輯、新聞報道等視頻影像資料都可以作為多媒體教學的視頻資源。Web中常見的視頻格式有FLV,MPEG,AVI等。其中,FLV格式文件極小、加載速度極快,支持流媒體,是目前主流的Web網頁視頻格式。MPEG格式是運動圖像壓縮算法的國際標準,在視頻中應用廣泛。AVI格式沒有壓縮,圖像質量好,但是文件大。

動畫資源:它可以將抽象的內容清晰地展現出來,將復雜的流程動態地演示出來,使學習內容變得既直觀又簡單。網頁中的動畫最常見的格式是SWF格式,由于SWF格式文件占用空間很小,采用了流媒體技術,因此被廣泛應用于Web網頁中,普及率很高。

2 基于Web網頁的多媒體資源分析

Web中的多媒體資源作為網頁的組成部分與文本混合嵌入在Web 網頁中,同時又以獨立的文件形式保存在Web 服務器中。因此,Web網頁中的多媒體包含兩方面的屬性:文件屬性和內容屬性。多媒體的文件屬性指文件名、文件類型、文件大小等信息。內容屬性是對多媒體數據所包含信息的描述。不同類型的多媒體文件具有不同的內容屬性,如圖像的主色調、視頻的關鍵幀等。

圖像的文件屬性有圖像文件名、類型、大小、URL等相關數據;圖像的語義屬性包括圖像所表現的主題、事件、場景以及圖像中物體的名稱、姿態、空間關系等語義信息。

視頻是一系列片斷的表達,每個片斷可分為若干個場景,進一步分為多個鏡頭。包含文件、語義屬性。其中語義屬性包含視頻標題、類型和內容描述,可以從網頁的上下文關聯環境中提取得到。其中類型又有電影、科技、教育等。

動畫在Web網頁上使用最多的為Flash動畫和GIF動畫。其中語義屬性包含動畫標題、類型、描述,可以從網頁相關上下文中提取得到。其中類型有教學型、娛樂型、交互型等。

音頻包括語音、音樂和其他的波形聲音。音頻標題、類型、描述,可以從網頁上下文中提取得到。其中類型可分為語音、音效、歌曲、音樂等。

3 多媒體資源的采集

Web網頁中是采用HTML語言來描述的。HTML即超文本標記語言,是一種簡單、通用的文本標記語言,可以制作包含文本、圖像、聲音、視頻、動畫等內容的網頁,并可以提供各網頁之間的鏈接。Web 中的各種多媒體資源通過 HTML 語言嵌入到網頁中,Web瀏覽器下載用HTML 標記過的文件,并對文件中的標記進行解釋,使用戶在屏幕上看到結構化的包含文字、圖像或其他各種多媒體資源的網頁頁面。

HTML標記語言通過標簽來描述各種資源,且每個標簽都有它各自的含義。如文字用標簽標記的表示是標題,

標簽標記的內容為一段落內容。項目列表標簽如