999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

教育類網站文本信息提取技術分析

2013-09-27 08:48:56郝帥
中國教育技術裝備 2013年36期
關鍵詞:數(shù)據(jù)庫文本信息

◆郝帥

1 引言

現(xiàn)代社會互聯(lián)網已經融入人們生活的方方面面,各種信息資源充斥著人們生活的每個角落。隨著互聯(lián)網的發(fā)展,信息資源也在以指數(shù)級的速度發(fā)展。各種教育類的網站玲瑯滿目,卻使得學習者在網絡中獲取自己想要的信息變得困難起來。因此,尋找一種合適的檢索方法就變得尤為重要了。

在眾多的網頁資源之中,文本信息始終是最重要的一環(huán),提出一個合適的方法,提取網頁中的文本信息,并能夠實現(xiàn)通過文本信息對網頁進行檢索,一定可以大大縮短用戶的搜索時間,并提高準確率。

2 文本信息提取相關技術

萬維網技術 萬維網(World Wide Web),即通常所說Web,最早可以追溯到Tim Berners-Lee提出的“Distributed hypermedia systems engineering”,也就是分布式超媒體系統(tǒng)工程。這個由Berners-Lee于1980年建立的ENQUIRE,被公認為是現(xiàn)代萬維網的源頭。

經過20多年的發(fā)展,萬維網形成了一種獨特的工作機制,即Client/Server(客戶機/服務器)模式,這種機制的工作原理也較為簡單:首先用戶通過客戶端的軟件發(fā)送請求,客戶端的軟件會對客戶的請求進行初始化,然后將 初始化后的請求發(fā)送給服務器,服務器在收到請求之后,響應這一請求并將相關數(shù)據(jù)發(fā)送給客戶端。

萬維網是一種以DOM結構為基礎而建立的模型,早已成為當前網絡信息資源的主流。萬維網主要是以3個部分作為基礎的:首先是HTML,也就是超文本的標記語言;然后是HTTP,即超文本的傳輸協(xié)議;最后是URL,指的是資源定位符。WWW技術可以支持豐富的多媒體,而且管理簡便、實現(xiàn)簡單,還擁有超高的應用效率,已經成為網絡上最主要的應用之一,在教育領域應用十分廣泛。

超文本標記語言結構 目前,使用HTML(超文本標記語言)來描述網頁已經成為主流。作為一種使用簡單且兼容性、遷移性極佳的語言,其使用的“文檔格式定義”的概念,可以用于制作包含各種資源的網頁,并可以提供各網頁之間的鏈接。

HTML語言設計簡單,結構靈活,是Internet上最流行的標準格式。HTML文檔是以純文本文件形式存在的,主要包括4個部分的內容:標記,是指標簽符號及其組成元素,由成對出現(xiàn)的開始標簽和結束標簽組成;屬性,一般是對標簽進行提供單元的某些信息或補充說明;實體,用于表示被占用的特殊符號;注釋,用于標注并不會在客戶端顯示的內容。

HTML是一種非結構化與半結構化相結合的語言,雖然它將資源數(shù)據(jù)按照一定的方式進行了組織,但是由于資源本身的數(shù)據(jù)是非結構的,這就導致了其半結構化的結構模式。

中文分詞技術 中文分詞技術是中文信息處理的基礎與關鍵,實際上就是把一個句子切成若干個詞。和英文不同,中文的句子中詞語與詞語之間是沒有較為顯著的分隔的,所以處理起來要復雜得多。在該領域中已經有如下幾類算法:以統(tǒng)計為基礎的方法,首先對詞出現(xiàn)的頻率進行統(tǒng)計,不需要構建詞典,使用之前對統(tǒng)計好的結果詞進行切分,使用起來較為復雜且準確性得不到保證;以字符串的匹配為基礎的方法,該方法首先要構建一個分詞詞典,然后按照正向或者逆向的順序把一長串漢字中的特定長度的字符串與事先構建好的詞典中的詞進行比較,一旦發(fā)現(xiàn)詞典中有這個字符串,就把這個字符串切出來保存為一個詞。基于分詞速度與精度的考慮,本文采用的分詞算法是基于字符串匹配的分詞方法逆向最大匹配。

3 教育類網站中文本信息提取系統(tǒng)的設計與實現(xiàn)

相關文本界定 網頁中出現(xiàn)的文本信息可進行如下劃分。

以上三個部分的內容,基本上涵蓋了這個Web的主要信息,利用這三個部分的內容信息,建立數(shù)據(jù)庫,就可以很好地為搜索提供幫助。

相關詞典構建 對于中文信息的處理,中文分詞詞典具有舉足輕重的作用。本文中所采用的分詞算法是逆向算法,所以構建逆向分詞詞典,詞典包含171 031個詞條,包含了日常生活中經常使用的普通詞和中小學各個年級、各類學科的關鍵詞;詞的排序是將詞中首位字相同的詞放在一起,然后按詞的長度由長到短排列。

系統(tǒng)結構設計 教育類網站文本信息提取過程主要包括兩大步驟:首先,搜索網絡中的教育類網站,下載教育類網站的網頁,并將網頁的相關信息存入到教育類網站網頁數(shù)據(jù)庫數(shù)據(jù)表中;其次,對網頁數(shù)據(jù)表里的網頁進行處理與分析,進一步提取相關文本,再對相關文本進行中文分詞等操作,從而分析提取出用于描述、標引教育類網站的信息,最終形成教育類網站的信息庫。本文中采用Visual C++6.0為開發(fā)平臺,數(shù)據(jù)庫采用Access 2003,系統(tǒng)結構如圖1所示。

圖1 教育類網站文本信息提取系統(tǒng)結構圖

系統(tǒng)各模塊的實現(xiàn)方法 教育類網站文本信息提取系統(tǒng)分為四大模塊。

1)教育類網站搜集模塊。該模塊的主要功能是通過使用網頁爬行器,在網絡中搜索下載教育類網站的網頁,并將所搜集到網頁的相關信息存放到教育類網站庫Edupage.mdb文件中。

2)網頁分析文本區(qū)域定位模塊。該模塊首先要對網頁的代碼進行處理,包括代碼轉換、頭部主體分割,對關鍵的文本進行定位。

3)文本信息提取模塊。該模塊的功能主要是提取相關文本,然后對文本進行分詞,從而獲得可以標注教育類網站的相關文本信息。

4)文本信息以及網頁地址存儲模塊。該模塊的主要功能是將前面第三個模塊得到的可以標注教育類網站的相關文本信息以及獲得相關文本信息的網頁的URL存入到相應的數(shù)據(jù)庫中,以建立教育類網站索引庫。

數(shù)據(jù)庫結構設計 為了存儲搜集的網頁信息以及提取的文本信息,建立名為Edupage.mdb的數(shù)據(jù)庫,教育類網站網頁數(shù)據(jù)庫數(shù)據(jù)表的邏輯結構如表1所示。

表1 教育類網站網頁數(shù)據(jù)庫數(shù)據(jù)表邏輯結構

除了上面的網頁庫數(shù)據(jù)表之外,還建立了另一個索引數(shù)據(jù)表用于存放教育類網站的相關信息,以及系統(tǒng)中所提取到的網頁中所包含的文本信息,該索引數(shù)據(jù)表就是本系統(tǒng)最終所要完成的結果。索引數(shù)據(jù)表完成后,用戶可以通過事先制作好的搜索界面輸入想要查詢的教育類網站的中文關鍵詞,就可以在系統(tǒng)最終生成的這一索引數(shù)據(jù)表中進行搜索,得到想要得到的結果。數(shù)據(jù)庫索引數(shù)據(jù)表的結構圖如表2所示。

表2 索引數(shù)據(jù)表的邏輯結構圖

4 實驗結果分析

利用之前介紹的教育類網站文本信息提取系統(tǒng),筆者對163個教育類網站進行了測試,該系統(tǒng)可以很好地從這163個教育類網站中提取到相關文本并通過分詞形成索引數(shù)據(jù)表。測試結果表明,該系統(tǒng)可以幫助用戶在瀏覽教育類網站時縮短檢索時間,提高準確率。

[1]胡崧.HTML從入門到精通[M].北京:中國青年出版社,2002:9.

[2]DENG Cai, YU Shipeng, WEN Jirong, et al.VIPS: A Vision-Based Page Segmentation Algorithm[R].Microsoft Technical Report, M SR-TR-2003-79,2003.

[3]Raggett D.Clean up Your WEB Pages with HTML TIDY[EB/OL].[2000-8-4].http://www.w3.org/People/Raggett/tidy/.

[4]孟祥增,鐘義信.基于語義的WWW圖像檢索[J].現(xiàn)代圖書情報技術,2004(3):35-37.

猜你喜歡
數(shù)據(jù)庫文本信息
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
數(shù)據(jù)庫
財經(2017年2期)2017-03-10 14:35:35
數(shù)據(jù)庫
財經(2016年15期)2016-06-03 07:38:02
數(shù)據(jù)庫
財經(2016年3期)2016-03-07 07:44:46
數(shù)據(jù)庫
財經(2016年6期)2016-02-24 07:41:51
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 国产精品人莉莉成在线播放| 精品无码一区二区三区电影| 久久久久人妻精品一区三寸蜜桃| 92午夜福利影院一区二区三区| 国产精品人莉莉成在线播放| 亚洲国产系列| 亚洲AV无码乱码在线观看裸奔| 国产精品乱偷免费视频| 国产色爱av资源综合区| 日本爱爱精品一区二区| 亚洲国产成人精品无码区性色| 国产在线精品人成导航| 国产美女叼嘿视频免费看| 欧美日韩专区| 久久伊人色| 亚洲天堂区| 色综合中文| 成人日韩视频| 小说区 亚洲 自拍 另类| 精品撒尿视频一区二区三区| 国产一区二区三区夜色| 高清视频一区| 国产美女91视频| 黄色网页在线播放| 国产美女91视频| 久草视频中文| 欧美日韩在线亚洲国产人| 不卡网亚洲无码| 久久久久亚洲AV成人网站软件| 色窝窝免费一区二区三区| 亚洲乱强伦| 超碰免费91| 国内精自线i品一区202| 99久久婷婷国产综合精| 91成人试看福利体验区| 国产成人夜色91| 国产高潮视频在线观看| 欧美亚洲欧美| 影音先锋亚洲无码| 国产精品免费p区| www.国产福利| 亚洲精品欧美重口| 久久99精品久久久大学生| 国产精品99一区不卡| 亚洲AV无码乱码在线观看代蜜桃| 国产精品丝袜视频| 亚洲浓毛av| 日韩在线欧美在线| 无码av免费不卡在线观看| 99精品视频九九精品| 日韩无码精品人妻| 青青草原国产免费av观看| 国产特级毛片aaaaaaa高清| 91精品综合| 久久网欧美| 国产成人1024精品下载| 蜜桃视频一区二区| 亚洲天堂在线免费| 亚洲大学生视频在线播放| 久久成人18免费| 国产乱子伦精品视频| 亚洲精品少妇熟女| 日韩123欧美字幕| 国产微拍一区二区三区四区| 日韩精品成人网页视频在线| 乱系列中文字幕在线视频| 国产成人禁片在线观看| 日韩在线观看网站| 国产成人在线小视频| 久久香蕉国产线看观| 精品国产成人av免费| 日本免费新一区视频| 亚洲av中文无码乱人伦在线r| 精品无码日韩国产不卡av| 免费无码AV片在线观看国产| 好吊妞欧美视频免费| 奇米影视狠狠精品7777| 日韩第八页| 在线看片中文字幕| 美女国产在线| 欧美黄色网站在线看| 乱码国产乱码精品精在线播放|