999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

Web信息檢索中信息分類技術研究

2008-04-12 00:00:00馬紀穎朱力軍
現(xiàn)代電子技術 2008年10期

摘 要:隨著Internet/Intranet的快速發(fā)展和普及,豐富的Web資源構(gòu)成一個巨大的全球信息倉庫。在海量數(shù)據(jù)空間中快速、準確地獲取用戶所需成為Web檢索系統(tǒng)研究的焦點。將一種全新的網(wǎng)頁自動分類技術引入WWW信息抽取領域,解決網(wǎng)上信息有效獲取的問題。獲取網(wǎng)站分類體系,設計的Web信息自動歸類算法,可通過Web數(shù)據(jù)抽取機制以及Web信息分類技術實現(xiàn)檢索結(jié)果的分類和層次化展示,使用戶快捷準確地從WWW上獲取所需信息。

關鍵詞:信息檢索;信息歸類;分類體系;層次化展示

中圖分類號:TP393.092 文獻標識碼:A

文章編號:1004-373X(2008)10-076-03

Research of Information Classification in Web Information Retrieval

MA Jiying,ZHU Lijun,ZHANG Yan

(Shenyang Institute of Chemical Technology,Shenyang,110142,China)

Abstract:As Internet/Intranet developing quickly and being popular,affluent Web resources have composed a huge global information warehouse.It becomes more and more important in information retrieval research that how to obtain the Web information what users need among magnanimity data space fast and accurately.In order to improve the performance of search engine,this paper applies a new technology of Web page classification to the existing search engine.We obtain Website classification system and design arithmetic of Web information classification.Result can be classified into groups and displayed hierarchically by Web information extraction mechanism and users obtain what they need on WWW fast.

Keywords:information retrieval;information classification;classification system;hierarchical display

1 引 言

目前,搜索引擎提供的信息往往遠多于用戶所需的信息,原因是基于關鍵詞的搜索會返回包含該關鍵詞的所有網(wǎng)頁,而這些網(wǎng)頁往往跨越多個領域,其中會有許多內(nèi)容屬于用戶根本不感興趣的范圍。為使因特網(wǎng)用戶快速查詢出感興趣的信息,有必要將分類技術運用到搜索引擎當中。網(wǎng)頁間的超鏈接提供了網(wǎng)頁間內(nèi)在關系的信息[1],很明顯,如果網(wǎng)頁A指向網(wǎng)頁B,那么網(wǎng)頁A的作者會認為網(wǎng)頁B包含有價值的信息或者他們之間存在某些關系。已經(jīng)有一些分類工作涉及用超鏈接及HTML結(jié)構(gòu)來提高網(wǎng)頁分類的精確率[2-4]。

與傳統(tǒng)數(shù)據(jù)相比,Web數(shù)據(jù)有如下特點[5,6]:數(shù)據(jù)不由任何組織和個人控制,沒有固定的數(shù)據(jù)模型;數(shù)據(jù)的組織是任意的,只要能在Web上展現(xiàn)即可;數(shù)據(jù)的內(nèi)容和表現(xiàn)方式是動態(tài)變化的;數(shù)據(jù)量巨大并且增長迅速。雖然搜索引擎已經(jīng)成為成熟的商業(yè)應用,極大地方便Web信息的查找和獲取,但他還存在著以下問題[7,8]:大量非專業(yè)用戶,難以使用簡單查詢串準確表達自己的信息需求,從而造成大量查詢結(jié)果并不是用戶需要的信息;信息搜索過程和結(jié)果集排序?qū)λ杏脩羰褂猛粯藴剩y以使不同知識、工作背景的用戶都滿意;新近提出的自動分類的搜索引擎服務[9]是一種新型的、自動語義匹配、自動抽取主要欄目,二級欄目,模塊化的Web應用,并能通過Web被發(fā)布、定位和調(diào)用。他著眼于網(wǎng)頁之前間的超連接關系,通過蜘蛛程序獲得網(wǎng)站拓撲結(jié)構(gòu)和分類體系進而完成Web信息的自動歸類,從根本上不同于基于特征向量法的網(wǎng)頁自動分類技術。自動分類的搜索引擎服務能幫助簡化信息搜索,減少用戶自己分類的時間,使合作更容易。

基于這種新型自動分類思想,從底層蜘蛛程序獲得相關分類信息和網(wǎng)站拓撲結(jié)構(gòu),抽取了網(wǎng)站分類體系,設計了Web信息歸類算法,并將多項信息分類展示,為用戶有效地在WWW上搜索信息提供方便高效的支持。

2 網(wǎng)站分類體系抽取

2.1 研究思路

基于這樣一個基本原則:尊重信息發(fā)布者對信息的理解。Web信息通常以Web站點的形式聚集,這是WWW信息空間中信息組織的重要特點。Web站點通常都是遵循網(wǎng)站設計者(信息發(fā)布者)的意圖,按照一定的原則對站點層次、欄目進行組織、規(guī)劃,而Web信息發(fā)布者對Web內(nèi)容的理解直接體現(xiàn)于Web頁面所歸屬的欄目分類。通過抽取網(wǎng)站本身的欄目層次信息、網(wǎng)頁信息以及其拓撲結(jié)構(gòu),就能夠?qū)崿F(xiàn)分類體系的確立及Web信息的自動歸類。當用戶檢索信息時,可以對檢索結(jié)果分類組織和展示,使用戶能夠根據(jù)信息類別快速定位感興趣的信息。

網(wǎng)站采用的分類體系通過網(wǎng)站導航體系展現(xiàn)。通過網(wǎng)頁分塊、塊導航置信度分析獲取導航欄,進而獲取網(wǎng)站導航體系,在導航體系分類語義分析的基礎上,獲取網(wǎng)站的分類體系。

2.2 獲取網(wǎng)站分類體系

為了方便用戶瀏覽信息,網(wǎng)站通常設有自己的分類體系。網(wǎng)站結(jié)構(gòu)按該體系進行信息的分類組織:在顯要位置給出各類別信息的入口,不同類別的信息處于網(wǎng)站結(jié)構(gòu)中不同位置,同類信息出現(xiàn)在相近的位置,信息發(fā)布時根據(jù)其類別選擇位置。同時,網(wǎng)站結(jié)構(gòu)的組織,總是從網(wǎng)站首頁開始,通過索引頁面,鏈接到最終信息頁面。

2.2.1 基于網(wǎng)頁分塊的導航欄提取

按照網(wǎng)頁頁面版式,內(nèi)容相關度等特征,可以將頁面按區(qū)域進行分割,這個過程稱為網(wǎng)頁分塊。網(wǎng)頁分塊后,頁面上各個分離的區(qū)域稱為塊。同一塊內(nèi)的內(nèi)容,聯(lián)系比較緊密;而不同塊之間的內(nèi)容關系則比較松散,在語義上也不連貫。按照作用與功能,塊可以分為導航塊、正文塊和輔助塊。導航塊是指主要完成網(wǎng)頁間導航功能,他所包含的主要內(nèi)容為超鏈接;正文塊主要功能為表現(xiàn)網(wǎng)頁主體內(nèi)容,索引頁面的正文塊通常為指向其他頁面的超鏈;輔助塊是指諸如網(wǎng)站版權(quán)信息說明等,是對本網(wǎng)頁起到輔助作用的塊。

(1) 網(wǎng)頁分塊:HTML提供了多種控制格式的標簽,其中一些有空間上和邏輯的分隔作用。如,<p>,<br>,<tr>等,他們表現(xiàn)為較大的空行,能夠起分隔段落的作用;<hr>,他表現(xiàn)為水平線,人們習慣用他分隔關系松散的章節(jié);還有一些標記在空間上表現(xiàn)為分隔,同時也被用來表達在意義上比較獨立的文字段,例如:<blockquote>,<form>,<table>等。研究及試驗表明,網(wǎng)頁HTML文件中連續(xù)出現(xiàn)多個有空間或邏輯分隔作用標簽是前后內(nèi)容不相關的標志。

HTML文件中連續(xù)出現(xiàn)的,有空間或邏輯分隔作用標簽集合稱為間隔,記為I。其中連續(xù)的含義是指在標簽和標簽之間不出現(xiàn)可在網(wǎng)頁上顯示的文本,包括超鏈接文本和普通文本。對于有分隔作用的標簽Ti,按照其分隔內(nèi)容的程度,賦予權(quán)重WTi。間隔I內(nèi)標簽權(quán)重的累加值WI,即WI=∑[DD(]i=n[]i=1[DD)]WTi,稱為間隔權(quán)重,Ti,i=1,2,…,n,為I中的有分隔作用的標簽。設定間隔權(quán)重閾值為某一常數(shù)C,權(quán)重大于C的間隔稱為分割,記為D。分割把頁面HTML源文件分成多個段,每段HTML對應了顯示頁面的一個區(qū)域,從而網(wǎng)頁頁面被分成若干區(qū)域,這樣就實現(xiàn)了網(wǎng)頁分塊,由網(wǎng)頁得到了塊。

分塊過程中,有兩種方式實現(xiàn)分塊的靈活性調(diào)控:調(diào)整有分隔作用的標簽的權(quán)重,可以適應不同的頁面設計風格;通過間隔構(gòu)成分割閾值大小的設定,可以控制分塊的粒度,滿足不同應用對分塊的需求。

(2) 網(wǎng)頁塊導航置信度分析:完成頁面分塊后,需要從塊中確定哪些是導航塊。研究大量網(wǎng)站發(fā)現(xiàn):導航塊通常位于頁面的上部或左部,對應HTML源文件中前面的部分,所以導航塊必定在前面的塊中;導航塊中的主要內(nèi)容為超鏈;導航塊中各超鏈的顯示文字比較整齊,簡短;導航塊中各超鏈的URL比較整齊,一般不含query。

2.2.2 導航項分類語義判斷

在得到頁面導航塊后,解析導航塊的HTML代碼,提取各導航項的顯示文字,鏈接地址。分析顯示文字的分類語義:如果有足夠的分類語義,則為分類類別;如果明顯缺乏分類語義,則丟棄;對無法做出明確判斷的,則根據(jù)試驗效果做選擇。每個類別都與其對應原導航項的超鏈關聯(lián),這樣每個類別都有對應的類別位置,這是后續(xù)Web信息歸類的基礎;類別關聯(lián)的超鏈還指明查找下一層類別的頁面。從導航塊中抽取欄目信息的流程如圖1所示。

從分塊程序給出頁面塊集合中的第一個塊開始,逐塊檢查內(nèi)部各鏈接項的文本、URL特征等,并進行總體分析,直到確定出一個導航塊,返回。

3 Web信息自動分類

Web信息都通過其所在頁面關聯(lián)到網(wǎng)站結(jié)構(gòu)中的位置,在獲取網(wǎng)站的分類體系后,通過信息位置和類別位置的對應,可以實現(xiàn)Web信息的歸類[10]。下面先給出幾個基本定義:

[HTH]定義1:信息位置,Web信息所在頁面對應的節(jié)點在網(wǎng)站的結(jié)構(gòu)圖中所處位置稱為信息位置。

[HTH]定義2:類別位置,類別都關聯(lián)了超鏈,這個超鏈指向頁面對應的節(jié)點在網(wǎng)站的網(wǎng)站結(jié)構(gòu)圖中所處位置稱為類別位置。

[HTH]定義3:信息和類別對應關系,如果從某一類別的類別位置出發(fā),沿著網(wǎng)站結(jié)構(gòu)圖,能夠到達某Web信息所在信息位置,則說這個類別和這條信息有對應關系。

[HTH]定義4:信息-類別距離,如果某信息和某類別對應,在網(wǎng)站結(jié)構(gòu)圖中,信息的信息位置到類別的類別位置的最短路徑的長度,稱為該信息到與該類別的信息-類別距離。

網(wǎng)站的組織中,總是從網(wǎng)站首頁開始,通過索引頁面,鏈接到最終信息頁面。網(wǎng)站組織信息有如下特點:不同類別信息處在網(wǎng)站結(jié)構(gòu)中不同位置,同類信息處在相近位置,首頁導航欄給出各大類信息的入口,大類對應的索引頁面指向小類對應的索引頁面,小類對應的索引頁面指向本類其他索引頁面和最終信息頁面。考慮到類別的層次性,與子類對應的信息必然與父類對應。

圖1 頁面導航欄分析流程圖

采用如下策略確定信息歸屬類別:在所有與某一信息對應的類別中,信息類別距離最短的類別,作為信息的歸屬類別;如果有多個與該信息對應的,有相同信息-類別距離的類別,則其中層次最深的類別作為信息歸屬類別;如果有多個信息-類別距離相等,且層次相同的類別與該信息對應,則取其中分類語義最大的類別作為信息的類別。

這種分類的依據(jù)是信息發(fā)布者對信息類別的判斷,更加準確和權(quán)威;分類體系保持了層次性,便于知識學習和表示;分類過程不需要自然語言理解和統(tǒng)計分析,效率更高。設計的算法為:

(1) 根據(jù)網(wǎng)站結(jié)構(gòu)圖,找出所有指向信息所在頁面對應節(jié)點的頁面,放入集合F;

(2) 判斷F集合中是否包含對應分類體系中某類別得節(jié)點;如果有,則找出其中層次最深,包含分類語義最大的類別,將信息歸入該類,程序結(jié)束,否則到(3);

(3) 在網(wǎng)站結(jié)構(gòu)圖中,找出所有指向F集中節(jié)點的節(jié)點,并將這些節(jié)點的集合作為新的F集,返回(2)。

4 檢索結(jié)果的分類和層次化展示

采用Java以及動態(tài)Web技術實現(xiàn),以Tomcat 5作為JSP/Serlvet容器,Oracle 9為數(shù)據(jù)庫服務器。以sohu,sina等網(wǎng)站的具體欄目題材實現(xiàn)檢索結(jié)果的分類和層次化展示示例如圖2所示。

圖2 檢索“喬丹”得到的分類結(jié)果

5 結(jié) 語

充分挖掘信息發(fā)布者的思想,重點考慮網(wǎng)站內(nèi)部通過鏈接表現(xiàn)的組織結(jié)構(gòu);根據(jù)網(wǎng)站組織結(jié)構(gòu)提取網(wǎng)站分類體系,通過設計的Web信息歸類算法,完成信息的自動歸類;實現(xiàn)檢索結(jié)果的分類和層次化展示。提高查到準確信息的效率,為終端用戶提供更為方便的服務和應用。

參 考 文 獻

[1]Jennifer Farkas.Document Classification and Recurrent Neural Networks [C].Proceedings of the 1995 Conference of the Centre for Advanced Studies on Collaborative Research,1995:21-27.

[2]David Gibson,Jon M Kleinberg,Prabhakar Raghavan.Inferring Web Communities from Link Topology [C].UK Conference on Hypertext,1998:225-234.

[3]Michael B Cline.Using HTML Structure and Linked Pages to Improve Learning for Text Categorization [D].Department of Computer Sciences,University of Texas at Austin,1999.

[4]Yin-Hung Kuo,Man Hon Wong.Web Document Classification Based on Hyperlinks and Document Semantics.PRICAI Workshop on Text and Web Mining,2000:41-44.

[5]Bing Liu,Kevin Chen-Chuan Chang.Editorial:Special Issue on Web Content Mining [J].ACM SIGKDD Explorations Newsletter,2004,6(2):1-4.

[6]Devanshu Dhyani,Wee Keong Ng,Sourav S Bhowmick.A Survey of Web Metrics [J].ACM Comput Survey,2002,34(4):469-503.

[7]Chia-Hui Chang,Ching-Chi Hsu.Integrating Query Expansion and Conceptual Relevance Feedback for Personalized Web Information Retrieval [J].Computer Networks and ISDN Systems,1998,30(7):621-623.

[8]Liu F,Yu C,Meng W.Personalized Web search by mapping user queries to categories [C].Proceedings of the Eleventh International Conference on Information and Knowledge Management,McLean,2002:558-565.

[9]彭彤,張斌,鄭懷遠.WWW上的基于信元模型的信息集成[J].小型微型計算機系統(tǒng),2002(7):23-27.

[10]Gao Kening,Yang Leiming,Zhang Bin.Automatic Classification of Web information Based on Site Structure [A].CW2005,2005:350-357.

作者簡介

馬紀穎 女,1975年出生,遼寧遼中人,碩士研究生,講師。研究方向為Web信息檢索和集成。

朱力軍 男,1972年出生,碩士,講師。研究方向為軟件工程。

張 顏 女,1979年出生,碩士研究生,講師。

注:本文中所涉及到的圖表、注解、公式等內(nèi)容請以PDF格式閱讀原文。

主站蜘蛛池模板: 国产又爽又黄无遮挡免费观看| 欧美一区国产| 在线观看精品国产入口| 18禁影院亚洲专区| 日韩国产高清无码| av天堂最新版在线| 一级爆乳无码av| 国产办公室秘书无码精品| 国产喷水视频| 久久综合婷婷| 国产亚洲成AⅤ人片在线观看| 国产精品区视频中文字幕| 亚洲综合色婷婷中文字幕| 国产网站一区二区三区| 欧美成人区| 国产丝袜91| 亚洲av无码片一区二区三区| 国产尤物在线播放| 国产亚洲欧美在线视频| 国产青榴视频| 中文字幕乱码中文乱码51精品| www.av男人.com| 日韩欧美中文字幕在线精品| 日本一区二区不卡视频| 欧美精品一区二区三区中文字幕| 国产精品自在在线午夜区app| 亚洲精品无码人妻无码| 亚洲色图综合在线| 欧美日一级片| 精品无码国产自产野外拍在线| 免费国产在线精品一区| 国产精品无码影视久久久久久久| 美女视频黄频a免费高清不卡| 亚洲a级在线观看| 精品成人一区二区三区电影| 人妻无码一区二区视频| 毛片在线播放a| 久久男人资源站| av在线人妻熟妇| 国产一级片网址| 国产91久久久久久| 波多野衣结在线精品二区| 国产sm重味一区二区三区| 日韩麻豆小视频| 天堂网亚洲综合在线| 福利在线一区| 欧美成a人片在线观看| 丝袜国产一区| 亚洲男人的天堂久久香蕉| 成人免费黄色小视频| 亚洲国产精品不卡在线| 无码国产偷倩在线播放老年人 | 国产一级毛片在线| 国产在线高清一级毛片| 婷婷久久综合九色综合88| 99精品伊人久久久大香线蕉| 国产黄色爱视频| 国产成人在线无码免费视频| 国产人碰人摸人爱免费视频| 91色综合综合热五月激情| 国产精品第一区| 亚洲欧美不卡视频| 五月婷婷精品| 中文字幕丝袜一区二区| 九九免费观看全部免费视频| 日韩在线1| 久久精品人人做人人综合试看| 日韩欧美高清视频| 国产久草视频| 韩国v欧美v亚洲v日本v| 日a本亚洲中文在线观看| 亚洲天堂777| 狠狠做深爱婷婷久久一区| 亚洲欧美精品一中文字幕| 亚洲欧美另类中文字幕| 91久久偷偷做嫩草影院| 乱人伦99久久| 日本欧美视频在线观看| 国产自在线拍| 欧美精品v欧洲精品| 99久久精品免费看国产免费软件| 欧美国产日韩在线观看|