999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于語義Web的Blog智能檢索系統(tǒng)研究

2011-04-10 05:51:38宿州學(xué)院信息工程學(xué)院安徽宿州234000
關(guān)鍵詞:搜索引擎語義計算機(jī)

崔 琳(宿州學(xué)院信息工程學(xué)院,安徽 宿州234000)

汪材印(宿州學(xué)院機(jī)械與電子工程學(xué)院,安徽 宿州234000)

自2003年以來,與Web 2.0相關(guān)的技術(shù)不斷涌現(xiàn),其中Blog(博客)是最熱門應(yīng)用之一,其開放性和易于發(fā)布性已吸引了眾多用戶。隨著Blog的發(fā)展,Blog頁面的數(shù)量呈指數(shù)級上升,只靠傳統(tǒng)的搜索引擎有可能查找不到所需要的Blog日志,這促使人們針對Blog搜索引擎進(jìn)行研究。目前,已經(jīng)出現(xiàn)了許多頂級的Blog搜索引擎,如Technorati、BlogStreet等,Google也推出了中文Blog搜索引擎,但針對某一領(lǐng)域知識檢索的專業(yè)Blog搜索引擎還比較少[1]。為此,筆者基于語義Web思想,對計算機(jī)領(lǐng)域的Blog日志進(jìn)行搜索的智能檢索系統(tǒng)進(jìn)行了研究。

1 語義Web的體系結(jié)構(gòu)

1998年,萬維網(wǎng)(Web)的奠基人Tim Berners-Lee提出了語義 Web的概念及其技術(shù)路線[2]。后來,Tim Berners-Lee又提出了語義 Web的基本體系結(jié)構(gòu)[3],如圖1所示。

若要讓計算機(jī)理解Web上的語義,需要為計算機(jī)提供描述Web數(shù)據(jù)的數(shù)據(jù),即元數(shù)據(jù)。資源描述框架RDF(Resource Description Framework,RDF)正是描述資源的元數(shù)據(jù)模型。RDF是由資源、屬性、屬性值所組成的三元組,在知識表示領(lǐng)域,資源、屬性和屬性值分別稱為主體(Subject)、謂詞(Predicate)和客體(Object),這三者的組合稱為一個陳述(Statement)[4]。

圖1 語義Web的體系結(jié)構(gòu)

2 系統(tǒng)設(shè)計

為實現(xiàn)語義檢索計算機(jī)專業(yè)領(lǐng)域Blog日志,設(shè)計的系統(tǒng)結(jié)構(gòu)由RSS采集子系統(tǒng)、RSS處理子系統(tǒng)和Blog查詢子系統(tǒng)3個模塊構(gòu)成,每個大的模塊又詳細(xì)劃分為若干個小模塊(見圖2)。具體內(nèi)容如下:①聚合內(nèi)容采集子系統(tǒng)。Blog網(wǎng)頁的聚合內(nèi)容(really simple syndication,RSS)文件中包含該Blog網(wǎng)頁的重要信息,通過RSS的自動 “推送”,用戶可以很及時的獲得Blog網(wǎng)頁的更新信息,是使用最廣泛的XML應(yīng)用之一[5]。該系統(tǒng)中,網(wǎng)絡(luò)蜘蛛抓取的資源是RSS鏈接所指的XML文檔,這一點和傳統(tǒng)搜索引擎有明顯差別。該模塊設(shè)計中主要涉及網(wǎng)絡(luò)蜘蛛,其設(shè)計的好壞將直接影響系統(tǒng)檢索結(jié)果。網(wǎng)絡(luò)蜘蛛搜索算法如圖3所示。②RSS處理子系統(tǒng)。對抓取的RSS文件在本體庫的指導(dǎo)下進(jìn)行語義標(biāo)注,提取出文檔的特征并對原始資源使用RDF描述形成元數(shù)據(jù),然后對元數(shù)據(jù)索引處理,以提供給查詢子系統(tǒng)進(jìn)行查詢。③Blog查詢子系統(tǒng)。在本體庫的指導(dǎo)下對查詢詞進(jìn)行語義擴(kuò)展和語義推理,將經(jīng)過擴(kuò)展的查詢詞在系統(tǒng)的索引庫中查詢,最后把查詢結(jié)果返回給用戶。

圖2 Blog智能檢索系統(tǒng)詳細(xì)功能模塊

3 本體文件的建立

本體是概念模型的明確的規(guī)范化說明[6]。該系統(tǒng)中,需要利用本體對RSS文件進(jìn)行語義標(biāo)注,還要對用戶提交的查詢詞進(jìn)行語義擴(kuò)展,所以構(gòu)建良好的本體是十分重要的。設(shè)計時使用OWL語言描述本體,采用本體構(gòu)建工具Protégé構(gòu)建本體。

圖3 網(wǎng)絡(luò)蜘蛛搜索算法圖

3.1 計算機(jī)專業(yè)領(lǐng)域本體的設(shè)計

由于所設(shè)計的系統(tǒng)是針對計算機(jī)專業(yè)領(lǐng)域的Blog日志進(jìn)行語義查詢,所以要構(gòu)建計算機(jī)專業(yè)領(lǐng)域的本體庫,將現(xiàn)有的計算機(jī)領(lǐng)域分成7類,即Computer science and technology based subjects(計算機(jī)科學(xué)技術(shù)基礎(chǔ)學(xué)科)、Computer Software(計算機(jī)軟件)、Computer Application(計算機(jī)應(yīng)用)、Computer Architecture(計算機(jī)系統(tǒng)結(jié)構(gòu))、Artificial Intelligence(人工智能)、Computer engineering(計算機(jī)工程)、Computer science and technology other subjects(計算機(jī)科學(xué)技術(shù)其他學(xué)科)。每個大類包含許多小的分類,每一個小的分類又包含許多個不同的子類,使用rdfs:subClassof表示類之間的上下位關(guān)系或父子關(guān)系。

定義英語分類的同時,還定義了對應(yīng)的中文分類,將中英文詞匯用owl:sameas建立同義映射關(guān)系,查詢時,借助這種同義關(guān)系就可以實現(xiàn)擴(kuò)展詞義。例如英文 “Database”與中文 “數(shù)據(jù)庫”之間的同義可表示為:

3.2 RSS文件的本體設(shè)計

針對所查詢文檔是RSS文件的特點,定義了用于描述RSS文件的本體Document類,并為Document類定義了若干描述RSS文件的屬性,語句如下:

類定義:

屬性定義:

4 系統(tǒng)實現(xiàn)

選擇Java作為開發(fā)平臺,后臺數(shù)據(jù)庫使用MySQL 2000,Web服務(wù)器選擇支持JSP服務(wù)的Tomcat。因為CSDN網(wǎng)和希賽網(wǎng)下的Blog是目前互聯(lián)網(wǎng)上使用最為廣泛的計算機(jī)學(xué)科類博客,網(wǎng)絡(luò)蜘蛛所抓取Blog網(wǎng)頁主要來自于上述網(wǎng)站。首先在檢索項選擇關(guān)鍵詞,檢索值輸入 “數(shù)據(jù)庫”,點擊“查詢”按鈕,結(jié)果如圖4所示。“數(shù)據(jù)庫”經(jīng)過該系統(tǒng)的語義擴(kuò)展推理,得到同義詞匯 “database”和下位詞匯 “sql”,除查詢到含有“數(shù)據(jù)庫”的Blog網(wǎng)頁外,還查詢到包含 “database”和 “sql”的Blog網(wǎng)頁。

圖4 語義擴(kuò)展查詢結(jié)果界面

5 結(jié) 語

針對計算機(jī)專業(yè)領(lǐng)域Blog日志進(jìn)行語義搜索的智能檢索系統(tǒng),使用了本體、語義推理等語義Web技術(shù),把對資源信息的語義處理引入到信息檢索領(lǐng)域中。實際運(yùn)用表明,該系統(tǒng)對網(wǎng)絡(luò)蜘蛛所抓取的計算機(jī)領(lǐng)域的Blog日志能實現(xiàn)一般查詢和語義擴(kuò)展查詢,可以提高信息檢索的查全率和查準(zhǔn)率。下一步的工作是對本體庫進(jìn)行細(xì)化和完善,以便使計算機(jī)學(xué)科類本體庫和RSS文檔本體更為合理。

[1]潘冰,徐亮亮 .中文博客搜索引擎研究 [J].計算機(jī)工程與設(shè)計,2010,31(8):1718-1721.

[2]葉育鑫,歐陽丹彤 .語義Web搜索技術(shù)研究進(jìn)展 [J].計算機(jī)科學(xué),2010,37(3):1-5.

[3]Tim Berners-Lee.Semantic Web-XML2000 [EB/OL].http://www.w3.org/2000/Talks/1206-xml2k-tbl/,2000-12-06.

[4]郭志鑫 .基于本體的文檔引文元數(shù)據(jù)信息抽取 [J].微計算機(jī)信息,2006,6(3):304-306.

[5]原舒雨,蔡皖東,李勇軍,等 .面向博客的智能網(wǎng)絡(luò)蜘蛛技術(shù)及其系統(tǒng)實現(xiàn) [J].微電子學(xué)與計算機(jī),2011,28(1):193-196.

[6]張柳松 .基于本體的智能檢索系統(tǒng)的研究 [J].微計算機(jī)信息,2007,12(3):237-238.

猜你喜歡
搜索引擎語義計算機(jī)
計算機(jī)操作系統(tǒng)
語言與語義
基于計算機(jī)自然語言處理的機(jī)器翻譯技術(shù)應(yīng)用與簡介
科技傳播(2019年22期)2020-01-14 03:06:34
信息系統(tǒng)審計中計算機(jī)審計的應(yīng)用
“上”與“下”語義的不對稱性及其認(rèn)知闡釋
網(wǎng)絡(luò)搜索引擎亟待規(guī)范
認(rèn)知范疇模糊與語義模糊
Fresnel衍射的計算機(jī)模擬演示
基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
廣告主與搜索引擎的雙向博弈分析
主站蜘蛛池模板: 久久国产拍爱| 色悠久久综合| 国产精品福利尤物youwu| 性视频一区| 素人激情视频福利| 国产日韩欧美黄色片免费观看| 欧美a级在线| 成人日韩精品| 日韩123欧美字幕| 国产麻豆永久视频| 全部毛片免费看| 亚洲AV无码久久精品色欲| 色噜噜综合网| 午夜啪啪网| 久久亚洲中文字幕精品一区| 免费看a级毛片| 欧美成人午夜在线全部免费| 伊人成人在线视频| 青青草综合网| 波多野结衣一区二区三区四区视频| 日韩午夜福利在线观看| 国产va在线观看免费| 91毛片网| 国产成人综合久久精品下载| 久久一本精品久久久ー99| 亚洲精品成人片在线播放| 亚洲国产综合精品一区| 欧美激情视频一区| a网站在线观看| 视频二区国产精品职场同事| 亚洲 成人国产| 久久99国产视频| 欧美在线视频不卡第一页| 美女无遮挡免费网站| 人妻丰满熟妇啪啪| 日韩高清无码免费| 中文字幕人成乱码熟女免费| 国产九九精品视频| 国产打屁股免费区网站| 国产丝袜第一页| 久久综合婷婷| 中文字幕 91| 国产麻豆精品手机在线观看| 久996视频精品免费观看| 国产精品无码AⅤ在线观看播放| a级毛片在线免费| 欧美综合成人| 伊人久久久久久久| 日韩精品专区免费无码aⅴ| 性69交片免费看| 国产成人禁片在线观看| 亚洲第一成网站| 欧美精品成人| 中文字幕一区二区人妻电影| 精品国产香蕉伊思人在线| 国产成a人片在线播放| 色婷婷久久| 日韩乱码免费一区二区三区| 在线免费观看AV| 成人亚洲国产| 国产精品一区在线麻豆| 久久久久久久蜜桃| 一本大道香蕉久中文在线播放 | 亚洲男人天堂久久| 成人福利在线视频免费观看| 国产交换配偶在线视频| 欧美另类视频一区二区三区| 99视频在线观看免费| 日韩精品毛片人妻AV不卡| 色偷偷一区| 欧美第一页在线| 狼友av永久网站免费观看| 国产精品成人啪精品视频| 中国一级毛片免费观看| 深爱婷婷激情网| 69av在线| 2020精品极品国产色在线观看| 超清无码一区二区三区| 国产日韩欧美成人| 91在线播放免费不卡无毒| 国产香蕉一区二区在线网站| 5388国产亚洲欧美在线观看|