999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

關于結構化向量空間模型的研究

2017-03-17 08:36:30魏芊匯
電子技術與軟件工程 2016年16期
關鍵詞:信息檢索文本模型

摘 要

在我國當下的網絡信息檢索中,傳統的向量空間模型因為不能較好的解決索引項之間的相互獨立型和Web文檔半結構化之間的矛盾,已經不能較好的滿足我國民眾對于網絡信息檢索的需求,在這種背景下,結構化向量空間模型開始被用于網絡信息檢索之中,且發揮著不俗的應用效果,在這種網絡信息檢索的發展現狀下,本文就結構化向量空間模型進行了具體研究,希望能夠進一步推動結構化向量空間模型在網絡信息檢索中的應用發展。

【關鍵詞】向量空間模型 結構化

1 傳統向量空間模型

在Web信息檢索所使用的傳統向量模型中,傳統向量模型本身將文檔與用戶視為由相互獨立索引項組成的等長向量。而在傳統向量模型的使用中,我們還可以通過對某索引項Tj在文檔集Dj中權重Wij,表示這一索引的重要程度,通過我國當下流行的權重計算公式

,就可以計算得出某索引項Tj在文檔中的具體重要程度,也就是指Tj這一索引項的文檔集中比例,但這種計算方式不能夠很好地對索引項Tj在文檔中的分布差異性進行較好而表現。在對文中分布差異性表現存在的問題中,半結構化的Web文檔集合由于自身不同位置存在著不同的權重,這就使得這種文檔集合本身包含的信息量較大,而這種信息量較大的特點對于具體索引項在半結構化的Web文檔集合中的分布差異性的表現也就變得更加困難。值得注意的是,傳統的向量空間模型每增加一個文檔都需要通過

公式進行向量的重新計算,這種特點的存在客觀上降低了傳統向量模型的運行效率,制約了傳統向量模型的發展。

2 結構化向量空間模型的優點

由于傳統的向量空間模型在應用中存在著一些問題,制約著Web信息檢索效率的提升,這就催生了結構化向量空間模型在Web信息檢索中的應用。由于結構化向量空間模型本身是從傳統向量空間模型發展而來的,這就使得結構化向量空間模型既具有傳統向量空間模型的特點,又能夠較好的對半結構化的Web文檔集合中索引項的分布差異性進行表現,在實現這一功用中,結構化向量空間模型會將具體的文檔按照一定策略進行區域劃分,這種劃分會將Web文檔本身分為長度與內容都不同的文本段,這樣就可以較好的對不同文本段索引項的權值進行較好的區分。在這種結構化向量空間模型的應用中,傳統向量模型所無法解決的運行效率降低的問題,結構化向量空間模型能夠予以輕松解決,而如果將兩種模型進行具體對比,我們就能夠發現結構化向量空間模型所具有的較高的查準率。值得注意的是,在結構化向量空間模型的應用中,對于傳統向量空間模型沒有考慮過的索引項的具體出現位置與索引項的附加信息,其能夠通過自身功用較好的進行解決,保證自身應用對Web文檔中索引項權值頻度、位置、大小等信息的具體計算,最大程度上提高Web信息檢索中匹配結果的精確程度。

3 結構化向量空間模型的應用

結構化向量空間模型在Web信息檢索中的具體應用,能夠有效解決傳統向量空間模型在應用中存在的問題,并會切實通過解決索引項之間的相互獨立和Web文檔半結構化的矛盾,保證Web信息檢索效率與質量的提高。在結構化向量空間模型在Web信息檢索中的具體應用,結構化向量空間模型會通過自身邏輯將Web文檔分為文本段,通過對不同文本段的特征向量計算,組成具體的結構化向量組,這就使得結構化向量空間模型的具體應用形式。筆者將在下文中對結構化向量空間模型應用中文檔索引項分段權值以及查詢向量與文檔向量的相似度這兩方面重點環節進行詳細論述。

3.1 文檔索引項分段權值

結構化向量空間模型在Web信息檢索的具體應用中,我們提到了結構化向量空間模型會將Web文檔本身分為長度與內容都不同的文本段,在這里我們將第k個文本段記錄為Sik,將文檔本身用Di表示,這樣我們就可以通過公式

,對結構化向量空間模型中索引項Tj在文本段Sik中的分段權重進行具體計算。在這一公式之中,λk代表位置加權系數,這一系數主要對結構化向量空間模型不同位置索引對文檔主題的貢獻大小進行描述。

3.2 查詢向量與文檔向量的相似度

在結構化向量空間模型的應用中,對于查詢向量與文檔向量相似度的計算,也是結構化向量空間模型能夠完成的任務之一,而為了完成這一計算,我們首先將詢串q的查詢向量設為Qq,這樣我們就可以利用公式1進行具體的計算。

(1)

4 結構化向量空間模型的應用

通過結構化向量空間模型的應用,我們就能夠設計出較為優秀的Web信息檢索系統,這一系統的具體系統框架如圖1所示。

在這一框架中,其本身主要包括數據源處理模塊、頁面解析模塊、鏈接分析模塊、索引組織模塊、檢索模塊以及用戶接口模塊。在這些模塊組成的系統中,其通過PageRank和結構化向量空間模型所組成的檢索系統,就能夠很好地對網頁進行結構化解析,并通過開源系統ICTCLASS實現網頁的分詞,利用TFIDF實現文檔的相似度查詢,并通過兩者集合的方式實現網頁的排序。

5 結論

綜上所述,在我國當下的Web信息檢索中,傳統的向量空間模型已經不能滿足我國民眾的需要,而通過對傳統向量空間模型升級而得到的結構化向量空間模型的應用,卻能切實提高Web信息的檢索效率與質量,因此本文對其進行了具體研究。

參考文獻

[1]DavidC.McClelland.TestingforCompetencyRatherThanfor"Intelligence"[J].AmericanPsychologist,2009(28):1-14.

[2]LyleM.Spencer,SigeM.Spencer.ComptenceatWork:ModelsforSuperiorPerformance[M].NewYork:JohnWiley&Sons,Inc,2013.

[3]李旭丹,吳文艷.結構化向量空間模型的文本聚類算法研究[M].上海:華東理工大學出版,2013.

作者簡介

魏芊匯(1996-),女,福建省福清市人。2013年起就讀于華南理工大學計算機學院網絡工程專業,研究方向為計算機。

作者單位

華南理工大學計算機學院 廣東省廣州市 510006

猜你喜歡
信息檢索文本模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
醫學期刊編輯中文獻信息檢索的應用
新聞傳播(2016年18期)2016-07-19 10:12:06
基于神經網絡的個性化信息檢索模型研究
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 免费看a级毛片| 免费在线视频a| a毛片免费看| 东京热一区二区三区无码视频| 亚洲V日韩V无码一区二区| av无码一区二区三区在线| 国产成人精品优优av| 久久毛片网| 美女免费黄网站| 99国产精品国产| 视频二区亚洲精品| 青青草原国产一区二区| 91精品网站| 精品国产一区二区三区在线观看 | 重口调教一区二区视频| 国产精品无码翘臀在线看纯欲| 91精品国产情侣高潮露脸| 女人天堂av免费| 亚洲人成网站观看在线观看| 日韩精品一区二区三区swag| 99精品视频在线观看免费播放| 伊大人香蕉久久网欧美| 午夜啪啪福利| 亚洲成人网在线观看| 直接黄91麻豆网站| 精品亚洲麻豆1区2区3区| 男人天堂伊人网| 亚洲乱码在线视频| 国产精品无码在线看| 尤物亚洲最大AV无码网站| 色综合a怡红院怡红院首页| 久久大香香蕉国产免费网站| 国产三级毛片| 久久6免费视频| 四虎影视国产精品| 免费无码网站| 亚洲精品在线91| 亚洲精品第一页不卡| 国产亚洲精久久久久久久91| 午夜毛片免费观看视频 | 午夜免费视频网站| 波多野结衣的av一区二区三区| 久久综合伊人 六十路| 九九热视频精品在线| 亚洲激情99| 手机在线国产精品| 成人亚洲天堂| 色妞永久免费视频| 18禁色诱爆乳网站| 片在线无码观看| 欧美成在线视频| 都市激情亚洲综合久久| 中文字幕乱码二三区免费| 男女性午夜福利网站| 日韩第一页在线| 国产日韩欧美在线播放| 波多野结衣二区| 毛片在线播放a| 91青青草视频在线观看的| 成人午夜亚洲影视在线观看| 中文成人在线| 91成人在线观看| 无码AV高清毛片中国一级毛片| 国产福利免费视频| 2020国产精品视频| 成人免费午间影院在线观看| 小13箩利洗澡无码视频免费网站| 亚洲Av激情网五月天| 国产成人精品综合| 欧美日韩在线成人| 啪啪啪亚洲无码| 国产欧美日韩综合一区在线播放| 手机精品视频在线观看免费| 国产自在线拍| 久久精品午夜视频| 97在线碰| 亚洲中文字幕久久精品无码一区| 亚洲精品在线观看91| 在线色国产| 日本三级欧美三级| 成人伊人色一区二区三区| 亚洲第一视频网站|