
摘 要
在我國當下的網絡信息檢索中,傳統的向量空間模型因為不能較好的解決索引項之間的相互獨立型和Web文檔半結構化之間的矛盾,已經不能較好的滿足我國民眾對于網絡信息檢索的需求,在這種背景下,結構化向量空間模型開始被用于網絡信息檢索之中,且發揮著不俗的應用效果,在這種網絡信息檢索的發展現狀下,本文就結構化向量空間模型進行了具體研究,希望能夠進一步推動結構化向量空間模型在網絡信息檢索中的應用發展。
【關鍵詞】向量空間模型 結構化
1 傳統向量空間模型
在Web信息檢索所使用的傳統向量模型中,傳統向量模型本身將文檔與用戶視為由相互獨立索引項組成的等長向量。而在傳統向量模型的使用中,我們還可以通過對某索引項Tj在文檔集Dj中權重Wij,表示這一索引的重要程度,通過我國當下流行的權重計算公式
,就可以計算得出某索引項Tj在文檔中的具體重要程度,也就是指Tj這一索引項的文檔集中比例,但這種計算方式不能夠很好地對索引項Tj在文檔中的分布差異性進行較好而表現。在對文中分布差異性表現存在的問題中,半結構化的Web文檔集合由于自身不同位置存在著不同的權重,這就使得這種文檔集合本身包含的信息量較大,而這種信息量較大的特點對于具體索引項在半結構化的Web文檔集合中的分布差異性的表現也就變得更加困難。值得注意的是,傳統的向量空間模型每增加一個文檔都需要通過
公式進行向量的重新計算,這種特點的存在客觀上降低了傳統向量模型的運行效率,制約了傳統向量模型的發展。
2 結構化向量空間模型的優點
由于傳統的向量空間模型在應用中存在著一些問題,制約著Web信息檢索效率的提升,這就催生了結構化向量空間模型在Web信息檢索中的應用。由于結構化向量空間模型本身是從傳統向量空間模型發展而來的,這就使得結構化向量空間模型既具有傳統向量空間模型的特點,又能夠較好的對半結構化的Web文檔集合中索引項的分布差異性進行表現,在實現這一功用中,結構化向量空間模型會將具體的文檔按照一定策略進行區域劃分,這種劃分會將Web文檔本身分為長度與內容都不同的文本段,這樣就可以較好的對不同文本段索引項的權值進行較好的區分。在這種結構化向量空間模型的應用中,傳統向量模型所無法解決的運行效率降低的問題,結構化向量空間模型能夠予以輕松解決,而如果將兩種模型進行具體對比,我們就能夠發現結構化向量空間模型所具有的較高的查準率。值得注意的是,在結構化向量空間模型的應用中,對于傳統向量空間模型沒有考慮過的索引項的具體出現位置與索引項的附加信息,其能夠通過自身功用較好的進行解決,保證自身應用對Web文檔中索引項權值頻度、位置、大小等信息的具體計算,最大程度上提高Web信息檢索中匹配結果的精確程度。
3 結構化向量空間模型的應用
結構化向量空間模型在Web信息檢索中的具體應用,能夠有效解決傳統向量空間模型在應用中存在的問題,并會切實通過解決索引項之間的相互獨立和Web文檔半結構化的矛盾,保證Web信息檢索效率與質量的提高。在結構化向量空間模型在Web信息檢索中的具體應用,結構化向量空間模型會通過自身邏輯將Web文檔分為文本段,通過對不同文本段的特征向量計算,組成具體的結構化向量組,這就使得結構化向量空間模型的具體應用形式。筆者將在下文中對結構化向量空間模型應用中文檔索引項分段權值以及查詢向量與文檔向量的相似度這兩方面重點環節進行詳細論述。
3.1 文檔索引項分段權值
結構化向量空間模型在Web信息檢索的具體應用中,我們提到了結構化向量空間模型會將Web文檔本身分為長度與內容都不同的文本段,在這里我們將第k個文本段記錄為Sik,將文檔本身用Di表示,這樣我們就可以通過公式
,對結構化向量空間模型中索引項Tj在文本段Sik中的分段權重進行具體計算。在這一公式之中,λk代表位置加權系數,這一系數主要對結構化向量空間模型不同位置索引對文檔主題的貢獻大小進行描述。
3.2 查詢向量與文檔向量的相似度
在結構化向量空間模型的應用中,對于查詢向量與文檔向量相似度的計算,也是結構化向量空間模型能夠完成的任務之一,而為了完成這一計算,我們首先將詢串q的查詢向量設為Qq,這樣我們就可以利用公式1進行具體的計算。
(1)
4 結構化向量空間模型的應用
通過結構化向量空間模型的應用,我們就能夠設計出較為優秀的Web信息檢索系統,這一系統的具體系統框架如圖1所示。
在這一框架中,其本身主要包括數據源處理模塊、頁面解析模塊、鏈接分析模塊、索引組織模塊、檢索模塊以及用戶接口模塊。在這些模塊組成的系統中,其通過PageRank和結構化向量空間模型所組成的檢索系統,就能夠很好地對網頁進行結構化解析,并通過開源系統ICTCLASS實現網頁的分詞,利用TFIDF實現文檔的相似度查詢,并通過兩者集合的方式實現網頁的排序。
5 結論
綜上所述,在我國當下的Web信息檢索中,傳統的向量空間模型已經不能滿足我國民眾的需要,而通過對傳統向量空間模型升級而得到的結構化向量空間模型的應用,卻能切實提高Web信息的檢索效率與質量,因此本文對其進行了具體研究。
參考文獻
[1]DavidC.McClelland.TestingforCompetencyRatherThanfor"Intelligence"[J].AmericanPsychologist,2009(28):1-14.
[2]LyleM.Spencer,SigeM.Spencer.ComptenceatWork:ModelsforSuperiorPerformance[M].NewYork:JohnWiley&Sons,Inc,2013.
[3]李旭丹,吳文艷.結構化向量空間模型的文本聚類算法研究[M].上海:華東理工大學出版,2013.
作者簡介
魏芊匯(1996-),女,福建省福清市人。2013年起就讀于華南理工大學計算機學院網絡工程專業,研究方向為計算機。
作者單位
華南理工大學計算機學院 廣東省廣州市 510006