999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

Web挖掘在電子商務信息搜索中的應用

2009-04-29 00:00:00熊志文
計算機時代 2009年1期

摘要:隨著電子商務的深入發展,互聯網已成為電子商務的基礎。電子商務環境下,如何從互聯網中挖掘和利用數據是企業非常關心的問題。文章結合當前的電子商務環境,對重要信息的搜索問題進行了分析,提出了采用Web挖掘在互聯網中搜索重要信息的方法,給出了該方法的一個實現技術。實驗結果表明該方法可以在互聯網中高效準確地搜索重要信息。

關鍵詞:Web挖掘;電子商務;檢索;元搜索引擎

0 引言

隨著全球信息化的發展,電子商務在企業經營中的應用日益廣泛,它將打破時空界限,改變貿易形態,改善物流、資金流、信息流的環境,有效地降低企業生產成本,加速整個社會的商品流通。電子商務環境下的企業與外界聯系增多,企業為了提高自身競爭力,必須擺脫傳統相對狹隘的經營模式,不斷提升對潛在競爭對手、產品、客戶、供應商以及關鍵的價值來源等重要信息的獲取能力。但當前在互聯網中要獲取有用的商務信息并不容易,因為在擴大搜索范圍時,難以保證所有搜索結果都是相關和有效的。

針對上述問題,本文引入了基于Web挖掘的電子商務信息檢索方法。Web挖掘是數據挖掘技術在Web環境下的應用,它從大量的Web文檔集合和在各站點瀏覽的相關數據中發現潛在的、有價值的信息,是提高電子商務企業運作效率的工具。根據挖掘對象的不同,Web挖掘一般可以分為三種:Web內容挖掘、Web結構挖掘和Web使用挖掘。Web內容挖掘是從頁面摘要及其文檔內容中獲取有用知識的過程,一般包括文本文件和多媒體文檔的挖掘;由于有用知識除了在Web頁面內容中,也包含在頁面結構中,所以Web結構挖掘是從萬維網的組織結構和網頁的相互鏈接中進行挖掘,發現頁面間的關系,改進搜索引擎的性能;而Web使用挖掘則是通過挖掘相應站點的日志文件和相關數據發現站點瀏覽者的行為模式,識別用戶的喜好、滿意度,發現潛在用戶,增強站點的服務競爭力。

本文中的信息檢索方法使用通用的搜索引擎工具在互聯網上搜索相關頁面信息,再采用Web挖掘對相關頁面信息進行分析篩選,從中提取輔助商業決策的重要信息,為企業贏得更多潛在利潤。

1 搜索方法的框架

傳統企業經營模式中,信息收集的渠道往往具有壟斷性,企業的經營受到地域的限制,相關的供應商和客戶也比較固定,企業競爭壓力小。而在電子商務環境下,市場和業務范圍通過互聯網大大擴展,供應商和企業終端用戶行為發生根本性變革,企業面對相鄰和傳統上不相關的價值鏈上的競爭者,使得企業競爭壓力增大。對競爭對手、產品、客戶、供應商以及關鍵的價值來源進行調查和評價,然后根據自己的競爭優勢設計各種戰略顯得至關重要。

為了適應電子商務環境下大范圍、高強度的競爭,企業需要充分利用電子商務的有利條件,挖掘潛在競爭對手、客戶、供應商以及關鍵的價值來源等信息。這些信息在本文中稱為重要信息。重要信息是從相關頁面信息中篩選分析得到的。

本文的搜索方法(其實現框架如圖1所示),利用通用搜索引擎和Web挖掘技術對互聯網上的信息進行搜索、分析篩選,主要功能包括4個方面:

(1)生成搜索關鍵字集合。根據用戶的查詢請求,生成相對應的搜索關鍵字集合。

(2)收集相關頁面信息。根據搜索關鍵字集合在互聯網上收集相關的頁面信息。

(3)獲取重要信息。對收集的頁面進行分析篩選獲取重要信息。

(4)用戶交互。將重要信息以用戶需要的方式顯示。

其中功能(2)和(3)的實現質量非常重要,將直接影響獲取的重要信息的質量。

2 搜索方法的實現

搜索方法實現的核心思想是利用通用搜索引擎和Web挖掘技術對互聯網上的信息進行搜索、分析篩選得到重要信息。首先由用戶發出查詢請求,然后根據用戶的查詢請求生成適當的搜索關鍵字集合,利用搜索關鍵字集合進行重要信息的獲取并將結果返回。

2.1 生成搜索關鍵字集合

在互聯網中要獲取有價值的商務信息不容易,因為目前網絡信息的搜索大多是精確匹配,返回的結果不但有較大冗余,還包含許多不相關的信息。根據用戶查詢請求生成恰當的搜索關鍵字集合可以提高搜索的準確性。本文中搜索關鍵字集合生成的方法是基于語義網的,先要進行電子商務信息領域的領域概念詞分析,建立相關的領域概念詞詞典。

搜索關鍵字集合生成過程如圖2所示。首先從用戶輸入的查詢請求中抽取有效檢索詞,然后將檢索詞在概念詞詞典中進行語義分析和匹配,獲取搜索關鍵字集合。其中抽取有效檢索詞的過程主要由6部分組成,如圖3所示。

2.2 收集相關頁面信息

收集相關頁面信息,就是利用搜索引擎在互聯網上收集與搜索關鍵字集合相關的頁面信息。搜索引擎(Search Engines)是指對互聯網上的信息資源進行搜索整理,然后供人們查詢的系統,目前商業化的通用搜索引擎數量較多,如Excite、Google、百度、雅虎、搜狐等。雖然通用搜索引擎可以從互聯網上搜索需要的信息,但是存在著不足:

(1)每個搜索引擎覆蓋互聯網的范圍是有限的,不同公司開發的搜索引擎有不同的地域和語言傾向;

(2)搜索結果中有已經失效的頁面信息;

(3)搜索結果中有不相關的頁面信息。

因此,為了更高質高效地收集相關頁面信息,本文采用了元搜索引擎技術。元搜索引擎是指在搜索引擎之后或之上的搜索引擎,是在通用搜索引擎的基礎之上建立起來的可以同時或分時查詢多個通用搜索引擎的網絡信息查詢系統。元搜索引擎實際上是借助傳統的Internet搜索引擎提供信息查詢服務的。檢索時,元搜索引擎根據用戶提交的檢索請求,調用通用搜索引擎進行搜索,再對搜索結果進行匯集、整理、排列等優化處理后,以統一格式反饋。元搜索引擎主要由用戶接口界面、查詢調度機制、搜索引擎代理和結果處理機制四部分組成。文中的元搜索引擎結構如圖4所示,主要分為6個功能模塊:

(1)用戶接口模塊負責和用戶交互,用戶可以通過此模塊下達查詢請求、設置系統的參數和獲取搜索得到的相關頁面信息;

(2)引擎代理模塊根據用戶的查詢請求生成搜索關鍵字集合,然后根據設置調用通用搜索引擎在互聯網上搜索相關的頁面信息,通用搜索引擎再將搜索結果返回給引擎代理模塊;

(3)分析驗證模塊對搜索結果進行解析并對網絡鏈接的有效性進行驗證;

(4)信息處理模塊對分析驗證后的結果進行整理、歸納和分類,得到與查詢請求相關的頁面信息;

(5)信息存儲模塊負責把整理得到的相關頁面信息存儲在數據庫中;

(6)查詢處理模塊把用戶需要的頁面信息以用戶需要的格式進行反饋。

2.3 獲取重要信息

利用搜索關鍵字集合在互聯網上可以獲得許多相關的頁面信息,但其中的一部分與用戶的需求不相關,因此需要對從互聯網上獲得的頁面信息進行分析篩選,從中找出重要信息。分析篩選的功能如下:

(1)從有效頁面的摘要中提取描述詞匯;

(2)分析頁面描述詞匯和特定領域詞的相關性進而得出頁面信息和用戶需求的關聯性;

(3)根據頁面信息和用戶需求的關聯性來分類處理搜索結果;

(4)根據事先設定的閾值,篩除關聯性小于閾值的頁面信息;

(5)分析關聯}生大于閾值的頁面信息從中獲取重要信息;

(6)將重要信息進行存儲以備用戶使用。

本文判斷搜索結果與用戶需求的關聯性采用了向量模型。假設有s個頁面信息和N個特定領域詞,搜索頁面j和特定領域詞的相關性如公式1如示。

其中Pj是N維向量,由第i個特定領域詞相對搜索結果頁面j的權重Wij組成。T也是一個N維向量,由第i個特定領域詞在特定領域的權重Wij組成。i=1,2,3,…,N,j=1,2,3,…,s。

Wij和Wij的計算公式分別如公式2和公式3所示。Fij是特定領域詞i出現在搜索頁面j中的次數,ni是搜索結果中出現特定領域詞i的頁面的個數。

利用通用搜索引擎可以在互聯網上大范圍搜索相關頁面信息,使重要信息的獲取源頭滲入到網絡的方方面面,保證了信息獲取源頭的廣覆蓋性,經過有效的分析篩選,最終獲取的重要信息在廣覆蓋的前提下被準確的提取出來,這些保證了最終獲取的重要信息兼有準確性和廣覆蓋性。

2.4 用戶交互

用戶交互是以用戶為中心的,查詢請求由用戶下達,重要信息也必須以用戶需要的方式顯示。用戶可能會希望在更大的范圍搜索重要信息,而交互時只顯示最關心的一部分重要信息,這就使得用戶提交的查詢請求和瀏覽請求往往是不同的。

如果把系統從互聯網上收集重要信息看成是第一次信息過濾,那么用戶提交瀏覽請求就可以看成是對信息的第二次過濾。用戶的瀏覽請求以范式的形式表示。若用戶在瀏覽請求中提交了4個查詢詞q1,q2,q3,q4構成表達式ql^(、q2V q3)^q4,那么系統將根據這個表達式所對應的范式從搜集到的重要信息中抽取用戶最關心的顯示給用戶。

3 實驗結果和分析

實驗的目的是通過實例驗證搜索的效果。本文中以搜索義烏的小商品為例,搜索對象包括戒指、項鏈等,并且把直接用通用搜索引擎搜索得到的有效頁面和全部頁面的數量比稱為通用搜索查準率,把使用本文搜索方法搜索得到的有效頁面和全部頁面數量比稱為Web搜索查準率。用不同查詢請求對義烏戒指進行搜索查詢的結果如表1所示。

表1說明直接用通用搜索引擎搜索查詢重要信息,其查準率比用本文中的方法進行查詢的查準率要低。當查詢請求逐漸復雜的時候,通用搜索查準率下降的速度明顯快于Web搜索查準率。由此可見,本文中的方法能夠更有效地在互聯網上搜索重要信息。

4 結束語

本文針對電子商務環境下重要信息的搜索問題,引入了Web挖掘技術,提出了一種在互聯網搜索重要信息的實現方法。這種方法采用通用搜索引擎收集頁面信息,具有范圍廣的特點,同是對收集到的相關頁面信息進行分析篩選,保證了提交給用戶的重要信息有更高的準確性。總之,本文中提出的信息搜索方法對電子商務環境下進行大范圍信息搜索有很好的應用價值。

主站蜘蛛池模板: 亚洲无码高清免费视频亚洲| 九色综合视频网| 四虎免费视频网站| 国产在线日本| 日本精品视频| 亚洲AV无码乱码在线观看裸奔| 熟女日韩精品2区| 中文字幕在线看| 国产在线欧美| 欧美日韩久久综合| 国产丝袜91| 亚洲AV无码乱码在线观看代蜜桃| 国产精品99一区不卡| 婷婷亚洲最大| 91青青视频| 成人在线不卡| 黄色网址手机国内免费在线观看| 在线不卡免费视频| 四虎影视8848永久精品| 呦视频在线一区二区三区| 久久亚洲黄色视频| 巨熟乳波霸若妻中文观看免费| 欧美激情视频一区| 国产成人精品2021欧美日韩| 中文字幕日韩视频欧美一区| 亚洲人成影院在线观看| 亚州AV秘 一区二区三区| 免费又爽又刺激高潮网址| 亚洲天堂视频在线观看| 在线永久免费观看的毛片| 色综合天天视频在线观看| 欧美啪啪一区| 亚洲最大福利视频网| 日韩AV无码一区| 亚洲精品免费网站| 国产日产欧美精品| 蜜桃视频一区| 三上悠亚在线精品二区| 成年女人18毛片毛片免费| 国产另类视频| 五月激情综合网| 亚洲福利片无码最新在线播放| 日本一区高清| 亚洲va视频| 成人亚洲视频| 最新痴汉在线无码AV| 亚洲高清无码精品| 国产精品理论片| 国产一区二区三区免费观看| 欧洲成人在线观看| 国产一区二区三区免费观看| 国产精品污污在线观看网站| 亚洲精品无码人妻无码| 久草网视频在线| 亚洲第一成年网| 免费看的一级毛片| 最新加勒比隔壁人妻| 久久国产精品麻豆系列| 伊伊人成亚洲综合人网7777| 大陆精大陆国产国语精品1024| 91免费精品国偷自产在线在线| 国产精品欧美日本韩免费一区二区三区不卡| 精品国产成人高清在线| 高清无码一本到东京热| 国产精品9| 国产精品人人做人人爽人人添| 伊人查蕉在线观看国产精品| 国产91麻豆免费观看| 国产资源免费观看| 在线观看国产精品第一区免费| 9久久伊人精品综合| 成人在线不卡视频| 狠狠色婷婷丁香综合久久韩国| 四虎精品国产AV二区| 免费人成网站在线观看欧美| 99热国产在线精品99| 亚洲成人在线网| 亚洲国产91人成在线| 欧美成人区| 热久久这里是精品6免费观看| 国产亚洲欧美日韩在线一区| 免费人欧美成又黄又爽的视频|