999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

搜索引擎在網絡信息挖掘中的應用

2009-04-29 00:00:00
電腦知識與技術 2009年27期

摘要:網絡信息挖掘能為管理決策起到至關重要的作用。該文在明確搜索引擎及信息挖掘意義的基礎上,分析了搜索引擎的工作原理,并通過研究網絡信息挖掘系統,探討了搜索引擎在網絡信息挖掘中的應用設計及實現。

關鍵詞:搜索引擎;數據挖掘;信息檢索

中圖分類號:TP391文獻標識碼:A文章編號:1009-3044(2009)27-7736-02

The Application of Search Engine in Internet Information Mining

NIE Lu

(Shanxi Electronic Industy School, Baoji 721001, China)

Abstract: Network Information Mining can play a crucial role in management decision-making. The paper firstly introduces the significance of search engine and information mining,then analyses the work principle of the search engine. Secondly, the paper explores the design and implementation of the search engine in the web mining by researching the network information mining.

Key words: search engine; ddata mining; information retrieval

網絡信息的飛速增長,使搜索引擎成為人們查找網絡信息的首選工具。而網絡信息挖掘必須操縱大量的數據,其文本信息庫可能是相當龐大的,同時,用來表示網絡文本內容的詞匯數量又是成千上萬的。在這種情況下,如能提供文本集良好的組織與機構,就能大大簡化文本的存取和操縱。傳統的做法是對網絡信息進行人工分類,并加以組織和整理,為人們提供一種相對有效的網絡信息獲取手段。但是,這種做法存在著許多弊端:一是耗費了大量的人力、物力和精力。二是存在分類結果一致性不高的問題。而搜索引擎是幫助人們在龐大的網絡上查找信息的重要工具。本文就是主要研究搜索引擎在網絡信息挖掘中的應用。

1 搜索引擎的工作原理

搜索引擎通常通過下載Internet上的web文檔,進行過濾、分詞、轉換等處理工作。然后對文檔信息進行預處理和形式化描述,抽取特征并進行索引[1]。文檔的收集是Web信息檢索的基礎。文檔的預處理為后續檢索工作提供了保證。一個典型搜索引擎的基本工作流程如圖1所示。

它主要包括如下三個過程:在互聯網中發現、搜集網絡信息;對網絡信息進行提取和組織建立索引數據庫;由檢索器根據用戶輸入的查詢關鍵字,在索引庫中快速檢索出文檔。進行文檔與查詢的相關度評價,對將要輸出的結果進行排序,并將查詢結果返回給用戶。

2 搜索引擎在網絡信息挖掘中應用的整體設計

本文研究了一個網絡信息挖掘系統,整個系統主要由信息庫和功能模塊組成。信息庫存儲所需的Web文檔,文檔的質量對分類器性能至關重要。文檔質量可以從兩個方面進行考察:文檔的代表性。這是對單個文檔來說的,要求每個文檔都能代表某一文檔類中有特色時文檔實例;文檔的覆蓋性。這是對某一類文檔而言的,要求每一文檔類具備完整的代表性文檔實例[2]。本系統文檔不是直接從Web文檔中提取信息,而是把Web文檔(*html)經過預處理保存為文本文件(*.txt),然后再從中挖掘重要網絡信息。

準備好信息庫,網絡信息挖掘系統進入處理流程:Web網頁經過預處理得到中文文本信息,投入到分類樣本集中,經過分類預處理,把文本信息表示成特征項集。這個過程為后面的處理做好準備。接下來,轉入分類器或者使用已有的分類器進行分類的過程,這個過程中處理的是特征向量。

3 搜索引擎在網絡信息挖掘中應用的實現

3.1 數據結構

網絡信息挖掘的實現,對各模塊的數據處理以及產生的數據文件,使用數據結構存儲它們。其中model.mdl和train.txt,test.txt處理的都是網絡文檔信息列表,網絡文檔信息列表由多個文檔組成,每個文檔又可以看作是多個單詞的列表。下面給出挖掘過程中使用的數據文件的數據結構:

Typedef struct svm_Word

{ Long wnum; //特征項編號

Float weight; //特征權重}

svm_Word;

Typedef struct svm_Dov

{ Long docnum; //編號

Svm_Word *words;//單詞串

Double twonorm_sq;

//自身向量的內積,是words的各個單詞weight*weight的綜合}

svm_Doc;

3.2 挖掘預處理

挖掘預處理包括網絡信息預處理及分類預處理兩大過程。

網絡信息預處理首先從INTERNET下載的網絡頁面信息,它們不同于單純的文本,包含了大量的格式化標記,比如等。這種標記表示了文本的各個不同的組成部分,我們可以利用這些標記增大重要部分的權值,同時還要考慮文本中不同的位置的段落重要性,比如段首和段尾段落濃縮了文本的中心議題,將這些重要的文本段落和句子抽取出來,形成壓縮文本,保存成純文本文件。經過網絡信息的預處理模塊,對Web網頁集進行處理,提出挖掘無關的信息,比如:圖片,廣告,動畫等。這樣得到整理好的文本內容,把它們投入到樣本集或者分類樣本集中練樣本集用于分類器,分類樣本集用于分類。

分類預處理過程就是對信息預處理后的文件進行分詞處理。主要包括詞性標注、短語識別,去除停用詞、還原詞根,統計詞頻。這樣得到單詞流構成的原始特征項集以及每個特征項的詞頻。原始特征項集在訓練分類器階段用于產生最優特征項集為文本以向量空間模型表示做好準備。

其中,停用詞是指由一系列沒有檢索意義的高頻詞,如中文文獻中的“的”、“關于”、“但是”、“而且”等。從相關性方面講,這些詞會多次出現在各種類別的網頁中,沒有檢索意義;從詞行的角度看,一般包括如介詞、限定詞、感嘆詞等。因此在處理標簽、分詞之后,需要清除停用詞,同時清除標點符號和多余的空格等冗余符號。

3.3 挖掘訓練及控制分類

對于預處理后的信息文件,進行特征加權,從而確定最優特征項集,接著生成文檔向量,然后使用分類算法訓練分類器。其中,特征加權就是計算原始特征項集中每個特征項的類別區分度,即權重。通過權重的不同以反映不同特征項對文檔的貢獻大小,以便后面的特征選擇對其“擇優”選取。

FeatherWeight ( m_lstWordInit );//m_lstWordList 是原始特征項集

本文使用IF-IDF公式計算權重。實現的時候,為原始特征項集里每個特征項設置一個結構svm_WeightNode,來存放它相應的權值,代碼如下所示:

struct svm_WeightNode

{ int svm_idWord;//特征的ID

int svm_tfi; //特征在文檔中出現的頻次

double svm_Weight; //特征的權重};

特征選擇是通過特征評估函數,確定最優特征項集。

FeatherSelection ( m_lstTrainWordList )

//從m_lstWordList選出最優特征項集,到m_lstTrainWordList中,最終組成最優征項集,保存到網絡信息數據文件中,該文件還有三列,分別表示:編號、特征項、頻率。編號從0開始順序遞增。特征維數的設定要注意范圍,太小不能反映實際問題,影響分類的準確性;太大又影響計算復雜度、運行效率、時間和存儲空間[3]。

控制分類的實現是讀取、解析分類模型,得到分類器信息,提取信息到相應的數據結構中的過程。分類文本向量輸入分類器得到分類結果,生成文檔向量的關鍵代碼是:

GenModel (); //開始生成文檔向量,以向量空間模型表示文本

WriteModel ( svm_ResultDir ); //保存分類模型到文件中,其中svm_ResultDir是文件所在的路徑

svm_TrainSVM (); //訓練SVM分類器

3.4 網絡信息文件的操作

網絡信息挖掘的過程中,都會涉及到網絡信息文件的讀入讀出。 本文采用系統函數fget()和fputc()來實現,并形成相應的幾個接口函數。通過掃描整個網絡信息文檔集,統計各個類別包含的網絡信息文檔數、該文件每行的字符數,得到最大值,用于系統為各個數據結構初始化內存空間,比如docx和label,函數scan_docs()完成此功能。

Int scan_docs(char* docfile,long* max_docx,long* max_words_doc,long* long)

對于整個網絡信息文檔集,read_documents()計算每個網絡信息文檔包含的單詞,得到其中的最大值。對于每一個網絡信息文檔,調用parse_document()函數,該函數對于一個網絡信息文檔,解析出各個單詞,分別放到相應的數據結構中去。

Int read_documents ( char* docfile,DOC* docs,long * label,long max_words_doc,long ll,long* totwords,long* totdoc,im post_label )

Int parse_document (char* line,DOC* doc,long* label,long* numwords,long max_words_doc )

4 小結

總之,隨著Web技術的發展和人們對網絡數據、信息、知識的不斷追求,搜索引擎在網絡信息挖掘中的應用變得越來越重要。本文通過預處理網絡信息,利用搜索引擎技術對其進行挖掘,通過特征加權,確定最優特征項集,提高了挖掘的有效性及搜索的查全率。

參考文獻:

[1] 張擁軍.淺析網絡信息挖掘技術及應用[J].科技風,2008,(4):21-23.

[2] 張婕,袁力田.搜索引擎在網絡信息挖掘中的應用[J].電腦與電信,2006,(7):79-81.

[3] 呂志花.網絡信息挖掘及其在搜索引擎方面的應用[J].微計算機信息,2008,(6):112-115.q

主站蜘蛛池模板: 亚洲综合欧美在线一区在线播放| 美女裸体18禁网站| 久久中文字幕2021精品| 日本不卡在线视频| 91小视频在线播放| 毛片免费高清免费| 97国产成人无码精品久久久| 91精品国产一区| 欧美国产日产一区二区| 中文字幕乱码中文乱码51精品| 国产在线视频二区| 成人免费视频一区| 在线观看免费国产| 亚洲人成色77777在线观看| 成年免费在线观看| 国产亚洲视频在线观看| 国产精品黄色片| 97视频在线精品国自产拍| 欧美国产日韩在线| 免费a在线观看播放| a国产精品| 亚洲国产精品日韩欧美一区| 日本不卡在线播放| 久久国产精品麻豆系列| 91精品伊人久久大香线蕉| 青青操国产| 少妇高潮惨叫久久久久久| 欧美亚洲第一页| 成人在线观看一区| 91成人在线观看| 久久久久无码精品| 91网红精品在线观看| 久久久久久久蜜桃| aa级毛片毛片免费观看久| m男亚洲一区中文字幕| 国产成人精品高清不卡在线 | 香蕉视频在线精品| 亚洲成人在线网| 特级精品毛片免费观看| 国产午夜人做人免费视频中文| 日本一区高清| 免费一级大毛片a一观看不卡| 九九热免费在线视频| 色有码无码视频| 91丝袜在线观看| 亚洲另类国产欧美一区二区| 丁香亚洲综合五月天婷婷| 国产91全国探花系列在线播放| 午夜视频www| 精品1区2区3区| a网站在线观看| 欧美激情成人网| 亚洲国产成人综合精品2020| 国产精品一区二区久久精品无码| 丝袜美女被出水视频一区| 亚洲精品成人片在线观看| 久操中文在线| 国产H片无码不卡在线视频| 国产成本人片免费a∨短片| 伊人久久久大香线蕉综合直播| 国产在线观看一区精品| 激情爆乳一区二区| 亚洲天堂网2014| 亚洲AⅤ无码国产精品| 欧美区一区| 新SSS无码手机在线观看| 国产专区综合另类日韩一区| 婷婷午夜影院| 日韩无码视频播放| 91欧美在线| 亚洲男人的天堂久久香蕉| 精品综合久久久久久97超人| 99人体免费视频| 九九久久99精品| 中文字幕人妻av一区二区| 91人人妻人人做人人爽男同| 亚洲美女一区二区三区| 亚洲三级电影在线播放 | 亚洲日韩高清在线亚洲专区| 亚洲成a人片在线观看88| 国产福利在线观看精品| 人妻中文久热无码丝袜|