摘要:信息抽取技術是一種廣泛運用于互聯網的數據挖掘技術。其目的是從互聯網海量數據中抽取有意義、有價值的數據和信息,從而能更好的利用互聯網資源。文中采用一種統計網頁特征的方法,將中文網頁中的正文部分抽取出來。該方法首先將網頁表示成基于XML的DOM樹形式,利用統計的節點信息從樹中過濾掉噪音數據節點,最后再選取正文節點。該方法相比傳統的基于包裝器的抽取方法,具有簡單,實用的特點,試驗結果表明,該抽取方法準確率達到90%以上,具有很好的實用價值。
關鍵詞:中文信息處理;信息抽取;正文抽取
中圖分類號:TP393 文獻標識碼:A 文章編號:1009-3044(2008)01-10120-04