范春曉 和曉軍 李淑云
[摘 要]針對現有現有HTML網頁的特點,提出了一種基于標簽的Web 網頁的清洗技術,該方法基于HTML各種標簽的特點,對修飾性等與內容無關的標簽進行清洗,首先界定清洗的規則,對可清洗的標簽進行定義;然后根據清洗規則對HTML網頁進行處理。本論文所提方法沒有改變文檔的半結構特點,使后續信息的抽取較之未改進有明顯的優勢。
數字技術與應用2009年11期
1《師道·教研》2024年10期
2《思維與智慧·上半月》2024年11期
3《現代工業經濟和信息化》2024年2期
4《微型小說月報》2024年10期
5《工業微生物》2024年1期
6《雪蓮》2024年9期
7《世界博覽》2024年21期
8《中小企業管理與科技》2024年6期
9《現代食品》2024年4期
10《衛生職業教育》2024年10期
關于參考網