摘要:隨著目前網絡應用的普及率不斷提升,互聯網信息檢索已經發展成為人們查詢和獲取信息的重要檢索方式,為用戶從海量信息中獲取有價值的信息、提升信息獲取精準度提供了保障。而在互聯網信息檢索中,數據挖掘技術的應用,能夠讓信息檢索的效率顯著提升。本文介紹了數據挖掘技術,分析這一技術在互聯網信息檢索中的應用價值,并就數據挖掘技術在互聯網信息檢索中的具體應用情況進行分析。
關鍵詞:數據挖掘技術;互聯網;信息檢索
隨著計算機和網絡技術的不斷發展,網絡為信息傳遞提供了有效渠道,人們在享受網絡發展的便捷中,也被大量的雜亂信息包圍,要在海量信息中精準找出自己想要的信息,需要一定的時間和精力。隨著人們生活節奏的不斷加快,需要有一種高效的信息檢索方式,能夠幫助用戶在信息獲得中將不需要、不相關的信息篩除下來,提升信息檢索準確性,而將數據挖掘技術應用到互聯網信息檢索中是一種有效方式,能夠實現對信息語義、語用的挖掘及用戶行為模式的分析,促進網絡信息檢索效率顯著提升。
一、數據挖掘技術和互聯網檢索概述
(一)數據挖掘技術
就數據挖掘技術來看,很多學者對這一概念的定義趨向于從大量、不完全、模糊、有噪音的應用數據中提取隱含的、預先不知道但是有潛在應用價值的知識和信息內容的過程。基于數據挖掘技術應用,數據分析、數據融合、決策支持、知識發現等技術也實現了不斷發展和創新[1]。在數據技術發展過程中,一些新的挖掘方法也開始被應用起來,讓數據挖掘的能力不斷增強。
就目的來看,數據挖掘以及互聯網信息檢索都屬于信息發現的一種任務,但在應用中依然存在一定差異。信息檢索中的任務是通過數據庫管理系統進行記錄的查找,借助因特網搜索引擎進行WEB網頁查詢。數據挖掘是知識發現的重要途徑和方法,也是對未加工數據進行有價值的信息轉換的重要方式。信息檢索以傳統計算機以及相關技術下的數據顯著特征為基礎,進行索引結構構建,促進組織和檢索信息的有效實現,對于有效處理已經發生的信息資料有一定作用,但是缺乏對數據間關系以及未來發展趨勢的分析和把握。而數據挖掘技術可以彌補這方面的不足,提升信息檢索能力,對數據信息中隱含的知識和內容進行歸納,預測數據的發展、走向等,相較于傳統信息索引,這種數據挖掘技術在信息檢索中具有更高的應用價值[2]。
(二)互聯網信息檢索結構
互聯網信息檢索技術融合了數據管理系統、專家系統、信息檢索、用戶模型、自然語言理解等不同領域技術和功能,是技術的集大成者。這些先進技術的融合,構建出功能強大的互聯網信息檢索系統。就互聯網信息檢索的結構來看,其主要包含七個功能結構模塊,即用戶交互平臺、數據庫系統、信息采集平臺、系統管理操作平臺、資源管理平臺、WEB服務器、數據挖掘模塊、檢索工具[3]。
在互聯網信息檢索應用中,不同的用戶可以體驗不同的檢索服務效果,找到自己想要的信息內容。
二、數據挖掘對網絡信息檢索性能的提升作用
隨著網絡中數據的爆炸式增長,傳統的搜索引擎已經無法滿足人們的信息檢索需要,而新一代搜索引擎雖然能夠提升信息檢索能力,但是在信息檢索過程中依然存在一些不如意之處。現階段,數據挖掘在網絡領域的滲透和應用不斷增多,這對于互聯網信息檢索性能的提升有一定的積極作用。現階段的網絡信息檢索主要以引擎以瀏覽為目標來實現[4]。
就搜索引擎來看,要確保檢索達到理想效果,必須要滿足多方面要求:首先,在互聯網網頁中具備用戶想要查詢的內容信息;其次,網頁信息需要被用戶所用的搜索引擎收錄;再次,用戶輸入的查詢信息在索引庫收錄的網頁描述信息中;最后,用戶輸入的信息可以相對準確地描述其想要搜索的內容和問題。
而在實際的互聯網信息檢索中,存在一些近義詞、多義詞等,加上一些用戶在語言表述上存在一定出入,所以索引庫很難確保用戶輸入的查詢信息和庫中的信息一一對應,導致信息標引難度大。
在對一些問題的檢索中,用戶自身對于檢索信息的輸入也很難做到精準,而借助數據挖掘技術應用,能夠搭建一個用戶興趣模型,對于檢索結果的組織進行改善,促進檢準率以及檢全率的提升,確保檢索效率不斷提升[5]。
(一)提升網絡信息標引準確率
標引是對于文獻進行分析,通過合理應用檢索標識對文獻主要內容進行反映。在目前的網絡系統中,數據信息量可以用海量來形容,且各類信息內容類型復雜,人工標引很難應付如此龐大的工作任務,自動標引就成為需要。但是相對而言,自動標引準確率難以保證,從文本中進行關鍵詞抽取無法對信息資源的主旨進行準確總結,也不能對概念之間的關系進行挖掘,一些沒有被文字表達出來的隱含信息就無法實現標引[6]。而標引又是信息組織的重要一步,只有確保標引精準才能保證檢索查詢結果可靠、全面。對網絡信息內容的挖掘,能有效揭示網絡信息特征知識以及它們之間的關系,針對文檔語義、語用進行標注,這樣可以概括文檔的主要信息內容。基于此,本體技術發展可以促進語義挖掘質量的不斷提升,從而把握相關信息之間的深層聯系,提升檢索質量。
(二)提升自動摘要質量
自動摘要是通過計算機對文章結構進行分析,把握文章的主題句,再進行整合、加工和分析,構成摘要內容。人工編制摘要相對復雜化,且具體的工作量太大,耗時耗力,針對信息量巨大的網絡資源,開展人工編制摘要的操作難度大、成本高,而自動摘要可以實現對網絡信息資源的有效處理。
在論文及相關資料中,一段摘要能較好地反映內容,在搜索引擎領域或混合型搜索引擎內,結果中都會出現網頁的簡單摘要,以此避免用戶大量閱讀網頁內容,促進信息篩選速度有效提升。但是目前很多搜索引擎對摘要的獲取主要是機械地將其中的前幾句話抽取出來,這種方式準確性不足,不能真正體現網頁的信息內容,也不利于搜索引擎自動摘要質量提升[7]。為解決上述問題,提升自動摘要準確性,可以在WEB文本挖掘中的文本抽取能力上下功夫,以簡單形式對WEB文檔信息內容進行總結,提煉WEB網頁中的重要信息形成摘要。要把握摘要方法以及自然語言理解技術,對領域知識進行研究和判斷,把握摘要的具體內涵,自動生成摘要。相關技術的不斷發展進步,能夠讓用戶快捷地掌握相關信息,提升檢索工作效率。
三、網絡信息檢索中的數據挖掘技術應用
(一)內容挖掘
內容挖掘是對于WEB網頁中的海量網頁文本信息進行分類、聚類等處理,通過模式識別以及機器學習技術應用,實現信息檢索目標,這些都是數據挖掘技術的重要組成部分。其與數據庫的文本挖掘方法比較接近,是通過使用關鍵字的關聯分析以及文檔分類來從半結構化文本數據中進行知識挖掘。關聯分析想要進行網頁文檔信息的采集,先要對其中的關鍵詞進行把握,再將一些無用詞、詞根分解掉。研究關聯特征的預處理方法,是通過關聯挖掘算法應用,研究其中的復合關系以及非復合關系,再結合用戶需要,進行字詞的標記。考慮到網頁中超鏈接包含有關頁面中有很多高質量信息,可以通過抬頭和導語的標記來對信息分類,這種分類方法比以關鍵詞為基礎的分析更為準確,能夠提升內容挖掘的效果。
在WEB中,自動文檔分類是通過將一組預先分類過的文檔作為參照模擬集,再從預訂的分類目錄中為各個文檔進行類標簽的賦予,對其進行分析從而得到其分類模式。如,對Yahoo的分類中將相關文檔作為模擬集,用于導出以Yahoo為基礎的WEB文檔的分類參照模式,從而利用這一模式對新的WEB文檔進行分類[8]。
在自動摘要方面,通過數據挖掘技術應用,可以對文檔信息進行摘要自動提取。在目前的網絡中,文本數據也多種多樣,進行文摘編制可以將各個網頁文檔生成的文本以及句子進行拼接改造,用合理的語句對原文意思進行表達,將關鍵詞和詞組作為骨干,從而提煉出能夠反映原文內容以及結論的句子,挖掘其中的主旨和中心思想,這些操作適合摘錄性或指示性文摘提取需要。在WEB自動文摘系統中,以摘錄式文摘方式為主,關鍵依靠自然語言文本的結構識別、自動分詞、候選句提取以及摘要自動生成與加工。
(二)結構挖掘
以往的網絡檢索工具一般將WEB作為海量文檔的集合,但是對于其中的結構信息卻沒有引起足夠的重視。結構挖掘旨在揭示蘊含在文檔結構信息中的潛在注釋以及有用信息。
目前的網絡系統中,最典型的網頁結構特征是WEB多級超鏈結構,很多WEB鏈接都提供了大量關于WEB內容相關性和質量結構方面的內容信息,能夠有效體現網頁之間的關聯性,這實際上是為WEB數據挖掘提供了大力支持的。
通過超鏈中的標記文本對鏈接頁面分類處理,可以將其中的文本以及各個網頁鏈指針標記出來,實現相關網頁之間快速切換。首先,超鏈中的標記文本對于鏈接頁面有很好的概括性,還能構建不同層級網頁之間的檢索路徑。其次,應用機器學習的方法,對網頁間的超鏈接類型進行劃分,通過對頁面間類與成員的關系分析,體現網頁之間的應用關系,這樣一個頁面可能被多次引用,表明了其重要性。對頁面使用頻率和次數等信息的采集,確定頁面信息的重要性,再結合用戶搜索引擎功能需要來進行設計[9]。最后,通過HTML結構樹來對網頁開展分析,以此來掌握其內部結構特征,將其應用到給定頁面集合中,這樣可以把握不同信息在頁面中出現的概率和模式。
此外,頁面的URL可以在一定程度上體現頁面類型和目錄結構關系。基于相關啟發式規則,可以在個人主頁上應用。基于目前網絡搜索引擎的結構體系、搜索原理來看,關鍵方法是通過URL分解器來獲取相關鏈接信息,運用相應算法進行網頁等級信息獲取,這體現了數據挖掘技術在網頁結構分析中的應用。
四、數據挖掘技術應用前景
目前,數據挖掘技術在很多領域都有廣泛應用,通過相關數據在大數據分析系統中輸入,借助云計算技術,實現數據預處理,最后通過圖形化流程來建模,得出輸出結果,此結果可以作為信息檢索以及相關工作決策制定的重要參考依據。數據挖掘技術是在海量的數據處理和分析中,總結出數據的規律,挖掘出潛在的數據信息。數據挖掘功能用于指定數據挖掘任務中要找的模式類型。一般數據挖掘任務包含兩類,一類是描述,一類是預測。描述性挖掘任務是對于數據庫中的數據一般特性進行挖掘,預測性挖掘任務是基于現有的數據規律進行推理,作出預測和判斷。所以在數據挖掘系統中,要實現多類型的模式挖掘,適應多樣化需要。數據挖掘系統需要把握相應粒度模式,為用戶提供必要提示,促進挖掘有效性提升。
目前在大數據分析系統應用中,大數據分析技術還處在對表面信息提取上。而通過隱性知識整合對數據倉庫中相關關聯信息挖掘,將海量信息中隱藏的信息挖掘出來,并基于云計算技術的大數據分析技術應用,構建分布式并行技術系統,開展數據挖掘,可以實現在短時間內對機器集群進行任務拆分,實現多臺空閑設備同時進行計算和處理,切實提升了大數據的數據處理速度和效率。借助云計算,能夠為系統數據分析提供必要的挖掘模型,相關技術人員可以借助映射MAP函數內特定分塊數據實現數據處理,實現數據處理效率顯著提升,并將和本次數據分析中關系不大的計算集群及時排除[10]。這些技術發展和完善都將有效推進互聯網信息檢索業務的發展和優化。數據挖掘技術不斷智能化、自動化,并且考慮到用戶在數據檢索中的具體需要,來融入相關智能分析和處理技術,能夠讓互聯網信息檢索引擎具備更強的人腦智力思維,從而在海量的信息檢索中,真正挖掘出用戶需要的信息內容,提升檢索服務效率。
五、結束語
數據挖掘技術是目前大數據以及移動網絡不斷發展中應運而生的,可以對信息進行整合,對于不同行業、不同類型的數據進行不同方向的挖掘。在數據挖掘中,應當關注數據間的關系分析,有意識地將數據和事件聯系起來。目前,大數據挖掘技術中,常用的分析方法有幾種:一、關聯分析法,這種分析法以特定的數據集為分析基礎和對象,研究相應數據集和組之間的關系以及數據集中隱藏的潛在價值和信息;二、分類分析法,通過對于海量數據的分類,進行網絡監測;三、序列分析法,主要是基于數據間的關聯來對于移動終端的入侵信息進行把握,以便及時準確地找出網絡故障,確保移動通信網絡的優化目標實現。在互聯網信息檢索中應用數據挖掘技術,是突破傳統信息檢索模式不足的重要嘗試。隨著數據挖掘技術的不斷優化,其在互聯網信息檢索中發揮的作用越來越大,在網頁內容挖掘以及提取方面,工作效率和精準度都在不斷提升,未來隨著數據挖掘技術的不斷發展優化,其在互聯網信息檢索中的應用范圍還將進一步拓展。
作者單位:蔡紅義 武漢掌游科技有限公司
參? 考? 文? 獻
[1]施水才,孫麗華.基于數字紙張的信息檢索和數據挖掘技術[J].現代圖書情報技術,2021(1):9-11.
[2]單冬紅,史玉珍.數據挖掘技術在互聯網信息檢索中的應用研究[J].科技通報,2014(3):161-164.
[3]段蔓,李智峰.研談數據挖掘技術在Web信息檢索中的應用[J].信息技術與信息化,2019(5):167-168.
[4]陳春謀.大數據環境下的檔案管理系統信息檢索及挖掘技術分析[J].電子測試,2019(14):92-94.
[5]劉敏鈺,薛鴻民.Web數據挖掘系統的設計及關鍵技術研究[J].航空計算技術,2015,35(1):59-62.
[6]張敬.數據挖掘及其在網絡信息檢索中的類型及應用[J].數字技術與應用,2022(1):144.
[7]周秀梅.基于Web數據挖掘的專業化信息檢索系統研究[J].網絡安全技術與應用,2019(8):70-72.
[8]宋瑞祺.Web文本數據挖掘關鍵技術及其在網絡檢索中的應用[J].山西財經大學學報(高等教育版),2017,10(z1):95.
[9]張稼,陸興華.基于語義關聯特征的大型信息管理系統數據挖掘技術[J].電子測量技術,2019,42(4):79-83.
[10]西安熱工研究院有限公司.一種基于信息檢索與數據挖掘加權技術的虛假消息檢測方法:CN202111397797.X[P].2022(02):15.