陳永強
?
數(shù)據(jù)挖掘及其在網(wǎng)絡信息檢索中的應用
陳永強
廣東省電信規(guī)劃設計院有限公司,廣東 廣州 510630
在大數(shù)據(jù)時代,信息資源是最有價值的信息。在信息量極大、極豐富的網(wǎng)絡中,如何選擇對自己有用的信息是一個重要課題。在傳統(tǒng)的信息資源利用過程中,搜索引擎可以查詢到各種信息,但是只限于查詢信息,對信息的深入挖掘力度不夠,因此導致信息的價值得不到體現(xiàn)?;诖?,對數(shù)據(jù)挖掘技術在信息網(wǎng)絡檢索過程中的應用策略進行了分析與探討。
數(shù)據(jù)挖掘;網(wǎng)絡信息檢索;數(shù)據(jù)應用
當今社會已進入信息時代。計算機信息技術已成為工作和生活中的常用技術。互聯(lián)網(wǎng)為人們的交流以及信息傳遞過程帶來了便利。網(wǎng)絡環(huán)境中產(chǎn)生了巨大的信息數(shù)據(jù)量,催生了大數(shù)據(jù)技術。在海量的信息數(shù)據(jù)中想要尋找自己所需要的信息,想要挖掘各種網(wǎng)絡信息數(shù)據(jù)中的核心內(nèi)容,并非易事。數(shù)據(jù)挖掘技術是挖掘信息技術的主要技術之一,可以滿足人們的信息基本需求,能夠從大量的網(wǎng)絡信息資源中篩選出自己所需要的信息,并且能夠深入分析信息,挖掘出信息中隱含的知識和價值。數(shù)據(jù)挖掘技術是在信息檢索技術的基礎上發(fā)展起來的一種新技術。首先要通過信息檢索,得出一定范圍內(nèi)的數(shù)據(jù)信息,然后才能對這些信息進行挖掘和分析,從而使得更多隱性知識可以被挖掘出來。數(shù)據(jù)挖掘過程還能拓展信息數(shù)據(jù)的檢索范圍,在檢索的過程中實現(xiàn)對數(shù)據(jù)的深入挖掘,真正發(fā)揮出信息資源的價值。
網(wǎng)絡是人們生活中的重要工具。通過網(wǎng)絡人們可以完成各種工作,可以開展娛樂,也可以滿足自己的精神文化需求。人們生活中的方方面面都可以在網(wǎng)絡上進行。網(wǎng)絡上的信息資源量巨大、豐富,涉及各行各業(yè),如工業(yè)、農(nóng)業(yè)、文學、航天、地理、醫(yī)療、娛樂等,每個領域都有大量的網(wǎng)絡信息[1]。在網(wǎng)絡信息資源的利用過程中,信息的利用方式也發(fā)生了巨大的改變,計算機和互聯(lián)網(wǎng)是網(wǎng)絡信息資源的載體。在利用網(wǎng)絡信息資源的時候也要利用計算機技術。
第一,信息量巨大。網(wǎng)絡信息資源已不再以MB計算,而是以ZB為單位計算。網(wǎng)絡信息資源的信息量非常大,種類繁多,主要的信息數(shù)據(jù)有文本、圖像、音頻、視頻等,類型越來越豐富。網(wǎng)絡信息資源的內(nèi)容不是單一的。不僅存在健康的、積極正面的消息,而且也有很多消極的、虛假負面的消息;不僅包括個人信息,而且也包括政府信息。
第二,網(wǎng)絡信息資源管理機制多樣化。由于網(wǎng)絡信息資源數(shù)量巨大,而且信息資源的管理難度較大,缺乏統(tǒng)一的管理機制,因此在網(wǎng)絡中信息數(shù)據(jù)存在很大的安全隱患。一些黑客和不法分子可能通過計算機技術、病毒等入侵用戶的計算機系統(tǒng),獲取一些信息,從而威脅用戶的信息安全。
第三,網(wǎng)絡信息資源的質量參差不齊。隨著科學技術的不斷發(fā)展,網(wǎng)絡信息資源的更新速度十分快。不僅有專業(yè)的信息平臺發(fā)布信息,而且人們也是發(fā)布信息的主體,也可以成為信息的發(fā)送方和接收方。日常生活中產(chǎn)生了多種多樣的信息,導致網(wǎng)絡信息的監(jiān)管比較困難,內(nèi)容多樣化,質量參差不齊。
第四,交流更多元化。信息化時代背景下,網(wǎng)絡信息資源的類型十分豐富,涉及的行業(yè)、領域等都不相同,給用戶之間的信息交流提供了很好的渠道和平臺。人們可以利用網(wǎng)絡查詢自己想要的信息,并且能夠對這些網(wǎng)絡信息進行加工,從而使得分散的網(wǎng)絡信息整合成為完整的信息,形成信息網(wǎng)絡。
在網(wǎng)絡信息技術發(fā)展的過程中,對網(wǎng)絡信息挖掘技術的研究也越來越深入,信息數(shù)據(jù)的挖掘能力有了很大程度的提升。網(wǎng)絡信息挖掘主要包括以下幾個方面。
在海量信息系統(tǒng)中,信息的類型多種多樣。對各種信息數(shù)據(jù)進行挖掘,實質是對信息的內(nèi)容進行分析,從海量信息內(nèi)容中挖掘出最有價值的部分。傳統(tǒng)的信息利用往往只是利用信息的表層信息,利用了信息的表層價值,但有的網(wǎng)絡信息資源需要通過專業(yè)的工具或者方法獲取,比如用戶通過提問而動態(tài)生成的結果就屬于深入挖掘產(chǎn)生的信息。還有一些私人的網(wǎng)絡數(shù)據(jù),普通的檢索技術是不能檢索出來的。數(shù)據(jù)挖掘技術對應的是數(shù)據(jù)的深層次應用。在分析數(shù)據(jù)的過程中,多種不同類型的數(shù)據(jù)信息,比如文字、圖像、視頻等信息資源,都是數(shù)據(jù)挖掘和分析的對象[2]。
在整合網(wǎng)絡信息過程中會產(chǎn)生不同的網(wǎng)絡信息結構,對網(wǎng)絡信息的結構形式進行挖掘、分析,也是了解數(shù)據(jù)的本質,是對數(shù)據(jù)進行充分利用的關鍵。結構挖掘是一種結合互聯(lián)網(wǎng)開展的信息挖掘方式,其目的就是要對Web和網(wǎng)頁結構中的各種隱性知識以及隱藏的數(shù)據(jù)進行挖掘,然后將這些網(wǎng)頁中的信息整合起來,形成規(guī)范的、統(tǒng)一的分類,并且通過不同網(wǎng)頁之間相互聯(lián)系,建立起數(shù)據(jù)之間的相互聯(lián)系,讓用戶在某一個網(wǎng)頁中挖掘信息的時候也能瀏覽到相關的數(shù)據(jù)和網(wǎng)頁結構。
網(wǎng)絡信息的使用目的各不相同,其具體的使用目的是根據(jù)網(wǎng)絡信息的類型確定的。在分析網(wǎng)絡信息用法的時候,首先要了解這些網(wǎng)絡數(shù)據(jù)的實際意義。網(wǎng)絡信息的用法挖掘針對的是用戶在使用網(wǎng)絡的過程中所產(chǎn)生的各種信息數(shù)據(jù),側重于信息的使用過程。例如,用戶在使用瀏覽器搜索信息、查詢相關文件的時候,瀏覽器就會記載相關的信息等。這些都是用戶在使用信息的時候留下的痕跡。對網(wǎng)絡信息用法進行挖掘,就可以對瀏覽器、服務器中的一些隱藏的信息進行挖掘,從而了解用戶使用網(wǎng)絡以及使用信息的行為習慣。根據(jù)大數(shù)據(jù)技術的分析結果,對用戶的習慣做出相應的判斷和分析,實現(xiàn)對用戶的高效管理。
網(wǎng)絡搜索引擎是網(wǎng)絡信息利用過程中的關鍵。搜索引擎是搜索信息的工具,能及時搜索網(wǎng)絡中的信息,但對數(shù)據(jù)的深入分析和挖掘的能力較弱,所以在使用搜索引擎的時候只能根據(jù)用戶給出的關鍵詞收集網(wǎng)絡信息數(shù)據(jù),無法處理用戶給出的模糊樣本信息,而且也不能對網(wǎng)絡數(shù)據(jù)未來的變化趨勢進行預測和統(tǒng)計。網(wǎng)絡信息挖掘中往往不止使用一種技術,而是多種技術的相互融合,只有這樣才能發(fā)揮數(shù)據(jù)檢索和挖掘的功能。
網(wǎng)絡的快速發(fā)展導致網(wǎng)絡上的信息量巨大,信息過載、信息超載的現(xiàn)象十分嚴重。網(wǎng)絡上有各種各樣的信息。有的信息資源是有價值的,有的卻是虛假的、負面的,毫無應用價值。數(shù)據(jù)挖掘通常都和信息過濾技術相互配合使用,在挖掘信息的時候就會自動過濾一些不相關的、虛假的消息,從而使得網(wǎng)絡中留下來的、呈現(xiàn)給用戶的信息是一些健康的、積極的、有價值的信息。為了實現(xiàn)信息過濾,在挖掘網(wǎng)絡信息數(shù)據(jù)之前,系統(tǒng)一般會對網(wǎng)絡文檔的信息進行初次過濾,然后根據(jù)用戶的搜索情況對搜索到的數(shù)據(jù)進行分類,減少了挖掘處理的數(shù)據(jù)量,提高了數(shù)據(jù)質量以及用戶處理信息的效率。另外,數(shù)據(jù)的挖掘本身也是對網(wǎng)絡信息進行過濾的過程,其中最重要的是個性化。因為不同的用戶需要不同的信息,在信息檢索和信息挖掘過程中必須根據(jù)用戶的挖掘行為得出相應的數(shù)據(jù)信息。因為現(xiàn)階段大數(shù)據(jù)技術的應用十分廣泛,通過大數(shù)據(jù)技術可以及時了解用戶的瀏覽習慣,了解用戶感興趣的信息的領域、范疇,使用戶在挖掘信息的時候可以自動篩選,給用戶提供相應的信息。經(jīng)過過濾技術的應用,系統(tǒng)在給用戶推薦相關信息的時候,這些網(wǎng)頁以及信息的內(nèi)容是已被過濾掉的,剩余的信息就是高質量的優(yōu)質信息,可以提高用戶服務質量[3]。
可視化技術與數(shù)據(jù)挖掘技術是兩個相互補充的技術。這兩個領域相互關聯(lián)性強。通常來講,如果可以將一個業(yè)務問題轉化成多維度的、可比較的、層次性問題,那么就可以通過數(shù)據(jù)可視化工具以及可視化技術對該業(yè)務進行分析、評估,解決業(yè)務中的各種實際問題。通過信息挖掘產(chǎn)生的信息具有很高的信息利用價值。這些知識都能成為預示未來的信息,通過可視化技術可以很好地揭示信息之間的關系。在信息挖掘過程中,可視化技術可以使得整個信息的檢索和挖掘過程變得可視、可控制,而且有助于了解用戶的信息需求和使用信息網(wǎng)絡的習慣,還可以使用一些比較直觀的圖像來實現(xiàn)信息檢索目的,提高用戶的檢索效率。此外,圖像的可視化也加深了用戶對各種數(shù)據(jù)信息的理解,有助于提高信息資源的利用效率。
綜上所述,隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡信息資源越來越多。如何從海量信息中挖掘出有用的信息,是未來計算機信息技術領域研究的重點內(nèi)容之一。在信息數(shù)據(jù)的利用過程中,必須加強對數(shù)據(jù)挖掘技術的應用,利用數(shù)據(jù)挖掘技術實現(xiàn)對數(shù)據(jù)的深層次挖掘、分析,發(fā)揮數(shù)據(jù)信息的價值。
[1]董慧,唐敏. 數(shù)據(jù)挖掘及其在網(wǎng)絡信息檢索中的應用[J]. 情報雜志,2010,29(b06):153-156.
[2]張敬. 數(shù)據(jù)挖掘及其在網(wǎng)絡信息檢索中的類型及應用[J]. 數(shù)字技術與應用,2012(1):144.
[3]張欣,郭廣楠,張瑜. 數(shù)據(jù)挖掘在網(wǎng)絡信息檢索中的應用[J]. 電腦迷旬刊,2013(5):40-41.
Data Mining and Its Application in Network Information Retrieval
Chen Yongqiang
Guangdong Planning and Designing Institute of Telecommunications Co., Ltd., Guangdong Guangzhou 510630
In the era of big data, information resources are the most valuable information. In the network with great and abundant information, how to choose the useful information is an important topic. In the process of using the traditional information resources, the search engine can query the information, but only the information is limited to the information, so the information is not enough. Therefore, the information is not enough. Therefore, the information is not enough. Therefore, the information is not enough. The value can not be reflected. The paper analyzes and discusses the application strategy of data mining technology in information network retrieval process.
data mining; network information retrieval; data application
TP311.13;TP391.3
A