宋丹
[摘要]本文通過對互聯網時代背景下數據挖掘技術的應用展開分析,包括對其概念,基本分析方法以及數據挖掘技術對數據的預處理方式等內容,希望能給相關工作人員提供幫助。
[關鍵詞]互聯網;數據;挖掘;技術
近年來,隨著互聯網技術的發展使得更多的用戶能夠充分利用互聯網來獲取信息,真正實現不出門便知天下事,大數據挖掘技術是從多個數據中存在一些不完整的應用中,以及較為簡單的應用程序中隨機抽取的,而這些被抽取的數據是客觀存在的,并不是人為發現的。由于單個WEB智能性的缺乏,使得很多用戶只能依靠導航進行信息篩選,這種情況下會使結果的準確性和針對性降低,同時,由于數據挖掘技術的完善和深化,使得網站對于系統性能分析的能力有一定程度提高,從而能夠滿足現代互聯網用戶的使用要求。
一、數據挖掘的概念
數據挖掘最早出現于20世紀80年代,作為一門新興學科來說還沒有得到廣泛用戶的認可。從技術角度來看,數據挖掘針對的是較為復雜而且無規律的數據群體,而從商業化角度來看,數據挖掘是指在龐大的數據庫中找出信息的規律性,并進行信息轉化分析,提取有利于商業決策的信息,通常數據挖掘系統包含以下幾方面內容:用戶圖形界面接口,數據挖掘引擎,數據庫,模式評估,知識儲備庫,數據基地等。其中數據庫中包含了大量的數據和信息,而這些數據對于廣大的用戶來說有較大的吸引力;知識儲存庫是一個較為簡單的應用程序,該程序能夠實現知識的評價和進一步探索,進而確定總體模式的意義所在;數據挖掘引擎是數據挖掘系統中重要的內容,進而能夠實現對數據特征,價值,關聯等方面的分類;模式的評估主要是對數據進行評價時能夠應用數據挖掘技術進行相關聯,而把數據挖掘技術全面應用到系統中;模型的進口是用戶圖形界面接口,這一環節能夠便于用戶使用模型,同時能夠利用數據挖掘技術實現信息的快速查詢。具體來看,通常WEB服務器每天都會更新日志文件,在一些流量消耗較大的網站中,這些日文件往往要消耗更多的流量,因此為了能夠減少不必要的流量消耗,可以充分應用數據挖掘技術來分析處理這些日志文件,對于一些簡單的網站來說,能夠幫助分析WEB日志文件就可以了,但對于一些較大的網站來說,一個網站往往是由多個甚至上百個WEB服務器組成來實現對外服務的,在分析這些日志時,需要采取分布式的數據挖掘技術。總而言之,對于長期產生大量數據日志文件的網站來說,可以通過數據挖掘技術進行數據篩選。
二、數據挖掘技術的分析方法
數據分析是數據挖掘過程中最為重要的環節,只有選擇有效的計算方式才能完成信息數據挖掘工作,其中,常用有三種數據分析方法:第一種是聚類分析,能夠將物理對象或者抽象對象進行分類整合,將具有相似特征的對象進行深入分析,最終目標是能夠利用詳細的方法做到數據分類。聚類分析可以說是對事物規律的分析,實現對各個領域的智能化學習,可以將聚類分析分為兩種:硬聚類和模糊聚類,前者表示能夠將分析對象劃分到最為接近的類別中,而后者是通過取值范圍來進行對象分析,劃分,甚至可能會出現某一對象存在多個類別的情況;第二種數據分析方法是分類和預測,分類顧名思義是針對無排序規律的標號進行的分類環節,而預測是將一些連續值的函數模型進行預測,其中對于數據挖掘技術來說,分類是基礎數據挖掘的特征,能夠通過分類表現出來,進而將各個類別的屬性進行劃分,當前常用的計算方法有粗糙集,遺傳算法,決策樹等。此外,預測是在已知的情況下對未來發展規律進行有效預測,目前比較常用的是回歸分析,時間序列法等;第三種是關聯分析法,眾所周知的蝴蝶效應是指自然界的一次微小變動可能會導致另一個大事件的發生,而關聯分析是在該規律的基礎上完成的,一個事件和另外一個事件之間存在一定的關聯性和依賴性,針對這種規律性我們展開有效預測,比如日常所使用的購物籃就是通過這種關聯分析完成的,人們日常購物過程中,我們通過對購物籃中物品的管理規律進行分析,能夠及時掌握顧客的購買習慣和特點,然后根據這些數據制定營銷方案,通過多種實踐證明,關聯分析法是十分有效的。
三、數據的預處理
數據的預處理是針對網絡日志中數據進行二次加工,在實際加工過程中能夠保存數據的原始性。挖掘算法是將數據的結構和規則進行篩選。具體的結構如下所示:WEB日志、數據預處理、確定挖掘算法、實現數據挖掘、模式設置,在對日志進行數據挖掘前需要優先處理部分數據,其中包括數據變更,用戶識別,會話識別,路徑補充等。首先在針對數據的縮減中,常見的WEB日志數據格式有:用戶訪問日期、時間,IP地址,字節數量,網頁狀態等,而由于WEB日志挖掘,其針對用戶行為模式,而常常容易忽略一些沒有請求顯示的界面,比如帶有JPG,GIF等格式的后綴名,這種情況下會對剩余的篩選信息相關性進行更深層次的挖掘。在用戶識別過程中,用戶通常會在系統中設置防火墻,因此,日志中的信息記錄真實度不高,這種情況下會使用戶識別工作復雜,使用啟發式的規則能夠有效幫助完成用戶的識別工作,具體存在兩種規則:首先,系統會假設用戶的IP地址相同,如果代理的游覽器操作系統出現變化時,則表示為不同的用戶;其次第二種規則也是同樣假設用戶的IP地址相同,如果鏈接頁面同游覽過的頁面沒有相關性,則代表了不同的用戶。從會話識別上來看,最終是為了將用戶的訪問記錄進行有效劃分而形成的單個會話,并將其作為用戶單位,其中如果會話時間超過限定范圍,則系統會默認開始新的會話。從路徑補充上來看,為了能夠減少網絡輸入量,很多游覽器會采用對已訪問的頁面進行緩存,而這種情況下用戶在執行返回命令時,系統會顯示出緩存的頁面信息,而WEB服務器無法對訪問信息進行確定,而對PostLOG表中的refer進行檢查時能夠完成確定頁面的工作,但是如果用戶的訪問記錄中包含多個頁面鏈接,則系統會優先選擇距離時間較近的鏈接。上述這些方法都是互聯網日志挖掘數據預處理的一些常用手段,主要是能夠使數據經過預處理之后更加完整,為之后數據挖掘提供基礎,對于經過預處理之后的數據信息可以進行用戶識別游覽行為的序列模式。
對于一些具有復雜結構的分布式互聯網日志挖掘過程中,這些互聯網服務器的結構如同大型門戶網站的結構,擁有多個互聯網服務器日志文件,分別儲存在不同的服務器上,這種分布式結構通常會采用多代理技術進行解決。代理最初源于分布式人工智能領域,之后被用于其他計算機領域中,是指在一定的運行環境下能夠實現自主運行,包含承諾,信念,意圖等精神,使其具有反應性、能動性、社會性等特點。多代理就是通過多個代理互相協作完成復雜目標的,雖然相比單代理來說,在解決實際問題方面的能力較強,而且從數據分布和計算過程來看,是可以實現異步并行的。將多代理分布數據挖掘技術應用于互聯網日志挖掘系統中,主要是基于它的三重體系結構包括:訪問層,代理層和互聯網服務器層,其中用戶層包括不同用戶有不同的操作權限,通常用戶只能進行信息查詢,而代理層則可以實現監控系統以及配置代理的功能,互聯網服務層就是由多個互聯網服務器組成的,每個服務器提供了相應的日志文件,并通過接口能夠實現與代理層的數據交互,代理層是作為用戶層和服務器層之間的橋梁,能夠幫助有效解決分布式速度和異構性問題,確保數據完整性。在互聯網中廣泛應用代理技術能夠有效對多個異構服務器實現數據分析和處理,對于數據的預處理和數據挖掘算法等是與簡單結構的日志挖掘一致的。
四、數據挖掘的應用及面臨的挑戰
數據挖掘技術面對的較多情況下是數據庫,這樣一來能夠大大提高信息檢索效率,然而在數據挖掘技術應用過程中也存在一定的局限性。數據挖掘技術在進行數據分析處理過程中所使用的方法有限,一般情況下只能應用于分析數值型的數據,而且數據內容形式較為簡單,而且還無法支持文本文件,圖片等無結構和無數據形式的數據挖掘工作。一般數據挖掘技術通常是要進行數據和信息的交互,但是在互聯網中應用數據挖掘技術很難讓用戶參與數據篩選中,因而工作人員自身的能力以及經驗對于數據挖掘效率有直接的影響,很多應用程序內容是用戶在應用過程中發現并分析的,因此,要求在互聯網中應用數據挖掘技術挖掘信息時,不但要分析數字,分析符號的能力,還需要對一些圖片,語言進行理解。伴隨知識量信息量的增多,人工分析和處理信息效率會大大降低,而且很容易被新的知識取代,因此在不斷進行知識保護的同時,還要及時更新計算方法,當前更新知識的方法包括維護關聯準則的增量算法。除此之外,由于當前數據挖掘系統還不能廣泛地在眾多的系統平臺上應用,而一些常見的應用程序也只限于在PC客戶端使用,大多數是針對大型主機的,除此之外,還有一些個別是針對用戶所使用的。
五、小結
處于互聯網時代背景下,人們的生活和工作已經離不開互聯網,為了能夠讓用戶在使用互聯網過程中獲得更好的體驗,相關技術部門應當對用戶的行為進行正確掌握。同時,隨著數據管理的優化以及檢索技術的發展,在未來應用數據挖掘技術將能夠更好地為互聯網和用戶提供優質服務。