孫鐵成
(天津大學管理與經濟學部,天津,300072)
數據挖掘技術又叫做資料探勘和數據采礦技術,是數據庫知識發現的一個重要步驟,數據挖掘技術通常就是指通過算法對隱藏的信息進行挖掘,它與計算機科學有著密切關系。是利用統計,分析處理以及情報搜集等。這種技術目前得到了非常廣泛的應用,并為我國經濟的發展提供了巨大的積極作用,因此,科學的對其展開分析和研究,是促進其作用發揮的有效措施。
目前,我國數據挖掘技術在社會上受到了很多人的矚目,其最為主要的原因是由于企業所保存的數據和歷史數據,能夠得到更加廣發的應用。數據挖掘技術在獲取知識之后,這些知識能夠應用到很多領域,其中有商務管理,生產控制等。近些年來,分布式數據挖掘技術又被很多研究人員所關注,正是因為這些人的關注,使得這項技術得到了更近一步的發展。而分布式數據挖掘技術在應用的過程中,需要特別四個方面,分別為數據集中、并行以及分布式數據挖掘算法、知識吸收以及分布式軟件設計。
所謂Web 服務,實際上是微軟提出的定義,值得就是一種Web 服務為基礎的邏輯應用單元,其最為主要的任務就是為其他應用程序提供數據和服務。主要是采取統一的協議以及數據格式,這種服務的最大優勢,就是細節服務到位。如果從表面上看,Web 服務就是一個應用程序,它對外界所展示出來的形式,就是一個API,并由Web 進行調試。也可以這樣理解為這種服務是以URL 做定位的資源,同時就是還能夠將自動將信息收集及反饋回來。Web 服務還可以將客戶快速的集中在本地應用程序中,或者是另外的Web 服務中,其具有很多特性,具體分析如下:
1)可以說這種服務是一個“黑匣子”,就對于客戶而言,不必對其的工作有所關心,它的一切工作都是自行實現和維護的,客戶只需要通過它所提供的借口來適用既可。
2)Web 服務應該實現自我功能描述,以便向客戶介紹自己。
3)Web 服務需要提供一種發現機制,使得客戶能夠在Web上找到該服務。
4)Web 服務應該跨語言、跨平臺。
5)面向消息,松散耦合
總而言之,計算機中大部分的程序都會應用到Web 服務,其主要的任務就是將當前基于組建的各種程序進行擴展的一種混合結構,同時也能夠在第三方的應用程序中使用。Web 服務還有一個特點就是能夠將自身的應用程序功能提供給別人使用,因此,Web 服務是值得更大范圍推廣和使用的。如下圖1 所示為 Web 服務體系架構。

圖1
所謂的體系結構,是建立在web 服務分布計算機體系基礎之上的,其各個部門的模塊都具備獨立的功能,具有一致性好,跨越性以及數據結構異構性強的特點,另外還能夠使防火墻的功能得到了最大限度的發揮。Web 系統結構主要有一下幾個部分,分為為用戶借口、用戶信息庫以及全局數據挖掘應用等。該系統結構如圖2 所示。其所包括的主要功能有一下幾個部分:
1)用戶接口:用戶接口建立計算機與用戶之間聯系的媒介,是以最為直觀的方式,將數據挖掘技術體現出來的一種方式,同時,它還能夠根據不同用戶,為其提供各種不同的需求,而且為了方便用戶適用,這種系統還會將這些客戶的信息儲存在數據庫中,隨時準備調取和再次應用。這種方式不但能夠降低成本費用,同時維修以及用戶適用都非常便捷。

圖2 基于Web 服務的分布式數據挖掘體系結構
2)用戶信息庫:在用戶信息庫中有兩種信息類型,一種為管理信息,是以注冊,維護以及管理為主的類型,主要是針對注冊以及維護等方面的服務,同時對用戶登錄以及權限等進行相應設置。而另外一種就是根據用戶自身的洗好,來對結構進行推理規則。
3)全局數據挖掘應用:這個模塊是整個計算機系統地核心組成部分,其主要是通過挖掘請求,并結合全局知識庫,為客戶解決需求。同樣,全局數據挖掘應用技術也能夠進行注冊以及發布并未其他應用程序適用。
4)系統挖掘知識庫:該知識庫用來以適當的方式存放不同的用戶所挖掘出來的感興趣知識,為用戶的決策提供依據。
5)注冊中心:注冊中心是一個Web 服務的注冊地,匯集了很多在線的Web 服務。各個局部數據挖掘應用的Web 服務就在這里進行注冊,以供調用者查找。
6)Web 服務封裝模塊:該模塊把本地的局部數據挖掘應用封裝成Web 服務。
7)局部數據挖掘應用:該模塊實現對本地數據庫中數據進行挖掘分析。首先它接受來自全局數據挖掘應用的動態調用,對調用進行分析, 選擇合適的挖掘算法進行本地數據挖掘。然后把挖掘結果傳遞給全局應用。由于Web 服務的平臺以及語言無關性,該模塊可以采用任何編程語言進行編碼。考慮到代碼的重用和執行的效率, 往往就采用已有的遺留系統。
8)數據預處理模塊:根據挖掘要求,抽取與發現任務相關的數據源,根據一定的約束規則對數據進行合法性檢驗,通過清理和約束等操作,生成供挖掘過程使用的目標數據,使數據挖掘可在“干凈”的數據中進行。
9)數據庫引擎和數據庫:目前各個大型的數據庫廠商都推出了自己的數據庫系統,如著名的ORACLE/DB2/SQ LSERVER2000 等等,而數據庫引擎如ODBC/JDBC 等的作用就是方便用戶用統一的接口來訪問這些不同的數據庫。
通過對Wep 服務進行分析和總結,能夠發展,該項技術是一個非常系統,精密且復雜的計算機技術,在現代化的生活以及工作環境中,計算機已經成為了人們的必須物品之一,而文章所研究的服務技術,作為目前計算機技術中的重要組成部分,其作用也不容小覷,為了能夠更好的完善和改進Wep 服務,使其作用能夠得到最大限度的發揮,全面,客觀的對其各種功能進行分析,是非常必要的。
在分布式數據庫系統以及因特網技術不斷發展和完善的新時期,過去的集中式數據挖掘技術已經無法適應新時期的需求,研究并發展分布式數據挖掘技術,即成為了相關工作人員的重點工作內容,而基于Web 服務的數據挖掘技術,極大程度的順應了時代發展的需求,不但有效的提高了數據挖掘的效率和質量,同時也為人們的生活和工作提供了巨大便利。但是,畢竟我國在這個領域起步較晚,因此,數據挖掘技術中還存在一些問題,很多技術還不是十分完善,這就要求相關技術人員還需要進一步努力,只有這樣才能夠才能夠提供我國在這個領域的成就,推動我國經濟的發展。
[1] 文林彬.基于Web 服務的工作流協作技術研究[J].軟件導刊.2011(01)
[2] 蔡孝武,韓永國,藍科.一種輕量級工作流引擎的研究與設計[J]. 計算機工程.2010(20)
[3] 高新勤,李宗斌,杜軒.工作流管理系統動態變更模型與實例遷移方法研究[J].計算機集成制造系統. 2008(08)
[4] 張寧,余霏.分布式工作流技術研究綜述[J].貴州大學學報(自然科學版).2008(01)