☆牛娜
(陜西師范大學新聞與傳播學院,陜西西安 710062)
數據挖掘的發展與人工智能的發展息息相關,本文淺析了數據挖掘和人工智能技術以及二者之間的聯系和發展,為后續研究者的研究做一個鋪墊。
數據挖掘技術的發展歷史雖然很短,但發展速度很快,利用數據挖掘技術,我們可以從海量的數據中挖掘出隱藏的、有用的信息,那么,究竟什么是數據挖掘呢?目前,還沒有一個準確而完整的定義,但普遍認同的定義是:數據挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中提取隱含在其中的、人們事先不知道的、有用的信息和知識的過程。
數據挖掘過程包括很多階段,但總體來說數據挖掘可以分為三個階段:準備階段、數據挖掘階段、結果評價階段(如圖1所示)。

圖1 數據挖掘過程
準備階段:將數據源經過數據集成、數據選擇形成目標數據,然后將目標數據進行預處理,預處理之后就基本完成了數據的準備階段。
數據挖掘階段:確定了要挖掘的數據之后,根據挖掘的知識類型,選擇合適的挖掘算法進行數據挖掘工作,最終形成一個數據模式。
結果評價階段:數據挖掘本身就是一個發現知識的過程,這一階段,經過對這些數據的整合、剔除等操作,形成知識以適合用戶的需求。
需要強調的是,數據挖掘是一個不斷循環和反復挖掘的過程,通過這種不斷挖掘、不斷發現來達到用戶需要的效果。
數據挖掘的應用領域廣,筆者就數據挖掘在圖書館的應用的文獻做了初步的統計和分析,時間限定為1991年到2011年,在中國期刊全文數據庫、中國優秀碩士學位論文全文數據庫里共搜到14篇關于數據挖掘技術在圖書館中的應用的文獻(如圖2所示)。

圖2 數據挖掘技術在圖書館中的應用研究狀況
目前,圖書館已經成為人們經常出入的地方,而且圖書館的服務系統中保存著讀者大量的信息,但有的圖書館用戶所能查詢到的信息還是非常有限,導致不能及時高效地從這些大量的信息中找到所需要的信息,也在某種意義上造成了資源的浪費,如何高效、準確地提取數據滿足讀者的個性化需求成為我們面臨的難題,數據挖掘技術為我們提供了解決問題的途徑。
從圖2可以看出數據挖掘技術在圖書館中的應用研究情況,管理層面的研究比面向讀者層面的研究更多,而圖書館主要是面向讀者,為讀者提供服務的,更多的是要滿足讀者的個性化需求,但很明顯,數據挖掘在圖書館中面向讀者方面的應用的研究文獻還不是很多,研究偏少,今后我們應該更加注重基于數據挖掘的圖書館讀者方面的研究。
人工智能(Artificial Intelligence)是計算機學科的一個分支,但它的研究范圍又不僅僅涉及到計算機學科,它是綜合信息論、控制論、自動化、仿生學、生物學、心理學、數理邏輯、語言學等多門學科的一門交叉性學科,人工智能至今尚無統一的定義,筆者認為,所謂人工智能,即機器可以模仿人類智能的一切行為。
我國的人工智能研究起步較晚。納入國家計劃的研究“智能模擬”始于1978年;1984年召開了智能計算機及其系統的全國學術討論會;1986年起把智能計算機系統、智能機器人和智能信息處理(含模式識別)等重大項目列入國家高技術研究計劃;1993年起,又把智能控制和智能自動化等項目列入國家科技攀登計劃;進入21世紀后,已有更多的人工智能與智能系統研究獲得各種基金計劃支持。1981年起,我國相繼成立了中國人工智能學會(CAAI)、全國高校人工智能研究會、中國計算機學會人工智能與模式識別專業委員會等學術團體。1989年首次召開的中國人工智能控制聯合會議(CJCAI)至今已召開7次。中國科技工作者已在人工智能領域取得許多具有國際領先水平的創造性成果,其中,尤以吳文俊院士關于幾何定理證明的“吳方法”最為突出,已在國際上產生重大影響,并與袁隆平院士的“雜交水稻”一起榮獲首屆國家科學技術最高獎勵。[1]現在我國已有數以萬計的科技人員和研究者從事不同層次的人工智能研究,人工智能研究已在我國深入展開,它必將為促進其他學科的發展和我國現代化建設做出新的重大貢獻。
(1)專家系統。專家系統是一個智能計算機程序系統,每個專家系統的內部都有具有專家水平的某個領域的知識與經驗,人們能夠利用這些知識和經驗來解決該領域的問題,它應用人工智能技術進行推理和判斷,模擬人類專家的決策過程來解決那些需要解決的復雜問題。
(2)機器人學。人工智能的研究日益得到重視的一個重要原因之一就是機器人學。人工神經網絡在機器人中的應用、專家系統在機器人控制中的應用等是未來研究的熱點。
(3)模式識別。模式識別是指用計算機代替人類或幫助人類感知模式,是對人類感知外界功能的模擬,研究的是計算機模式識別系統,也就是使一個計算機系統具有模擬人類通過感官接受外界信息、識別和理解周圍環境的感知能力。
(4)數據挖掘。數據挖掘的功能在于預測,預測性的挖掘就是在當前的數據上進行推斷,數據挖掘通過預測未來趨勢及行為做出前攝的、基于知識的決策,數據挖掘的目標是從數據庫中發現隱含的、有意義的知識。
(5)分布式人工智能與Agent。分布式人工智能系統能夠克服單個智能系統在資源、時空分布和功能上的局限性,具備并行、分布、開放和容錯等優點,因而獲得很快的發展,得到越來越廣泛的應用。
數據挖掘是人工智能的一個重要分支,他們有相互的交叉點。人工智能技術中的很多技術就在數據挖掘應用中得到了體現(如圖3所示)。

圖3 人工智能與數據挖掘的關系
知識表示,不同的知識有不同的表示方法,但是合理的知識表示可以使知識變得容易接受。數據挖掘正是用了人工智能的知識表示方法,比如:“啤酒和尿布”的故事是營銷界的神話,啤酒和尿布這兩個看上去沒有任何關系的商品,通過數據挖掘的分析,發現了這兩種商品之間的關聯性,顯然,超市利用啤酒和尿布的銷售關聯性,在滿足用戶需求的同時也為商家創造了利潤,這是一個通過數據挖掘得到的知識,而知識的表示使得商家根據這種表示賺取更大的利潤。
所謂推理,就是指從已知事實出發,運用已掌握的知識推導出其中蘊含的事實性結論或歸納出某些新的結論的過程。而數據挖掘在選取相應的算法、分析數據的過程中,必然要用到推理技術,比如:數據挖掘中的關聯規則分析能夠發掘數據之間的關聯或是相關聯系,就會形成A->B的邏輯蘊含式,這正是運用的人工智能中的推理技術。
知識發現是知識信息處理之前的關鍵問題之一,數據挖掘和知識發現有著緊密的聯系,在數據庫基礎上實現的知識發現系統,通過綜合運用統計學、粗糙集、模糊數學、機器學習和專家系統等多種學習手段和方法,從大量的數據中提煉出抽象的知識,從而揭示出蘊含在這些數據背后的客觀世界的內在聯系和本質規律,實現知識的自動獲取。[3]在數據庫中獲取知識,就是從數據挖掘中發現知識,這又是數據挖掘和人工智能技術的聯系之一。
搜索分為盲目搜索和啟發式搜索,搜索在數據挖掘中應用很多,數據挖掘中利用搜索機制可以減輕工作量,提高數據挖掘的效率,例如:在一些數據的屬性值中,如果我們通過搜索功能發現一些屬性值有重復的,就可以提前刪去,這樣可以大大減輕我們的工作量。
數據挖掘是人工智能領域的一部分,二者相互聯系,共同發展。首先,高度的智能化是數據挖掘和人工智能最終的目標,也正是因為這一目標,人工智能和數據挖掘有了千絲萬縷的聯系。其次,數據挖掘和人工智能都是各種技術的融合,數據挖掘和人工智能都是綜合了很多學科的交叉學科。最后,數據挖掘的出現逐步發展和壯大了人工智能,二者互相聯系,不可分割。
[1][2][3]蔡自興,徐光祐.人工智能及其應用[M].北京:清華大學出版社,2004,(8):5,21,312.
[4]鐘智,尹云飛.數據挖掘與人工智能技術[J].河南科技大學學報(自然科學版),2004,(3):44-47.
[5]彭英.數據挖掘綜述[J].德宏師范高等專科學校學報,2009,(1):94-97.
[6]SHICHAO ZHANG,CHENGQI ZHANG.Discovering causality in large databases[J].Applied Artificial Intelligence,2002,(16):333-358.
[7]柳炳祥,鄧歡軍,高淑妍,陳歡歡.基于數據挖掘的圖書館個性化服務系統[J].現代情報,2007,(3):108-109.
[8]李丹丹.數據挖掘技術及其發展趨勢[J].電腦應用技術,2007:38-40.
[9]Kirk L.Kroeker.A New Benchmark for Artificial Intelligence[J].communications of the acm,2011,(8):13-15.
[10]陳建平,任斌,張會章.人工智能在智能機器人領域中的研究與應用[J].東莞理工學院學報,2008,(6):33-37.