隨著計(jì)算機(jī)的大量應(yīng)用,各種數(shù)據(jù)廣泛存在,數(shù)字,圖形、文字、表格、聲音等都是數(shù)據(jù)的種種表象,可謂是數(shù)據(jù)的海洋。要從這數(shù)據(jù)的海洋中尋找到有用的資料,就要靠數(shù)據(jù)技術(shù)的手段來(lái)挖掘。
2007年5月28日至30日,為期三天的第七屆國(guó)際計(jì)算科學(xué)大會(huì)首次在中國(guó)成功舉辦。這次會(huì)議是世界計(jì)算科學(xué)研究人員展示其科學(xué)成果的盛會(huì),來(lái)自43個(gè)國(guó)家和地區(qū)的700余名計(jì)算科學(xué)技術(shù)領(lǐng)域的專家學(xué)者、企業(yè)代表匯聚一堂,集中展示國(guó)內(nèi)外近年來(lái)在計(jì)算科學(xué)與技術(shù)領(lǐng)域內(nèi)的最新科研成果,同時(shí)為來(lái)自世界各國(guó)的計(jì)算科學(xué)和技術(shù)人員提供了一次交流新方法和新思想并拓展合作的機(jī)會(huì)。
計(jì)算科學(xué)是一門包含各種各樣與計(jì)算和信息處理相關(guān)主題的系統(tǒng)學(xué)科。這次大會(huì)以“通過(guò)計(jì)算促進(jìn)科學(xué)和社會(huì)進(jìn)步”為主題,圍繞“可擴(kuò)展的科學(xué)計(jì)算方法”,“高級(jí)軟件開(kāi)發(fā)工具”,“網(wǎng)格計(jì)算”,“高級(jí)數(shù)值計(jì)算方法”,“計(jì)算科學(xué)技術(shù)在生物學(xué)、環(huán)境科學(xué)、金融等領(lǐng)域的應(yīng)用”等諸多熱點(diǎn)問(wèn)題進(jìn)行了研討。
在這次大會(huì)的眾多科學(xué)信息和科學(xué)成果中,記者捕捉到了“數(shù)據(jù)挖掘”這一概念,并采訪了本次大會(huì)的主席、中國(guó)科學(xué)院虛擬經(jīng)濟(jì)與數(shù)據(jù)科學(xué)研究中心常務(wù)副主任石勇教授。
石勇教授1982年畢業(yè)于西南石油學(xué)院數(shù)學(xué)系,1983年就讀于大連理工大學(xué)MBA班,于1985年前往美國(guó)堪薩斯大學(xué)攻讀管理科學(xué)博士學(xué)位,是我國(guó)改革開(kāi)放后第一批公費(fèi)出國(guó)留學(xué)的一分子。在美國(guó)學(xué)習(xí)、研究、工作的十九年中,石勇取得了很多卓越的成就,并先后涉及了信息科學(xué)、管理科學(xué)、生產(chǎn)計(jì)劃、財(cái)務(wù)會(huì)計(jì)、農(nóng)業(yè)政策、石油工程、科學(xué)預(yù)測(cè)等眾多的領(lǐng)域。自1990年開(kāi)始,以美國(guó)為首的西方先進(jìn)國(guó)家憑借高科技的飛速發(fā)展,已進(jìn)入了以數(shù)據(jù)挖掘?yàn)橹渭夹g(shù)、以網(wǎng)絡(luò)為基礎(chǔ)的新的知識(shí)管理時(shí)代。石勇從1998年開(kāi)始將多目標(biāo)決策線性規(guī)劃的理論與計(jì)算機(jī)應(yīng)用結(jié)合,在美國(guó)First Data公司開(kāi)展數(shù)據(jù)挖掘的商業(yè)應(yīng)用,取得很好的效果。2000年起,石勇開(kāi)始將數(shù)據(jù)挖掘在銀行信用征信評(píng)分概念介紹到國(guó)內(nèi),并且根據(jù)自己的科研經(jīng)驗(yàn)注意到,我國(guó)數(shù)據(jù)挖掘與知識(shí)管理無(wú)論在理論創(chuàng)新上,還是在應(yīng)用實(shí)踐上都與國(guó)際水平有相當(dāng)?shù)木嚯x,更沒(méi)有一個(gè)研究力量集中的科研中心。而數(shù)據(jù)挖掘又恰恰是國(guó)民經(jīng)濟(jì)“十五計(jì)劃” 要實(shí)行行業(yè)和社會(huì)信息化的尖端技術(shù)。為了促使這一新興交叉科學(xué)在中國(guó)迅速地跨越式發(fā)展,他致書(shū)中國(guó)科學(xué)院領(lǐng)導(dǎo),提倡成立“中國(guó)科學(xué)院數(shù)據(jù)挖掘與知識(shí)管理研究中心”,并于2004年回到祖國(guó),籌建中國(guó)科學(xué)院數(shù)據(jù)技術(shù)與知識(shí)經(jīng)濟(jì)研究中心,從此更是與數(shù)據(jù)挖掘結(jié)下了不解之緣。
強(qiáng)大的應(yīng)用技術(shù)
有關(guān)數(shù)據(jù)挖掘的起源,石勇教授向記者介紹:隨著計(jì)算機(jī)的大量應(yīng)用,各種數(shù)據(jù)廣泛存在,數(shù)字,圖形、文字、表格、聲音等都是數(shù)據(jù)的種種表象,可謂是數(shù)據(jù)的海洋。要從這數(shù)據(jù)的海洋中尋找有用的資料,就要靠處理數(shù)據(jù)的手段來(lái)挖掘。人類分析數(shù)據(jù)到現(xiàn)在已經(jīng)有上千年的歷史了,從遠(yuǎn)古時(shí)代人類開(kāi)始在木頭上計(jì)數(shù)開(kāi)始就是一個(gè)簡(jiǎn)單的數(shù)據(jù)分析過(guò)程,但是近代數(shù)據(jù)分析是用統(tǒng)計(jì)學(xué)的概念去處理數(shù)據(jù)。統(tǒng)計(jì)學(xué)在真正的經(jīng)濟(jì)生活中的應(yīng)用最早是從英國(guó)和歐洲開(kāi)始,隨著二戰(zhàn)的結(jié)束,一些非統(tǒng)計(jì)的數(shù)據(jù)分析工具,如人工智能方面的技術(shù)開(kāi)始應(yīng)用到行業(yè)經(jīng)濟(jì)中。到了二十世紀(jì)九十年代,美國(guó)的一些應(yīng)用者和學(xué)者把在數(shù)據(jù)海洋中尋找知識(shí)的過(guò)程叫做“數(shù)據(jù)挖掘”。
“數(shù)據(jù)挖掘”(Data Mining)是一種新的商業(yè)信息處理技術(shù),其主要特點(diǎn)是對(duì)商業(yè)數(shù)據(jù)庫(kù)中的大量業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其他模型化處理,從中提取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù)。近年來(lái),數(shù)據(jù)挖掘引起了信息產(chǎn)業(yè)界的極大關(guān)注,其主要原因是由于企業(yè)數(shù)據(jù)庫(kù)的廣泛使用,存在大量的數(shù)據(jù),并且迫切需要從這些數(shù)據(jù)中獲取有用的信息的知識(shí)。而數(shù)據(jù)挖掘與傳統(tǒng)的數(shù)據(jù)分析,如查詢、報(bào)表、OLAP(聯(lián)機(jī)應(yīng)用分析)、統(tǒng)計(jì)分析等數(shù)據(jù)分析技術(shù)的本質(zhì)區(qū)別是數(shù)據(jù)挖掘是在明確假設(shè)的前提下去挖掘信息、發(fā)現(xiàn)知識(shí)。
作為一門應(yīng)用技術(shù),數(shù)據(jù)挖掘可謂涵蓋廣泛。尤其在發(fā)達(dá)國(guó)家,數(shù)據(jù)挖掘技術(shù)的觸角已經(jīng)伸向了各行各業(yè)。但是作為大型技術(shù)的應(yīng)用,在國(guó)外最早成功應(yīng)用的例子要數(shù)藥物公司。任何一種藥都可能是數(shù)十種化合物的不同組合,而這些上百種或上千種化合物的組合就要通過(guò)篩選來(lái)進(jìn)行制藥,最終進(jìn)行臨床實(shí)驗(yàn),這個(gè)過(guò)程也可以看作是數(shù)據(jù)挖掘。接下來(lái),國(guó)外的數(shù)據(jù)挖掘技術(shù)主要應(yīng)用在了銀行業(yè),典型的例子就是信用卡,用數(shù)據(jù)挖掘技術(shù)來(lái)分析銀行客戶的信用等級(jí)和資產(chǎn)發(fā)展趨勢(shì),用以規(guī)避銀行風(fēng)險(xiǎn)。從此,數(shù)據(jù)挖掘就廣泛地應(yīng)用到國(guó)外金融行業(yè),比如后來(lái)的保險(xiǎn)業(yè),借以此技術(shù)來(lái)防止保險(xiǎn)欺詐行為。以及慢慢滲透到稅收、零售行業(yè)以及國(guó)家安全系統(tǒng)的保障等等。
但是,在談到數(shù)據(jù)挖掘技術(shù)在國(guó)內(nèi)的發(fā)展時(shí),石勇教授坦言目前中國(guó)多數(shù)行業(yè)還沒(méi)有完全建立成熟的數(shù)據(jù)挖掘技術(shù)體系。其實(shí),數(shù)據(jù)挖掘在九十年代就進(jìn)入了中國(guó),但是在出現(xiàn)后的一段時(shí)間內(nèi)就逐漸了“冷”了下去,這主要是因?yàn)橹袊?guó)企業(yè)當(dāng)時(shí)并沒(méi)有建立完善的數(shù)據(jù)庫(kù)。隨著中國(guó)經(jīng)濟(jì)的發(fā)展和國(guó)內(nèi)企業(yè)的不斷壯大,現(xiàn)在許多中國(guó)企業(yè)都有這種需求,并開(kāi)始引用數(shù)據(jù)挖掘技術(shù),不過(guò)還處于相對(duì)比較初級(jí)的階段。和國(guó)外大企業(yè)自身就擁有強(qiáng)大的數(shù)據(jù)挖掘技術(shù)團(tuán)隊(duì)的情況相比較,因?yàn)閷I(yè)人才難以培養(yǎng)、企業(yè)制度和軟件開(kāi)發(fā)等原因的欠缺,也使得國(guó)內(nèi)企業(yè)自己建立和發(fā)展數(shù)據(jù)挖掘技術(shù)團(tuán)隊(duì)變得格外困難。由此可見(jiàn),經(jīng)濟(jì)的發(fā)展情況和企業(yè)的規(guī)模也將成為限制數(shù)據(jù)挖掘技術(shù)發(fā)展的必然條件。
漸顯的商業(yè)價(jià)值
現(xiàn)在,由于各行業(yè)業(yè)務(wù)信息化的實(shí)現(xiàn),商業(yè)領(lǐng)域產(chǎn)生了大量的業(yè)務(wù)數(shù)據(jù),這些數(shù)據(jù)或是為了分析的目的而收集的,或是為了純粹的商業(yè)運(yùn)作而產(chǎn)生。分析這些數(shù)據(jù)不再是單純?yōu)榱搜芯康男枰?,更主要是為商業(yè)決策提供真正有價(jià)值的支持信息。目前所有企業(yè)面臨的一個(gè)共同問(wèn)題是:企業(yè)數(shù)據(jù)量非常大,而其中真正有價(jià)值的信息卻很少。因此就要求通過(guò)數(shù)據(jù)挖掘技術(shù)的使用對(duì)大量的數(shù)據(jù)進(jìn)行深層分析,獲得有利于商業(yè)決策的信息。用石勇教授的一句話來(lái)說(shuō)就是:“數(shù)據(jù)挖掘作為信息技術(shù)發(fā)展的關(guān)鍵技術(shù)正顯現(xiàn)出其巨大的商業(yè)價(jià)值。”
我們以最早應(yīng)用數(shù)據(jù)挖掘技術(shù)的藥物公司來(lái)舉例,數(shù)據(jù)挖掘的優(yōu)勢(shì)不僅可以體現(xiàn)在藥物的配制方面,還可以很明顯地體現(xiàn)在醫(yī)藥企業(yè)的營(yíng)銷方面。如一家制藥公司可以通過(guò)分析最近的銷售行動(dòng)及其結(jié)果以改進(jìn)高位值醫(yī)藥的目標(biāo)市場(chǎng),并決定哪些市場(chǎng)活動(dòng)將在后續(xù)的幾個(gè)月有最大的效果。數(shù)據(jù)需要包括競(jìng)爭(zhēng)對(duì)手的市場(chǎng)活動(dòng),患者的分布情況,患者的需求和當(dāng)?shù)蒯t(yī)療系統(tǒng)的信息等。結(jié)果可以通過(guò)廣域網(wǎng)分發(fā)到各銷售隊(duì)伍,它可以使地區(qū)代表從決策過(guò)程中關(guān)鍵屬性的視點(diǎn)來(lái)檢視這些建議。隨著這一過(guò)程的進(jìn)行,數(shù)據(jù)倉(cāng)庫(kù)的動(dòng)態(tài)分析允許來(lái)自整個(gè)組織的最好的實(shí)踐應(yīng)用于特定的銷售環(huán)境。
再以銀行業(yè)為例,一個(gè)信用卡公司可利用它的巨大的客戶交易數(shù)據(jù)倉(cāng)庫(kù)來(lái)確定客戶對(duì)新的信用卡中最感興趣的產(chǎn)品。數(shù)據(jù)挖掘方法可以幫助確定一個(gè)客戶對(duì)新產(chǎn)品的親和力屬性。最近的統(tǒng)計(jì)已經(jīng)表明,采用數(shù)據(jù)挖掘方法對(duì)指定目標(biāo)的郵寄活動(dòng),費(fèi)用可以節(jié)省為原來(lái)的1/20。
除了傳統(tǒng)的數(shù)據(jù)挖掘應(yīng)用領(lǐng)域,越來(lái)越多的IT企業(yè)也看到了這一誘人的市場(chǎng),紛紛加入到數(shù)據(jù)挖掘工具的開(kāi)發(fā)中來(lái),并獲得豐厚的回報(bào)。例如微軟公司在它的最新的關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)SQL Server 2000加入了先進(jìn)的數(shù)據(jù)挖掘功能,在基于NT的數(shù)據(jù)庫(kù)軟件市場(chǎng)中打敗了Oracle公司,成為銷售額最大的產(chǎn)品。
從種種跡象表明,數(shù)據(jù)挖掘這一研究領(lǐng)域的發(fā)展充滿了機(jī)遇和挑戰(zhàn)。每一個(gè)這樣的例子有一個(gè)共同的清晰的基礎(chǔ),他們利用在數(shù)據(jù)倉(cāng)庫(kù)里隱藏的關(guān)于客戶篤信的知識(shí),來(lái)減少費(fèi)用并改善客戶關(guān)系的價(jià)值。這些組織現(xiàn)在可以集中精力于最重要的客戶和有前景的商務(wù),并設(shè)計(jì)可以最好實(shí)現(xiàn)這些目標(biāo)的市場(chǎng)策略。
當(dāng)然,在某些行業(yè)中,數(shù)據(jù)挖掘技術(shù)的推廣不僅能夠?qū)崿F(xiàn)商業(yè)利潤(rùn)的保障,也可以為行業(yè)經(jīng)濟(jì)創(chuàng)造出一個(gè)合理、有序、健康的環(huán)境,如避免價(jià)格戰(zhàn)。在這個(gè)問(wèn)題上,石勇教授也給出了肯定的回答。他以石油行業(yè)為例子向記者說(shuō)明了這一觀點(diǎn)。石油行業(yè)是一個(gè)擁有龐大數(shù)據(jù)信息的行業(yè),無(wú)論是在油藏勘探方面還是在石油銷售方面,都需要大量數(shù)據(jù)來(lái)支撐。國(guó)外大型的石油公司,如與中國(guó)科學(xué)院虛擬經(jīng)濟(jì)與數(shù)據(jù)科學(xué)研究中心進(jìn)行合作的BHP Billiton公司,將會(huì)在公司的發(fā)展中引用數(shù)據(jù)挖掘技術(shù),既能節(jié)省開(kāi)采時(shí)間,又可以合理制定石油價(jià)格。但是,與之相反的,目前國(guó)內(nèi)的石油行業(yè)在運(yùn)營(yíng)中很少應(yīng)用到數(shù)據(jù)挖掘技術(shù),彼此間的競(jìng)爭(zhēng)也局限于石油的價(jià)格。
與石油行業(yè)相似的情況也存在于零售業(yè)。數(shù)據(jù)挖掘在零售業(yè)中有著不可替代的巨大作用,各大超市可以通過(guò)每日營(yíng)業(yè)數(shù)據(jù)調(diào)查出顧客的最大需求,安排貨物擺放位置,從而擴(kuò)大市場(chǎng),妥善維護(hù)客戶關(guān)系管理。也可以通過(guò)數(shù)據(jù)挖掘技術(shù)找出市場(chǎng)上每種商品的一種穩(wěn)定價(jià)格,保證自己的利潤(rùn)點(diǎn),避免無(wú)意義的價(jià)格戰(zhàn)。
總的來(lái)說(shuō),利用數(shù)據(jù)挖掘技術(shù)支持商業(yè)決策是一種基于數(shù)據(jù)分析的科學(xué)的決策方式,在一定程度上可以避免主觀或經(jīng)驗(yàn)決策中一些先天的不足,基于數(shù)據(jù)挖掘技術(shù)的商業(yè)領(lǐng)域的決策支持將會(huì)在實(shí)際應(yīng)用中得到更加廣泛的認(rèn)可。
中心的成功運(yùn)作
在和石勇教授的談話中,他總是把“中心”掛在嘴邊,這個(gè)“中心”指的就是中國(guó)科學(xué)院虛擬經(jīng)濟(jì)與數(shù)據(jù)科學(xué)研究中心,而我們也自然把話題圍繞著“中心”展開(kāi)來(lái)。石勇教授向記者介紹到,中國(guó)科學(xué)院虛擬經(jīng)濟(jì)與數(shù)據(jù)科學(xué)研究中心其實(shí)是由三個(gè)單位合并在一起的。第一個(gè)單位就是中科院研究生院管理學(xué)院院長(zhǎng)成思危先生在五年前發(fā)起成立的虛擬經(jīng)濟(jì)研究中心,主要研究中國(guó)的市場(chǎng)經(jīng)濟(jì)變化等重要的戰(zhàn)略議題和決策;第二個(gè)組成部分是石勇教授在回國(guó)后,應(yīng)中科院的領(lǐng)導(dǎo)要求籌建的數(shù)據(jù)技術(shù)與知識(shí)經(jīng)濟(jì)研究中心;第三個(gè)部分,就是由從日本歸國(guó)的石敏俊教授所主持的區(qū)域經(jīng)濟(jì)研究團(tuán)隊(duì)組成。
在談到中心的研究方向時(shí),石勇教授反復(fù)強(qiáng)調(diào)了中心在研究方面的獨(dú)特性,如由成思危先生獨(dú)創(chuàng)出來(lái)的“虛擬經(jīng)濟(jì)”,不僅已經(jīng)寫(xiě)進(jìn)了黨的十六大報(bào)告,更是成為了中心乃至我國(guó)在此領(lǐng)域區(qū)別于其他國(guó)家研究的重要標(biāo)志。另外,在數(shù)據(jù)挖掘這一專業(yè)上,中心也獨(dú)特地應(yīng)用多目標(biāo)數(shù)學(xué)規(guī)劃來(lái)研究數(shù)據(jù)挖掘技術(shù)。石勇教授說(shuō):“我們中心要堅(jiān)持做自己的東西,用最優(yōu)化來(lái)解決問(wèn)題。最優(yōu)化的概念最簡(jiǎn)單來(lái)說(shuō),就是給你一些備選題,在這些備選題中尋找最佳選擇方案,也就是最優(yōu)解。使用最優(yōu)化的方法最基本的特點(diǎn)就是用數(shù)學(xué)方程和數(shù)學(xué)規(guī)劃來(lái)進(jìn)行數(shù)據(jù)分析。用最優(yōu)化來(lái)解決數(shù)據(jù)問(wèn)題前人已經(jīng)進(jìn)行了很多成功的應(yīng)用,而我們現(xiàn)在就在用我們自己研究的領(lǐng)域,也就是多目標(biāo)數(shù)學(xué)規(guī)劃來(lái)做數(shù)據(jù)挖掘。它也是最優(yōu)化的一種方法?!彼缭诿绹?guó)就創(chuàng)立的以多目標(biāo)線性規(guī)劃為基礎(chǔ)的數(shù)據(jù)挖掘與知識(shí)管理方法和理論已成美國(guó)為信用評(píng)分、保險(xiǎn)精算、銀行信貸和在線股票交易等商業(yè)領(lǐng)域的前沿技術(shù)。
由于這些具有獨(dú)特性的技術(shù),中國(guó)科學(xué)院虛擬經(jīng)濟(jì)與數(shù)據(jù)科學(xué)研究中心為國(guó)家進(jìn)行一些規(guī)模較大項(xiàng)目的研究,比如目前正在積極推動(dòng)為中國(guó)人民銀行建立作為我國(guó)信息化基礎(chǔ)建設(shè)之一的全國(guó)個(gè)人征信評(píng)價(jià)系統(tǒng)。該系統(tǒng)根據(jù)中國(guó)人民銀行5億6千萬(wàn)自然人的信息開(kāi)發(fā),運(yùn)用先進(jìn)的數(shù)據(jù)挖掘和統(tǒng)計(jì)分析技術(shù),對(duì)信貸違約出現(xiàn)的概率進(jìn)行計(jì)算。所依據(jù)的數(shù)據(jù)運(yùn)算軟件是中心自主研發(fā)的Optminer 2.0軟件。該系統(tǒng)在不久的將來(lái)正式服務(wù)全國(guó)13億人口。
另外,與企業(yè)的合作也是中心的重要發(fā)展戰(zhàn)略之一。據(jù)了解,中心自2005 年 4 月開(kāi)始與澳大利亞BHP Billiton 合作研究項(xiàng)目:石油勘探中的數(shù)據(jù)挖掘,并將持續(xù)到2008年4月。雙方合作由澳大利亞 BHP Billiton 提供了約10GB左右的石油勘探海量數(shù)據(jù),由中國(guó)科學(xué)院虛擬經(jīng)濟(jì)與數(shù)據(jù)科學(xué)研究中心通過(guò)開(kāi)發(fā)切實(shí)可行的能應(yīng)用于油氣勘探的數(shù)據(jù)挖掘技術(shù)與軟件,該項(xiàng)目所采用的技術(shù)將主要基于最優(yōu)化的數(shù)據(jù)挖掘技術(shù),以及統(tǒng)計(jì),決策樹(shù),神經(jīng)網(wǎng)絡(luò),模糊邏輯和計(jì)算機(jī)編程技術(shù)。目的是解決石油勘探中的大規(guī)模數(shù)據(jù)處理,分析,整合,進(jìn)而得出準(zhǔn)確的預(yù)測(cè)。在兩年多的合作中,BHPB公司的負(fù)責(zé)人對(duì)中心的工作表示了充分的肯定,并希望將合作持續(xù)下去。