數(shù)據(jù)學和數(shù)據(jù)科學
數(shù)據(jù)學(Dataology)和數(shù)據(jù)科學(Data Science)是關(guān)于數(shù)據(jù)的科學或者研究數(shù)據(jù)的科學,定義為:研究探索Cyberspace中數(shù)據(jù)界(data nature)奧秘的理論、方法和技術(shù),研究的對象是數(shù)據(jù)界中的數(shù)據(jù),研究認識數(shù)據(jù)的各種類型、狀態(tài)、屬性及變化形式和變化規(guī)律,其目的在于揭示自然界和人類行為的現(xiàn)象和規(guī)律。數(shù)據(jù)記錄了宇宙和生命現(xiàn)象,記錄了人文和社會。尋找數(shù)據(jù)所含的規(guī)律,就是探索宇宙的規(guī)律,就是探索生物的規(guī)律,就是尋找人類行為的規(guī)律,就是尋找社會發(fā)展的規(guī)律,這是數(shù)據(jù)學的目的所在。與自然科學和社會科學不同,數(shù)據(jù)學和數(shù)據(jù)科學的研究對象是Cyberspace的數(shù)據(jù),是新的科學。數(shù)據(jù)學和數(shù)據(jù)科學主要有兩個內(nèi)涵:一個是研究數(shù)據(jù)本身,研究數(shù)據(jù)的各種類型、狀態(tài)、屬性及變化形式和變化規(guī)律;另一個是為自然科學和社會科學研究提供一種新的方法,稱為科學研究的數(shù)據(jù)方法,其目的在于揭示自然界和人類行為現(xiàn)象和規(guī)律。
信息化是將現(xiàn)實世界中的事物和現(xiàn)象以數(shù)據(jù)的形式存儲到CYBER空間中,是一個生產(chǎn)數(shù)據(jù)的過程。這些數(shù)據(jù)是自然和生命的一種表示形式,這些數(shù)據(jù)還記錄了人類的行為,包括工作、生活和社會發(fā)展。今天,數(shù)據(jù)被快速大量地生產(chǎn)并存儲在CYBER空間中,這種現(xiàn)象稱為數(shù)據(jù)爆炸(data explosion),數(shù)據(jù)爆炸在CYBER空間中形成數(shù)據(jù)自然界(data nature)。數(shù)據(jù)是CYBER空間中的唯一存在,需要研究和探索CYBER空間中數(shù)據(jù)的規(guī)律和現(xiàn)象。另外,探索CYBER空間中數(shù)據(jù)的規(guī)律和現(xiàn)象,就是探索宇宙的規(guī)律、探索生命的規(guī)律、尋找人類行為的規(guī)律、尋找社會發(fā)展的規(guī)律的一種重要手段,例如:可以通過研究數(shù)據(jù)來研究生命(生物信息學)、研究人類行為(行為信息學)。
數(shù)據(jù)學已經(jīng)有一些方法和技術(shù),例如:數(shù)據(jù)獲取、數(shù)據(jù)存儲與管理、數(shù)據(jù)安全、數(shù)據(jù)分析、可視化等;還需要有基礎(chǔ)理論和新技術(shù),例如:數(shù)據(jù)存在性、數(shù)據(jù)測度、時間、數(shù)據(jù)代數(shù)、數(shù)據(jù)相似性與簇論、數(shù)據(jù)分類與數(shù)據(jù)百科全書、數(shù)據(jù)偽裝與識別、數(shù)據(jù)實驗、數(shù)據(jù)感知等等。數(shù)據(jù)學的理論和方法將改進現(xiàn)有的科學研究方法,形成新型的科學研究方法,并且針對各個研究領(lǐng)域開發(fā)出專門的理論、技術(shù)和方法,從而形成專門領(lǐng)域的數(shù)據(jù)學,例如:行為數(shù)據(jù)學、生命數(shù)據(jù)學、腦數(shù)據(jù)學、氣象數(shù)據(jù)學、金融數(shù)據(jù)學、地理數(shù)據(jù)學,等等。
數(shù)據(jù)科學在20世紀60年代已被提出,只是當時并未獲得學術(shù)界的注意和認可,1974年彼得.諾爾出版了《計算機方法的簡明調(diào)查》中將數(shù)據(jù)科學定義為:“處理數(shù)據(jù)的科學,一旦數(shù)據(jù)與其代表事物的關(guān)系被建立起來,將為其他領(lǐng)域與科學提供借鑒”。1996年在日本召開的“數(shù)據(jù)科學、分類和相關(guān)方法”,已經(jīng)將數(shù)據(jù)科學作為會議的主題詞。2001年美國統(tǒng)計學教授威廉.s.克利夫蘭發(fā)表了《數(shù)據(jù)科學:拓展統(tǒng)計學的技術(shù)領(lǐng)域的行動計劃》,因此有人認為是克利夫蘭首次將數(shù)據(jù)科學作為一個單獨的學科,并把數(shù)據(jù)科學定義為統(tǒng)計學領(lǐng)域擴展到以數(shù)據(jù)作為現(xiàn)金計算對象相結(jié)合的部分,奠定了數(shù)據(jù)科學的理論基礎(chǔ)。
(一)基礎(chǔ)理論研究。科學的基礎(chǔ)是觀察和邏輯推理,同樣要研究數(shù)據(jù)自然界中觀察方法,要研究數(shù)據(jù)推理的理論和方法,包括:數(shù)據(jù)的存在性、數(shù)據(jù)測度、時間、數(shù)據(jù)代數(shù)、數(shù)據(jù)相似性與簇論、數(shù)據(jù)分類與數(shù)據(jù)百科全書等。
(二)實驗和邏輯推理方法研究。需要建立數(shù)據(jù)科學的實驗方法,需要建立許多科學假說和理論體系,并通過這些實驗方法和理論體系開展數(shù)據(jù)自然界的探索研究,從而認識數(shù)據(jù)的各種類型、狀態(tài)、屬性及變化形式和變化規(guī)律,揭示自然界和人類行為現(xiàn)象和規(guī)律。
(三)領(lǐng)域數(shù)據(jù)學研究。將數(shù)據(jù)學的理論和方法應用于許多領(lǐng)域,從而形成專門領(lǐng)域的數(shù)據(jù)學,例如:腦數(shù)據(jù)學、行為數(shù)據(jù)學、生物數(shù)據(jù)學、氣象數(shù)據(jù)學、金融數(shù)據(jù)學、地理數(shù)據(jù)學等等。
(四)數(shù)據(jù)資源的開發(fā)利用方法和技術(shù)研究。數(shù)據(jù)資源是重要的現(xiàn)代戰(zhàn)略資源,其重要程度將越來越凸顯,在本世紀有可能超過石油、煤炭、礦產(chǎn),成為最重要的人類資源之一。這是因為人類的社會、政治和經(jīng)濟都將依賴于數(shù)據(jù)資源,而石油、煤炭、礦產(chǎn)等資源的勘探、開采、運輸、加工、產(chǎn)品銷售等等無一不是依賴數(shù)據(jù)資源的,離開了數(shù)據(jù)資源,這些工作都將無法開展。
數(shù)據(jù)是存在于CYBER空間中的東西;信息是自然界、人類社會及人類思維活動中存在和發(fā)生的現(xiàn)象;知識是人們在實踐中所獲得的認識和經(jīng)驗。數(shù)據(jù)可以作為信息和知識的符號表示或載體,但數(shù)據(jù)本身并不是信息或知識。數(shù)據(jù)學的研究的對象是數(shù)據(jù),而不是信息,也不是知識。通過研究數(shù)據(jù)來獲取對自然、生命和行為的認識,進而獲得信息和知識。數(shù)據(jù)學的研究對象、研究目的和研究方法等等都與已有的計算機科學、信息科學和知識科學有著本質(zhì)的不同。
自然科學研究自然現(xiàn)象和規(guī)律,認識的對象是整個自然界,即自然界物質(zhì)的各種類型、狀態(tài)、屬性及運動形式。行為科學是研究自然和社會環(huán)境中人的行為以及低級動物行為的科學,已經(jīng)確認的學科包括心理學、社會學、社會人類學和其他類似的學科。數(shù)據(jù)學支持了自然科學和行為科學的研究工作。隨著數(shù)據(jù)學的進展,越來越多的科學研究工作將會直接針對數(shù)據(jù)進行,這將使人類認識數(shù)據(jù),從而認識自然和行為。
人類探索現(xiàn)實自然界,用計算機處理人類的發(fā)現(xiàn)、人類的社會、自然與人,在這個過程中,數(shù)據(jù)已經(jīng)巨量產(chǎn)生,并正在經(jīng)歷大爆炸,人類在不知不覺中創(chuàng)造了一個更復雜的數(shù)據(jù)自然界。自第二次數(shù)據(jù)爆炸以來,人們生活在現(xiàn)實自然界和數(shù)據(jù)自然界兩個世界里,人、社會和宇宙的歷史將變?yōu)閿?shù)據(jù)的歷史。人類可以通過探索數(shù)據(jù)自然界來探索自然界,人類還需要探索數(shù)據(jù)自然界特有的現(xiàn)象和規(guī)律,這是賦予數(shù)據(jù)學的任務。可以期望,目前的所有的科學研究領(lǐng)域都可能形成相應的數(shù)據(jù)學。