馬 振 剛,李 黎 黎,許 學 工
(1.張家口學院理學系,河北 張家口 075000;2.北京大學城市與環境學院,地表過程分析與模擬教育部重點實驗室,北京 100871)
“大數據時代”的到來為科學研究提供了新的機遇和挑戰。相繼有 Nature[1]、Science[2]等學術期刊介紹了大數據在各個領域研究中的應用;2012年“Next-generation Digital Earth”的發表[3],2013 年國際環境遙感大會專門召開了“大數據與數字地球和未來地球”分會[4],標志著大數據將在地球科學領域發展中扮演重要角色。目前,大數據在地理學中的人文地理學研究較多[5,6],在自然地理研究中鮮有涉及。自然地理學是地理學的主要分支,重點研究地球表面各地理要素的作用機理、空間格局、時空演變和人地關系。數據一直是自然地理學研究的重要基礎,自然地理研究從經驗方法到實證方法再到系統方法[7],對數據的需求也由少變多,由簡單變復雜。大數據的出現為自然地理研究提供了新的平臺,對現有研究模式提出了新的要求,開展自然地理學的大數據研究具有實際意義。
“萬物源于數”,數據推動著自然地理學的創新,如放射性年代測定、數值天氣預報、測定大氣CO2、獲取衛星影像、對地觀測系統等均促成了20世紀地理研究里程碑式的工作[8]。自然地理數據的獲取方式經歷了以人工運營為主的被動式數據采集階段,以對地觀測衛星為主的主動式階段,以自動式為主的感知式系統階段和自發地理信息階段[9,10]。對地觀測、自動感知和自發地理信息的數據生產方式催生了自然地理大數據,其主要包括遙感大數據、地面傳感器數據、自發地理信息、地學成果數據。
從1957年蘇聯發射第一顆人造地球衛星開始到現在的近60年時間里,對地遙感技術的發展達到了空前水平,并積累了海量數據。大中小衛星和無人飛行器相互協同、高中低軌道相結合、多種成像方式并存、波譜域不斷擴大、分辨率“三高”不斷提升,形成了遙感大數據,其具有海量、異構、多源特征[11]。目前中科院遙感與數字地球所具有的對地觀測數據總量超過450 TB,預計到2020年全球遙感衛星數據將達50 PB[12]。
基于無線傳感器網絡技術等構成的地面臺站觀測系統,能夠提供時間連續的精確數據,是自然地理數據的另一個重要來源。“傳感器網絡”通過眾多智能化感應節點完成對較大區域的地物信息獲取,包括溫度、濕度、風速、風向、氣體成分、生態成分等自然地理信息,形成了自動感知大數據。典型應用除傳統的氣象、水文、海洋、環境、地震和生態監測站外,還有精準農業、建筑業、工業等領域,為建設地理學等自然地理分支學科提供了新手段。同時地面臺站觀測系統與對地遙感系統結合,構建了立體觀測系統,尤其以全球氣候觀測系統GCOS、全球海洋觀測系統GOOS、全球陸地觀測系統GTOS為代表[13]。
定位技術從手持羅盤的傳統定位發展到衛星網絡定位和移動終端定位,使定位走向基于移動網絡的位置服務,并在 Web2.0時代催生了自發地理信息大數據。自發地理信息(VGI)由Goodchild在2007年提出[14],指在 Web2.0時代地理信息可由大眾自發創建實現。VGI數據來源多樣,包括GPS終端記錄的興趣點、軌跡、幾何對象等空間圖形信息,智能手機上傳的具有時空位置的圖像、視頻和語音記錄等屬性信息[15]。以眾包的方式基于地理標簽(geotag)對各種數據進行混搭(mashups)形成的Geoweb,促成了自發地理信息大數據的形成。麥肯錫報告(Manyika,et al,2011)指出,“個人位置數據”已成為5個主要大數據流之一,每天約有6 000億個事項被處理,每年全球都會有各種移動設備傳輸大約1 PB的數據。
地理大數據除了原始數據外,還有經過加工處理后的海量累積成果數據,包括地圖數據、遙感解譯數據、實驗數據、研究報告等,如僅第二次國土調查數據即大約150 TB[16]。這些數據經過了預處理、實證研究、計量計算、模型模擬等過程,具有更高的精確性,經過多尺度多模式等聯合挖掘,會產生巨大的價值。另外,地理信息技術融入IT主流系統是當前一個趨勢[13],各種傳統的管理信息系統(MIS),如企業資源規劃、客戶資源管理、供應鏈管理等,嵌入以4S(GPS、GIS、RS、LBS)為代表的地理信息技術,成為新的地理大數據源。
自然地理大數據具有科學大數據的特征,其數據內容一般表征自然客觀對象和過程,獲取手段一般來自觀測和實驗的記錄以及后續加工,分析手段一般是與科學原理模型相結合,數據具有內容的不可重復性、高度不確定性、高維特征和高計算復雜性[12]。所以上述提到的自然地理大數據在應用到研究中,還需要有鑒別篩選的過程,現有的“小數據”一般具有更高的價值,新的大數據源與原有數據結合要體現增值效應而非數據污染。
方法革新一直是自然地理學發展的重要推動力,就如數理統計之于地理實證研究、3S技術之于地理系統研究一樣,大數據為復雜地理研究提供了新的途徑。自然地理研究中的大數據方法具有科學大數據方法的共性和自然地理學方法的特性。大數據方法主要體現在 X-Info和Comp-X兩個環節中[17],即領域信息學和領域計算學。對于自然地理研究,主要是地理信息學和地理計算學,它們是傳接地理數據—地理信息—地理知識的樞紐。目前對地理數據的分析,總體上是依托少量的計算機,利用各自熟悉的軟件和模型進行有限的操作。其結果是在數據獲取、處理和計算上會消耗大量時間和精力,以至于無力思考將新的發現納入到已有的知識體系中,大量有價值的數據被束之高閣,這種“作坊”式的研究方式急需向“產業”化轉變。大數據給地理研究提供了一個新思路,即“不是隨機樣本,而是全體數據”,“不是精確性,而是混雜性”,“不是因果關系,而是相關關系”[18];大數據研究是對海量數據做統計性的搜索、比較、聚類和分類等分析歸納,目的在于找出數據集里隱藏的相互關系網[19],其本質特征在于從模型驅動到數據驅動范式的轉變以及數據密集型科學方法的確立[4]。
讓大數據發揮作用的關鍵支撐是技術體系,GPS、RS、互聯網、物聯網和感知技術支撐著數據的獲取,云存儲、云計算、智能統計分析等支撐著信息的發現,如何更好地治理整合地理大數據,并從中發現空間聯系、挖掘地理知識,需要地理信息科學在系統架構、模型開發、可視化等方面有大的進化甚至變革[20]。GIS是讓大數據在自然地理研究中產生價值的關鍵,需要在基于where定位的基礎上,發現what、who、when的時空格局,進而對how和why進行推理分析。GIS領域專家在這方面做了大量工作,包括地理信息的分布式管理、云存儲;地理信息處理的空間數據挖掘、數據流挖掘、地理云計算等;地理信息表達的多維數據可視化、數據感知等[21]。周成虎認為大數據時代GIS具有自動化處理、規模化存儲、高效化計算、知識化服務的特性,高性能計算、空間知識發現、專業模型嵌入將成為未來GIS特色[22];李德仁等認為遙感解譯應關注語義層的研究,發展遙感大數據云,整合數據、算法、軟件和工作流程,利用云技術使用戶快速獲取服務[23];傅伯杰在2014年中國地理學會報告中指出,大數據時代的地理學分析和可視化方法以及資源環境大數據處理方法和地理知識發現,是中國地理科學未來發展的戰略方向。大數據工程技術紛繁復雜,吉姆·格雷制定的幾條規則有利于對其通俗理解[17],如科學計算日益變得數據密集型,解決方案是一種“橫向擴展”的體系結構,將計算用于數據而非數據用于計算等。在大數據時代,對于假設的檢驗既可以通過定向的數據采集和分析進行,也可以通過對已有數據的組合和挖掘進行。
當然如果承認大數據是個相對概念,那么對于目前眾多的地理研究機構和人員,現有的成熟技術體系仍可用于更高數據級規模的管理和處理,關鍵是是否愿意將研究數據和工具等拿出來開放共享,并基于大數據思維開展工作。科研項目具有金字塔結構,對于國際性項目而言,數據工程技術或許是主要制約因素,但對于大多數一般研究項目,大數據理念是最大掣肘。
大數據的產生使科學研究進入了大數據時代[24],作為地理研究對大數據時代的響應,2012年美國地質調查局制定和發布了《美國地質調查局核心科學體系戰略(2013-2023)》[25],提出了地球科學研究新思維,將臨界帶作為重點研究對象,按生態系統的內在邏輯構建模塊式科學框架,將以學科為主線的組織架構調整為以重大問題為主線,突出數據密集型科學研究新范式與地球研究的結合[26]。這將加快推動自然地理研究向數據密集型范式轉變。
研究范式是研究方法和研究思維的集成,數據密集型研究范式是繼實驗科學、理論科學、計算科學之后的第四范式,這種范式是以數據為中心來思考、設計和實施科學研究[24],采集、存儲、管理、分析和可視化數據的能力成為科學研究必須適應的新常態,它使研究由模型驅動轉向數據驅動。自然地理學研究范式經歷了經驗科學、實證科學和系統科學3個成熟的范式,并向第四種范式轉變[7]。地理學第四種研究范式還處于探索階段,李雙成認為它具有復雜性科學特征,主要表現為對還原論的超越,轉向整體、關聯的復雜性思維方式,而海量數據的累積和新技術新方法的應用為地理研究提供了強有力的支持[27]。自然地理的數據密集型研究范式以研究對象的多尺度、復雜性和綜合性為邏輯基礎,以地學大數據為基礎,以模型為支撐,將模型應用到數據的挖掘中,通過分析數據之間的橫向相關揭示地理事物之間的因果聯系。
地理學發展經歷了綜合—分化—再綜合的過程[13],目前處于再綜合階段。這種綜合是在分支學科深入發展之后的綜合,既有全球環境變化等現實需求的驅動,也有學科自組織作用。系統科學的出現為這次地理學綜合提供了理論支撐和實踐路徑,典型表現是地球系統科學的提出,它將地球各圈層要素作為相互聯系的子系統進行綜合考慮,提升了對復雜、系統的地理現象的理解能力[13],這與綜合自然地理學宗旨相似。大數據的出現將推動自然地理研究達到新的綜合,包括研究內容、研究數據、研究手段、學科之間等多方面綜合。
大數據將推動應用性自然地理學的綜合。新的綜合源于現實的需求,如全球背景下的環境變化、自然災害、水資源問題等。大數據為這些復雜性問題提供了解決方案,弱化基礎學科需要長時間探尋因果關系,強化與問題領域廣泛有關的相關分析。基于科學研究的新型應用將致力于為實際決策提供信息,而不再是以獲取知識為目的的原始性發現和基本數據產出[17]。諸如不必等到理解降水演化模型之后才對城市水設施進行改善;不用理解土地利用變化對環境的作用機制,通過對大數據的相關分析,能夠了解為減輕氣候變化影響而將農地大量改種玉米的行為會對緊缺的水資源造成極大壓力。大數據驅動下的應用學科的發展體現如下特征:基于社會需求驅動而非科學問題驅動,基于決策制定的外部限制條件而非獲取最好知識的時機來確定行動準備,基于結果性而非回歸性(即使不完善但有用)、數據密集性等[17]。自然地理學是地理應用學科的基礎,無論在解決全球尺度、區域尺度還是景觀尺度上的地理環境問題中,都扮演著重要角色,但其發展依賴于數據的獲取和分析手段的發展,大數據作為涵蓋數據、技術、方法的體系,將極大推動自然地理學應用的發展,包括基于工程測量數據的建設地理學及地理設計科學等。
自然地理大數據研究不僅需要三維知識結構的個人[28],也會推動多元結構研究隊伍的形成,這包括專門化的基于平臺整合數據的人、基于模型進行知識挖掘的人、將知識應用于實踐提供政策的人、能夠從數據分析提煉地理規律的人。從研究的工作流程分析,自然地理大數據研究流程包括從數據到信息到知識到應用的3個環節4個內容:由數據到信息屬于數據處理階段,該階段主要是針對數據的各種處理分析并產生有用的信息,工作的主體人員應該是地理信息及IT領域的;由信息到知識是自然地理研究人員主要工作著力點,要通過對已有地理知識的掌握來理解判斷新的信息蘊含的價值,然后根據數據結果分析—科學實驗—實驗結果分析—證偽假設—科學假設的過程進行理論性研究;從知識到應用階段是應用地理人員主要工作環節,除需要較好地理解地理知識外,還需要掌握應用領域知識,如測量、生態修復、景觀設計等工程性技能。當然,不同階段的人員劃分并不是絕對的,需要基于目標有全程性的控制,但就自然地理研究人員而言,其精力不應平均在所有過程中,而是更多地用在將地理信息轉為地理知識上。這種工作流程將地理科學家從常規數據處理的繁瑣中解放出來,使其可以專注于科學發現[26]。
除基于工作流程的縱向維度需要多元化的專業人員外,在不同環節的橫向維度也需要多學科領域學者的參與。世界是統一的有機整體,事物之間具有普遍聯系,這是哲學上的認識。大數據在某種程度上會使這種哲學認識數量化。跨界的數據融合需要進行多學科疊加研究,如地理、地質、生物、環境、水文等,這種研究是數據驅動的。大數據的基本架構是盡可能整合多種數據和集成多種知識挖掘方法,所以機器發現數據之間的關聯具有跨學科性,而對關聯的理解和認識就需要不同學科的學者共同進行研究。自然地理大數據的跨界融合,決定了研究方法的跨學科性和研究人員的跨領域性。
大數據背景下的開放科學趨勢會推動自然地理研究的眾包模式形成。自然地理研究通過眾包的形式進行數據采集、處理、按模塊分發研究任務等。這樣形成了一個新的研究隊伍結構,其組織相對松散,有線上線下、有行里行外、有團體或個人,但其以眾人參與的方式,通過擇優而用使研究性價比提高。如在應急處理和減災領域,已有 Ush-ahidi、In Relief、Sahana和Crisis Commons這些重要的減災軟件,其運轉都是基于自愿公開的地理信息、開放自由的軟件工具、云平臺以及專家和民間學者的合作[10]。大數據推動下的自然地理研究需要一種新的組織結構,它能夠整合自然科學與社會經濟科學,平衡科學與技術,關注系統思考,支持采用靈活和跨學科的方法來解決長期問題,將知識的創造與知識的使用有機結合,對個人與團隊成就能有機協調[17]。
如果說數據驅動是大數據研究的顯著特征,那么數據共享和開放則是大數據得以應用的基礎。解決大數據問題有三大力量,即公眾、社會和強大的地理方法,但一切都取決于開放[10]。自然地理研究對象的時空跨尺度性和實際研究中采樣的區域性、時段性,決定了學科本身對數據共享的內在要求。開放數據的兩個合理標準包括易獲得性和可評估性[10]。已有多個國際項目在促進信息交換和數據共享方面做出了示范,如《南極條約》中關于數據共享的條款、GEOSS十年行動計劃、“百慕大原則”、“柏林宣言”及其他國際性數據共享獲取政策等[17]。政府間地球觀測組織GEO在全球地球綜合觀測系統GEOSS計劃中就若干數據共享戰略性政策達成一致意見[4]:所有框架內的數據、元數據和信息產品都應在相關的國際法律和國家法律政策下進行完全開放的交換;所有共享都應在最短的時間內以最低的成本獲取;鼓勵將所有免費或者不超過復制成本的共享數據、元數據和信息產品用作研究和教育之用。
國家層面上,數據共享與開放存在很多差異。與美國、歐洲等國家和地區不同,我國目前尚沒有國家層面的數據共享或開放數據政策。科學技術部、中國科學院等部門通過工程項目的方式投資建立了以科學數據共享為重要內容的數據庫群和服務平臺,如中國科學院科學數據庫(http://www.csdb.cn/)、國家生態系統觀測研究網絡數據共享網(http://cerndis1.cern.ac.cn/)等。但總體而言,由于缺乏國家層面的政策基礎,我國在公共資助產生的數據共享和獲取方面仍處于較低級水平,被納入有關工程項目中提供開放共享的數據只是公共資助產生的數據中的一小部分,且這些數據的開放不具有可持續性[24]。科學數據共享可使科研結果得到更廣泛的利用和傳播,數據共享機制可促進新研究項目充分利用他人已有的研究成果,避免不必要的重復,使包括經費、人力、儀器設備在內的科研資源得到有效利用。2003年孫樞院士闡述了地球科學中數據共享觀點,并呼吁我國迫切需要在保證國家安全和尊重知識產權條件下的“科學數據完全公開”政策[8]。時至今日,當大數據成為各國發展戰略共識時,形勢的發展或許會倒逼數據開放政策改革的加快進行。
當數據像空氣、水一樣廣泛存在并不斷被生產時,它已成人們沁入其中的一種生活環境,人們通過數據觀察世界、理解世界,并在其引導下做出決策,這些決策可能包括資源分配、空間規劃、應急處置等,如此數據將影響到每個人的現實生活。但人們往往忽略了大數據也存在著空間分布的不均質性,數據在哪產生、由誰產生、如何傳播、怎樣使用等也像自然要素一樣具有空間異質性。熱衷于典型區域的自然地理研究使生成的數據更具有區域性,如建成的黃土高原水土保持數據庫、黑河水土氣生平衡庫、黑河陸面過程實驗數據庫等,數據的區域性分布會加重研究的區域性聚集,并可能導致理論適用的區域性問題。地理是大數據形成、傳播、作用過程的重要影響因素,大數據地理學要研究大數據的區域特征、時空分異規律以及對人類活動的影響。區域間的經濟、文化、信息化差異等均會影響大數據的生態環境,在分析大數據時要考慮大數據與其映射的真實世界的差異,并對在大數據時代可能被統計忽略的數字“貧民”和落后地區給予足夠的關注[29]。特別在我國區域間社會經濟發展極不均衡的情況下,更應該開展大數據地理學研究,探討大數據與地理的相關性,以便讓公眾更好地認知大數據、決策者更好地駕馭大數據。
大數據研究從頂層設計到底層實現的過程中,數據是基礎、技術是承載、分析是手段、應用是目的[30]。就自然地理學的大數據研究而言,遙感、自動感知技術和自發地理信息等為其提供了數據基礎,地理信息科學的發展和變革為其提供了技術支撐,地理學的綜合思維和多學科交叉的研究隊伍為其提供了智力保障,自然地理學在一定程度上具有了將大數據整合到學科體系中的基礎。同時,自然地理學的大數據研究還需要在理論梳理的基礎上,堅持以科學問題和現實應用為導向,加強實證研究,探索有效模式,逐步構建一個成熟的研究體系。
[1] CLIFFORD L.Big data:How do your data grow?[J].Nature,2008,445(4):28-29.
[2] REICHMAN O,JONES M,SCHILDHAUER M.Challenges and opportunities of open data in ecology[J].Science,2011,331(6018):703-705.
[3] GOODCHILD M F,GUO H D,ANNONI A,et al.Next-generation digital earth[J].Proc.Natl.Acad.Sci.USA,2012,109:11088-11094.
[4] 郭華東,王力哲,陳方,等.科學大數據與數字地球[J].科學通報,2014,59(12):1047-1053.
[5] KITCHIN R.Big data and human geography:Opportunities,challenges and risks[J].Dialogues in Human Geography,2013,3(3):262-267.
[6] 甄峰,秦蕭,王波.大數據時代的人文地理研究與應用實踐[J].人文地理,2014(3):1-6.
[7] 李雙成.自然地理學研究范式[M].北京:科學出版社,2013.7-19.
[8] 孫樞.地球數據是地球科學創新的重要源泉——從地球科學談科學數據共享[J].地球科學進展,2003,18(3):334-337.
[9] 孟小峰,慈祥.大數據管理:概念、技術與挑戰[J].計算機研究與發展,2013(1):146-169.
[10] 隋殿志,葉信岳,甘甜.開放式GIS在大數據時代的機遇與障礙[J].地理科學進展,2014,33(6):727-737.
[11] 宋維靜,劉鵬,王力哲,等.遙感大數據的智能處理:現狀與挑戰[J].工程研究,2014,3(6):259-265.
[12] 郭華東.大數據大科學大發現——大數據與科學發現國家研討會綜述[J].中國科學院院刊,2014,29(4):500-506.
[13] 承繼成.地球科學方法探索[M].北京:科學出版社,2014.392-403.
[14] GOODCHILD M F.Citizens as voluntary sensors:spatial data infrastructure in the world of Web2.0[J].International Journal of Spatial Data Infrastructures Research,2007(2):24232.
[15] 李德仁,錢新林.淺論自發地理信息的數據管理[J].武漢大學學報(信息科學版),2010,35(4):379-383.
[16] 李小文.編制大數據時代的大地圖,遙感可先行[J].科技導報,2014,32(18):1.
[17] HEY T,TANSLEY S,TOLLE K.潘教峰,張曉琳,等(譯).第四范式:數據密集型科學發現[M].北京:科學出版社,2012.1-8.
[18] 邁爾·舍恩伯,格肯尼思·庫克耶.盛楊燕,周濤(譯).大數據時代:生活、工作與思維的大變革[M].杭州:浙江人民出版社,2013.26-28.
[19] 李國杰,程學旗.大數據研究:未來科技及經濟社會發展的重大戰略領域——大數據的研究現狀與科學思考[J].中國科學院院刊,2012,27:647–657.
[20] MILLER H J,GOODCHILD M F.Data-driven geography[J/OL].http://link.springer.com/article/10.1007/s10708-014-9602-6/fulltext.html,2014.
[21] 李清泉,李德仁.大數據GIS[J].武漢大學學報(信息科學版),2014,39(6):641-644.
[22] 周成虎.全空間地理信息系統展望[J].地理科學進展,2015,34(2):129-131.
[23] 李德仁,張良培,夏桂松.遙感大數據自動分析與數據挖掘[J].測繪學報,2014,43(12):1211-1216.
[24] CODATA中國全國委員會.大數據時代的科研活動[M].北京:科學出版社,2014.204-205.
[25] BRISTOL S,EULISS N H,NATHANIEL J L,et al.Science strategy for core science systems in the U.S.geological survey,2013-2023[EB/OL].http://pubs.usgs.gov/of/2012/1093/1of2012-1093.pdf.2012-06-04/2014-01-08.
[26] 楊宗喜,唐金榮,周平,等.大數據時代下美國地質調查局的科學新觀[J].地質通報,2013,32(9):1337-1343.
[27] 李雙成.復雜性科學視角下的地理學研究范式轉型[J].地理學報,2010,65(11):1315-1324.
[28] 美國國家科學院研究理事會.劉毅,劉衛東(譯).理解正在變化的星球——地理科學的戰略方向[M].北京:科學出版社,2011.145-148.
[29] GRAHAM M,SHELTON T.Geography and the future of big data,big data and the future of geography[J].Dialogues in Human Geography,2013:3(3)255-261.
[30] 桑尼爾·索雷.匡斌(譯).大數據治理[M].北京:清華大學出版社,2014.3-4.