王 賀 元
(沈陽師范大學 數學與系統科學學院, 沈陽 110034)
隨著新技術和新應用帶動數據爆發式的增長,大數據正逐步走進人們的生產生活,大數據在政務、工業、電力、金融、交通、醫療等諸多與人類生活息息相關的領域都發揮著無比重要的作用,大數據技術對全球社會、經濟、工業等各個方面都產生了重大的影響,因而對傳統的數學建模帶來了革命性改變。 這種基于大數據分析的探究方式彌補了過去單純依賴模型和假設解決問題方法論的不足,形成了一種新的科學研究范式。本文從數學建模在科技進步的重要作用談起,分析了大數據時代數學建模的特點和變化趨勢。
所謂“原型”是指人們在生產實踐和社會活動中所遇到的實際對象,我們也把這些客觀存在的事物及其運動形態統稱之為“實體”。在科技領域常常用系統或過程等術語,如機械系統、電力系統、生態系統、化學反應過程等[1]。“模型”是人們為一定的目的對原型進行的抽象和刻畫,是原型的替代物,只反映原型的某些方面的信息。所謂數學模型就是用數學語言和符號對原型某一方面特征的簡要描述,只有把原型表述成模型,才能用數學知識和方法來表達和解決實際問題,數學建模是把生產生活中的實際問題抽象和提煉成一個數學問題,用數學的工具,包括計算機、信息查詢等手段來求解,并將結果經解釋后用于解決實際問題,指導生產生活的過程。它是聯系數學與實際問題的紐帶和橋梁。
歷史上任何重大科技創新都伴隨有新的數學模型的的誕生,從牛頓的萬有引力定律到愛因斯坦的廣義相對論都是人類歷史上數學建模的輝煌的典范,小到微觀粒子大到天體運行,數學模型無處不在,無時不有,下面舉幾個例子:
例1 拉船靠岸問題

圖1 拉船靠岸Fig.1 Pull the boat ashore
如圖1所示,在離水面高度為h(m)的岸上,有人用繩子拉船靠岸。假定繩長為l(m),船位于離岸壁s(m)處,試問:當繩速度為v0(m/s)時,船的速度、加速度各是多少?
解:首先建立這個問題的數學模型,l,h,s三者構成直角三角形,由勾股定理得
l2=h2+s2
(1)
1) 兩端對時間求導得
由此得

(2)

(3)
利用式(1)式消去l得

(4)
式(4)中h,v0均為常數,只有s是變量。按加速度定義
將式(4)代入上式得

(5)
這里的負號表明加速度的方向與s軸正向相反。事實上,船速v、收繩速度v0的方向也與s軸正向相反。
由式(4)與式(5)可知,船速與船的加速度均與船的位置有關,它們是變化的,當船靠近岸時,船速與船的加速度都不斷增大。相信大家都有這樣的體會,當您在公園劃船需要交船時,服務員用鉤子把船勾住往岸邊拉時,服務員用的“勁”(即收繩速度)一樣,您卻感到船速越來越快。這樣我們通過建立數學模型(1)圓滿回答了拉船靠岸問題。
例2 天氣預報中的數學模型
數值天氣預報是指根據大氣實際情況,在一定的初值和邊值條件下,通過大型計算機作數值計算,求解描寫天氣演變過程的流體力學和熱力學的方程組,預測未來一定時段的大氣運動狀態和天氣現象的方法。數值預報工作是氣象工作現代化的一個重要組成部分,是衡量一個國家天氣預報發展水平的一個重要標志。從數學上看,上述求解過程要解決一個初值問題,要通過求解方程組獲得未來大氣運動狀態的準確數據,就需要有一定密度的地面、高空氣象觀測網來提供大氣實時的氣象要素數據作為方程組的初始輸入值,而求解大氣方程組的計算量巨大,必須依賴于高性能計算機。這里僅通過區域小氣候預報問題得出的經典數學模型做簡單介紹。
美國麻省理工學院的氣象學家洛倫茨(E.Lorenz)在研究區域小氣候問題時提出了如下Lorenz模型[2]:

(6)

圖2 柏納德對流Fig.2 Bernard convection

圖3 洛倫茨吸引子Fig.3 Lorenz attractor
洛倫茨是把區域小氣候問題適當簡化為瑞利-柏納德對流問題來考慮的,受日光加熱的地表和同溫層構成溫度分別為T1和T2的平行板(如圖2所示),空氣在這兩塊平行板之間進行對流和熱傳導,這樣的一個小氣候系統要用一組偏微分方程描述。此系統有一平衡態:流體(空氣,在小型試驗中是某些液體)靜止,熱量靠熱傳導由下層傳到上層。瑞利研究了此平衡態的線性穩定性。他發現,當ΔT=T1-T2超過某一臨界值ΔTc時,此平衡態不穩定,并開始出現環形對流(如圖2所示)。當ΔT與ΔTc差別不大時,這種環形流還是穩定的。但當ΔT較大時,此環形流就不穩定了,流體的流動變的不規則。為了進一步求解描述上述系統方程的解,通常的方法是將解寫成傅立葉級數形式。這樣,原偏微分方程可化為一系列關于傅立葉系數的一階常微分方程組。求其近似解(所謂的Galerkin approximation)是只截取級數的有限項。這樣原偏微分方程組便化為常微分方程組。洛倫茨截取傅立葉級數的前三項,得到了上述著名的Lorenz方程組(6)。式中x表示對流運動的振幅(流速,對于環流,x>0表示順時針方向,x<0表示逆時針方向)y表示對流時上升與下降流體的水平方向溫差,z表示對流引起的垂直方向溫差對線性情形(無對流的平衡態)的偏離,σ是普朗特(Prandtl)數,r是雷諾數,b是與容器(小氣候范圍)大小形狀有關的量,其中σ,r,b均為正數。當時洛倫茨利用計算機求解此方程,當σ=10,b=8/3時,改變參數r:若r<1,其解的性質趨于無對流時的穩態,隨著r的增大(增加上下板的溫差),其解為周期性對流(如圖2所示),如果進一步增加上下板的溫差,那么周期性對流將會失穩而進入混沌運動狀態,其解軌線看起來很混亂,如圖3所示。這就是在耗散系統中,一個確定的方程卻能導出混沌解的第一個實例,從而得出天氣預報中長期預報的不準確性,就是所謂的“蝴蝶效應”。
從上面2個例子可以看出,原型(實體)是復雜和難以把握的,只有把它抽象成數學模型,人們才可以表述和解答相應的原始問題。我們人類所居住的自然界,從基本粒子到太陽,從河川到高山,數不盡的草木鳥獸,真是千奇百怪,千變萬化,我們把這些客觀存在的事物及其運動形態統稱之為“實體”或“原型”。科學的任務在于去認識實體,描述實體,變革實體,為人類自身謀利益。如何才能達到科學認識的目的呢?著名數學家華羅庚教授曾指出:“在定量研究客觀事物時,科學工作的責任首先是建立模型以抽象實體的主要特征,其次是逐步改進模型使其愈來愈準確地描述實體。”數學模型,就是對實體的特征和變化規律的一種定量的抽象,而且是對那些所要研究的特定的特征的定量抽象。 然而,數學模型不是實體本身,不可能描述實體的一切特征和運動規律。它的作用不在于也不可能表達實體的一切特征,而在于表達它的主要特征,特別是表達我們最需要知道的那些特征。從這個意義上講,數學模型有利于我們對實際問題的研究,因為它在我們所研究的主體范圍內能更普遍、更集中、更深刻地描述實體的特征和規律。
數學建模可以幫助我們認識自然,改造自然,洞察和探索人類未知的大自然奧秘,縱觀歷史,歷次重大科技進步都伴隨著新的數學模型的誕生,麥克斯韋方程組作為電磁場問題完美的數學模型,給人類的生產生活帶來了革命性變化[3]。19世紀中期,對電磁學研究取得了很大的發展,但理論體系并不完善。麥克斯韋分析了當時的電磁學理論結果后,用兩個基本假設將電磁學理論統一起來。這兩個基本假設就是:渦旋電場和位移電流假設,其基本思想是認為變化的磁場會產生電場,變化的電場也會產生磁場。用嚴格的數學語言建立了經典電磁場理論體系,并預言了電磁波的存在。麥克斯韋偉大的創造性思考恰恰是數學建模思想方法最完美的體現,麥克斯韋電磁場理論將電學、磁學、光學統一起來,使人類對宏觀世界的認識達到一個新的高度。電磁場理論的建立是物理學發展史上一個重要的里程碑,是19世紀物理學發展的最光輝的成果。
當今經濟社會發展與信息技術革命的交融催生了大數據,大數據與人類生產生活息息相關,在政務、金融、工業、交通、醫療等諸多領域都發揮著無比重要的作用,在大數據智能化時代,大數據技術必將對全球經濟、社會、工業等各個領域產生重大的影響。數據化和信息化是當今世界經濟和社會發展的大趨勢,科學技術的重心正由物質和能量向數據和信息轉化,而數據和信息要真正發揮戰略資源的作用,就必須對它進行分析、提煉,從中挖掘出對社會、對人類、對企業有價值的因素。運用計算數學、統計分析、數據挖掘等手段對數據信息進行傳輸、加工、分析和處理進而獲得數據的內在機理的過程就是數據建模的過程。分析和處理大數據并不像處理一般數據那么簡單,大數據時代面臨的挑戰就是傳統的數據分析和處理方法不再適用,隨著數據積累和計算能力的提升,利用機器學習從數據中抽取特征,建立模型,從大數據中直接獲取知識成為可能。這種基于大數據分析的數據建模方法可以彌補單純依賴模型和假設的傳統建模方法的不足。一種融合統計、計算、信息與數學的數據科學正在形成,對大數據的解讀將深刻影響和改變各門學科。綜上所述,大數據時代的到來給數學建模帶來了新的挑戰, 利用數據建立數學模型是順應數據時代潮流的必然選擇。
能夠反映原型本質特征的恰當的數學模型無疑是至關重要的,然而工程實踐中很多實際問題卻很難給出精確的數學模型,例如眾多的反問題求解中幾乎不可能獲取準確的數學模型,對于這類問題的處理是極具挑戰性的。目前人們已摸索出正則化、奇異值分解等方法,但實際效果依問題的復雜程度都有一定的局限性,探索處理這類問題行之有效的方法已成當務之急。這類問題在粗略的模型之外, 存在著大量的范例,比如, 給定一個線性觀測算子A之后,(Ax,x)對任意x就構成無窮多的范例, 這些范例構成了可以用機器學習原理學習模型族中參數的樣本。 基于這些范例樣本, 將傳統的模型求解方法與深度學習技術結合[4,10],可以彌補模型不精確的不足。 利用機器學習的強大學習能力來解決傳統模型方法精確性和模型選擇難的困難,利用模型方法解決機器學習網絡拓撲和假設空間確定的困難,從而獲得這類問題的高精度解。這種將范例學習與模型求解相結合的求解思路有如下明顯優點:1)與純粹的模型求解方法相比, 由于允許在模型族中基于范例尋優, 不但可容忍建模與反演中的不確定性, 而且能得出高質量的反演結果。2)與純粹的范例學習(如深度學習)相比, 由于其拓撲結構由實際問題的模型和基于模型的反演方法唯一確定, 回避了機器學習方法中選擇網絡拓撲的難題[10,17]。
一個好的數學模型必須反映原型的本質特征,并且能對實際問題做出分析、解釋和預測。數據對實際問題具有描述性, 但這只是局部描述,除非給出的數據能遍歷每一種情況,而數學模型對實際問題具有全局性描述。通過數據建模雖然可以給出一些預測結果,但光看數據往往只知道數據的變化趨勢,并不知道為什么這么變,數學模型能解釋數據的走向。針對實際問題,建模是將其抽象到純數學層面以尋求普適的解決方法和結論,數據可以驗證建模的結論,輔助模型的求解,比如,有些固定參數需要通過具體的實驗或者觀測數據才能確定。當然,只有用在好的模型上,數據才有意義。因此, 數據和模型是相輔相成的,通過機器學習進行數據建模與基于人工的建模方法相結合是未來數學建模的發展方向。
致謝:感謝沈陽師范大學教改項目的支持(JG2018-SZ02)。