□鄭茹楠 王亮(新鄉(xiāng)水文水資源勘測局)
深度學習在水文工作中的應用探討
□鄭茹楠 王亮(新鄉(xiāng)水文水資源勘測局)
深度學習作為人工智能的主要分支,是一種利用大數(shù)據(jù)進行訓練,不斷地通過正反饋來優(yōu)化結果的方法。隨著互聯(lián)網(wǎng)和物聯(lián)網(wǎng)的發(fā)展,大數(shù)據(jù)以及數(shù)據(jù)挖掘技術已經(jīng)成為了新的經(jīng)濟增長點。可以說,數(shù)據(jù)就是未來的石油,而深度學習等方法就是開采石油的工具。水文工作每年都會采集到大量的數(shù)據(jù),能否更好的利用這些數(shù)據(jù),使水文工作更加高效,為社會產(chǎn)生更多的價值,文章從應用層面做出了一些探討。
人工智能;水文信息化;水文預報;水文資料整編
隨著國務院下發(fā)《新一代人工智能發(fā)展規(guī)劃》,人工智能正式上升為國家戰(zhàn)略。在這個數(shù)據(jù)時代的大浪潮里,數(shù)據(jù)成了衡量一個組織財富的標準,但只有數(shù)據(jù)還是沒法發(fā)揮它應有的價值,只有通過數(shù)據(jù)挖掘,才能變數(shù)據(jù)為黃金。
深度學習和機器學習類似,是一種基于概率論不斷遞歸,從而尋找最優(yōu)解的分析方法,它在搜索技術、數(shù)據(jù)挖掘、機器翻譯、自然語言處理、人臉識別、語音、推薦和自動駕駛,以及其它相關領域都取得了很多成果。由于算法和計算能力的突破,以及數(shù)據(jù)量的暴增,深度學習已經(jīng)成為了人工智能領域最主要的實現(xiàn)方法,這里的數(shù)據(jù)不僅僅只是數(shù)字,還包括圖像和聲音等。
水文站網(wǎng)近年來通過開展水位、雨量、墑情等自動監(jiān)測,安裝了大量的儀器,加上歷史記錄的資料,已經(jīng)產(chǎn)生了海量的數(shù)據(jù)庫。通過分析處理這些數(shù)據(jù),可以為水文信息化和社會經(jīng)濟發(fā)展提供強有力的技術支撐,凸顯“大水文”的發(fā)展理念,取得社會效益和經(jīng)濟效益。
水文系統(tǒng)下屬有水文站和委托觀測雨量站,這些委托站數(shù)量眾多,而且有些地處偏僻,無法經(jīng)常去檢查。自記雨量器需要按時清洗和維護,如果承水口堵塞或沒有清洗干凈,會造成雨量數(shù)據(jù)不能準確傳遞的問題。
采用深度學習的方法,可以安排當?shù)赜^測人員,按時用手機對雨量器進行拍照,包括承水口、集水斗、濾網(wǎng),以及雨量器外觀等。通過安裝GPS拍照軟件,照片會帶有拍照時的經(jīng)緯度和時間信息,之后把圖片發(fā)給服務器。在終端對圖片進行處理,對那些沒有清洗干凈的圖片做出標記。經(jīng)過算法對這些大量帶有標記圖片的學習,可以訓練出一個模型,使用該模型可以自動準確區(qū)分出那些沒清洗干凈的雨量器圖片,并通過經(jīng)緯度顯示站點信息。
在水文資料整編工作中,要把大量手寫的數(shù)據(jù)錄入電腦,包括降雨量、水位等。這樣重復性的工作可以通過拍照或手持式掃描儀來將這些手寫數(shù)據(jù)變成圖片,然后經(jīng)過深度學習的方法,識別出這些圖片并生成數(shù)據(jù)輸入電腦。這樣整編人員就可以在此基礎上提高效率,只需要校對這些數(shù)據(jù)即可。
水文工作大多使用網(wǎng)格圖紙記錄水文曲線。然而紙質(zhì)材料由于保存不當?shù)仍驎斐蓳p壞、污染等問題,容易對所承載的信息造成損失,且紙質(zhì)材料不易于信息的交換和傳遞,更可能埋沒了海量信息中可能隱藏的、有待發(fā)掘的知識。因此有必要對這些紙質(zhì)資料進行數(shù)字化。利用圖像處理的方式將這些信息采集并建立數(shù)據(jù)庫,將避免大量的手工重復勞動,也能高效精準的對這些信息進行錄入。
水文預報是防汛工作的前提,也是水庫調(diào)度興利的重要手段,相關的模型方法有很多,反映了水文學的一些規(guī)律,但由于人類對流域水文氣象規(guī)律認識有限,自然界規(guī)律又復雜變化,所以難以全面反映客觀規(guī)律。
深度學習方法經(jīng)過這些年的發(fā)展,從簡單的線性網(wǎng)絡到CNN,再到RNN和現(xiàn)在的GAN,經(jīng)過了幾次迭代。目前在水文預報領域,存在著隨機森林、聚類、貝葉斯分析、SVM等機器學習方法,這些方法從挖掘歷史水文數(shù)據(jù)入手,建立水文模型,從而提高預報的準確度。
然而傳統(tǒng)機器學習的方法,在數(shù)據(jù)量較小時比較有效果,但當遇到海量數(shù)據(jù),該方法就會進入一個平臺,再怎么優(yōu)化也提高不了。深度學習就是針對這種情況,只要建立合適的模型,數(shù)據(jù)量越大它的結果越好。當歷史數(shù)據(jù)豐富的時候,就可以將數(shù)據(jù)之間的物理關系用統(tǒng)計關系表達出來,不需要物理模型那么多嚴格的分布參數(shù)來描述流域的下墊面情況。
水文預報可以看作是動態(tài)物質(zhì)在固態(tài)路線上流動的問題,同樣的例子還有交通疏導、電網(wǎng)的改善等等,都可以運用這種基于馬爾科夫鏈的解決方法。杭州開展的智慧城市工程,就是通過讓攝像頭和紅綠燈連接起來,收集實時的數(shù)據(jù),用機器智能算出哪里會堵車,哪里有救護車幾點幾分要到下一個路口,能夠自動分配紅綠燈的變化,改善交通擁堵,以及增加挽救生命概率。
但這種方法進行水文預報也有一些不足,當歷史數(shù)據(jù)不足或流域狀況改變導致歷史數(shù)據(jù)的模擬意義下降時,就會減少它的適用性。
水質(zhì)指標是是用于評價一般淡水水域特征的重要參數(shù)。可以根據(jù)這些參數(shù)對水質(zhì)的類型進行分類,對水體質(zhì)量進行判斷和綜合評價。傳統(tǒng)的現(xiàn)場取樣,需要耗費人力物力,還要使用化學滴定等方法獲取數(shù)據(jù),存在速度慢、容易混淆水樣的麻煩。
水質(zhì)在線自動監(jiān)測系統(tǒng)是一個以在線分析儀表為服務目標,以提供具有代表性、及時性和可靠性的樣品信息為核心任務,運用自動控制技術、計算機技術并配以專業(yè)軟件,組成一個從取樣、預處理、分析到數(shù)據(jù)處理及存貯的完整系統(tǒng),從而實現(xiàn)對樣品的在線自動監(jiān)測。可以監(jiān)測水溫、溶解氧、PH值、濁度等,并可傳回現(xiàn)場圖像。這些實時性數(shù)據(jù)經(jīng)過算法的訓練,能夠自動鑒別出水質(zhì)情況并做出分類。
NLP自然語言處理是一門研究如何讓機器理解人類語言、寫出人類文字的學科。基于遞歸神經(jīng)網(wǎng)絡的NLP模型,只需要喂給它大量的文字段落,它就會用遞歸神經(jīng)網(wǎng)絡分析段落,尋找出字與字之間的關系。
目前深度學習的方法對于文學類文章還沒法做到很好的生成,但對于固定格式的內(nèi)容,可以做到自動生成。今天美國很多媒體的財經(jīng)新聞,尤其是對公司財報的評述,其實已經(jīng)是計算機產(chǎn)生的了。計算機根據(jù)很多過去已有的文章,訓練出相關的模板,然后每次從最新的信息中讀取數(shù)據(jù),合成一篇文章。當然,這樣合成的文章讀起來未免生硬,在發(fā)表前還是要經(jīng)過潤色處理。
水資源公報每年都要做,而且內(nèi)容格式大體變化不大,那么利用每年收集到的水文數(shù)據(jù)就可以自動生成水資源公報等內(nèi)容。
數(shù)據(jù)要利用就要保證數(shù)據(jù)的共享,和數(shù)據(jù)格式的統(tǒng)一,不同部門的數(shù)據(jù)通過共享,能夠產(chǎn)生1+1>2的作用,這就是數(shù)據(jù)的平臺化。這方面可以舉個例子,比如共享單車,通過跟蹤它們的運動軌跡,能夠得出從某個小區(qū)到某個地點騎車的人多的數(shù)據(jù),這些數(shù)據(jù)不單單可以用來改進單車的運營,還可以讓公交公司拿去改進他們的路線。
機器智能和傳統(tǒng)的編程方法有著根本性的不同。過去的方法是通過原理找方法,從而得到結果,這是因果關系。但深度學習是先給出一個結果,然后從結果出發(fā)去找方法,這是相關性,新的方法產(chǎn)生新的思維方式。影響世界的變量太多以至于無法用數(shù)學模型來描述,機械論已經(jīng)無法對未來進行預測。用不確定的眼光看世界,再用信息來消除這種不確定性,是大數(shù)據(jù)解決智能問題的本質(zhì)。
香農(nóng)的“信息熵”將世界的不確定性和信息聯(lián)系在了一起。這個建立在不確定性上的理論,正是今天人類研究大數(shù)據(jù)和機器智能的基石。
人工智能是新一代技術革命的焦點,它并不是用機器來取代人,而是用機器來輔助人,去做人做不到的事情。從歷史上看,每一輪科技革命和產(chǎn)業(yè)變革都會引起國家間、企業(yè)間綜合實力的此消彼長,找準發(fā)力點,才能下好先手棋。
近年來,歐美等國家的學者將傳統(tǒng)水文學和人工智能相結合,誕生了一門新的學科—水信息學。隨著科技的進步,數(shù)據(jù)量的增長、智能算法的發(fā)展和水文學科的進一步完善,深度學習等數(shù)據(jù)挖掘技術會更多地應用于水文領域。
[1]張弛.數(shù)據(jù)挖掘技術在水文預報與水庫調(diào)度中的應用研究[D].大連:大連理工大學,2006(3).
P338+.9
A
1673-8853(2017)11-0029-02
2017-9-28
編輯:劉青