沈建苗
如今,你經常可以聽到人工智能和機器學習方面的話題。雜志文章和電視廣告紛紛報道這些技術有望帶來變革。不過我們需要注意,人工智能和機器學習對數據存儲有著幾乎永不滿足的要求。它們將耗用龐大的存儲容量,同時要求極高的吞吐量。
國際數據公司(IDC)的最新報告顯示,存儲收入持續上漲,這對于力求提高銷售額的存儲供應商們來說是個好消息。但由于分析引擎與數據存儲庫相競爭,期望以分析引擎渴望的速度獲取信息,存儲行業的產能有可能達到極限。
DataDirect Networks公司的產品營銷高級主管勞拉·謝潑德(Laura Shepard)說:“采用機器學習會很快給底層的數據訪問和管理基礎設施帶來負擔。機器學習的原型和第一代機器學習基礎設施通常建立在現有企業存儲的基礎上,或者搭建基礎設施的團隊決定用白盒服務器,同時結合開源、自主開發和商用的工具和應用軟件來自行搭建。”
因此,即使是最成功的機器學習計劃也經常會遇到規模方面的問題。一般而言,人工智能,可以整合的數據越多,得到的結果就越好。這促使機器學習項目越來越龐大。
出現這種情況后,我們看到第一代基礎設施開始不堪重負,出現規模擴展方面的失敗,比如無法讓用戶以所需的速度來訪問數據,無法擴大所處理的數據量以改進結果,無法在管理起來簡單或經濟高效的存儲環境下擴展數據存儲。謝潑德表示,任何一個這樣的失敗都可能讓整個項目偏離正常軌道,因為如果你無法增加輸入,或無法更進一步增加網絡的深度,也就無法擴展輸出。
機會找上門
但一個人的挑戰是另一個人的機會。隨著人工智能和機器學習日益得到采用,它勢必會吸引越來越多渴望解決許多相關問題的初創公司。
IT Brand Pulse公司的高級分析師弗蘭克·貝里(Frank Berry)說:“管理數據中心基礎設施向來是個主動的過程,我們要走在業務需求的前頭。機器學習有望通過自動化來提升存儲性能、提高可用性服務級別、提高效率(每個存儲單元需要更少的管理員)。”
Zadara Storage公司的營銷副總裁凱文·利布爾(Kevin Liebl)進一步闡述了這個主題。他認為,人工智能會大大提高數據存儲的自我管理性(想想自動駕駛的數據中心,就像自動駕駛的汽車那樣)。
利布爾說:“自動化將大大增加管理員可以管理的服務器數量,從如今同類中最多可管理VMware環境中的大約500臺服務器,增加到將來每個管理員可能管理20000臺服務器,到時候服務器完全由分析技術和自動化服務器管理軟件來監控和管理,這將使存儲和管理更容易、更省時、更高效。”
他補充道:“存儲是自動駕駛的數據中心的核心,因為所有的自動化都需要記錄各種活動,這些活動當然會生成數據。由于云計算、移動技術、物聯網、社交媒體和分析技術大行其道,將來生成的數據只會更龐大。這就是為什么總的數據存儲量會繼續每兩年翻一番。”
利布爾說:“人工智能對存儲行業的最大需求可能就在于需要存儲管理功能,好讓系統得以處理數據洪流。”
人工智能和機器學習的興起很可能會影響存儲行業,就像個人計算機當初重塑企業IT那樣。就像PC從個人生產力應用軟件發展到大規模企業數據庫和自動化項目一樣,人工智能和機器學習可能會從消費類功能演變成推動全球企業發展的全面的數據驅動項目。
Cloudian公司的首席執行官邁克爾·楚(Michael Tso)表示:“在今后的20年內,許多公司會演變成人工智能輔助的組織。到時候,數據將支持合作,機器收集信息,學會幫助人們做出實時決策,以滿足客戶的要求。”
已經有這方面的例子了。亞馬遜等購物網站上的推薦引擎已經在使用這項技術。與之相仿,廣告投放系統會基于網站訪問量,更精準地投放廣告。Cloudian還使用了將廣告與每個司機和汽車相匹配的數字廣告牌。
楚說:“對于存儲行業來說,這意味著許多公司需要保留大量的非結構化數據來‘訓練機器。一旦機器能自我學習,它們將收集并生成新的大量數據,這些數據需要存儲、智能化標記和分析。”
許多專家提到了自動駕駛汽車。值得一提的是,自動駕駛汽車使用大量的傳感器來“讀取”環境,然后與精確的地圖數據進行比較。
最后,再決定如何轉向、剎車和加速。這增加了存儲的復雜性。來自攝像頭和雷達等傳感器的數據以每秒幾十GB的速度進入。所有數據都要經過壓縮和處理。
攝像頭和雷達收集的汽車在路面上的數據與高清(HD)地圖數據進行比較。這是獲得準確車輛位置信息的一個重要部分。這些高清地圖堆疊在包括額外信息(比如車道標記、路緣和標志)的標準地圖數據的上面。所有這些會帶來幾十GB的額外存儲量,再乘以一輛車需要執行的動作數量,以及路上行駛的車輛數量,數據就會大得嚇人。
此外,每輛汽車都要記錄一些駕駛數據,并保存數天或數月,這取決于OEM和監管部門的要求。這很重要,因為即使這些數據上傳到云端,本地拷貝也幾乎肯定要保存起來。
相關的數據量僅僅是個開始,每輛車會生成數據,確保車輛安全、暢通行駛的系統也會生成數據。
各種人工智能和機器學習系統將訪問這些數據,才能將信息變成實用的智能。這意味著存儲系統會不斷演變,以便能夠以所需的速度存儲、移動和處理數據。
StorageIO Group的分析師格雷格·舒爾茨(Greg Schulz)表示:“人工智能還可能導致幾乎感覺不到有什么價值的現有數據擁有隱藏或未知的價值,只不過還沒有被利用起來。”
存儲方面的改進
人工智能不僅僅是一條單行道。不僅存儲需要解決如何能夠存儲更多的數據、更快地處理數據、更快地將數據饋送給分析引擎,存儲與人工智能之間還存在相互影響,即人工智能和機器學習將如何回報、如何改進存儲技術。
舒爾茨說:“存在這種場景,人工智能和其他支持算法的分析技術可以用來幫助管理數據、存儲,以及管理相關的數據基礎設施資源。這意味著不僅僅局限于基本的分析,以及傳統的基于策略的系統或軟件管理。”
他預計,人工智能和分析技術對于額外的CPU處理和內存會有更高的要求,另外還需要將數據轉換為信息的工具。
相關鏈接
人工智能(Artificial Intelligence),是研究、開發用于模擬、延伸和擴展人的智能的理論、方法、技術和應用系統的一門新的技術科學。 人工智能是計算機科學的一個分支,它企圖了解智能的實質,并生產出一種新的能以與人類智能相似的方式做出反應的智能機器。該領域的研究包括機器人、語言識別、圖像識別、自然語言處理和專家系統等。
人工智能是對人的意識、思維的信息過程的模擬。人工智能不是人的智能,但能像人那樣思考,也可能超過人的智能。人工智能是包括十分廣泛的科學,它由不同的領域組成,如機器學習,計算機視覺等。總之,人工智能研究的一個主要目標是使機器能夠勝任一些通常需要人類智能才能完成的復雜工作。但不同的時代、不同的人對這種“復雜工作”的理解是不同的。
IDC預測,到2018年,全球近1/3的行業領導者將被全面執行數字化轉型戰略的競爭對手顛覆。“人工智能+行業”有助于催生新的商業模式。如今,人工智能技術已經在醫療、工業、農業、金融、商業、教育、政府、公共安全等行業初露鋒芒。不同行業在人工智能的接受程度上存在差異。金融、零售、醫療和智慧城市這4個領域的人工智能技術的應用更為成熟。
IDC認為,未來兩年,人工智能的發展將呈現以下三大趨勢:人工智能產業分工日趨細化;越來越多的開源平臺的出現將助力人工智能技術的發展;無論是高科技產品還是傳統產品,都將嵌入人工智能技術。
人類正開始全面邁入人工智能時代,在不久的將來,我們將看到整個社會和經濟水平由于人工智能的推動而發生巨大的變化。人工智能在帶來變革的同時,自身也在快速演變。