王 龍
(中國移動(dòng)信息技術(shù)中心,北京 100032)
隨著科學(xué)技術(shù)的飛速發(fā)展,以云計(jì)算、大數(shù)據(jù)、物聯(lián)網(wǎng)為代表的先進(jìn)信息技術(shù)不斷涌現(xiàn)。諸多網(wǎng)絡(luò)資源為大數(shù)據(jù)技術(shù)的廣泛使用和發(fā)展奠定了重要基礎(chǔ),而物聯(lián)網(wǎng)信息技術(shù)的出現(xiàn)使得有效獲得和分析用戶數(shù)據(jù)信息成為可能。人工智能技術(shù)的發(fā)展過程中涉及心理學(xué)和信息科學(xué)等多個(gè)學(xué)科。通過集成網(wǎng)絡(luò)資源和物聯(lián)網(wǎng)信息技術(shù)等,分析與研究人們的行為變化。在大數(shù)據(jù)技術(shù)的支撐下,需通過轉(zhuǎn)換大數(shù)據(jù)提升人工智能的發(fā)展水平。
人工智能技術(shù)是一門新興的技術(shù),旨在對(duì)人的智能進(jìn)行仿真和拓展,涉及各種理論、方案、技術(shù)以及應(yīng)用系統(tǒng),可以分析人的思維、行為和動(dòng)作,并進(jìn)行分類和推薦。人工智能技術(shù)最重要的問題就是如何訓(xùn)練計(jì)算機(jī)理解人們的行為和思考方式,在不斷的練習(xí)中鍛煉學(xué)習(xí)能力,獲得新的技能和知識(shí),再利用計(jì)算機(jī)語言進(jìn)行完善,進(jìn)而豐富自身技能。計(jì)算機(jī)系統(tǒng)需要不斷利用永久性內(nèi)存儲(chǔ)存大量歷史數(shù)據(jù)信息,并進(jìn)一步優(yōu)化整合應(yīng)用程序,有效提升性能標(biāo)準(zhǔn)。
大數(shù)據(jù)技術(shù)是一種全新的數(shù)據(jù)處理方法,具有更多的數(shù)據(jù)分析和優(yōu)化功能。該技術(shù)會(huì)不斷更新和變化,與傳統(tǒng)的隨機(jī)抽樣數(shù)據(jù)技術(shù)相比,可以對(duì)所有信息進(jìn)行分類和管理,具有價(jià)值密度低、速度快、種類多、規(guī)模大以及真實(shí)性高等特點(diǎn)。此外,基于大量數(shù)據(jù),通過使用歷史數(shù)據(jù)和實(shí)時(shí)變化的數(shù)據(jù)可以發(fā)展出所需的新模式。
隨著計(jì)算機(jī)技術(shù)的快速發(fā)展,新的信息不斷出現(xiàn)。利用大數(shù)據(jù)技術(shù)可以徹底改變傳統(tǒng)信息技術(shù)的工作方式,使信息處理者可以在較短時(shí)間和較少資源的情況下檢索和分析信息,并解讀收集到的信息,同時(shí)可以利用統(tǒng)計(jì)分析和概率分析方法對(duì)其進(jìn)行更加智能化的管理,提高人工智能的準(zhǔn)確性。
目前,大部分大數(shù)據(jù)技術(shù)都使用并行數(shù)據(jù)庫存儲(chǔ)數(shù)據(jù)。該方式可以在多個(gè)節(jié)點(diǎn)上并行處理數(shù)據(jù),因此計(jì)算效率非常高,具有重要的實(shí)用價(jià)值。隨著數(shù)據(jù)庫的穩(wěn)定度逐漸提高,基于數(shù)據(jù)庫的信息檢索和數(shù)據(jù)緩存性能也有了很大提升。然而,由于并行數(shù)據(jù)庫系統(tǒng)存在缺陷,用戶往往傾向于將數(shù)據(jù)存儲(chǔ)到智能終端。
大數(shù)據(jù)呈現(xiàn)出多樣化和復(fù)雜性。檢索數(shù)據(jù)時(shí),傳統(tǒng)的數(shù)據(jù)管理系統(tǒng)會(huì)把多個(gè)檢索引用分別發(fā)送至各個(gè)數(shù)據(jù)服務(wù)器,以便并行檢索數(shù)據(jù)。然而,大數(shù)據(jù)的信息處理能力不強(qiáng),往往不能滿足使用者的需要。為逐步改變傳統(tǒng)的數(shù)據(jù)管理方式,可以在Apache Hadoop框架下使用分布式文件系統(tǒng)(Hadoop Distributed File System,HDFS)技術(shù)開發(fā)大數(shù)據(jù)源,實(shí)現(xiàn)對(duì)大數(shù)據(jù)的隨機(jī)訪問[1-4]。技術(shù)人員在進(jìn)行人工操作時(shí),必須通過人工智能模擬人工操作,通過分析與采集各業(yè)務(wù)系統(tǒng)的數(shù)據(jù),實(shí)現(xiàn)該系統(tǒng)的智能化監(jiān)測(cè)。構(gòu)建大數(shù)據(jù)平臺(tái)時(shí),要把生產(chǎn)和財(cái)務(wù)等方面的信息整合到該平臺(tái),保證數(shù)據(jù)順暢、自由、高效的交流。
大數(shù)據(jù)分析具有廣闊的應(yīng)用前景,可廣泛應(yīng)用于人們的日常生活,如網(wǎng)上購物、社交網(wǎng)站上傳視頻以及圖片等。目前,大數(shù)據(jù)挖掘是大數(shù)據(jù)分析技術(shù)研究的一個(gè)熱點(diǎn)。該技術(shù)可以從海量、不完全、隨機(jī)數(shù)據(jù)中找到所需信息,幫助企業(yè)和個(gè)人降低經(jīng)營成本,從而更好地進(jìn)行決策。大數(shù)據(jù)挖掘的主要方法有信息分析、歸納分析、數(shù)據(jù)聚類以及Web 挖掘等。
大數(shù)據(jù)技術(shù)與人工智能的融合對(duì)人工智能的發(fā)展具有重要的現(xiàn)實(shí)意義。大數(shù)據(jù)作為一種海量數(shù)據(jù)集,在實(shí)際應(yīng)用中非常依賴人工智能。例如,在機(jī)器智能的幫助下,可以在較短時(shí)間內(nèi)迅速分析和應(yīng)用大量數(shù)據(jù)。而人工智能的優(yōu)勢(shì)建立在海量數(shù)據(jù)之上,特別是在機(jī)器學(xué)習(xí)、自然語言的處理、視覺以及自動(dòng)分析推理人工智能等方向,大數(shù)據(jù)技術(shù)為人工智能提供了非常重要的基礎(chǔ)支撐[5,6]。我國已經(jīng)在人工智能領(lǐng)域開展了大量的研究工作,并取得了一定的成果。將大數(shù)據(jù)快速和高效地應(yīng)用于人工智能領(lǐng)域,將推動(dòng)人工智能技術(shù)的快速發(fā)展和應(yīng)用。隨著我國對(duì)人工智能技術(shù)涉及的知識(shí)逐步擴(kuò)展,人工智能技術(shù)和研究工作所涉及的數(shù)據(jù)量大幅增加。通過研究人工智能突破其算法技術(shù)的局限,快速分析海量數(shù)據(jù),發(fā)現(xiàn)其中可能存在的演化規(guī)律,能夠?yàn)樯鐣?huì)發(fā)展提供真正有價(jià)值的信息,有利于為下一代人工智能技術(shù)的有效應(yīng)用和快速發(fā)展提供更加充足和高效的基礎(chǔ)數(shù)據(jù)和技術(shù)支持。大數(shù)據(jù)和人工智能之間的融合協(xié)調(diào),可以對(duì)人工智能的發(fā)展起到很好的支撐作用,如圖1 所示。

圖1 人工智能中大數(shù)據(jù)技術(shù)應(yīng)用圖
隨著計(jì)算機(jī)理論的發(fā)展,各種類型的信息在計(jì)算機(jī)中的應(yīng)用越來越廣泛,獲取有效信息的難度也逐漸提升。將大數(shù)據(jù)技術(shù)引入數(shù)據(jù)處理,可以為該問題提供快速、便捷、靈活的解決方案,尤其是在統(tǒng)計(jì)報(bào)表的分析和決策方面。利用大數(shù)據(jù)的處理與應(yīng)用技術(shù),能夠最大限度地減少人力與物力的投入,并有效提高信息處理結(jié)果的正確性。例如,利用數(shù)據(jù)庫就是一種最通用、最有效的應(yīng)用技術(shù)手段,可以快速篩選原始數(shù)據(jù)中最有價(jià)值的部分,篩除沒有任何用處的數(shù)據(jù),不會(huì)影響重要信息的分析和使用。大數(shù)據(jù)處理環(huán)境下,雖然獲取的數(shù)據(jù)信息內(nèi)容更加復(fù)雜,甚至可能無法滿足用戶的實(shí)際需求,但是利用其他信息技術(shù)(HDFS 技術(shù)等)檢索和訪問數(shù)據(jù)信息內(nèi)容,能夠獲取用戶所需要的信息,進(jìn)而滿足用戶的實(shí)際需要。
在操作層面和感知層面的設(shè)計(jì)上,人工智能機(jī)器人能夠很容易地完成幫助老人和小孩尋找存儲(chǔ)號(hào)碼、播放音樂、早上喚醒使用者以及提供適合其體質(zhì)的營養(yǎng)餐等任務(wù)。通過融合大數(shù)據(jù)分析和人工智能技術(shù),可以發(fā)現(xiàn)人工智能技術(shù)的巨大潛能。基于大數(shù)據(jù)技術(shù),人工智能能夠借助傳感器獲取大量數(shù)據(jù),并通過識(shí)別系統(tǒng)分析數(shù)據(jù),利用結(jié)構(gòu)化人工智能機(jī)器人的學(xué)習(xí)能力調(diào)節(jié)分析深度,進(jìn)而提升機(jī)器學(xué)習(xí)算法和數(shù)據(jù)反饋系統(tǒng)的能力。隨著訓(xùn)練樣本和網(wǎng)絡(luò)節(jié)點(diǎn)數(shù)量的不斷增加,網(wǎng)絡(luò)識(shí)別的重要性隨之增加。
智能農(nóng)業(yè)是在環(huán)境可控的情況下,利用先進(jìn)的工業(yè)化技術(shù)優(yōu)化現(xiàn)代新型農(nóng)業(yè)生產(chǎn)方式,進(jìn)而在不同季節(jié)和非季節(jié)氣候條件下,實(shí)現(xiàn)集約高效的生產(chǎn)。要實(shí)現(xiàn)高效和可持續(xù)發(fā)展,必須依靠現(xiàn)代化的農(nóng)業(yè)系統(tǒng)。現(xiàn)代生物技術(shù)、農(nóng)業(yè)技術(shù)和新材料的不斷發(fā)展,提升了農(nóng)業(yè)生產(chǎn)水平,加快了農(nóng)村發(fā)展速度,增加了農(nóng)產(chǎn)品附加值,提升了農(nóng)業(yè)生產(chǎn)力和農(nóng)產(chǎn)品質(zhì)量,推動(dòng)了農(nóng)業(yè)技術(shù)的創(chuàng)新。利用大數(shù)據(jù)分析可以干預(yù)農(nóng)業(yè)生產(chǎn)情況,并通過開展調(diào)查研發(fā)農(nóng)村大數(shù)據(jù)分析應(yīng)用系統(tǒng),使農(nóng)戶更好地掌握農(nóng)村生產(chǎn)的新動(dòng)向。在數(shù)據(jù)智能中心技術(shù)的支持下,農(nóng)戶可以更好地掌握農(nóng)作物的產(chǎn)出情況,有助于農(nóng)戶更好地決策農(nóng)村發(fā)展模式,形成了一個(gè)基于計(jì)算機(jī)技術(shù)的農(nóng)業(yè)信息處理系統(tǒng),能夠?yàn)檗r(nóng)戶提供更加全面的數(shù)據(jù)分析服務(wù)。
智能物流是現(xiàn)代商務(wù)模式發(fā)展的必然趨勢(shì),也是現(xiàn)代物流技術(shù)順利發(fā)展的重要保證。該技術(shù)以貨物的配送流程為切入點(diǎn),融合大數(shù)據(jù)和網(wǎng)絡(luò)的相關(guān)信息,對(duì)物流技術(shù)進(jìn)行規(guī)范化和實(shí)用化的研究。為實(shí)現(xiàn)商品物流配送的智能化,需要綜合運(yùn)用多種信息技術(shù)。以商品的物流配送服務(wù)為例,通過全球定位系統(tǒng)(Global Positioning System,GPS)、移動(dòng)通信、監(jiān)測(cè)技術(shù)等,可以實(shí)現(xiàn)一系列的操作功能,從而實(shí)現(xiàn)對(duì)物流配送整個(gè)過程的定位和跟蹤,進(jìn)而滿足信息控制目標(biāo)和技術(shù)操作層面的綜合要求。
隨著科學(xué)技術(shù)的不斷發(fā)展,大數(shù)據(jù)技術(shù)在智慧醫(yī)院中的應(yīng)用日益廣泛。該技術(shù)既能提升醫(yī)學(xué)診斷的準(zhǔn)確度,又能提升醫(yī)療服務(wù)的效率,同時(shí)促進(jìn)醫(yī)療資源的有效整合與合理分配。智能醫(yī)療系統(tǒng)主要通過智能硬件監(jiān)控、醫(yī)院門診的診療記錄、個(gè)人計(jì)算機(jī)以及App 終端等獲取資料,包括醫(yī)療資料、用藥資料、使用者資料、藥品行銷資料、藥品使用資料、個(gè)案資料以及藥品研究資料等。通過運(yùn)用大數(shù)據(jù)技術(shù)分析患者、醫(yī)生、制藥企業(yè)等多個(gè)領(lǐng)域的數(shù)據(jù),找出與患者相關(guān)的疾病,精準(zhǔn)判斷患者疾病類型,為臨床決策提供便利。傳統(tǒng)的醫(yī)療診斷方法在一定限度上存在不足,如準(zhǔn)確性不夠、速度慢、容易對(duì)患者造成二次損害等。基于大數(shù)據(jù)的精準(zhǔn)醫(yī)療可以大幅提高對(duì)患者疾病類型的診斷準(zhǔn)確率,實(shí)現(xiàn)對(duì)病人疾病的全面評(píng)估,具有重要的醫(yī)療應(yīng)用價(jià)值。目前,智能醫(yī)療產(chǎn)品已被廣泛用于婦科和腫瘤等醫(yī)學(xué)領(lǐng)域。
目前,云存儲(chǔ)技術(shù)在大數(shù)據(jù)領(lǐng)域取得了長足進(jìn)展,尤其是在云存儲(chǔ)環(huán)境下,可以更好地為用戶提供可伸縮的存儲(chǔ)空間,降低了數(shù)據(jù)規(guī)模。然而,隨著云存儲(chǔ)技術(shù)的大規(guī)模應(yīng)用,出現(xiàn)了大量離線計(jì)算技術(shù),對(duì)數(shù)據(jù)的實(shí)時(shí)分析與計(jì)算的要求不斷提高。傳統(tǒng)的大規(guī)模數(shù)據(jù)與大規(guī)模并行處理方法存在較大的時(shí)延問題,已不能適應(yīng)大規(guī)模應(yīng)用的要求。對(duì)數(shù)據(jù)的實(shí)時(shí)性分析不僅需要數(shù)據(jù)支撐,還需要計(jì)算和機(jī)器學(xué)習(xí)等系統(tǒng)部件的支持,從而縮短從數(shù)據(jù)生成到價(jià)值生成反饋給生產(chǎn)系統(tǒng)的時(shí)間。例如:Kafka 軟件是一個(gè)建立在非同步信息處理基礎(chǔ)上的“事實(shí)標(biāo)準(zhǔn)”,在大數(shù)據(jù)的實(shí)時(shí)處理領(lǐng)域具有重要的應(yīng)用價(jià)值;Flink 技術(shù)是一種新型的實(shí)時(shí)數(shù)據(jù)處理技術(shù),目前已有大量的實(shí)時(shí)數(shù)據(jù)處理系統(tǒng)使用或遷移到Flink。此外,Kafka 能夠完成從消息系統(tǒng)到實(shí)時(shí)處理,F(xiàn)link 能夠完成從實(shí)時(shí)處理到實(shí)時(shí)機(jī)器學(xué)習(xí),基于主流的實(shí)時(shí)系統(tǒng)組件,可以很容易地構(gòu)建實(shí)時(shí)特征計(jì)算和實(shí)時(shí)機(jī)器學(xué)習(xí)系統(tǒng)。
隨著數(shù)據(jù)規(guī)模的不斷擴(kuò)大和網(wǎng)絡(luò)帶寬的不斷提升,存儲(chǔ)與計(jì)算分離的系統(tǒng)數(shù)目日益增多。將存儲(chǔ)與計(jì)算分開,能夠更好地控制與隔離存儲(chǔ)和計(jì)算資源,提升整體運(yùn)行的穩(wěn)定性,且對(duì)于在線HBase 等在線大數(shù)據(jù)部件的穩(wěn)定可用性至關(guān)重要。傳統(tǒng)的基于商用計(jì)算機(jī)的大數(shù)據(jù)平臺(tái)具有較強(qiáng)的軟件容錯(cuò)能力,因此不存在穩(wěn)定性問題。存儲(chǔ)方面,隨著固態(tài)硬盤(Solid State Disk,SSD)的價(jià)格越來越便宜,各種支持SSD的軟件與技術(shù)越來越多,如AeroSpike 軟件可以極大地提高SSD 的可擴(kuò)充性,同時(shí)可以極大地減少內(nèi)存技術(shù)的開銷。持久性內(nèi)存的出現(xiàn)給數(shù)據(jù)存儲(chǔ)和存儲(chǔ)技術(shù)的發(fā)展帶來了革命性的變化。計(jì)算層次上,圖形處理器(Graphics Processing Unit,GPU)為深度學(xué)習(xí)等計(jì)算密集型應(yīng)用提供了有力支持,其中CPU 和GPU混合配置成為一個(gè)發(fā)展方向。云計(jì)算技術(shù)尤其是容器技術(shù)的興起,將為大規(guī)模異構(gòu)存儲(chǔ)和計(jì)算提供新的解決方案,有助于提高數(shù)據(jù)中心的總體資源利用率。
隨著人工智能技術(shù)的快速發(fā)展,特別是在工業(yè)領(lǐng)域的廣泛應(yīng)用,使得大數(shù)據(jù)與人工智能平臺(tái)的深度融合成為可能。首先,在開發(fā)過程中需要在大數(shù)據(jù)平臺(tái)上構(gòu)建和驗(yàn)證數(shù)據(jù)特征,并按照機(jī)器學(xué)習(xí)的要求統(tǒng)一處理數(shù)據(jù);其次,將該算法上傳到人工智能訓(xùn)練平臺(tái),并進(jìn)行訓(xùn)練;最后,通過多個(gè)超常參數(shù)的調(diào)節(jié)與特征工程,將建立的模型應(yīng)用于線上平臺(tái),從而達(dá)到實(shí)時(shí)預(yù)測(cè)用戶行為的目的。該過程涉及多個(gè)平臺(tái)之間的相互轉(zhuǎn)化和數(shù)據(jù)交互,導(dǎo)致每次數(shù)據(jù)處理和實(shí)驗(yàn)等操作都要在不同平臺(tái)之間來回切換,不但會(huì)降低人工智能應(yīng)用的開發(fā)效率,而且不能滿足日益增長的商業(yè)對(duì)人工智能應(yīng)用發(fā)布時(shí)間的要求。因此,構(gòu)建一套端到端的人工智能大數(shù)據(jù)平臺(tái)是一個(gè)迫切需要解決的問題。終端用戶可以利用人工智能大數(shù)據(jù)平臺(tái),快速構(gòu)建出一套完備的機(jī)器學(xué)習(xí)模型。該過程中只要進(jìn)行一些簡(jiǎn)單的操作,就可以修改所有的數(shù)據(jù)和模型,從而實(shí)現(xiàn)數(shù)據(jù)和模型的有效統(tǒng)一。
人工智能是一門高端技術(shù),可以模擬人的思維和行為,但是在模仿限度上仍有一定的局限性。人工智能無法判斷和識(shí)別人際關(guān)系中的情感色彩,也無法把握和執(zhí)行有關(guān)情感的行為。
利用大數(shù)據(jù)技術(shù)可以收集和整合大量的數(shù)據(jù)信息。通過對(duì)數(shù)據(jù)信息的加工,可以提高其內(nèi)在價(jià)值。因此,必須有效管理批處理的數(shù)據(jù)信息,加強(qiáng)其安全性,避免批處理后的數(shù)據(jù)丟失產(chǎn)生不良影響。
大數(shù)據(jù)技術(shù)在人工智能領(lǐng)域的應(yīng)用對(duì)推動(dòng)產(chǎn)業(yè)發(fā)展、優(yōu)化經(jīng)濟(jì)和提升社會(huì)生活水平做出了重要貢獻(xiàn)。文章研究了人工智能中大數(shù)據(jù)技術(shù)的應(yīng)用,從實(shí)際出發(fā),加強(qiáng)對(duì)人工智能技術(shù)和大數(shù)據(jù)技術(shù)的管理和運(yùn)用,改善人們的日常生活,適應(yīng)經(jīng)濟(jì)和社會(huì)的可持續(xù)發(fā)展,從而更好地為人們服務(wù)。