孫書青
廈門興才職業技術學院,福建廈門,361024
人工智能和大數據技術有非常密切的關系,利用大數據技術可以更好地進行機器算法分布式工作,并且延伸到人工智能方向,而通過數據集中成為大數據平臺,可以更好地構建大數據與人工智能基礎公共能力,進而通過對現行大數據平臺技術手段與人工智能的創新形態進行融合來搭建新的技術管控框架系統。大數據平臺本身在數據運行當中存有的安全隱私問題,可藉由人工智能技術來使管控機制升級,最終保障數據安全[1]。在控制數據采集的過程中,可以選擇其特征,并且分離認證身份和授權身份,從而更好地控制數據的安全問題,保證隱私不被外泄,維護用戶信息的安全。
伴隨著技術的升級發展,人工智能、云計算以及大數據作為代表性技術及創新手段,在經濟市場中產生了巨大影響,為大量的行業發展拓寬了邊界,實現了更具優勢的數據化市場服務新生態。企業管理在數據運行中,除了借助技術手段來提高自身控制水平和構建核心競爭力外,也需要討論新技術應用創新在當前時代背景下如何成為企業核心價值、帶來更強的競爭力、完成資產變現。數據質量是數據相關應用的基石。如何在數據量呈現指數增長的大背景下,做好企業數據標準的統一、提升數據質量、加強安全合規用數、深挖數據價值,并系統化推進數據資產管理,避免數據沼澤,是當下券商數字化轉型過程中面臨的共同問題。在耗費人力物力積累了海量的數據,形成豐富的數據資產金礦后,有價值的數據和數據的價值之間還存在著最后一公里,而這最后一公里又恰恰是整個企業數字化轉型中最重要的一個核心環節。所以如何構建一個安全高效的大數據服務體系,推動數據服務生態的建設,讓企業可以切實地從大數據中獲益,是企業數字化轉型中的關鍵所在,也是本項目探索的重點[2]。
現代信息技術在近十年來的快速發展呈現出多樣化的新形態,其中移動互聯技術的廣泛應用,為各行各業帶來了新的可能。其中運營商、金融及泛金融產業、國企甚至能源領域,在內部運營管理方面出現了數據量井噴態勢,數據總量呈現指數級的快速增長。數據量的迅速膨脹,對當前企業自身數據運營管理帶來了巨大壓力,也對數據處理的技術水準和性能、手段形式等提出了全新的訴求。其中新系統的搭建和數據處理調試的不斷完善,除了在一定程度上解決了行業數據管理的困境之外,也在一定程度上造成了數據孤島問題,使得企業在實際的數據運營管理和系統維護當中帶來了技術危機,也使得數據管理的整體成本不斷增高。伴隨數據處理技術的時代發展,技術層面的數據轉型經歷了多個歷史階段,不同階段的數據技術形態有著十分鮮明的時代烙印[3]。最早期的數據處理技術與大數據技術的發展相同步,其目的在于打破數據信息孤島問題,實現更為快速的信息共享和平臺化的匯集。技術領域開始出現了“數據湖”這一新概念。數據湖主要功能在于對各類、各向數據進行平臺化的匯集,形成多源且異構的數據形態。在這一階段,數據標準化的建立需要完成多端對接,最終形成以企業、管理者為核心的數據中心。為了能夠實現技術目標,數據存儲主要以結構化的存儲檢索機制為主,在部分數據運營當中,會采用API和少量的SQL的技術支持。不過由于SQL的海量數據難以實現大數據平臺的動態流動性遷移,導致數據運營處理中新業務面臨更高的開發技術門檻,大數據的技術創新受到嚴重的推廣阻礙;進入第二階段后,為了能夠更高效地完成結構化的數據處理,技術層面通過分布式架構形式來對IT架構進行更新,典型技術如SQL on Hadoop等,使得上一階段所面臨的分布式數據難題得到了解決。更多企業客戶開始利用Hadoop來進行獨立數據倉庫搭建,技術手段的應用場景也更為廣泛。同樣的技術門檻逐漸降低,分布式計算在數據處理中能夠勝任更為海量的信息數據,數據處理技術得到了空前發展。當前,技術發展進入了新的階段,部分企業在數據處理方面已經開始應用關系型數據庫作為數據處理核心,通過大數據來實現處理體系的轉變。部分企業客戶在數據處理應用中,不再滿足SQL的統計數據處理和信息挖掘,逐漸推進了計算機學習算法等智能處理的數據分布技術創新,形成了針對結構化數據的人工智能學習挖掘。伴隨深度學習技術以及分布式技術的彼此碰撞,逐漸形成了新一代的數據處理計算框架,典型技術手段如TensorFlow。隨著計算機算例的不斷提升,配合深度學習的海量數據訓練,人工智能技術手段能夠實現結構化與非結構化的同步數據處理。其中非結構化數據如人臉識別、車輛識別、無人駕駛等,成為當前數據處理技術創新的關鍵。與此同時,相比于傳統機器學習,人工智能技術的數據處理創新,極大減少了數據處理對于特征工程以及業務領域知識的依賴,使得機器學習在實際應用中有更低門檻更高的普及率。與此同時,技術優勢下的可視化拖拽頁面,形態、內容豐富的行業模板和交互體驗等形式,對于從業人員的要求也進一步放寬,使得人工智能在數據處理方面的應用更為順暢[4]。
現代數據資源的實際使用在企業環境中,逐漸從單純的IT部門擴散到整個管理框架。更多內部項目組以及分支機構也成為數據平臺應用主體。伴隨不斷的數據處理技術更新,不同部門之間如何解決資源隔離和管理分配問題、避免出現調度失衡等壁壘、提高基礎服務能力、降低環境搭建成本和開發部署周期、全面提高支撐效能成為當前亟待解決的技術性問題。大智移云的整合式技術發展,重點關注公共管理當中大數據與人工智能、移動互聯網平臺和云計算等的實際應用,針對大數據技術在mapreduce框架中的作業調度算法進行全面革新。當前應用yarn單獨組建來實現分布式計算框架下的資源管理,但是其主要劣勢體現在資源管理調度的范圍更受局限,同時管理的資源粒度更為粗放。實際管理當中,難以實現有效的資源隔離,很難滿足企業客戶對于數據處理的現實需要。云計算技術在數據處理當中的重點應用,在于通過虛擬化的形式來實現資源封裝,完成資源隔離,長久以來是技術關注的重點,但是docker容器技術在出現和廣泛使用前,云計算虛擬化手段所進行的資源封裝,存在加載操作系統資源利用率整體過低問題,導致部分廠商云平臺建構方案中資源利用不夠穩定最終影響管理效果。公有云技術主要通過基礎硬件和運維能力,來構建非核心業務的開發和嘗試。現代化docker容器等技術發展,實現了微服務技術升級,打造了人工智能平臺的容器云實現底層的平臺調度。其中容器云所形成的分布式操作系統,能夠有效實現集群化的資源封裝和管理控制,通過重新進行容器編排,提供大數據 的人工智能基礎服務。其中HDFS、NoSQL等數據庫為典型的分布式文件系統,這些數據庫在提供基礎服務中,可以利用容器云編排來搭建公共服務層,實現數據倉庫、數據集市或者數據圖庫等識別服務項目,為企業提供核心數據系統的管理服務。容器云的應用借助資源隔離,實現了更為精準的類型資源分配、有效的高精度資源管理,滿足了不同業務部門的平臺化數據應用要求,極大地避免了數據漏洞和數據泄露問題[5]。
依托安全技術平臺的有效管控,提出全新安全漏洞控制的數據管理訴求,應當不斷加強數采工作過程中的漏洞管理,實現全方位立體化的漏洞控制,提高數采環境的安全和精度。采集漏洞數據一般都是在多個網站出現了一些漏洞數據。采集數據的過程中,需要結合不同網站的不同特征,利用網絡代碼、用戶、瀏覽器等技術,可以更好地避免出現爬蟲行為。結合平臺中漏洞數據安全標準,可以更好地優化數據采集關鍵程序,并且定時定期去重啟模塊工作任務,保證平臺數據庫可以保持更新狀態。利用爬蟲程序可以給平臺提供JSONAPY方式。在漏洞網頁數據的爬取上,可以利用隊列式的爬取方式,從而重新定義初始種子,再結合網站漏洞數據的不同構造設計隊列算法,再通過爬蟲引擎的下載功能,完成網頁數據的下載進庫。在整個操作中,可以更好地對比網頁數據和定制關鍵字,從而更好地收集關鍵字搜索數據,保證漏洞數據的準確率[6]。
在人工智能大數據安全技術平臺構建過程中,若出現數據維度過高現象,則會增加計算步驟或者出現疊加計算實踐,最終導致維度特征不關聯或者精度下降。有效解決維度難題的主要思路就是實現技術降維,通過高維特征的冗余分析排除不關聯數據,實現數據降維降噪目的,進而獲得原始數據關鍵特征。計算機邏輯降維處理在數據認定中,會通過相關矩陣來實現數據繪制,再對繪制矩陣進行顯著性驗證,結合主題分析、現行識別和因子分階來完成對于數據特征的校驗和有效評價,從中完成互聯性更強的特征數據,整個過程被稱為數據脫敏。脫敏處理常用隨機處理、匿名處理、隱藏處理等處理機制,根據不同場景需要保護隱私和數據安全。本文結合人工智能的大數據平臺安全和企業數據隱私需求,選擇關聯規則結合匿名法來建構脫敏機制,來提高數據敏感度,降低網絡風險和非法網絡攻擊等常見問題。如在進行數據K匿名規則和關聯規則中,就可以在匿名K的完成中,利用關聯規則來完成隱藏,最終實現數據脫敏。
針對網絡環境的安全防護,采用身份加密和有效認證是常見方式。其中身份認證作為準入機制,是通過訪問用戶識別篩查來最終實現的加密,在計算機Jamie當中,通過加密技術后所形成的數據需要利用指定IP或者白名單身份來對其進行解密,達到獲取數據的需求。大數據平臺中,可以借助網址路徑來對不同身份訪問需求進行識別,因此所有訪問身份會在網址當中形成臨時身份,但是在實際的識別過程中,臨時身份的識別和處理無法對用戶的使用權限進行清晰認定和分析,難以對是否為非法攻擊做出精確判斷。為了解決這一問題,本文在平臺化設計方面,就采用身份識別認證和數據庫授權相分離的原則,從而保證平臺訪問獲得授權用戶均為合法用戶,通過設定訪問合法權限的方式來進行有效的身份認證。大數據在數據信息處理運行中需要遵循國家相關法律法規的具體要求,同時還應當滿足各項隱私策略協議,因此對于數據平臺的訪問控制提出了更高要求。針對這一問題,本文建議采用屬性加密手段,針對加密數據借助靈敏度共享機制,來降低密鑰管理的時間成本。現代大數據在平臺化運行中保持數據安全,更多以來計算環境本身的復雜性,因此用戶在實際的數據訪問中,常常也面臨安全類型方面的多樣性。因此在平臺化的安全控制中,對于數據訪問特征,可以應用訪問控制體系下的大數據安全應用和靈敏共享方式,實現細粒度增強層面主客體屬性同步控制授權,為訪問用戶提供增加靈活度的數據共享機制設定,最終保證在數據訪問和數據調用層面的細粒度上的安全。此外,針對平臺訪問還可以應用參數指標等方面的靈活配置,針對涉密數據進行實時訪問的內容記錄,以日志的形式對事件順序、資源修改等進行精確記錄,從而實現更為完整的數據安全分析鏈條,做好對各類非法訪問的行為特征的有效控制。