北京道達天際科技有限公司 北京 100049
隨著互聯(lián)網(wǎng)在全球范圍內(nèi)的迅速發(fā)展,可供人們利用的網(wǎng)絡(luò)信息飛速膨脹,互聯(lián)網(wǎng)已經(jīng)成為人們?nèi)≈槐M,用之不竭的公開來源信息資源寶庫。開源信息的價值與日俱增,在各類數(shù)據(jù)體系中占據(jù)相當(dāng)大的比重,其發(fā)揮的作用也越來越大,正成為分析決策、科研活動、技術(shù)研究的強大支持。信息挖掘技術(shù)不斷革新的今天,已經(jīng)逐漸擺脫了幾十年前人工分析信息和收集信息的模式,計算機智能算法、大數(shù)據(jù)可視化、知識圖譜等技術(shù)的引入,極大地增強了信息處理能力,同時也對信息價值的挖掘和利用產(chǎn)生深遠影響。
面向現(xiàn)代社會對互聯(lián)網(wǎng)開源信息采集與分析挖掘應(yīng)用的迫切需求,結(jié)合自然語言理解、知識圖譜、時空分析等關(guān)鍵技術(shù),構(gòu)建互聯(lián)網(wǎng)開源信息采集與分析的技術(shù)體系,支持從社交媒體、門戶網(wǎng)站、新聞媒體、論壇等各類互聯(lián)網(wǎng)信源中自動采集關(guān)注的信息,支持對開源數(shù)據(jù)進行清洗治理、自動抽取、事件發(fā)現(xiàn)、關(guān)聯(lián)分析、綜合展示等處理和分析,支持各類業(yè)務(wù)信息監(jiān)測預(yù)警、態(tài)勢分析、綜合研判,滿足互聯(lián)網(wǎng)開源數(shù)據(jù)分析挖掘應(yīng)用的能力體系需要,為正確認識、快速處理和有效使用互聯(lián)網(wǎng)開源信息奠定基礎(chǔ)。
互聯(lián)網(wǎng)開源信息智能采集與分析平臺按照“云+端”架構(gòu)來進行設(shè)計,可以劃分為三層,分別是資源層、服務(wù)層、應(yīng)用層,如圖1所示。

圖1 技術(shù)架構(gòu)設(shè)計
(1)資源層
資源層是互聯(lián)網(wǎng)開源信息智能采集與分析平臺和數(shù)據(jù)源支撐,其中硬件方面需涵蓋存儲設(shè)備、計算設(shè)備、網(wǎng)絡(luò)設(shè)備、安全設(shè)備、服務(wù)器等硬件資源;軟件方面提供針對固定信源的定向自動采集和針對個性需要的交互采集兩種功能,通過網(wǎng)絡(luò)爬蟲及搜索引擎采集公開原始信息數(shù)據(jù)存儲至云端,為系統(tǒng)運行提供數(shù)據(jù)資源和硬件設(shè)備資源保障。
(2)服務(wù)層
服務(wù)層是互聯(lián)網(wǎng)開源信息數(shù)據(jù)挖掘分析系統(tǒng)的中樞大腦,為系統(tǒng)的存儲管理、分析計算提供能力服務(wù)保障,按功能劃分為數(shù)據(jù)中心層和分析支撐層。
數(shù)據(jù)中心層主要分為數(shù)據(jù)治理以及數(shù)據(jù)存儲管理兩部分,主要包含分布式并行計算處理、全文檢索引擎、人工智能框架、微服務(wù)管理平臺、分析模型管理等底層應(yīng)用支撐服務(wù),為系統(tǒng)業(yè)務(wù)分析提供通用的底層平臺框架;數(shù)據(jù)庫主要解決結(jié)合業(yè)務(wù)流程加工形成的開源信息和數(shù)據(jù)產(chǎn)品的存儲管理,按功能應(yīng)用要求分別存儲在關(guān)系型數(shù)據(jù)庫、非關(guān)系型數(shù)據(jù)庫、內(nèi)存型數(shù)據(jù)庫、圖數(shù)據(jù)庫、OSS面向?qū)ο笪募到y(tǒng)等。
分析支撐層是平臺功能應(yīng)用的核心支撐部分,在原始開源數(shù)據(jù)人機結(jié)合治理清洗,形成先驗知識庫的基礎(chǔ)上,開展要素提取、信息分類、數(shù)據(jù)計算、屬性融合、業(yè)務(wù)分析等工作,主要負責(zé)圖像識別、OCR識別、實體識別、關(guān)鍵詞提取、去重過濾、屬性一致性、屬性補全、屬性標(biāo)準化、事件及實體分級分類、事件要素歸一化、知識建模、關(guān)聯(lián)分析、統(tǒng)計分析、情感分析等數(shù)據(jù)組織及處理,最終形成數(shù)據(jù)分析成果集。
(3)應(yīng)用層
應(yīng)用層主要解決平臺的業(yè)務(wù)數(shù)據(jù)可視化能力,為用戶提供層次清晰、操作方便的交互體驗,支撐用戶使用直觀易操作的界面功能進行開源信息分析挖掘工作,主要應(yīng)用包括開源門戶、重點關(guān)注事件態(tài)勢監(jiān)視、各大事件體系編成、業(yè)務(wù)運用分析、重大事件案例 復(fù)盤等。
(1)開源信息智能采集
面向互聯(lián)網(wǎng)各類開源信息搜集任務(wù)需要,設(shè)計針對固定信源的定向自動采集和針對個性需要的交互采集兩種手段,支持用戶從互聯(lián)網(wǎng)中的各類政府門戶、資訊網(wǎng)站、知識百科、社交網(wǎng)絡(luò)、位置服務(wù)等信源中采集相關(guān)地理數(shù)據(jù)、事件動向、智庫報告、網(wǎng)絡(luò)輿情、科技信息等,實現(xiàn)有針對性、行業(yè)性、精準性的數(shù)據(jù)抓取,并支持對采集的文本信息、視頻、圖片、文檔等原始數(shù)據(jù)進行存儲管理。
定向采集主要采用分布式網(wǎng)絡(luò)爬蟲、網(wǎng)頁解析、圖像識別、語音識別、自然語言處理、知識圖譜等關(guān)鍵技術(shù),基于開源網(wǎng)頁數(shù)據(jù),自動獲取網(wǎng)頁中的文本、視頻、圖片、文檔等數(shù)據(jù)。
交互采集主要采用搜索引擎、智能主題推薦、用戶行為學(xué)習(xí)、信息置信度評估等關(guān)鍵技術(shù),根據(jù)用戶關(guān)注點,從互聯(lián)網(wǎng)中搜集并聚焦用戶感興趣的數(shù)據(jù)。
(2)開源信息清洗處理
通過互聯(lián)網(wǎng)開源信息采集將海量信息和數(shù)據(jù)采集之后,對數(shù)據(jù)進行分揀和預(yù)處理,實現(xiàn)網(wǎng)絡(luò)數(shù)據(jù)加智與利益的更大化、更專業(yè)化的目的。使得不同來源的數(shù)據(jù)格式相對統(tǒng)一、關(guān)聯(lián)標(biāo)識清楚,在一定程度上減少后續(xù)數(shù)據(jù)存儲處理量,方便更為復(fù)雜的業(yè)務(wù)處理,為業(yè)務(wù)分析應(yīng)用提供必要支撐[1]。
開源信息清洗處理的主要針對采集到的原始互聯(lián)網(wǎng)信息進行一系列的預(yù)處理加工,為后續(xù)信息分析挖掘工作提供數(shù)據(jù)支撐。面向開源信息采集過程中用戶蹤跡與習(xí)慣的隱蔽等方面的安全需求,采用病毒查殺、深度清理等手段對采集的開源信息檢測和處理,確保數(shù)據(jù)安全。提供木馬/病毒檢測查殺和文件檢測與清洗、文字翻譯、語義識別、自然語言處理、重復(fù)數(shù)據(jù)檢測、自動分類、內(nèi)容抽取、自動摘要、數(shù)據(jù)標(biāo)識等功能。
其中數(shù)據(jù)清洗與語義識別是預(yù)處理過程中的關(guān)鍵步驟,數(shù)據(jù)清洗目前主要采取樣本分析和內(nèi)容過濾等方式,對垃圾信息進行辨別和分離。通過人工制定判別規(guī)則和機器學(xué)習(xí)相結(jié)合來識別目標(biāo)數(shù)據(jù),然后通過精確的數(shù)據(jù)抽取算法,精準定位目標(biāo)數(shù)據(jù),從而消除垃圾數(shù)據(jù)。語義識別主要采取中文分詞技術(shù)、文本特征提取技術(shù)、情感分析和意圖識別等技術(shù)結(jié)合各種分類模型與深度學(xué)習(xí)算法實現(xiàn)[2]。
(3)開源信息分析挖掘
經(jīng)過預(yù)處理的開源信息數(shù)據(jù),需要進一步進行分析挖掘,從海量數(shù)據(jù)中提取出有價值的信息,將這些信息合并,搜索隱藏于其中的潛在的有用的信息,這些信息是有潛在價值的,是各類用戶可理解的、可運用的,支持輔助決策,可以為用戶帶來利益,或為科學(xué)研究尋找突破口。通過人工智能、深度學(xué)習(xí)、大數(shù)據(jù)分析等前沿技術(shù)構(gòu)建良好的實體標(biāo)簽體系、先驗知識庫、建模分析庫等數(shù)據(jù)分類、處理和分析工具集,提供數(shù)據(jù)聚合、關(guān)系分析、統(tǒng)計分析、態(tài)勢分析、時間序列分析、關(guān)聯(lián)圖譜分析、二三維空間分析等分析工具,為挖掘更精細、價值密度更高的開源信息提供手段。
(4)開源信息綜合顯示
針對龐雜的開源信息以及分析挖掘成果,構(gòu)建形象生動、層次豐富、操作便捷的可視化場景,實現(xiàn)大批量、多圖層、高實時、高并發(fā)的開源信息可視化生成與操作,能夠按照區(qū)域、類別和主題等不同內(nèi)容,形象生動的展示開源信息及信息內(nèi)在關(guān)系、演變趨勢,為用戶理解、掌握和利用開源信息提供支撐。
按照互聯(lián)網(wǎng)開源信息智能采集與分析平臺技術(shù)體系與能力構(gòu)成,可以劃分為開源信息智能采集、開源信息清洗處理、開源信息分析挖掘、開源信息綜合顯示等典型流程。
(1)開源信息智能采集流程
主要解決來源于新聞網(wǎng)站、社交媒體、門戶網(wǎng)站、研究機構(gòu)網(wǎng)站等關(guān)于開源信息的近實時數(shù)據(jù)搜集問題,主要包括數(shù)據(jù)源管理設(shè)置、開源數(shù)據(jù)抓取、數(shù)據(jù)采集頻率配置、數(shù)據(jù)采集監(jiān)控等操作。如圖2所示。

圖2 開源信息智能采集流程
(2)開源信息清洗處理流程
主要解決將多源異構(gòu)的開源信息治理形成格式化、計算機程序可自動化處理分析的結(jié)構(gòu)化數(shù)據(jù),主要包括文本數(shù)據(jù)、圖像數(shù)據(jù)、視頻數(shù)據(jù)、文檔數(shù)據(jù)的自動去重、自動抽取、自動提取關(guān)鍵字和摘要信息、圖像識別和標(biāo)注、提取視頻相關(guān)文字信息、OCR文字識別等操作。如圖3所示[3]。

圖3 開源信息清洗處理流程
(3)開源信息分析挖掘流程
主要提供數(shù)據(jù)分析人員基于搜集整理的開源信息數(shù)據(jù),提供時空序列分析、信息關(guān)聯(lián)分析、知識圖譜分析、統(tǒng)計分析、動態(tài)分析、趨勢分析、態(tài)勢分析、規(guī)律挖掘等大數(shù)據(jù)分析模型及工具,支撐用戶動向研判、監(jiān)測預(yù)警以及輔助決策等開源信息應(yīng)用和分析研究工作。如圖4所示。

圖4 開源信息分析挖掘流程
(4)開源信息綜合顯示流程
主要解決復(fù)雜開源數(shù)據(jù)的管理與展示問題,結(jié)合二三維地理、時空序列、統(tǒng)計圖表、知識圖譜、動畫、文字等多種可視化表達方式,按照區(qū)域、類別和主題等不同內(nèi)容,形象生動的展示開源數(shù)據(jù)及數(shù)據(jù)內(nèi)在的關(guān)系,為用戶理解、掌握和利用開源信息提供支撐。如圖5所示[4]。

圖5 開源信息綜合顯示流程
互聯(lián)網(wǎng)開源信息的特性決定了其采集過程、分析過程必定以智能化、自動化分析為主,人工分析為輔助,互聯(lián)網(wǎng)開源信息智能采集與分析平臺從設(shè)計與研發(fā)上全面采用人工智能與深度學(xué)習(xí)、大數(shù)據(jù)分析挖掘、高并發(fā)實時處理等前沿技術(shù),構(gòu)建良好的開源信息采集、清洗處理和分析挖掘能力體系。
互聯(lián)網(wǎng)開源信息智能采集與分析平臺能夠降低開源信息使用人員的主觀因素影響、迅捷找到想要的開源信息、充分挖掘隱藏的高價值信息。本文提出的互聯(lián)網(wǎng)開源信息智能采集與分析的技術(shù)架構(gòu)及能力體系,能夠為互聯(lián)網(wǎng)開源大數(shù)據(jù)應(yīng)用領(lǐng)域提供有價值的參考。