化柏林 李廣建
摘 要:人工智能發展的浪潮影響著每一個領域。情報作為與智能在字面上密切相關的領域,對人工智能的發展格外關注。如何把智能滲透到情報領域,實現智能情報分析系統是新時代值得深入探討的問題。文章在對智能與情報關系的梳理以及對現有情報分析系統述評的基礎上,提出一個智能情報分析系統的框架。智能情報分析系統在資源方面具有數據集與知識庫、模型庫與方法庫,借助知識獲取、知識表示與組織、自然語言處理、人機交互、新型計算與深度學習等,實現情報需求智能感知,海量信息智能獲取,多源信息動態融合、多維關聯綜合分析、分析結果智能解讀、情報報告自動生成、面向場景適時服務。通過智能分析引擎實現資源、技術與功能之間的對接,這是智能情報分析系統的核心。
關鍵詞:智能情報分析系統;情報分析;人工智能
中圖分類號:TP18;G250 文獻標識碼:A DOI:10.11968/tsyqb.1003-6938.2017117
Abstract The wave of artificial intelligence development affects every area. Intelligence, as a field that is closely related to intelligence by literacy, pays special attention to the development of artificial intelligence. How to infiltrate the intelligence into the intelligence analysis field and realize the intelligence analysis system is a question deserved to be discussed in depth in the new era. On the basis of reviewing the existing intelligence analysis system, this paper proposes a framework of intelligence analysis system based on AI. The intelligence analysis system has the dataset, knowledge base, model base and method base. With intelligent knowledge acquisition, knowledge representation and organization, natural language processing, human-computer interaction, new computing and deep learning, Intelligent acquisition of massive information, dynamic fusion of multi-source information, comprehensive analysis of multidimensional correlations, intelligent interpretation of analysis results, automatic generation of intelligence reports and timely service oriented to scenes.Resources, technologies and functions could be joined through the intelligent analysis engine, which is the core of intelligence analysis system.
Key words intelligence analysis system; intelligence analysis; artificial intelligence
革命性的智能技術,一邊撕裂舊世界,一邊創造對未來的無限渴望。大數據在理念與技術方法上已觸及到各行各業,而人工智能正在洗刷著傳統的思維與產業形態。數據、計算能力和算法疊加后產生的能力差異,正快速形成組織機構之間不可逆且不可逾越的智能鴻溝。過去的兩年人類見證了AlphaGo系列的成功,深度學習在圖像識別、智能語音、機器翻譯、智能控制等領域取得了長足進步,越來越多的領域開始涉及并運用深度學習等人工智能技術。未來,AI將不斷擴大滲透領域,技術應用也將逐步走向成熟,全球經濟將迎來“AI-first”突破,可解釋性和透明度將逐步得到改善。
在海量數據急劇增長、軟件工具日益豐富、競爭環境日趨激烈的今天,科學研究、國家發展與企業運營越來越強調數據與智能在分析過程中的作用。業務問題呈現出復雜化、多維化、關聯化、實時化的特點,企業組織過去所依賴的基于局部數據、傳統工具而進行的業務決策方式必將跌落鴻溝。如何在情報系統中更多地引入智能技術,提高情報分析的水平與質量,成為新時代情報發展的關鍵[1]。為了更好地實現情報信息的支持,需要借助于大數據產業情報平臺或智能情報分析系統,通過系統快速準確地獲取所需要的基礎數據、動態信息以及最新情報,跟蹤科技前沿,梳理發展脈絡,把握問題關鍵,分析競爭格局與發展態勢,仿真模擬以及未來分析,發現新穎點與新機會,從而發現其中的市場機會和風險預警,占據市場競爭中的優勢或主導地位。
1 智能與情報的關系
智能包括人類智能與人工智能。在現代情報分析中,既要有人類智能,如專家智慧、專業背景、師傅帶徒弟與長期“工匠”的積累,又要有人工智能,利用神經網絡、機器學習等智能算法對大規模的數據進行信息與知識的融合并使其轉化為情報,加強情報分析的智能性,是智能情報的難點與重點。endprint
所謂“智能”,通常是指人們在認識與改造客觀世界的活動中, 由思維過程和腦力勞動所體現的能力,包括感知能力、思維能力和行為能力[2]。人類智能的核心在于知識,智能表現為知識獲取能力、知識處理能力和知識運用能力。人們對人工智能有許多不同的觀點和實現方法, 包括符號主義、連接主義和行為主義等, 或者叫做邏輯學派、仿生學派和生理學派。所謂“情報”,在《辭海》中將其釋義為:軍中集種種報告,并預見之機兆,定敵情如何,而報于上官者。目前,國內外學者關于情報概念的探討主要有以下三種觀點:(1)情報的信息論,認為情報是一種特定的信息[3],主要指可行動的信息;(2)情報的知識論,即情報是一種知識。英國情報學家布魯克斯認為:情報是使人原有的知識結構發生變化的那一小部分知識[4]。錢學森[5]院士認為:情報是為了解決一個特定的問題所需要的、具有及時性和針對性的知識,是激活了、活化了的知識;(3)情報的認知論,即情報是一種認知。池建文[6]研究員認為:情報是關于他方事實的本來面貌和深層次原因的判斷,是新信息與舊知識融合所形成的新認知。
新的時代特點與技術環境給情報工作帶來了很大的變化,數據對象與規模不斷擴大,技術方法持續更新,但是不管對象與技術方法如何變化,情報工作的宗旨從未有過根本性改變,情報工作的目的就是要保障決策、解決決策過程中信息不完備的問題[7]。從任務的類型來看,情報分為情報識別、情報跟蹤、情報比較、情報評價與情報預測[8]。從各類信息源中快速識別有用的信息,及時準確地捕捉最新、最快的情報動態,持續地對關鍵技術問題、重要國家與機構進行定期或長期跟蹤,把握最新進展與動向,梳理技術路線與演化規律,分析競爭關系與態勢,預測事情、格局、科學技術發展的趨勢與走向,以便提前布局、未雨綢繆。
2 情報分析系統發展現狀
情報分析系統是面向任務的,通過集成實現情報分析理論方法的技術完成特定的情報任務,技術實現方法種類和數量的選擇與面向任務的研究對象、目的有關。情報分析系統發展至今,其智能水平早已不能滿足應用需求。分析人員更傾向于系統能幫助發現未知的潛在模式,能從分析活動的各個環節上加以支持,提供一體化的解決方案,而非僅僅是零散的對若干分析功能的支持。這些需求也促進情報分析系統向著更智能的方向發展,主要包括對數據的深層發現、挖掘和對分析過程的智能支持等方面。情報分析系統呈現出計算性、融合性、工程化以及快速響應等特點。從行業實踐來看,情報分析系統包括科技情報分析系統、企業競爭情報系統、公安情報分析系統等。
2.1 情報分析系統理論研究
李廣建等[9]認為大數據時代下的情報研究應從單一領域情報研究轉向全領域情報研究、綜合利用多種數據源、注重新型信息資源的分析、強調情報研究的嚴謹性和情報研究的智能化五個方面;張志強[10]認為科技文獻情報機構需要構建適應數據密集型科學范式需求的新型范式,著力開展專業型、計算型、戰略型、政策型和方法型等“五型融合”的科技情報研究新范式;賀德方[11]通過分析大數據興起、科研范式變革、方法工具演進、用戶需求變化的時代特點,提出利用工程化思維開展科技情報研究的新范式。喬曉東等[12]認為,大數據時代,情報處理和分析工作應以工程化和系統化的思路開展,提出了技術情報工程的理念和以技術基礎設施為支撐的情報分析體系;蘇新寧等[13]指出面向突發事件應急決策的快速響應的情報體系是一個以大數據環境為基、情報技術為力、情報流控制為策、應急決策為標的新型情報體系,并從組織結構、功能組成、組織功能關系三個方面構建了新型情報體系;李綱等[14-15]認為突發事件的監測與識別是應急決策情報體系的一個重要環節,一個以情報為核心的突發事件監測與識別的理論架構應該以情報收集、情報分析、情報評估與利用為過程,實現全源情報、實時情報、精準情報。情報分析呈現出工程體系化、海量數據高度依賴化、多源融合、集成計算、快速響應等特點,這些特點都是實現智能的基礎與前提。
2.2 現有情報分析系統的主要類型
(1)科技情報分析系統。現代科技情報工作的態勢解析與決策服務應借鑒大數據研究的最新進展,加快變革科技信息的采集、獲取、挖掘、分析及影響方式,及時和變革性地提升科技知識的產生,使其更為直接地輔助科技決策。由中科院文獻情報中心開發的“研究所一線科技信息監測服務平臺”(http://stis.las.ac.cn)從海量的網絡科技信息資源中發現最新最重要的科技資源,自動計算分析科技資源的情報價值、識別科技資源中包含的重要科技對象、重要科技術語,快速發現研究領域的研究熱點等。北京市科技情報研究所開發的大數據科技情報服務平臺,通過詞庫生成器、科技情報分析系統、大矩陣和創新點自動發現系統,在城市交通情報服務、突發事件應急決策、網絡輿情監測管理、戰略性新興產業和文化創意產業等領域進行了應用實踐。中國科學技術信息研究所與萬方數據聯合開發的科技創新輔助決策支持系統STADS(后演化為科技創新小助手),可以根據用戶的輸入快速生成包含有各種復雜圖表的PDF報告。
中科院自動化研究所王飛躍團隊融合社會科學、情報科學、信息科學等學科理論提出基于ACP方法的開源情報解析理論框架,并以天網(科情信息監測)、天眼(科情信息分析與挖掘)、天鷹(科情信息管理與決策支持)為指導流程,構建面向大數據和開源信息的科情監測與協作創新平臺。在異構、多模態的科技情報資源之上,生成科情獲取傳感網絡、科情語義網絡、科研協作社會網絡3個核心網絡,實現智能采集、處理、分析與挖掘科技情報等功能[16]。由清華大學和北京搜狗公司合作開展的科技情報大數據挖掘及服務平臺,以新一代科技情報分析與挖掘平臺AMiner為基礎,運用動態策略選擇的語義集成方法和多維依賴關系的語義標注方法,建立了億級節點規模的科技知識圖譜。運用基于話題的影響力模型對異構科技情報網絡進行深度挖掘,對科技信息網絡中學者、學術活動和知識概念進行隱含語義建模,建立了超過2.3億學術論文/專利和1.36億學者的科技智庫,提供面向科技文獻、專利和科技新聞的語義搜索、語義分析、成果評價等知識服務[17]。endprint
(2)面向企業的競爭情報系統。競爭情報系統(Competitive Intelligence System,CIS)是基于信息采集、全文檢索、文本挖掘等核心技術,對企業自身、競爭對手和企業外部環境的情報信息進行收集、存儲、處理、分析的應用管理系統,為企業提供戰略決策支持,從而提高企業的核心競爭力。企業競爭情報系統是以人的智能為主導、以有形智能軟件為技術載體,將實時資訊、經營數據監測、市場動態監測、競爭對手調研、行業分析研究等競爭情報內容服務,系統地集成為一個企業競爭情報整體解決方案,以人機協作工作體系和競爭情報管理體系,實現對企業所處整體競爭環境的全面監測、分析與掌控,以增強企業競爭力為目標的人機結合的企業競爭戰略決策支持與咨詢系統。典型的競爭情報系統有 Knowledge Works、TextAnalyst,百度的eCIS、北京拓爾思公司的CIS系統、谷尼企業競爭情報系統、才思競爭情報系統等。
(3)基于大數據的公安情報系統。公安情報分析系統以公安情報分析業務為指導,實時匯總各類社會信息、公安信息、互聯網信息等,通過分析模型、人群碰撞與分析精靈等工具,通過關聯分析、可視化分析等方法,使社會各類基本信息產生有價值的情報信息,并智能化的產生研判結果。大數據公安情報分析系統一般具有可視化智能軌跡分析查詢、異常活動人員研判分析、智能統計分析、警情動態監測及分析預警、智能情報檢索、關聯查詢、碰撞比對,實現人、事、物、組織和地點等五要素的信息數據分析和研判,并在這些信息數據之間建立起內在關聯,可幫助公安干警梳理各類分散的、獨立的情報線索。典型的大數據公安情報系統有與美國CIA、FBI合作的大數據平臺Palantir、浪潮大數據警務云平臺、江蘇中科惠軟公司開發的智慧公安全網情報信息化作戰平臺等,北京拓爾思公司開發的大數據輿情分析平臺TRS SMAS也有些類似功能。
2.3 相關述評
從上述概述可以看出,情報分析更多地借助于系統支撐,不斷地融入大數據與智能技術已經成為一個趨勢。情報分析系統智能化既有情報行業本身發展的內在需求,也具備社會發展應用的外在動力,計算機領域與大數據領域開始有一些團隊構建智能情報分析系統成為一個新的特點,這個現象值得關注與深思。
情報分析系統的研究大部分是模型構建或系統設計,而實際構建并有良好運行結果的系統還比較少,也缺乏對系統運行效果的評估與評價。在模型構建或系統設計時多以系統論為指導。競爭情報系統的探討比較充分,實際開發或應用的單位也更多一些,其次是以公安情報或反恐情報分析系統。
智能分析首先會在信息加工處理與分析階段實現高度自動化與智能,如何在情報分析系統的輸入端與輸出端更多地引入自動化與智能化會是下一步發展的重點。智能情報分析系統應從情報需求特點出發,以科學技術與市場應用情報服務為導向,以技術跟蹤、情報分析與智能預警技術為支撐,設計一套具有較強針對性和實用性,結合行為過程和技術過程,融合網絡搜索、數據挖掘、信息分析、人工智能等多學科領域知識和方法,能夠實時、長期、準確地對科技前沿、政策法規、社會網絡活動、最新動態以及發展趨勢進行跟蹤、監測、采集、統計、分析和預警評價的科技情報服務體系。
3 智能情報分析系統的功能結構
智能情報分析系統在資源方面具有數據集與知識庫、模型庫與方法庫,在技術維度需要知識獲取技術、知識表示與組織技術、自然語言處理技術、人機交互技術、新型計算機術與深度學習技術,在資源的基礎上通過這一系列技術實現以下功能:情報需求智能感知,海量信息智能獲取,多源信息動態融合、多維關聯綜合分析、分析結果智能解讀、情報報告自動生成、面向場景適時服務。在資源、技術與功能之間通過智能分析引擎實現連接與驅動,智能分析引擎包括認知模型、業務邏輯規則系統、算法調度引擎、驗證與評估器四個構件,是整個系統的核心與動力(見圖1)。
3.1 問題情境快速建模
在大數據環境下,越來越重視用戶場景,只有分析出用戶的場景,并針對場景的變化實時更新服務的內容與方式,才能更好地理解并合理地滿足用戶需求,用戶對產品與服務的接受程度、滿意程度從而會有大幅度地提高。情報問題與任務往往具有很強的動態性與個性化,這個特點導致很難生產出一套通用的情報分析系統。大數據環境下,可以通過多種渠道收集用戶的數據,基于用戶數據為用戶(包括機構用戶與個人用戶)所處的情報問題與任務進行快速建模。針對不同的環境與時間節點,在用戶基本屬性的基礎上,可迅速構建情報問題動態要素及指標,梳理并計算要素之間的相關關系與制約關系,確定要素之間的權重、時間先后關系等,形成情報問題任務與情境的模型。從注重分析過程向問題與情景方面轉化,是智能情報分析系統發展的一個趨勢。在情報系統中會有很多關于情景問題與應用場景的研究、相關數據的支撐、模型的建立、決策影響因素的制約關系計算。
3.2 智能采集信息
情報分析系統需要實時關注最新信息,需要廣泛地從網絡上采集各類信息。智能信息采集是情報分析系統的基礎與關鍵,智能信息采集需要確定信息源與信息類型,自動探測信息分布,評估任務所需信息量,然后進行自動采集,對采集下來的信息進行過濾、篩選與甄別。自動采集雖然技術上比較成熟,但由于網絡采集信息需要依賴于網頁特點,網站存在改版更新、網頁設計布局時常變化等特點,所以如何識別網頁特征、自適應配置采集規則、動態調整模板與參數需要體現出很強的智能性。
3.3 多源異構動態融合
在智能情報分析系統中,采集網絡信息只是一個方面,很多情報任務還需要從某些專業數據庫中加載數據以及從自有的信息資源中識別出關聯信息。要描述當前的競爭環境、技術前沿,傳統的單一的數據是不完備的,需要綜合論文、專利、政策、標準、產品、市場、網絡挖掘、新聞輿情等不同來源、不同結構、不同內容揭示的數據進行集成融合,形成多源、異構、跨域的大數據,通過匯集這些多源的數據,實現對各類數據的即時交叉比對生成準確及時的各類信息,為問題診斷、態勢評估與形勢分析提供全面的數據支撐與情報參考。把多源異構的信息進行動態融合,用數據的多源性減少信息的不確定性、保證情報產品的客觀性,從而提高決策分析的科學性。endprint
3.4 多維關聯與可視化智能分析
智能情報分析系統可以從多源異構大數據中發現一些清晰的線索,弄清行業或學科發展的來龍去脈,利用論文、專利等數據快速繪制技術路線圖、產品生命周期圖、學科發展脈絡圖。把不同的數據組合起來,進行關聯映射與分析,既可以形成一些群組,也可以發現一些有用的關系與模式,確定關鍵人物、事件、聯系和模式,計算數據之間的共性與關聯關系,運用關聯規則、聚類分析、社會網絡分析、向量空間模型等一系列分析方法,對于整個行業或問題所涉及到的整體全貌進行呈現。智能情報分析系統可以實現資源之間的相互鏈接與揭示、概念之間的關系發現,支持各種主題分析、聚類分析。
可視化智能分析將各類數據以圖形的方式展現出來,通過社會網絡圖、云圖、雷達圖、熱力圖等圖形的方式對數據和數據間的關聯進行描述和展現,運用眾多圖形分析的方法(如關聯分析、網絡分析、路徑分析、時間序列分析、空間分析等)來發現和揭示數據中隱含的公共要素和關聯。實現重要與關鍵信息的標注、時間演化與發展路線圖,支持演化分析、技術發展路徑分析;支持發展趨勢預測分析,決策場景要素分析,對決策所涉及的影響要素與要素之間的關系進行直觀的可視化展示。
3.5 分析結果智能解讀
在結果解讀方面,傳統的信息分析是從空間上發現數據之間的關系,包括關聯規則挖掘、聚類分析等,或者從時間上發現數據的變化以及變化的規律,包括時間序列分析、預測分析等。能夠進行復雜的可視化展示,但是對結果如何解讀,數據所呈現出的規律、數據所折射出的現象以及數據背后的原因都需要專家結合數據分析經驗以及行業知識進行解讀判斷。智能情報分析系統可以從某種程度上代替人做一些智能分析的工作。如數據年度增長圖或產品生命周期圖,傳統的做法是專家根據數據特點劃分為幾個階段,整個發展或增長過程符合哪一種增長曲線。智能情報分析可以利用機器學習的方式發現數據的規律,探尋相關因素分析數據現象及現象背后的原因,用自然語言的方式給出可供選擇的方案。不斷地累積行業規則、分析模式,形成一套流程化的情報分析方案,輔助生成情報報告。
3.6 情報報告輔助生成
不管專家撰寫的情報報告還是智能情報分析系統生成的情報報告,其報告的內容一定是體現了智能成分(專家智慧或人工智能),其報告的核心與關鍵內容是一般人員或情報用戶不能從其他方式或渠道直接獲取的,這樣的情報報告才會讓情報用戶眼前一亮,才會更好地吸引情報用戶。要想產出有獨特視角、獨特觀點和高質量的研究報告,必須依賴專家的特色理論以及專家對本專業領域情報信息敏銳的洞察力和分析力,不同的機構、不同的研究人員對同一數據資源可能會得出不同的分析結論[18],這種不同的結論對于多角度透視事物的本質,以及增加理性思考與判斷都有很重要的作用。在用戶建模、數據搜集與加載、多維分析與可視化展示、報告模板生成方面等有規律的地方可以快速生成,情報分析人員只需要適當的參與即可。
3.7 面向場景適時服務
不同的時段與不同的場景會有不同的需求,有時需要及時跟蹤最新動態,有時需要對最新態勢進行評估分析,有時需要情報人員梳理出技術發展路線,有時需要梳理出某一類人員的名單。因此作為情報研究人員,需要借助情報系統收集整合各類數據信息,對數據信息進行多分類、多特征的標簽,便于根據不同任務從不同的視角數據信息進行切片、下鉆、分類匯總。如找出某一問題的所有技術路線,按照時間繪出演化路線,展示各角色與角色之間的關系。這三種需求分別需要從主題內容、時間軸以及角色分布三個維度進行分析與匯總。情報問題是動態演化的,情報分析系統要針對時代特點、政策環境變化、領導活動動態適時調整情報描述的視角與內容,只有針對問題、數據基礎隨時變化、面向場景適時服務才能吸引情報分析人員持續地使用。
4 智能情報分析系統的核心組件
智能情報分析系統需要以大量的數據為基礎,融合大數據與人工智能技術,基于動態知識圖譜和具體的業務場景模型,支持復雜業務問題的自動識別、判斷并做出前瞻或實時決策的智能化產品系統。要實現情報系統的智能化,需要具備以下條件:海量的數據集與全領域知識庫支撐,豐富的模型庫與方法庫、機器學習算法、高效的分析引擎與推理機。
4.1 數據集與知識庫
智能情報分析系統需要將門類龐雜、種類繁多的海量數據進行整合,建立統一的大數據語義知識網搜索平臺,全面而深入挖掘信息之間的關聯關系,將分散的孤立的信息集中到一起,對不同來源的數據進行交叉驗證,互補融合。對數據進行規范化以及內容的揭示、語義的計算。為情報分析系統及時方便地根據任務加載數據,需要建立完整的元數據目錄、數據接口以及數據使用日志。
在智能情報分析系統中,不管是機器學習的方式分析數據之間關系獲取知識,還是人工構建行業知識,都是為了讓系統具有更好的知識支撐。情報分析的過程主要是基于數據的規律,對數據進行加工處理、分析挖掘,而這些規律就是知識,包括有效數據的判別與篩選知識、數據結構的相關知識、多源數據的融合知識,信息甄別知識、相關性判斷知識、計量分析知識,以及自然科學和社會科學等專業領域知識。梳理情報任務所面向行業的知識體系,將各類數據庫整合為統一的知識圖譜,以國際統一的本體網絡語言OWL表示知識,并利用知識圖譜技術實現行業情報的推理與應用。
4.2 模型庫與方法庫
在智能情報分析系統中不可缺少模型。模型是對現實世界與復雜問題的抽象,從抽象層次上描述系統的靜態特征、動態行為和約束條件,主要包括業務模型、數據模型、算法模型與系統模型等。基于多維度的數據挖掘、統計分析,進行算法模型的建立和調優。要創建足夠透明的深度學習模型以解釋它們的預測,特別是當這些模型的結果被用來影響或告知人類決策時。
方法庫有著對方法的詳細的描述,包括方法的定義、分類、輸入與輸出、處理流程、應用范圍、主要功能、優缺點等。基于流程的情報方法體系包括情報收集方法、信息融合方法、數據清洗方法、信息分析方法、情報研究方法以及情報傳遞方法等。其中信息分析方法包括計量分析方法、模式分析方法、關聯分析方法、聚類分析方法、網絡分析方法、演化分析方法、共現分析方法、異常分析方法等,從數據挖掘的角度又包括關聯規則挖掘、分類與聚類、回歸分析、連接分析、決策樹、粗糙集、神經網絡、遺傳算法等。endprint
4.3 機器學習算法
當前人工智能之所以如此火,與前幾年對大數據的研究與重視分不開的,有了海量的數據基礎,還需要一個好的學習機制與算法,能從大量的數據中進行學習,總結出規律與特征,通過不斷地優化與迭代,逐步逼近目標,這就是機器學習。機器學習按照學習方法分為機械式學習、指導式學習、示例學習、類比學習與解釋學習。根據學習能力分為有監督學習、無監督學習,以及介于兩者之間的強化學習。其中,監督學習方法利用一組已知類別的樣本調整分類器的參數不斷優化并提高性能,主要包括卷積神經網絡、Hopfield網絡、徑向基函數網絡、貝葉斯學習、決策樹、線性分類;無監督學習根據未標記過的訓練樣本解決模式識別中的各種問題,包括對抗生成網絡、前饋神經網絡、關聯規則學習、分層聚類、聚類分析、k-最近鄰算法;半監督學習包括生成模型、低密度分離、基于圖形的方法、聯合訓練等方法。
AlphaGo結合了深度學習、強化學習和蒙特卡洛樹搜索這三種算法,深度強化學習(DQN)是深度學習與強化學習的結合,就是用深度學習網絡自動學習動態場景的特征,然后通過強化學習對應場景特征的決策動作序列。深度學習主要包括深度信念網絡、深度卷積神經網絡、深度遞歸神經網絡、分層時間記憶、深度玻爾茲曼機等等。在深度學習的基礎上又進行了擴展,包括增強學習、增量學習、遷移學習等[19]。這些好的學習算法能夠起作用,主要依賴于豐富的數據集作為訓練語料。圖像識別依賴于已經標注好的豐富的圖片庫,AlphaGo也是依賴于大量的訓練,即使Alpha zero不和對方博弈,通過自己博弈,也是訓練了500萬盤棋,從中不斷地學習特征與優化算法。
4.4 智能分析引擎
智能情報分析系統具有豐富的數據集與知識庫,通過模型庫與方法庫進行分析,但調用何種模型與方法,執行效果如何等,需要有一個智能分析引擎進行調動與驅動。智能分析引擎是情報分析系統的關鍵與核心,由認知模型、業務邏輯規則系統、算法調度引擎、驗證與評估器組成。
認知模型包括用戶畫像與場景分析引擎,通過分析情報用戶的類型、調取情報用戶靜態屬性以及監測情報用戶動態信息,整合用戶需求興趣偏好信息,從不同維度為用戶賦予合適的標簽,提取用戶的共性群體特征,并揭示情報用戶的個體特征與偏好,準確地刻畫出“千人千面”,以便準確地提供個性化服務與精準推薦。情報需求由情報需求類型、情報需求主題以及情報需求情境三個維度構成。
通過認知模型確定用戶需求與場景之后,利用業務邏輯系統調取相關資源。情報需求是動態監測還是領域分析?是技術分析還是政策分析?通過業務邏輯規則系統進行確定。根據業務領域搜索相關的知識,對多源異構知識進行融合,針對不同行業,按照行業特點,制定精細的行業推薦規則。搜索的任務包括根據任務描述搜索相應的數據信息,根據分析工作的需要搜索相應的支撐知識。搜索算法包括深度搜索、廣度搜索、啟發式搜索:A*搜索 state-space representation, pruning strategy, beam search, game tree search, alhpa-beta搜索。
算法調度引擎就是要建立數據、問題方法之間的關系。情報分析方法眾多,如何選擇方法有時會成為一個問題,而使用智能agent,根據應用場景與問題的變化動態選擇合適的研究方法,就是體現情報智能性的一個標志。驗證與評估器主要負責對監控分析過程,對相應的執行階段進行評估,根據評估結果給出下一步的動作,是繼續分析還是回溯反饋等。
5 智能情報分析系統的關鍵技術
智能情報分析系統除了分布式云計算技術、大規模并行計算技術、高維數據關聯分析技術、數據可視化展示技術、用戶畫像與個性化推薦技術等通用大數據技術外,要使情報系統更好地運轉,還需要知識獲取技術、知識表示與組織技術、自然語言處理技術、人機交互技術以及新型計算技術。
5.1 知識獲取技術
知識庫構建有四種方法:(1)知識工程師方法。由知識工程師編寫領域知識規則錄入知識庫或者人工構建本體,是傳統的知識獲取方法;(2)資料轉化方法。把主題詞表、本體等轉化為知識圖譜,形成機器可讀的知識。知識圖譜本質上是一種語義網絡,圖中的結點代表實體(entity)或者概念(concept),邊代表實體/概念之間的各種語義關系;(3)知識抽取方法。知識抽取是指從各種類型的數據和信息資源中獲取各種知識的過程,從多種媒體資源(如文本、圖像、視頻、音頻等)中抽取出知識,從數據集中發現重要模式的過程等[20]。通過知識抽取從多種數據源獲得采用某種知識表示形式的,完整、正確、無歧義的知識元及其語義關系,進而作為后續知識融合的輸入,這種知識抽取和組織完全依賴于對知識間的各種關系的認識、挖掘和組織;(4)知識發現方法。從大量的數據中發現數據之間的關聯規則,并把知識表示成計算機可以理解、可以推理的本體,與深度學習等智能算法結合起來。知識抽取重在把人們已經顯性表達出來的知識結構化、計算機化。知識發現重在發現對人們新穎的、事先未知的知識。
5.2 知識表示與組織技術
如何表示并組織好知識,讓計算機可以很好地識別與利用知識是智能情報分析系統的關鍵。知識圖譜就是當代最通用的語義知識表示形式化框架。知識圖譜的節點就是語義學里面說的 “符號根基(symbol grounding)”,即語言符號與真實或想象空間中的對象的對接,在計算機中體現為語言符號與數字化對象的對接。邊則是語義學里面說的“角色指派(role assignment)”,在計算機中體現為每個數字化對象與其他數字化對象之間的語義關系標簽。
語義結構表示框架中,現有的知識圖譜可以描述實體、關系、屬性(狀態)及其值這三類要素,但是對于情感、程度變化、因果條件、邏輯模態等,現有的知識圖譜結構并不能很好地表達,需要進行改造建立事理圖譜才能適應這些語義要素的表示。知識圖譜研究對象為名詞性實體及其關系,事理圖譜研究對象是謂詞性事件及其關系。知識圖譜的主要形式是實體屬性和關系,事理圖譜則是事理邏輯關系以及概率轉移信息。事件間的演化關系多數是不確定的,而實體之間的關系基本是穩定的。endprint
5.3 人機交互技術
運用自然語言問答、大數據可視化、知識圖譜化、地圖GIS化等手段,提供大量方便的人機交互接口,實現人與機器的完美融合以及人與人之間的協同工作。智能情報分析系統對情報分析人員提供全文位的精準檢索與面向問題的智能問答,支持面向文檔的主題檢索、屬性特征檢索以及面向問題的語義檢索,支持面向技術方案、產品市場、機構人員的精準檢索。輔助情報分析人員快速準確地找到問題的關鍵,問題的支撐數據、基本面數據、核心情報數據。通過檢索引擎,為情報人員提供從海量數據中尋找蛛絲馬跡的服務。通過人機接口,提供語音輸入,基本實現面向領域問題的人機對話等。通過可視化技術實時展示各種信息分析結果,包括知識圖譜、社會網絡關系、大數據分析結果等。通過集成研討廳支持多面板同時展示,支持研討廳大屏、辦公電腦中屏以及移動端小屏多級展示,可以同時展示情報分析各要素及要素之間的關系,可以展示歷史演進過程,可以對未來的場景以及場景變化進行仿真模擬。
5.4 自然語言處理技術
智能情報分析系統所處理的數據對象很多是文本格式的,如論文、專利、新聞、政策等。智能情報分析系統的有些支撐資源也是文本格式的,如知識庫;情報分析系統的自然語言檢索接口、人機對話接口也是以自然語言為媒介的,而這些問題的解決都需要自然語言處理技術的支撐。自然語言處理已經成為一種應用賦能技術,隨著實體知識庫的構建、知識抽取和自動寫作在特定領域的實用化和對話機器人從對接語料到對接知識圖譜的換代,通過新一代人工智能創新創業團隊,全面滲透到人工智能應用的各個角落。自然語言處理從淺層到深層面臨范式轉換,還處在對接情感計算與常識計算的戰略性要地的關鍵位置。
自然語言處理技術的應用場景甚廣,大致可分為分析型、生成型和交互型三類。輿情監控系統是典型的分析型系統;報告撰寫系統是典型的生成型系統;各類聊天機器人是典型的交互型系統。從計算的角度,文本的向量化是跨越統計和聯結兩大陣營的。基于統計的向量化方法是潛在語義索引(LSI)模型,基于聯結的向量化方法是詞嵌入(Word embedding)模型,前者具有保距離特性,后者具有保運算特性而且可與任務派生的優化目標深度耦合。目前,嵌入技術已經不局限于詞,也可以整結構、整句嵌入了。但是總體上,當前技術能夠大規模處理的,仍然只是具有 “淺層句法” 或者 “簡單標記” 的 NLP 任務。更復雜語言現象的理解、更復雜語義關系的抽取,仍然任重道遠[21]。
5.5 新型計算技術
新型計算技術包括語義計算、屬性計算、情景計算、差異計算以及信號計算。由主題計算轉向屬性為主的分面計算以及面向任務的場景計算為主。信息檢索、知識主題圖、熱點分析、文本聚類、信息抽取、潛在語義索引、神經網絡、LDA模型,雖然帶有一定的語義計算,但本質上還是以關鍵詞為核心要素的計算,是通過詞語為特征構建相應的向量實現語義計算。目前的神經網絡主要對特征起反應,尚不能對語義起反應,也就是說,即使機器做出了正確的選擇,但可能并不理解業務本身。在計算機圖像識別中,可以通過大量的訓練樣本及學習,感覺到數據的特征并接近目標,識別出新圖片中的貓,但計算機并不能很好地理解究竟什么是貓,這一點與人的認知還是有一定區別的。在谷歌的機器翻譯中,采用Seq2Seq與注意力機制,雖然大多數情況下翻譯的也很好,但這種端到端的學習難以解決語義的問題。深度學習需要大量的訓練數據,其機制與結果的解釋性并不強,神經網絡的隱含層就像黑箱一樣,內容不為人所知。在計算的粒度上,主題計算更多地關注名詞或動詞等反映內容的實體詞,而涉及到情感、趨勢、傾向、個性化等分析往往需要更多地關注特征計算或屬性計算,需要更多地關注形容詞或副詞等修飾詞。如何面向問題與用戶場景去加載數據、構建模型,這些情景計算技術也是智能情報分析系統的關鍵技術之一。
傳統的計算更多地計算數據之間的共性與關聯關系,如關聯規則、聚類分析、社會網絡分析、向量空間模型等都是計算數據對象之間的共性特點。這些計算得到了很好地發展與應用,技術進步與方法研究已相對比較成熟。在信息量巨大的情況下,找出一些共性與關聯并不總是很有效,由文檔間的共性關聯計算轉向差異性對比計算將成為一個新的嘗試。通過差異性對比,識別出新需求、新產品、新理論、新方法、新技術、新方案會助力現代科技情報工作[22]。在未來趨勢分析以及場景分析時,有些弱的信號也能逐步變強,成為事情的主導力量或因素,這要求對信號分析也要有深入研究與持續跟蹤。語義計算、屬性計算、情景計算、差異計算以及信號計算這些新型計算技術也將成為智能情報分析系統能否切合需求、發揮作用的關鍵技術。
6 結語
隨著數據累積量的不斷加大與數據結構類型的復雜多樣,新興信息技術包括深度學習(如云計算機技術、深度學習算法、各類數據挖掘算法以及自然語言技術的提高)以及用戶對情報需求的要求不斷提高,情報系統必然會朝著智能方向發展,這既是時代特點的展現,也是行業發展的必然要求。按照圖靈所提出的標準,情報用戶對收到的情報報告難以判斷出報告的撰寫是由人還是由機器完成的,這份報告就成功地欺騙了人,實現了真正的智能。
但是,必須清楚地認識到,在情報系統方面實現人工智能還有很長的路要走。智能取代部分工作是發展的趨勢,但不會是全部。與棋譜游戲、圖像識別等當前流行的人工智能領域相比,情報分析領域的目標更加復雜,在機器學習運用方面也缺乏足夠的情報案例訓練數據,還有情報分析需要語義空間而不是特征空間,由于這些困難的存在,使得人工智能在情報領域的廣泛應用充滿了挑戰。
情報行業必須認清情報分析系統智能化的趨勢,需要勇于接受這個挑戰,把握住歷史發展的機遇,及時跟蹤并運用大數據與智能技術,面向社會發展與應用需求,認真研究情報行業特點與規律,運用新的技術去解決行業共性與關鍵問題,扎實推進情報分析水平與服務。endprint
參考文獻:
[1] 徐宏宇.新智能時代顛覆情報的未來——訪中科院自動化研究所復雜系統管理與控制國家重點實驗室主任王飛躍[J].競爭情報,2017,13(4):4-7.
[2] 林崇德,楊治良,黃希庭.心理學大辭典.上海:上海出版社,2003:1704.
[3] 王崇德.關于情報學[J].情報理論與實踐,1996(5):1-2.
[4] Brookes B C.The foundations of information science:Part I. Philosophical aspects[J].Journal of Information Science and Engineering,1980(2):125-133.
[5] 錢學森.科技情報工作的科學技術[J].情報理論與實踐,1983,6(6):3-10.
[6] 池建文.論情報的兩個基本問題[J].情報學報,2006,25( S1):290-293.
[7] 王忠軍,于偉,楊晴.科技情報機構實踐創新發展專家訪談[J].情報理論與實踐,2017,40(12):145.
[8] 王延飛,趙柯然,陳美華.情報研究中的治學思考[J].圖書情報工作,2017,61(16):55-59.
[9] 李廣建,楊林.大數據視角下的情報研究與情報研究技術[J]. 圖書與情報,2012(6):1-8.
[10] 張志強.論科技情報研究新范式[J].情報學報,2012,31(8):788-797.
[11] 賀德方.工程化思維下的科技情報研究范式——情報工程學探析[J].情報學報,2014,33(12):1-13.
[12] 喬曉東,朱禮軍,李穎,等.大數據時代的技術情報工程[J].情報學報,2014,33(12):38-53.
[13] 蘇新寧,朱曉峰.面向突發事件應急決策的快速響應情報體系構建[J].情報學報,2014,33(12):53-77.
[14] 李綱,葉光輝.網絡視角下的應急情報體系“智慧”建設主題探討[J].情報理論與實踐,2014,37(8):51-55.
[15] 李綱,李陽.情報視角下的突發事件監測與識別研究[J].圖書情報工作,2014,58(24):66-72.
[16] 王飛躍.知識產生方式和科技決策支撐的重大變革——面向大數據和開源信息的科技態勢解析與決策服務[J].中國科學院院刊,2012,27(5):527-537.
[17] 北京市科學技術委員會[EB/OL].[2018-01-13].http://www.bjkw.gov.cn/wzwj/2017chushen/src/I01-2017-030.html.
[18] 化柏林.論情報的本質[J].情報理論與實踐,2012,35(7):1-5.
[19] 增強學習、增量學習、遷移學習——概念性認知[EB/OL].[2017-12-23].http://blog.csdn.net/zyazky/article/details/51942135.
[20] 張智雄,吳振新,劉建華,等.當前知識抽取的主要技術方法解析[J].現代圖書情報技術,2008(8):2-11.
[21] 白碩:人工智能的詩與遠方,一文讀懂NLP起源、流派和技術[EB/OL].[2018-01-11].http://www.sohu.com/a/215995721
_473283.
[22] 化柏林.科技信息大數據在情報研究服務中的應用[J].圖書情報工作,2017,61(16):150-156.
作者簡介:化柏林,男,北京大學信息管理系助理教授,博士;李廣建,男,北京大學信息管理系教授,博士生導師。endprint