武瑞敏 張志強



摘? ?要:大數據時代,新興前沿技術的迅猛發展對網絡計量學提出了新的發展要求,文章在學科信息學的學科體系框架下提出了一個全新的概念——“網絡信息學”。從網絡信息學興起的背景出發,概述了從網絡計量學到網絡信息學的發展過程;明確了網絡信息學的概念內涵、數據基礎以及關鍵理論方法技術;重點剖析了在網絡信息學框架下,重要跨學科領域的知識發現、學術影響力與競爭力評價等四個方面的知識發現前沿與進展。并由此提出,網絡信息學利用新興前沿信息技術挖掘網絡大數據以揭示有價值的知識,是網絡大數據時代的網絡數據挖掘與知識發現學科,也是網絡信息研究新范式的支撐學科,但其發展也存在諸如網絡大數據質量的控制、專門技術工具的發展等方面的關鍵問題。隨著網絡信息學的深入發展,未來網絡大數據知識庫、網絡信息學專門技術工具及其應用領域都將得到蓬勃發展,網絡信息學也或將成為學科信息學的領頭學科。
關鍵詞:網絡信息學;學科信息學;網絡計量學;大數據;數據挖掘與知識發現
中圖分類號:G201? ?文獻標識碼:A? ?DOI:10.11968/tsyqb.1003-6938.2023009
Abstract In the big data era, the rapid development of new frontier technologies has put forward new requirements for the development of webometrics. So,we put forward a new concept here under the framework of the"subject-informatics",which is"cyber-informatics". Starting from the background of the rise of cyber-informatics, this paper introduces the development process from webometrics to cyber-informatics. Secondly, the definition, data basis and key theories and methods of cyber-informatics are clarified. Finally, the research advances of knowledge discovery in interdisciplinary field, academic influence and competitiveness evaluation of cyber-informatics is analyzed.Cyber-informatics is a subject of network data mining and knowledge discovery in the era of network big data, and a supporting subject of the new paradigm of network information research. However, there are still some key problems, such as the quality control of big data and the development of specialized technical tools. With the further development of cyber-informatics, the knowledge base of network big data, the specialized technical tools of cyber-informatics and its application fields will be vigorously developed in the future.In addition cyber-informatics may become the leading subject of subject-informatics.
Key words? cyber-informatics; subject-informatics; webometrics; big data; data mining and knowledge discovery
在大數據時代,大數據的“5V”特征[1]加劇了網絡信息的復雜性、集合性和交叉性,同時,互聯網+、新興前沿計算機、大數據等技術的迅猛發展,突破了人腦的計算速度與耐力限制,可以彌合大量可用知識與人的能力有限之間的差距。以網絡信息為研究對象的網絡計量學深受沖擊與影響[2],傳統的網絡計量學利用文獻計量學的理論方法對小數據的定量描述與統計分析已經不足以支撐網絡大數據之間復雜關聯關系、模式結構以及重要隱性知識的揭示。因此,網絡計量學必須向前發展,以適應在大數據與人工智能等前沿技術融合的復雜信息環境中開展網絡數據信息分析與重要知識發現的研究任務。
此外,在科學研究進入數據密集型研究的第四范式的大背景下,張志強和范少萍提出了一個統一的學科概念——“學科信息學”(Subject informatics),認為其是應用信息科學與計算科學的技術、手段與方法,進行科學數據收集、存儲、處理、再分析、可視化和知識發現,從而創造新知識、發現新方法、提供學科戰略決策咨詢的交叉性學科,重點突出了對學科信息、數據的計量分析與挖掘分析[3]。
在上述雙重背景下,基于網絡計量學與網絡大數據分析的專門學科信息學——“網絡信息學”(cyber-informatics)應運而生。一方面,網絡信息學是網絡計量學的新發展,是網絡大數據時代的新型網絡計量學,是網絡計量學在大數據和前沿技術浪潮的沖擊下煥發出的新的生命力;另一方面,網絡信息學是網絡大數據分析與知識發現的專門學科信息學,是學科信息學在網絡信息計量分析、數據挖掘與知識發現領域的具體化表現,是大數據時代基于網絡大數據開展知識發現的新型數據分析型學科。文章旨在分析研究網絡信息學的興起、內涵、研究內容、應用實踐及其未來發展。首先在概述網絡信息學興起背景的基礎上,介紹網絡信息學的內涵及其理論方法技術;其次,從重要跨學科領域知識發現、學術影響力與競爭力評價、重要信息的檢測與識別和面向決策咨詢的網絡大數據預測分析等四個方面闡述了網絡信息學知識發現的研究進展;最后,對網絡信息學的發展進行了總結與展望。隨著數據分析與信息技術的快速發展,網絡信息學將成為探索網絡虛擬世界未知的有力工具。
1? ?網絡信息學發展概述
1.1? ? 從網絡計量學到網絡信息學
一般認為,網絡計量學(webometrics)由阿曼德(Almind)和英格維森(Ingwersen)于1997年提出,即將文獻計量方法用于“萬維網”上信息的計量研究[4]。1998年,英格維森提出了利用網頁的影響因子對一段時間內網頁瀏覽關注情況進行分析,這對網絡計量學的發展起到了十分重要的作用[5-6],網絡計量學也逐漸從傳統的信息計量學脫離出來成為一門獨立的新興學科。
國內網絡計量學的研究以1999年徐久齡等的研究[7]為開端(網絡計量學在我國的發展歷程見圖1)。2000年,“webometrics”首次被譯為“網絡信息計量學[8],并被定義為“采用數學、統計學等各種定量研究方法,對網上信息的組織、存儲、分布、傳遞、相互引證和開發利用等進行定量描述和統計分析,以便揭示其數量特征和內在規律的一門新興分支學科”[9]。隨著理論和實踐的發展,2010年,網絡計量學理論、方法和應用被系統研究,也統一了將“網絡計量學”這一更廣泛的概念作為學科命名[10],名稱的統一,標志著我國網絡計量學的研究趨于成熟。經過20余年的發展,網絡計量學研究隊伍不斷壯大,成果不斷豐碩,豐富了我國網絡計量學的理論、方法以及應用,形成了一套完整的理論體系。
網絡計量學的發展與網絡環境的變遷和網絡結構的演化息息相關,隨著云計算、互聯網+、大數據技術的興起,網絡計量學面臨許多新的挑戰[11]。過去,網絡計量學的研究普遍是通過網絡小數據以既定的方法和分析模式實現的,小數據的特征是為回答特定問題而量身定制的抽樣數據[12]。大數據時代,網絡計量學面對的已不僅僅是單方面的數據,還有海量、無序、多樣、異構的網絡大數據集合單元,傳統的網絡計量學研究方法面對網絡大數據顯得力不從心。與此同時,人工智能等前沿技術在大數據挖掘與知識發現中的應用越來越深入,通過復雜計算能夠發現無法通過有限檢索策略與傳統分析方法發現的隱藏在大數據中的各種潛在相關模式。
網絡信息學便在大數據和前沿技術浪潮中應運而生。如果說,網絡計量學試圖利用小數據從狹窄的縫隙中開采“黃金”,那么網絡信息學便是試圖利用大數據通過最先進的機器通過露天開采、挖掘和篩選大片土地來開采“黃金”。
1.2? ? 網絡信息學的內涵
1.2.1? ?網絡信息學內涵界定
科學史告訴我們,任何科學的產生和發展都是由一定的科學背景和特定條件所決定的[13]。結合網絡信息學興起的時代與技術背景,網絡信息學的內涵可以概述為:(1)研究對象為網絡大數據,具體有網絡公共知識庫、以網絡資源為基礎的新一代知識庫、搜索引擎、社交媒體以及網絡上存在的其它有價值的數據與行為印跡的數據集等;(2)核心是挖掘并研究網絡大數據中潛藏的有價值的信息與知識;(3)技術方法支撐是深度學習等新興計算機技術、通信技術、數學理論與方法等,涉及數據的挖掘、加工、分析等全過程;(4)學科基礎為網絡計量學、學科信息學、信息科學、知識發現、計算機科學、數據科學、網絡科學、復雜性科學等;(5)研究目的主要是:揭示網絡大數據間蘊含的重要的隱性知識、識別科學研究中的重要趨勢與機制、重要信息的監測與識別、面向決策服務的網絡大數據的預測分析等。
基于此,網絡信息學可以定義為:是利用數學理論與方法、計量學方法和計算機科學(深度學習、神經網絡)等多學科的技術方法,對海量網絡信息進行知識挖掘和知識發現研究,揭示網絡大數據中潛藏的有價值的信息與知識的一門新型數據分析學科。
此外,網絡信息學是一個新概念,目前還沒有英文譯名,由于網絡計量學的英名稱為“webometrics”[4]或“cybermetrics”(1997年由西班牙科學信息與文獻中心創辦的期刊得名),而學科信息學的英文名稱為“subject informatics”[3]。因此,基于“X-informatics”學科群的理論,此處將“cyber-informatics”作為網絡信息學的英文表達(“webo”是一個沒有單獨的含義詞根,為了保持學科群格式的一致,此處不考慮“weboinformatics”)。
1.2.2? ?網絡信息學相關概念辨析
為了厘清網絡信息學相關概念的繼承關系以及辨析各個概念之間的界限,此處使用維恩圖(Venn diagram)來直觀展示(見圖2)。
首先,網絡信息學根植于網絡計量學,屬于網絡計量學內容體系的一部分,是網絡大數據時代的新型網絡計量學;其次,學科信息學學科群分為專門領域學科信息學(醫學信息學、生物信息學等)和工具型學科信息學(政策信息學、專利信息學等)兩大類別,網絡信息學作為學科信息學在網絡信息計量分析、數據挖掘與知識發現領域的具體化表現,是工具型學科信息學體系中的重要一支。
1.3? ? 網絡信息學的數據源及方法工具
1.3.1? ?數據來源
網絡信息學的研究基礎是各類網絡大數據集合單元,如網絡公共知識數據庫、以互聯網資源為基礎的新一代知識庫、行業/領域垂直知識庫、個人自建知識庫、搜索引擎、社交媒體以及網絡上存在的其它有價值的數據與行為印跡的數據集等。由于搜索引擎和社交媒體是傳統的網絡計量學以及補充計量學(altmetrics)的研究數據源,在此不做詳細介紹。
(1)網絡公共知識數據庫。數量龐大的可用知識使得人類無法閱讀甚至訪問全部知識,適當地挖掘公共知識數據庫(如維基百科Wikipedia)可以使我們超越這種限制,揭示遙遠的學科內容元素之間驚人的關系[14]。這類公共知識庫是由人工或專家構建的知識庫,如維基百科(Wikipedia)、百度百科、概念網(ConceptNet)、詞匯網絡(Wordnet)等。
(2)以互聯網資源為基礎的新一代知識庫(知識圖譜)。從蒂姆·伯納斯·李1998年提出語義網至今[15],涌現出大量以互聯網資源為基礎的新一代知識庫,這些知識庫以“主語、謂語、賓語”三元組的形式表示并儲存了海量對象的結構化信息[16](見表1)。
(3)領域垂直知識庫。垂直領域知識庫是針對某個學科領域、某個行業或者是某種媒體類型而構建的,根據某個學科領域/行業/媒體類型的數據來構建的知識庫,相比于通用知識庫,更強調知識的深度,其數據來源相對較窄(國內外代表性的領域垂直知識庫見表2)。
除了上述數據源外,網絡上還存在大量的個人自建的知識庫(如利用Trilium建立個人維基、Baumard等建立的古代文學小說數據庫[18]等),這類知識庫數據量大、覆蓋面廣且往往是利用網絡爬蟲等技術來獲取數據,因此也可作為網絡信息學數據挖掘與知識發現的數據源。
1.3.2? ?網絡信息學理論方法技術
網絡信息學的研究,需要采用恰當的理論支撐與方法技術,除了網絡計量學的基本理論以及所常用的連接分析法、統計分析法以及圖論分析法等以外,根據當前國內外研究發展來看,方法技術主要有復雜網絡、數據挖掘與知識發現、深度機器學習以及常用的網絡大數據挖掘與分析工具等。
網絡信息學框架下網絡大數據分析的理論方法技術框架,主要分為四大類(見圖3):一是信息科學(計算機科學、統計學、信息學、信息論等),是網絡信息學開展研究的理論基礎與保障;二是網絡科學(復雜網絡),自21世紀以來,隨著可計算設備和互聯網的飛速發展,人們開始收集和處理大規模的實際網絡數據,涌現出許多基于復雜網絡理論的應用研究[19-20],復雜網絡為洞見網絡大數據之間的復雜關系提供了一種系統的、整體的視野;三是數據挖掘[21]與知識發現[22],基于算法的知識發現技術(在人工智能、信息檢索、數據庫、統計學、模糊集和粗糙集理論基礎上發展起來的)和基于可視化的知識發現技術(在圖形學、科學可視化、和信息可視化的理論基礎上發展起來的)實現了對海量網絡信息的挖掘與信息間的聯系的發現。其中,人工智能的核心技術是深度機器學習[23-24],該技術應用于數據挖掘與知識發現,能夠很好地解釋隱藏在數據中極為錯綜復雜的結構或模式,并找出表示數據的最佳方式[23];四是網絡大數據挖掘與分析工具,在網絡信息學框架下,對于從事數據挖掘與分析的人員來說,除了掌握理論方法,還需要學習和了解各種類型的數據分析與挖掘工具,隨著技術的愈發成熟、軟件的迭代,當前可以選用帶有不同算法的工具來進行數據分析與挖掘(常用的數據挖掘與分析工具以及機器學習工具見表3)。需要注意的是,大多數數據挖掘和分析工具或方案以及機器學習工具,都用到了R和Python兩種主要編程語言。
2? ?網絡信息學學科框架下的知識發現前沿與進展
當前,已經有很多研究人員基于網絡大數據的挖掘分析來進行知識發現研究,網絡信息學的提出則為這些實踐提供了學科理論基礎,并為這些研究找到了學科歸屬。在網絡信息學框架下,這些研究涉及了知識發現、識別、評價、預測等各個方面,本節主要介紹網絡信息學學科框架下,重要跨學科領域知識發現、學術影響力與競爭力評價、重要信息(網絡輿情、虛假信息、國家安全情報等)的監測與識別以及面向決策咨詢的網絡大數據預測分析等方面的知識發現研究進展。
2.1? ? 重要跨學科領域知識發現
近幾十年來,人們提出了不同的方法來探究不同學科領域的知識聯系[25-29],但跨學科研究仍然缺乏在不同學科之間建立定量聯系的有效工具。在網絡信息學的框架下,適當技術工具地應用可能導致隱藏在大數據網絡中的知識自現,不僅可以顯示學科間的知識流動,還可以量化連接不同知識領域的元素的個體和集體行為。
Schwartz利用維基百科中的數據對愛因斯坦(Einstein)和畢加索(Picasso)在20世紀初的作品之間的關系,回答了畢加索幾乎在愛因斯坦發表相對論的同時發展了立體主義是否是巧合、是否回答了同樣的問題、是否受到相同人物/作品的的影響的問題[14]。類似的,Baumard等建立了一個覆蓋3800年、77個歷史時期以及19個地理區域的古代文學小說數據庫來研究了愛情在文化史中的演變,揭示了經濟發展水平越高,敘事小說中的愛情元素出現頻率就越高的現象[18]。Lai等使用中國銀聯支付網絡的高頻精細數據研究了溫度沖擊對消費的影響,表明溫度與消費之間呈倒U型關系[30]。Yin等使用Overton數據集揭示了應對新冠疫情相關的政策文件占比能反映出病例數量的變化,提供了科學研究為政策提供信息的科學證據[31]。此外,清華大學電子系數據科學與智能實驗室聯合斯坦福大學、哈佛商學院等研究機構基于國內社交電商之一的貝店網站(https://beidian.com/)的千萬用戶的購買數據的系列研究,系統揭示了以社交電商為代表的社會關系與經濟行為耦合新范式[32-38]。
2.2? ? 學術影響力與競爭力評價
學術影響力與競爭力體現了科研人員在所屬科研領域中的學術地位及其研究成果所具有的科研學術價值,也體現了在被學術同行、專家群體外的社會大眾所認知和了解的程度[11]。長久以來,學術界對于論文質量的評價,往往基于引文提出各類指標,如引用頻次、h指數(h-index)和期刊影響因子(journal impact factor,JIF)等,這類指標只能提供不完善、不一致且容易操縱的研究質量度量,并不能代表論文的質量或潛力。當前科研成果發表數量的激增,使得科研人員需要花費大量的時間尋找有價值的研究方向,去進行更有突破性的研究。
在網絡信息學框架下,可以借助機器學習利用多源異構更大體量的數據去評價科研成果的價值。經由機器學習,可以綜合利用多個網絡的指標,為研究者指出最新研究中有潛力的那部分,以輔助科技管理決策,從而提升科研決策的效率。Weis和Jacobson利用千萬級別的科技文獻數據,基于復雜網絡模型構建了一種機器學習框架——DELPHI模型,可以通過分析從科技文獻中計算得到的一系列特征之間的高維關系來預測未來可能的“高影響力”研究[39]。Wang等借助科研資助數據構建了評估科學影響力的模型GImpact來評估科學影響力[40]。Wen和Deng基于網絡大數據,提出了一種通過局部信息維度識別復雜網絡中節點影響力的新方法,實驗結果表明了該方法的優越性,該研究為高效識別復雜科研網絡中有影響力的節點提供了新的思路[41]。Li等基于Microsoft academic graph中的數據構建科研合作網絡,研究了科研合作網絡中個體研究人員生產力和影響力的網絡效應[42]。
2.3? ? 重要信息的監測與識別
2.3.1? ?基于深度學習的網絡輿情的檢測與分析
互聯網已經成為人們日常生活中獲取信息的重要方式,截至2021年12月,我國網民規模為10.32億,人均每周上網時長為28.5個小時[43]。作為一個開放的平臺,互聯網也為公眾提供了一個多元開放的輿論環境,促進了公眾輿情觀點表達以及傳播,積累了海量復雜的網絡輿情數據。這類數據中匯聚了眾多對社會發展有益的觀點,也存在著對社會穩定具有潛在威脅的信息,因此有必要對網絡輿情大數據進行有效檢測與分析。
越來越多的證據表明,人類情感也會在網絡社交媒體中傳播,然而這種情緒傳染的潛在機制在過去由于很少被研究。隨著社交媒體用戶群體不斷擴大,其累計的數據也越來越龐雜,加之人工智能等技術的愈發成熟,對網絡用戶情緒的分析引起了研究人員的關注。許峰和張柳均嘗試設計并構建情感識別模型以用于實際的網絡大數據輿情檢測與分析[44-45]。Fan等、Hossny等基于社交媒體(微博、推特等)的百萬推文研究社交媒體中的弱關系加劇了憤怒情感的蔓延[46-47]。Xie等建模分析了由1億用戶形成的網絡結構以及18萬多的用戶的傳播行為數據并輔以大量推特(Twitter)數據。研究發現,社交媒體聲音集中程度和正反饋效應都被以往輿情檢測大大低估,龐大的社交網絡將進一步加劇人們通過社交媒體表達觀點的失衡[48]。
新冠肺炎疫情對人們生活生產的方方面面產生了重要影響,并引發世界輿論的廣泛關注,研究網絡用戶對于新冠肺炎疫情的態度及其隨著時間的變化,有助于政府及時掌握真實社會輿論情況,科學高效地做好疫情防控宣傳和輿情引導工作,對此研究人員進行了大量的相關研究。Kruspe等和chandra等均嘗試利用自然語言處理(NLP)和深度學習技術,檢測和分析了新冠大流行期間推特億萬的推文所表現出來的情緒[49-50]。Wang等基于100多個國家的6.54億條帶有地理標簽的社交媒體帖子開發了一個表達情感指數的全球數據集,以跟蹤國家和國家以下級別的日常情感狀態,研究表明社交媒體數據與機器學習技術相結合時,可以提供對人們情感狀態的實時測量[51]。
2.3.2? ?網絡虛假信息甄別與分析
虛假信息是指向目標個人、群體或國家傳遞、提供或確認的虛假、不完整或誤導信息(RAND,2021)[52],社交媒體和互聯網的普及以及人工智能、社交機器人的興起,使得虛假信息能夠以前所未有的速度傳遞給目標受眾。2016年美國大選中,特朗普利用新型社交媒體開展競選活動并獲得勝利使世界開始意識到網絡虛假信息的嚴重欺騙性。
在網絡信息學的框架下,基于網絡大數據利用人工智能新技術建立自動檢測框架以快速檢測和識別虛假信息、抵制“信息操縱”、防止虛假信息收割民智已經引起相關研究人員高度關注。Cao等提出了一種基于圖的方法Sybil Rank以識別社交機器人進而檢測社交網絡海量信息中的虛假信息[53]。Wang等、Sharma等都積極探索開發基于深度神經網絡的模型來從海量網絡新聞中識別網絡虛假信息[54-55]。此外,Shu等利用Buzzfeed和Pllotifact兩個新聞網站的數據進行分析,發現新聞源以及新聞作者可以成為網絡新聞可信度監測的一個有力指標,該方法可以改進傳統以內容特征進行虛假新聞檢測的方法[56]。
2017年,一位名叫“Deepfakes”的用戶在美國Reddit網站上分享了篡改人臉的色情視頻,將深度偽造技術帶到了大眾面前并引起了研究深度偽造技術的熱潮,但是深度偽造技術在帶來新奇的同時也帶來了非常大的隱患,通過制造虛假視頻、虛假音頻進行誣陷、誹謗、詐騙、勒索等違法行為和事例已屢見不鮮[57]。為此,越來越多的研究者開展了深度偽造的音頻、視頻識別展開深入研究,基于 CelebA、FaceForensics、UADFV、WildDeepfake等深度偽造數據[58-61],提出識別檢測深度偽造信息的方法,如Mo等、Li等、Nguyen等均基于以上數據集嘗試通過深度神經網絡來檢測識別別偽造圖像和視頻[62-64]。
2020年初,世界衛生組織(WHO)宣布全球正在陷入信息流行病(Infodemic[65])。虛假信息的傳播已對公共衛生和新冠肺炎疫情的成功管控構成很大的威脅[66],現在比以往任何時候都更需要找到方法來揭穿、糾正以及分析網上的虛假信息。Wang等[54]設計并收集了一個帶不同的注釋的新型冠狀病毒肺炎推特數據集,其中包含了可用于檢測和分析虛假信息的檢測模型。Gallotti等、Johnson等和張帥等收集了新冠肺炎疫情流行期間社交媒體上的與新冠肺炎疫情有關的信息,發現社交網絡中關于疫情的信息大多是未經驗證的、錯誤的,且虛假信息的傳播更為分散[67-69]。這些發現既為有關部門治理疫情相關網絡虛假信息提供了有益參考,也為相關平臺遏制網絡虛假信息的傳播提供了有效途徑。
2.3.3? ?基于網絡開源信息的國家安全情報監測與分析
開源情報(OSINT)是利用對公開數據和信息的搜集、處理、分析而成的情報[70]。開源情報近年來獲得了相當顯著的地位[71-73],其對一個國家的戰略決策、軍事領域、科研活動、社會經濟等都有強大的支持價值。
基于開源的網絡大數據,利用人工智能等先進的技術手段監測與分析威脅國家和社會安全的情報也成為了網絡信息學研究的一個熱點。Lindley通過類比凝膠來描述人類社交網絡群體建立了網絡群體模型以識別極端恐怖組織,這一研究為檢測與識別網絡信息中存在的威脅國家、社會穩定與安全的情報提供了一個很好的機制[74]。Dionísio等提出了使用深度神經網絡對推特(Twitter)進行開源威脅情報監測[75]。崔琳等深入分析了威脅情報挖掘的一百多篇相關文獻,提出了一個基于網絡海量信息,挖掘網絡開源威脅情報的分析框架,集成了多種計算機技術對多源的網絡數據進行挖掘與分析,已有絕大部分開源威脅情報挖掘的研究工作都可以納入到該框架中[76]。
2.4? ? 面向決策咨詢的網絡大數據預測分析
預測是決策的基礎,是進行科學決策的前提條件,預測為決策服務。數據的核心是“預測”,即基于海量數據的數學運算來“預測事物發生的可能性,從而成為新發現、新發明和新服務可能的源泉[3]。網絡信息學框架下,科研人員基于海量的各行業數據(如城市時空流量數據、環境數據、氣候數據、移動數據、科研數據、經濟數據等),利用深度學習等技術方法,提出了大量的預測模型以期為決策提供參考。
隨著城市化進程的發展,基于預測的城市規劃成為城市科學一個新型研究熱點,Gong等和京東智能城市時空AI團隊均基于真實的城市交通流量數據構建了能夠動態預測城市交通流量、區域客流量的深度神經網絡框架,為城市交通規劃(如地鐵修建)以及智能城市化應用建設提供了一定的決策參考和前期支撐[77-79]。Verbavatz和Barthelemy基于真實城市人口數據,構建了一個能夠精準預測城市人口數量變化并解釋城市人口分布狀況的數學模型,該模型能夠動態地預測,在一個較長的時間尺度內,哪些城市可能會衰敗,又有哪些城市的人口會增長,對城市規劃與城市基礎建設具有重要的參考意義[80]。
隨著計算科學、網絡科學和統計學在氣候建模和預測方面的作用變得越來越重要,應用機器學習研究預測氣候問題,幫助解決氣候危機的相關性已經引起科研人員的注意。Amato等基于空間不規則分布的時間序列數據提出了一種基于深度學習的氣候和環境數據時空預測框架[81]。Ludescher等利用歷史上觀察到的火災相關時空變量提出了一個機器學習模型來約束預測并揭示森林火災增加帶來的全球社會經濟風險[82]。Xu等挖掘了近年來出現的大量人口、土地利用和氣候信息數據,搜集了過去幾千年人類生活的氣候條件資料,對人類氣候宜居帶進行了分析和預測,研究結果預言了如果按照當今的碳排放軌跡,未來50年間,會有35億人的生存由于全球變暖而受到嚴重威脅[83]。
此外,基于網絡大數據的預測也體現在科研合作、科研機構影響力預測、商業分析等方面。Bai等利用Microsoft Academic Graph的數據,并基于XGBoost模型構建了一個綜合考慮多種因素的新的預測模型來預測科研機構的影響力[84]。Filletti和Grech通過挖掘真實的財務數據以及行業新聞文章報道提出了一個用于預測公司破產的框架[85]。Bonaventura等通過由crunchbase提供的1990-2015年期間全世界的創業公司數據,構建了全球初創企業之間的關系網絡——WWS網絡。該網絡對公司的長期潛力進行無風險的的評估,借此模型投資人和政策制定者能夠對創業公司的長期潛力進行更客觀地評估并進行相應的干預措施[86]。
3? ?結語與展望
3.1? ? 網絡信息學發展總結
當前,大數據與計算機技術的融合在情報學的應用已經成為了當前情報學實踐發展方向與發展趨勢。網絡信息學提出了利用前沿計算技術挖掘網絡大數據的方法來揭示有價值的知識,為人們從海量網絡信息中挖掘隱含的知識提供堅實的理論方法支撐,是網絡信息研究新范式的支撐學科,支撐科研人員發現重要跨學科知識、檢測識別重要信息和模式、識別學科領域研究新興前沿以及創新科研評價方式等。
同時,網絡信息學借助海量的網絡信息資源和前沿計算技術,能夠比較準確地揭示出客觀事物運行中的本質聯系,勾畫出未來事物發展的基本輪廓,使研究者具有戰略眼光,提出各種可以互相替代的發展方案,使決策有了充分的科學依據。
3.2? ? 網絡信息學發展展望
3.2.1? ?網絡信息學發展的關鍵問題
網絡信息學的概念才剛提出,正處于學科發展的起步階段,在其發展過程中必然會產生諸多難以預料的問題。
首先,保障和控制網絡大數據的數據質量對于網絡信息學發展是關鍵基礎,也是迫切需要有效解決的關鍵問題,盡管已有各種研究提出各種模型來[87-90]來嘗試控制數據質量,但是,大數據的“5V”特征以及數據模式高度復雜化,導致保證數據質量暫時還沒有非常行之有效的措施;其次,探索開發面向非程序員的技術門檻低、通用的、開源的大數據分析工具,也是網絡信息學發展面臨的關鍵問題。機器學習、深度學習等人工智能技術的應用需要一定的計算機學科專業背景知識,這使得多數不具備相關技能的相關領域的研究人員受困于技術門檻,不利于推動網絡信息學的向前發展;再次,專業人才的培養是學科發展的關鍵要素,隨著網絡大數據類型愈加多樣化和立體化、結構和模式愈加復雜化,對于網絡數據的挖掘分析會越來越依賴于大數據挖掘技術、機器學習等人工智能技術,這對網絡信息學研究人員的能力提出了更高的要求;最后,與專業領域知識相融合的網絡大數據的分析才是知識發現的前提,網絡信息學作為一種方法和工具性學科,其必須應用到有關的專門專業領域中的數據分析與知識發現。因此,從學科和領域等專業角度出發,合理且最大化地利用專業知識解釋大數據之間的關聯關系,是網絡大數據充分發揮價值的前提,也是網絡信息學發展應用的關鍵環節。
3.2.2? ?網絡信息學發展前瞻
網絡信息學以網絡大數據為數據基礎,是網絡信息研究新范式的支撐學科。隨著實踐的不斷深入,未來,網絡信息學的理論框架、方法工具、應用領域、人才隊伍都將快速且持續的發展完善。
一是網絡信息學或成為信息學的領頭學科。網絡信息學學科作為一門工具型學科,網絡信息理論方法與技術工具可以移植到其它的專門領域學科信息學中為其所用,助力其發展;二是網絡大數據知識庫將蓬勃發展,大數據的“5V”特征使得有必要對網絡信息和知識進行實時動態的大規模的收集和整理,將某類網絡大數據通過組織使之成為不斷動態更新的網絡大數據知識庫;三是網絡大數據挖掘的相應技術與工具不斷開發,未來,在網絡大數據分析的強勁需求驅動下,需要開發專門的、技術門檻低的網絡信息學專門技術工具以支撐網絡信息學的研究人員更好地開展研究;四是網絡信息學研究應用領域將快速擴展,海量的網絡數據迅速引起了各個領域科學研究的重視,幾乎各個領域行業都需要更寬廣的視野和長久的策略以全面應對網絡大數據時代研究的挑戰,即挖掘、計算、分析各領域的海量的網絡數據,以發現隱藏在數據中的新的模式,而這些均屬于網絡信息學的學科范疇;五是網絡信息學“高、精、專”人才隊伍的培養,要促進網絡信息學的發展和應用,未來需要建設一個全面、多維、兼顧理論與技術的網絡信息學教育體系,培養既掌握扎實的相關多學科的理論知識,又精通大數據挖掘技術、人工智能技術的網絡信息學專業分析人才。
參考文獻:
[1]? Bechini A,Marcelloni F,Segatori A.A MapReduce solution for associative classification of big data[J].Information Sciences,2016,332:33-55.
[2]? 邱均平,鄺玉林.人工智能對“五計學”的影響研究——以網絡計量學為例[J].圖書館理論與實踐,2020(6):17-22.
[3]? 張志強,范少萍.論學科信息學的興起與發展[J].情報學報,2015,34(10):1011-1023.
[4]? Almind V C,Ingwersen V P.Informetric analyses on the world wide web:methodological approaches to‘webometrics[J].Journal of Documentation,1997,53(4):404-426.
[5]? 夏旭.高屋建瓴 臻于至善——《網絡計量學》評介[J].圖書情報知識,2012(3):125-129.
[6]? 趙蓉英,張心源,張揚,等.我國“五計學”演化過程及其進展研究[J].圖書情報工作,2018,62(13):127-138.
[7]? 徐久齡,劉春茂,劉亞軒.網絡計量學的研究[J].情報學進展,1998.
[8]? 邱均平,陳敬全.網絡信息計量學及其應用研究[J].情報理論與實踐,2001(3):161-163.
[9]? 邱均平.網絡計量學[M].北京:科學出版社,2010.
[10]? 趙蓉英,郭鳳嬌,譚潔.基于Altmetrics的學術論文影響力評價研究——以漢語言文學學科為例[J].中國圖書館學報,2016,42(1):96-108.
[11]? 蘇令銀.大數據時代的小數據會消亡嗎[J].探索與爭鳴,2019(7):74-84,158.
[12]? 邱均平.“文獻計量學”定義的發展[J].情報雜志,1988(4):45-47,31.
[13]? Schwartz G A.Complex networks reveal emergent interdisciplinary knowledge in Wikipedia[J].Humanities and Social Sciences Communications,2021,8(1):1-6.
[14]? Anastasia Analyti,Nicolas Spyratos,Panos Constantopoulos.On the Semantics of a Semantic Network[J].Fundamenta Informaticae,1998,36(2-3):109-144.
[15]? Saxena A,Tripathi A,Talukdar P.Improving Multi-hop Question Answering over Knowledge Graphs using Knowledge Base Embeddings[A].Proceedings of the 58th annual meeting of the association for computational linguistics[C].2020:4498-4507.
[16]? 王志春,李邦祺,李凱曼,等.全球通信光纜知識圖譜構建及應用[J].北京師范大學學報(自然科學版),2021,57(6):883-887.
[17]? Baumard N,Huillery E,Hyafil A,et al.The cultural evolution of love in literary history[J].Nature Human Behaviour,2022,6(4):506-522.
[18]? Watts D J,Strogatz S H.Collective dynamics of 'small-world' networks[J].Nature,1998,393(6684):440-442.
[19]? Barabási A L,Albert R,Jeong H.Mean-field theory for scale-free random networks[J].Physica A,1999,272(1):173-187.
[20]? Frawley W J,Piatetsky-Shapiro G.Knowledge Discovery in Databases: An Overview.Cambridge[M].MIT Press,1991.
[21]? Usama M.Fayyad,Gregory Piatetsky-Shapiro,Padhraic Smyth.From Data Mining to Knowledge Discovery in Databases[J].AI Magazine,1996,17(3):37
[22]? 王大順,(匈牙利)艾伯特-拉斯洛·巴拉巴西.賈韜,汪小帆,譯.給科學家的科學思維[M].天津:天津科學技術出版社,2021.
[23]? Arel I,Rose D,C Karnowski,et al.Deep Machine Learning-A New Frontier in Artificial Intelligence Research[J].IEEE computational intelligence magazine,2010,5(4):13-18.
[24]? 劉清堂,吳林靜,黃煥.網絡資源聚合研究綜述[J].情報科學,2015,33(10):154-161.
[25]? 韓金廷.基于社會網絡分析的科研合著研究[D].長沙:國防科學技術大學,2016.
[26]? 沈思,李成名,吳鵬.基于時態語義的Web信息檢索實踐進展與研究綜述[J].中國圖書館學報,2018,44(4):109-129.
[27]? Xujian Zhao,Peiquan Jin,Lihua Yue.Discovering topic time from web news[J].Information Processing and Management,2015(6):869-890.
[28]? Mostafa Keikha,Fabio Crestani.Linguistic aggregation methods in blog retrieval[J].Information Processing and Management,2012,48(3):467-475.
[29]? Lai W,Li S,Liu Y,et al.Adaptation mitigates the negative effect of temperature shocks on household consumption[J].Nature Human Behaviour,2022(6):837-846.
[30]? Yin Y,Gao J,Jones B F,et al.Coevolution of policy and science during the pandemic[J].Science,2021,371:6525(128-130).
[31]? Cao H,Chen Z,Cheng M,et al.You Recommend,I Buy:How and Why People Engage in Instant Messaging Based Social Commerce[C].In Proceedings of the ACM on Human-Computer Interaction 5.CSCW1,2021:1-25.
[32]? Cao H,Chen Z,Xu F,et al.When Your Friends Become Sellers:An Empirical Study of Social Commerce Site Beidian[C].In Proceedings of the International AAAI Conference on Web and Social Media,2020(14):83-94.
[33]? Cao Q,Sirivianos M,Yang X,et al. Aiding the Detection of Fake Accounts in Large Scale Social Online Services[C].Proceedings of the 9th USENIX conference on Networked Systems Design and Implementation(NSDI'12),2012:15.
[34]? Xu F,Han Z,Piao J,et al.“I Think Youll Like It”Modelling the Online Purchase Behavior in Social E-Commerce[C].Proceedings of the ACM on Human-Computer Interaction 3.CSCW,2019:1-23.
[35]? Xu F,Lian J,Han Z,et al.Relation-Aware Graph Convo-lutional Networks for Agent-Initiated Social E-Commerce Recommendation[C].Proceedings of the 28th ACM International Conference on Information and Knowledge Management,2019:529-538.
[36]? Xu F,Zhang G,Yuan Y,et al. Understanding the Invitation Acceptance in Agent-Initiated Social E-Commerce[C].Proceedings of the International AAAI Conference on Web and Social Media,2021(5):820-829.
[37]? Chen Z,Cao H,Lan X,et al.Beyond Virtual Bazaar:How Social Commerce Promotes Inclusivity for the Traditionally Underserved Community in Chinese Developing Regions[C].Proceedings of the 2022 CHI Conference on Human Factors in Computing Systems,2022:1-15.
[38]? Weis J W,Jacobson Joseph M.Learning on knowledge graph dynamics provides an early warning of impactful research[J].Nature biotechnology,2021,39(10):1300-1307.
[39]? Wang Y,Long Y,Tu L,et al.Delivering Scientific Influence Analysis as a Service on Research Grants Repository[J/OL].[2022-06-19].https://arxiv.org/pdf/1908.08715.pdf.
[40]? Wen T,Deng Y. Identification of influencers in complex networks by local information dimension[J/OL].[2022-06-19].https://arxiv.org/pdf/1908.11298.pdf.
[41]? Li W,Zhang S,Zheng Z,et al.Untangling the network effects of productivity and prominence among scientists[J].Nat Commun ,2022(13):4907.
[42]? 中國互聯網絡信息中心(CNNIC).第49次中國互聯網絡發展狀況統計報告[EB/OL].[2022-06-20].https://www.cauc.edu.cn/jsjxy/upfiles/202203/20220318171634656.
[43]? 許峰.基于深度學習的網絡輿情識別研究[D].北京:北京郵電大學,2019.
[44]? 張柳.社交網絡輿情用戶主題圖譜構建及輿情引導策略研究[D].長春:吉林大學,2021.
[45]? Fan R,Xu K,Zhao J.Weak ties strengthen anger contagion in social media[J].arxiv preprint arxiv:2005.01924,2020.
[46]? Hossny,Ahmad Hany,Lewis Mitchell.Event Detection in Twitter:A Keyword Volume Approach[A].2018 IEEE International Conference on Data Mining Workshops(ICDMW)[C].2018:1200-1208.
[47]? Xie J,Meng F,Sun J,et al.Detecting and modelling real percolation and phase transitions of information on social media[J].Nature Human Behaviour,2021,5(9):1161-1168.
[48]? Kruspe A,Hberle M,Zhu X.Cross-language sentim-ent analysis of European Twitter messages during the COVID-19 pandemic[EB/OL].[2022-06-17].https://aclanthology.org/2020.nl pcovid19-acl.14.pdf.
[49]? Sukhwal P C,Kankanhalli A.Determining containment policy impacts on public sentiment during the pandemic using social media data[J].Proceedings of the National Academy of Sciences of the United States of America,2022,119(19):e211
7292119.
[50]? Wang J H,Fan Y C,Palacios Juan,et al.Global evidence of expressed sentiment alterations during the COVID-19 pandemic[J].Nature human behaviour,2022,6(3):349-358.
[51]? RAND Corporation.Combating Foreign Disinformation on Social Media[EB/OL].[2022-06-23].https://www.rand.org/paf/projects/combating-foreign-disinformation.html.
[52]? Cao Q,Sirivianos M,Yang X,et al.Aiding the Detection of Fake Accounts in Large Scale Social Online Services[C].Proceedings of the 9th USENIX conference on Networked Systems Design and Implementation (NSDI'12),2012:197-210.
[53]? Wang Y,Ma F,Jin Z,et al.EANN:Event Adversarial Neural Networks for Multi-Modal Fake News Detection[C].KDD18:Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining,2018:849-857.
[54]? Sharma K,Ferrara E,Liu Y.Identifying Coordinated Accounts in Disinformation Campaigns[J].2020.
[55]? Shu,K,Wang S,Lee D,et al.Mining Disinformation and Fake News:Concepts,Methods,and Recent Advancements[J].Disinformation,misinformation,and fake news in social media:Emerging research challenges and opportunities,2020:1-19.
[56]? 清華大學人工智能研究院,北京瑞萊智慧科技有限公司,清華大學智媒研究中心.深度合成十大趨勢報告[EB/OL].[2022-06-17].http://www.chuangze.cn/third_down.asp?Txtid=4762.
[57]? Liu Z W,Luo P,Wang X G,et al.Deep Learning Face Attributes in the Wild[C].Praeedings of the IEEE intermational conference on computer vision,2015:3730-3738.
[58]? Rssler A,Cozzolino D,Verdoliva L,et al. FaceForensics:a large -scale video dataset for forgery detection in human faces[J].arxiv preprint arxiv:1803.09179,2018.
[59]? Yang X,Li Y,Lyu S.Exposing Deep Fakes Using Inconsistent Head Poses[C].ICASSP 2019-2019 IEEE International Conference on Acoustics,Speech and Signal Processing,2019:8261-8265.
[60]? Zi B,Chang M,Chen J.WildDeepfake:A Challenging Real-World Dataset for Deepfake Detection[C].Proceedings of the 28th ACM international conference on multimedia,2020:2382-2390.
[61]? Mo H X,Chen B L,Luo W Q.Fake Faces Identification via Convolutional Neural Network[P].Information Hiding and Multimedia Security,2018.
[62]? Li L,Bao J,Zhang T,et al.Face X-ray for more general face forgery detection[C].Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition,2020:5001-5010.
[63]? Nguyen H H,Tieu N D T,Nguyen-Son H Q,et al.Modular Convolutional Neural Network for Discriminating between Computer-Gener ated Images and Photographic Images[C].Proceedings of the 13th International Conference on Availability,Reliability and Security,2018:1-10.
[64]? Chiolero Arnaud.How infodemic intoxicates public health surveillance:from a big to a slow data culture[J].Journal of epidemiology and community health,2022,76(6):623-625.
[65]? van der Linden Sander.Misinformation:susceptibility,spread,and interventions to immunize the public[J].Nature medicine,2022,28(3):460-467.
[66]? Gallotti Riccardo,Valle Francesco,Castaldo Nicola,et al.Assessing the risks of‘infodemicsin response to COVID-19 epidemics[J].Nature human behaviour,2020,4(12):1285-1293.
[67]? Johnson N F,Velásquez N,Restrepo N J,et al.The online competition between pro-and anti-vaccination views[J].Nature,2020(582):230-233.
[68]? 張帥,劉運梅,司湘云.信息疫情下網絡虛假信息的傳播特征及演化規律[J].情報理論與實踐,2021,44(8):112-118.
[69]? 劉昊,張志強,武瑞敏.建設適應科技競爭與國家安全的科技情報發展體系[J].圖書與情報,2022(1):39-48.
[70]? 馬海群.專題導語:開源情報的高價值——聚沙成塔、匯流成海[J].現代情報,2022,42(1):4.
[71]? 白云,李白楊,王施運.面向新型跨境網絡有組織犯罪的開源情報獲取與利用方法[J].信息資源管理學報,2022,12(2):65-75.
[72]? Rai B K,Verma R,Tiwari S.Using Open Source Intelligence as a Tool for Reliable Web Searching[J].SN Computer Science,2021,2(5):402.
[73]? Lindley D.Identifying early signs of online extremist groups[J].Physics,2018,11:76.
[74]? Dionísio N,Alves F,Ferreira P M,et al.Cyberthreat Detection from Twitter using Deep Neural Networks[C].2019 International Joint Conference on Neural Networks(IJCNN),2019:1-8.
[75]? 崔琳,楊黎斌,何清林,等.基于開源信息平臺的威脅情報挖掘綜述[J].信息安全學報,2022,7(1):1-26.
[76]? Gong Y,Li Z,Zhang J,et al.Potential Passenger Flow Prediction:A Novel Study for Urban Transportation Development[C].Proceedings of the AAAI Conference on Artificial Intelligence,2020,34(4):4020-4027.
[77]? Zhang X,Huang C,Xu Y,et al.Traffic Flow Forecasting with Spatial-Temporal Graph Diffusion Network[C].Proceedings of the AAAI comference on artificial intelligence,2021,35(17):15008-15015.
[78]? Qin H,Ke S,Yang X,et al.Robust Spatio-Temporal Purchase Prediction via Deep Meta Learning[C].Proceedings of the AAAI comference on Artificial intelligence,2021,35(5):4312-4319.
[79]? Verbavatz V,Barthelemy M.The growth equation of cities[J].Nature,2020,587(7834):397-401.
[80]? Amato F,Guignard F,Robert S. A novel framework for spatio-temporal prediction of environmental data using deep learning[J].Scientific reports,2020,10(1):22243.
[81]? Ludescher J,Martin M,Boers N,et al.Network-based forecasting of climate phenomena[J].Proceedings of the National Academy of Sciences,2021,118(47):e1922872118.
[82]? Xu C,Kohler T A,Lenton T M,et al.Future of the human climate niche[J].Proceedings of the National Academy of Sciences of the United States of America,2020,117(21):1350-1355.
[83]? Filletti M,Grech A.Using News Articles and Financial Data to predict the likelihood of bankruptcy[J].arxiv Preprint.arxiv:2003.13414.2020.
[84]? Bonaventura M,Ciotti V,Panzarasa P.Predicting success in the worldwide start-up network[J].Scientific reports,2020,10(1):345.
[85]? 汪應洛,黃偉,朱志祥.大數據產業及管理問題的一些初步思考[J].科技促進發展,2014(1):15-19.
[86]? Taleb I,Serhani M A,Dssouli R.Big Data Quality:A Survey[C].2018 IEEE International Congress on Big Data(Big Data Congress),2018:166-173.
[87]? 劉冰,龐琳.國內外大數據質量研究述評[J].情報學報,2019,38(2):217-226.
[88]? Merino J,Caballero I,Rivas B,et al.A data quality in use modelfor big data[J].Future Generation Computer Systems,2016(63):123-130.
作者簡介:武瑞敏(1997-),女,中國科學院成都文獻情報中心博士研究生,研究方向:情報理論方法與應用、學科信息學與學科知識發現;張志強(1964-),男,中國科學院成都文獻情報中心研究員,博士生導師,研究方向:學科信息學與學科知識發現、科技政策與管理、科技戰略與規劃、情報理論方法與應用、科學計量與科技評價。