999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于LDA2Vec-EERT的新興技術主題多維指標識別與演化分析研究胡澤文

2024-12-31 00:00:00王夢雅韓雅蓉
現代情報 2024年9期
關鍵詞:模型

關鍵詞: 區塊鏈專利; LDA 主題模型; Word2vec 模型; BERT 模型; 新興技術主題; 熱點技術主題; 主題識別; 主題演化

DOI:10.3969 / j.issn.1008-0821.2024.09.004

〔中圖分類號〕G201 〔文獻標識碼〕A 〔文章編號〕1008-0821 (2024) 09-0042-17

當今世界正經歷百年未有之大變局, 國際宏觀環境變化和新技術革命給國家與企業帶來了新的機遇和挑戰, 對技術創新提出了更高的要求。縱觀世界主要國家的發展態勢, 近年來全球各國(地區)把識別和培育顛覆性技術上升為國家戰略[1] ?!吨腥A人民共和國國民經濟和社會發展第十四個五年規劃和2035年遠景目標綱要》提出, 要加強顛覆性技術供給, 前瞻性謀劃未來產業發展。顛覆性技術概念于1997年在哈佛商學院教授Christensen C[2]著的《創新者的困境: 新技術引起大企業失敗》中提出, 作者認為顛覆性技術是改變原有技術性能軌道, 對已有傳統或主流技術產生整體或根本性替代效果的技術, 并產生最后的市場顛覆, 可能是全新技術, 也可能是現有技術的跨學科、跨領域應用。識別和培育潛在顛覆性技術有助于國家與企業提前布局具備競爭力的前瞻性產業, 掌握新一輪國際科技競爭中的主導權。傳統顛覆性技術識別主要依靠專家咨詢或文獻及規劃報告研讀來確定, 目前一些學者已經基于科技文獻、各國戰略規劃和預測報告總結歸納出8項被廣泛接受、眾所周知的顛覆性技術, 涵蓋: 區塊鏈、無人駕駛、基因編輯、3D打印、云計算、5G無線網絡、邊緣計算、合成生物[3] 。然而, 科技文獻大數據的快速增長和人工智能技術的不斷發展, 促使顛覆性技術識別向自然語言處理和機器學習等人工智能方法驅動的方向發展。因此,如何在已識別的顛覆性技術基礎上, 綜合運用自然語言模型結合多維指標識別出已知顛覆性技術領域的細粒度新興技術主題和熱點技術主題, 成為當前舉國體制關鍵技術攻關和賦能科技發展背景下亟待解決的問題。

區塊鏈作為面向未來的顛覆性技術創新, 已經成為全球各國重點攻關的新興關鍵技術, 中國和世界發達國家十分重視區塊鏈技術的發展與應用。自2016 年起, 各國政府開始密切關注并出臺區塊鏈相關政策, 涵蓋: 中國工信部發布的《中國區塊鏈技術和應用發展白皮書(2016)》和國務院印發的《“十三五” 國家信息化規劃》, 明確提出要加強對區塊鏈等新技術的發展創新。此后, 2019年9月德國聯邦政府發布《德國國家區塊鏈戰略》和2021 年12 月美國國家安全委員會發布《加密資產和區塊鏈技術戰略》。黨的二十大報告提出, 要“建設數字中國, 加快發展數字經濟”。區塊鏈技術是建設數字中國的核心技術基礎, 已經廣泛應用于數字經濟、醫療、金融、文化等多個領域, 為解決各行業價值交易的信任問題和安全問題提供新的研究思路[4] 。區塊鏈作為目前全球公認的顛覆性技術, 全球各國(地區)區塊鏈領域的發明專利中蘊含著潛在的細粒度新興和熱點技術主題。通過領域內海量專利文獻數據的自然語言處理、主題模型挖掘和可視化分析, 并融合構建的多維指標, 能夠挖掘出海量專利中蘊含的潛在技術態勢和競爭情報, 識別出顛覆性技術領域潛在的細粒度新興和熱點技術主題,從而為國家和企業戰略布局提供情報決策支撐, 為科技管理部門科技攻關政策制定、企業科技攻關方向選擇、研發人員新興和熱點技術主題選擇提供參考和借鑒, 助力國家和各部門快速發展區塊鏈技術,提升區塊鏈技術的應用價值。

1相關研究

1.1主題識別

主題識別方面的研究成果可以歸納為基于關鍵詞匯的主題識別、基于引文分析的主題識別、基于文本挖掘的主題識別研究等。①基于關鍵詞匯的主題識別能夠通過詞頻統計和共詞分析方法識別出學科或技術領域的高頻和核心主題詞, 并進行聚類分析和關聯分析, 界定出領域高頻和核心主題詞的語義關系和類別范疇, 通過規范化命名表征領域的熱點和核心主題[5-8] 。②基于引文分析的主題識別是通過對科技論文及專利的引證和被引證關系進行可視化表示, 形成共被引聚類網絡, 進而識別領域主題[9-10] 。③基于文本挖掘的主題識別主要通過對海量文本信息進行分詞、主題提取和主題語義關系挖掘, 進而識別出文本信息中隱含的新興主題、熱點主題和核心主題, 并進行主題的演化分析。LDA主題模型在分析文本語義和主題概念詞識別等方面具有良好的效果, 同時可以有效分析大規模非結構化文檔集。裴超等[11] 通過改進的LDA 主題模型挖掘微博短文本中隱藏的語義信息, 呈現用戶的主題分布。Suominen A 等[12] 使用LDA 模型對企業專利文獻數據進行挖掘, 識別出企業不同研發方向的技術主題。馬秀峰等[13]和巢乃鵬等[14] 利用LDA 主題模型識別領域主題, 展示學科領域的發展態勢和知識脈絡梳理。

1.2主題演化

目前主題演化分析方面的研究主要涵蓋: 基于頻次視角的演化分析研究、基于內容視角的演化分析研究和基于引證視角的演化分析研究[15] 。①基于頻次視角的演化分析以文獻頻次分析和詞語頻次分析為主。Hou J[16] 將引證分析領域的引文數據劃分為5 個階段, 并對每階段參考文獻頻次的總體演化趨勢進行分析。奉國和等[17] 結合相對詞頻、詞頻變化率計算關鍵詞綜合值, 揭示學科熱點及趨勢變化。②基于內容視角的演化分析主要以共詞分析和主題挖掘分析為主。共詞網絡可以直觀展示學科高頻關鍵詞, 分析學科核心關鍵詞隨時間變化的演化圖譜[18] 。隨著文本分析技術的不斷發展, 基于主題挖掘的學科演化研究引起廣泛關注, 關鵬等[19] 和Figuerola C G 等[20] 將主題模型與生命周期理論結合,實現生命周期不同階段的主題演化。Liu Y 等[21] 構建一種New-LDA 模型, 對人工智能領域知識進行主題識別與共詞分析, 并引入時間序列模型建立主題演化網絡, 確定人工智能領域的未來發展與演化趨勢。③基于引證視角的演化分析是科學計量領域的長期關注方向, 主要基于引用網絡和共被引網絡探測學科主題,并進行演化分析。趙紅等[22] 和Hou J等[23] 基于CiteSpace 構建科技論文共被引時序聚類網絡, 識別領域研究主題以及主題演化趨勢。宋永輝等[24]通過文獻計量、主路徑分析等方法從發文趨勢、主導研究力量、熱點研究主題、知識演化路徑、關鍵研究內容等維度厘清知識演化脈絡并揭示主導研究力量與熱點研究主題。

綜上所述, 學科領域的主題識別與演化方面的研究主要基于文獻計量、詞頻分析、主題模型和知識圖譜等方法。雖然文獻計量、主題模型和知識圖譜的分析結果較為直觀, 但是存在未深入挖掘主題之間語義關聯信息、聚焦科技論文且偏向學科領域的主題識別演化研究、具體技術領域細粒度主題挖掘研究較少等問題。例如: LDA 主題模型雖然能夠快速探測學科領域文獻的主題類別, 卻忽略了主題詞之間的潛在語義聯系; 已有研究大多聚焦科技論文且單一使用主題模型, 結合Word2vec 和BERT等預訓練語言模型對當前顛覆性技術領域專利文獻數據進行細粒度新興和熱點技術主題識別和演化分析的研究極少。新興技術及主題識別方法主要包括科學計量、文本挖掘和機器學習[25] , 宋博文等[26]基于Word2vec 詞向量模型識別并構建領域技術特征向量模型, 通過K-means 方法實現領域技術主題的聚類和新興技術主題識別。在已有研究基礎上, 本文通過綜合運用LDA 主題模型、Word2vec 詞向量模型和BERT 語言模型構建當前全球公認顛覆性技術—區塊鏈技術領域發明專利文獻的LDA2Vec-BERT主題挖掘模型, 同時構建起“主題熱度”“主題族群” “主題技術”“主題新穎度” 的四維度指標體系, 結合主題時序演變及知識結構變動的演化分析方法, 對區塊鏈技術領域的細粒度新興和熱點技術主題進行識別和演化分析, 更為全面客觀地揭示全球區塊鏈技術研究的新興技術主題、熱點技術主題及其異同, 并展望未來國內外區塊鏈的發展趨勢,為推動區塊鏈技術的創新與發展形成有效的參考。

2研究框架與方法

本文以多周期時間窗口的全球區塊鏈領域發明專利文獻作為數據源, 旨在整合詞嵌入(Word2Vec)、主題建模(LDA)和基于BERT 的特征, 創建一個融合的特征表示, 同時捕獲主題信息和BERT 嵌入,將經過預處理的專利文獻數據的特征提取步驟分為兩個部分, 分別是主題擴展特征以及全局語義特征,隨后將兩個部分的特征向量進行融合, 得到各階段文檔的主題向量。之后構建起“主題熱度” “主題族群” “主題技術” “主題新穎度” 的四維層次指標體系, 對區塊鏈領域的新興技術主題、熱點技術主題和綜合性技術主題進行識別; 同時基于不同時間窗口下主題演化狀態, 將不同主題的主題向量表示出來, 并計算主題向量之間的余弦相似度, 根據設定的閾值判定是否存在演化關系, 反映主題隨時間推移而演化的過程。整體研究框架如圖1所示。

2.1 主題擴展特征

2.2.2 全局語義特征向量

通過BERT模型融合語義特征信息, BERT模型對預處理后的輸入數據進行詞嵌入操作, 將所有詞語轉換成詞向量, 本文使用公開的預訓練詞向量,而在BERT模型中, 除了詞向量, 還需要添加位置編碼, 因為BERT模型不能像循環神經網絡直接學習到詞的位置信息, 位置編碼能向模型提供輸入文本中詞語的位置信息, 使模型能更好地理解詞語之間的順序關系, 從而更準確地捕捉句子的語義[30] 。

3) 主題技術

權利要求包含對發明各項創新技術或方法的法律規定, 并賦予受法律保護的發明專有權, 專利中權利要求數量表明了法律保護的范圍和廣度, 因此,權利要求數量越多, 法律保護的范圍越廣, 專利的彈性越強, 壽命越長, 通常情況下, 壽命較長的專利更有價值[33] 。以LDA2Vec-BERT 模型識別出的技術主題—專利文檔集合為基礎, 研究利用各技術主題所包含專利的權利要求數量指標反映每個主題技術性, 其計算公式如式(13) 所示:

其中, TQt 表示主題T 的主題技術, n 表示主題T 涉及的專利文檔數量, zi 表示專利的權利要求數量。

4) 主題新穎度

傳統Burst 指標是指某個變量在短時間內的數值產生較大幅度的突然變化[34] , 而本文設置的主題新穎度指標測量的是主題在距離該主題首次出現之后的時間跨度, 具有較長的時間范圍, 其特征是當某個主題剛出現時, 其新穎度較高, 但隨著時間的不斷推移, 該主題的受關注程度逐漸增加, 主題的新穎度逐漸降低。新穎度計算方式為: 將主題所對應的主題文檔按照時間切片排序, 并以出現次數不為0的這一年為開始年, 主題T 在t 年的新穎度計算如式(14) 所示:

3實證分析

3.1全球區塊鏈專利數據獲取與預處理

通過檢索式(TIAB=(區塊鏈OR聯盟鏈OR公有鏈OR私有鏈OR混合鏈OR平行鏈OR中繼鏈OR許可鏈OR跨鏈OR信任鏈OR以太幣OR比特幣OR以太坊OR共識機制OR工作量證明OR權益證明OR權威證明OR拜占庭容錯OR分布式賬本OR智能合約OR非對稱加密OR chain chain of block OR blockchain OR block chain OR consortium blockchain OR public blockchain OR private block-chain OR hybrid blockchain OR parallel blockchain OR relay-chain OR permissioned blockchain OR Inter-blockchain OR chain of trust OR ether OR bitcoin OR ethereum OR consensus mechanism OR proof of work OR proof of stake OR proof of authority OR byzantine fault toleran OR distributed ledger OR smart contract OR asymmetric enCryption))AND(AD=[20080101TO 20221231])檢索Incopat專利數據庫,檢索日期為2023年5月。由于區塊鏈一詞在2008年由中本聰首次提出,故限定公開日下限為2008年1月1日,上限為2022年12月31日。為進一步提高數據準確性,通過人工干預去除化學、免疫學、細胞學、材料學和藥學以及其他與區塊鏈核心內容相關性較弱IPC分類號與關鍵詞,獲得區塊鏈密切相關的分類號:G06/G07/G08/G09/G11/G16/H03/H03K/H03 M/H04,并結合相關性原則對相關專利進行篩選。最終得到高相關度專利84435件,經過篩選,去除數據缺失的專利,作為全球區塊鏈技術的專利文獻樣本。

生命周期理論的核心觀點是任何事物的發展都有一個萌芽、成長、成熟、衰老的生命周期過程,行業、產品和技術都擁有自己的生命周期[35] 。區塊鏈技術發展的生命周期趨勢如圖6 所示, 由于專利數據有18個月的公開滯后期, 因此, 近兩年的申請專利公開不充分, 所以專利申請量有所下降,總體而言, 區塊鏈專利數量自2015 年開始處于快速上升趨勢。結合專利增長的趨勢, 按照時間線對專利文獻數量進行時間窗口劃分。為平衡每個時間窗口的發文量, 根據上述區塊鏈專利申請量的時間趨勢, 將上述專利分成2008~2017 年的萌芽期, 以及2018年、2019年、2020年, 2021年, 2022年的增長期, 共形成6 個時期階段, 用于刻畫區塊鏈領域新興熱點主題的周期演變趨勢。

3.2顛覆性技術: 區塊鏈領域主題的挖掘分析

為了獲得與區塊鏈技術最為相關的專利文檔主題, 本文利用自然語言處理方法對初始語料庫進行處理, 通過對專利標題和摘要中技術專用術語進行提取的方式, 在初始術語庫中添加區塊鏈技術專用詞典。然后通過Jieba 庫對專利文獻進行分詞處理,并對詞向量進行數據清洗, 移除停用詞和專利常用語。最后通過建立的6 個階段時間窗口, 按照時間窗口劃分專利文檔集, 并通過主題最佳數量確定方法, 得到每個時間窗口的區塊鏈技術主題集合。如圖7 所示, 不同時間階段識別出的技術主題數量不同, 2008—2017年期間的主題數小于21時, 曲線較為陡峭, 而在大于21 之后, 困惑度大小變化的趨勢較為平緩, 因此確定主題數為21 的時候達到最優值。同理, 2018 年主題數為24 時達到最優值,2019 年、2020年、2021年和2022年主題數分別為25、20、28和30時達到最優值。

LDA 主題模型作為一種無監督的機器學習模型, 通過迭代計算能推斷出潛在變量以及分布, 迭代次數越高, 模型的收斂效果越好, 綜合考慮文本數量、算力、收斂效果, 本文將迭代次數設置在500次。隨后, 使用Python Genism 庫在整體語料庫上訓練Word2vec 詞向量, 維度參數γ 設置為200, 窗口大小設置為5, 使用Skip-Gram 模型。按照式(2),每個時間窗口下的主題都轉化成統一向量空間中的維度是200 的主題擴展特征向量。BERT 模型中Head 的個數是超參數, 本文將其設置為8, 將8 個矩陣進行橫向拼接, 與附加權重矩陣相乘, 由多頭注意力機制處理后得到向量, 經過殘差連接、歸一化、前饋網絡, 得到語義特征向量, 進而通過全連接層進行降維提取到全局語義特征向量。

之后, 將得到的融合主題擴展特征和全局語義特征的文檔主題向量矩陣進行累加與歸一化, 得到主題特征概念向量化結果。隨后, 對每個時間窗口的主題進行篩選, 如去除與區塊鏈技術相關性較小的主題聚類, 去除由虛詞組成的主題聚類等, 對篩選后的結果進行主題命名, 結果如表2 所示。

從表2 區塊鏈領域技術主題的時間周期演變可以看出, 從2008—2022年期間, 隨著全球互聯網技術和區塊鏈技術的快速發展, 區塊鏈在不同時間階段關注的技術主題呈現出從區塊鏈基礎框架到不同行業領域深度應用的發展趨勢。2008—2017 年的萌芽期, 區塊鏈技術領域主要關注區塊鏈技術基礎框架, 涵蓋計算資源、交易機制、數字簽名、分布式系統、信任平臺、業務數據、節點管理、數據傳輸、身份驗證、資源分配、資源共享、數據存儲、密鑰安全等技術主題。2018 年, 區塊鏈技術發展出電子合同等技術產品, 并開始關注區塊鏈技術在車輛互聯網、金融交易、通信、版權保護、防偽溯源、數據安全等傳統行業領域中的具體應用。2019年, 區塊鏈技術發展出虛擬貨幣、數字協議等新技術產品, 并且在物流供應鏈、身份認證、產品溯源、防偽識別、醫療健康等行業領域中得到具體應用。2020年, 區塊鏈在信息同步、消費平臺、日志管理、跨鏈交易、聯盟鏈、投票等技術方面有較大進展,從而在醫療健康、供應鏈、人工智能、數字簽名等行業中得到廣泛應用。2021年, 區塊鏈在邊緣計算、跨鏈交互、支付、電子存證等技術領域有所突破, 并持續關注人工智能、醫療健康、物聯網、車輛互聯網等前沿領域的應用研究。2022年, 區塊鏈發展出數據確權、聯邦學習、異常檢測等新技術, 并廣泛應用于醫療健康、物聯網、人工智能、車輛互聯網等新興技術領域, 同時開始關注能源電力和審計等領域中的應用。

總體來看, 區塊鏈技術按照研究方向領域可以劃分為以下幾類:

1) 類1—區塊鏈架構: 共識機制、智能合約、分布式系統等。

2) 類2—信息資源存儲共享體系: 數據存儲、用戶管理、資源共享等。

3) 類3—行業應用: 區塊鏈金融、供應鏈、能源電力、版權保護、醫療健康等。

4) 類4—區塊鏈安全保障: 數據安全、密鑰安全、身份認證、數字簽名等。

5) 類5—高新產業領域應用: 物聯網、人工智能、車輛互聯網、邊緣計算等。

3.3區塊鏈技術主題熱度和關注度分析

運用式(11)~(13) 的技術主題熱度和關注度計算方法, 可以得到各個主題的“主題熱度” “主題族群” “主題技術” 指標值, 并將值進行最小—最大標準化, 將數據線性映射到[0,1], 如表3 所示。依據結果, 取熱度值、族群值、技術值的平均值作為指標閾值, 根據計算結果, 得出主題熱度閾值為0.7908, 主題族群的閾值為0.2132,主題技術的閾值為0.3410。設置指標數值高于閾值的為“高”, 低于閾值的為“低”,如表4 所示。界定主題熱度、族群、技術同時大于閾值的主題為新興熱點技術主題, 得出區塊鏈2022 年的新興熱點技術主題為3個, 分別是聯邦學習、數字資產和車輛互聯網。

聯邦學習作為一種新興的機器學習范式, 是通過在分布式設備上進行模型訓練和數據共享, 來實現在保護數據隱私的同時進行協作學習。聯邦學習自2019年以來得到了廣泛的關注, 其主要涉及圖像分離、自然語言處理、語音識別、隱私安全、通信安全等, 并在區塊鏈金融、醫療健康、物聯網等領域得到應用和拓展。從已有研究可以發現, 聯邦學習可以作為數據隱私保護和智能決策的核心技術為用戶提供更加開放和自由的數字經濟和數字社會體驗。在區塊鏈賦能的安全數據共享架構中, 結合隱私保護的聯邦學習, 將數據共享問題表述為機器學習問題, 通過共享數據模型而不是泄露實際數據來維護數據隱私[36] 。如在醫療健康等領域涉及大量敏感數據的共享和隱私泄漏風險, 需要通過區塊鏈技術+聯邦學習技術的融合應用進行加密和數據分割, 對用戶數據隱私和安全進行有效保護[37-40] 。

數字資產以區塊鏈技術為基礎, 形成包括比特幣、以太坊、數字證券、數字化商品等形式存在的資產, 可以在區塊鏈網絡中進行交易與轉移。已有研究顯示, 區塊鏈技術使得數字資產的交易可以在去中心化的網絡中進行, 不需要第三方中介機構的參與, 提供了更高的安全性與透明度交易環境。Zhang P 等[41] 構建了跨鏈數字資產系統, 通過連接不同的區塊鏈, 實現安全交易和支付。數字資產的出現促進了金融領域的創新, 在區塊鏈技術的支持下, 能夠實現更快速、高效、廉價的跨境支付、智能合約、去中心化金融等, 同時, 數字資產的發展催生一些新興的金融業務模式, 比如初級發行、代幣化資產等[42-43] 。依托于區塊鏈分布式記賬技術的新型數字資產在元宇宙中以NFT(Non-FungibleToken, 非單一化貨幣) 或者NFR(Non -FungibleRights, 非單一化利益)形式存在, 數字資產將帶來一系列商業模式變革和經濟生產、流通、消費模式的重組, 數字資產與現實資產的雙向流通創造新經濟體系[44] 。

車聯網是基于人、車、環境協同的開放融合網絡, 借助新一代的通信技術, 實現信息共享[45] 。區塊鏈技術在車輛互聯網中應用為數據安全、智能合約、身份認證、共享經濟、跨界合作等方面帶來創新與進步。車聯網涉及大量的數據交換與共享, 包括車輛位置、行駛數據、車主信息等, 將區塊鏈技術應用到車聯網領域[46] , 可以適配車聯網獨特性質并提供足夠安全保障。2023 年7 月18 日, 中國工業和信息化部、國家標準化管理委員會聯合修訂形成《國家車聯網產業標準體系建設指南(智能網聯汽車)(2023 版)》, 足見車聯網的熱度。區塊鏈作為新一代安全性保護技術因其自身去中心化、匿名性和不可追溯性等特點可以用來解決當前車聯網訪問控制的不足, 更好地保障車聯網系統安全[47] 。

3.4區塊鏈領域新興技術主題測度

“主題新興度” 指標是測度領域新興技術主題的重要指標, 根據式(14) 計算出區塊鏈領域各技術主題的“主題新穎度” 指標值, 如表5所示。根據“二八定律”, 由式(15), 確定主題新穎度閾值為0 5。設置指標數值高于閾值的為“高”,低于閾值的為“低”, 如表6 所示。界定大于閾值的主題為新興主題, 得出區塊鏈2022年的新興主題為5 個, 分別是聯邦學習、異常檢測、能源電力、審計、數據確權等。

異常檢測是通過監測與正常行為模式不符的異常行為活動或數據從而發現潛在安全風險與異常情況。由于區塊鏈的分布式、去中心化等特點, 異常檢測在區塊鏈中應用廣泛具有重要意義[48-49] 。根據已有研究, 異常檢測可以幫助發現惡意行為、欺詐行為、網絡攻擊等安全威脅, 提高區塊鏈的安全性;同時幫助發現異常數據、業務流程中的異常情況,從而提高業務處理效率, 因此異常檢測能夠在金融、物聯網、供應鏈管理、醫療健康等多個場景廣泛應用。能源電力在區塊鏈領域的應用是指利用區塊鏈技術來管理和交易能源和電力資源的過程, 能源電力行業在區塊鏈技術的加持下, 可以實現能源數據的透明性、可追溯性、安全性, 能夠提高能源交易的效率與可信度。區塊鏈可以消除中介機構, 實現點對點能源交易, 通過智能合約實現能源市場化,促進能源交易的自動化與智能化[50] 。2022 年3 月15 日, 國家工業信息安全發展研究中心發布《區塊鏈能源電力行業應用實踐報告》, 旨在分析區塊鏈技術如何在能源電力行業中發揮其價值。

審計是伴隨所有權與經營權分離而產生并且隨著現代資本市場的發展成為一個獨立的第三方鑒證職業[51] 。由于區塊鏈上交易數據和記賬資料具備不可篡改和共識機制的特征, 有助于防止被審計對象主觀欺詐或者串謀舞弊等行為, 保障審計的質量。區塊鏈技術應用于金融、供應鏈管理、政府和公共部門等各行業的審計工作。數據確權一直是數據交易共享中長期面臨的挑戰, 明晰的數據所有權, 是數據交易的前提和基礎, 數據權屬不清晰, 一方面可能造成后續開發利用產生權屬糾紛, 更甚者, 可能因為權責歸屬問題使數據安全和個人隱私難以得到保障[52] 。傳統的數據確權方法缺乏技術可信度, 而基于區塊鏈技術能夠提供更加可靠的技術模型[53] 。

3.5模型識別效果的對比分析

為驗證本文提出的集成識別方法與其他方法相比是否存在優勢, 分別使用LDA 模型、Word2Vec模型, 以及構建的LDA2Vec 模型和LDA2Vec-BERT模型進行技術主題識別效果的對比分析。采用十折交叉驗證法對數據集進行訓練和測試, 最終得到F1 值分別為68.4%、56.8%、77.7%、91.8%, 各模型的識別效果如表7 所示。

通過表7 的實驗結果可以發現, Word2Vec 與LDA 融合模型的構建是在原文本向量的基礎上,添加主題擴展特征, 通過向量拼接豐富文本內容,LDA2Vec 模型比起單獨的LDA 模型和Word2Vec 模型識別效果好, F1 值比起LDA 模型提高了9.25%,比起Word2Vec 模型提高了20.86%, 識別效果得到顯著提升, 說明融合主題擴展特征可以有效解決文本數據稀疏、主題信息匱乏的問題。本文提出的LDA2Vec-BERT 模型F1 值達到91.79%, 實驗結果優于其他基準模型, 驗證了本文方法融合思路的有效性。該模型融合了主題特征和語義特征, 包含了文本全局語義特征、詞匯順序信息和深層語義關聯信息, 在一定程度上克服了文本語義缺失的問題, 能更全面、準確地表達文本向量的語義信息,因此該模型識別效果較好。

3.6區塊鏈技術主題演化分析

基于相鄰兩個時間窗口技術主題之間的主題余弦相似度計算, 得到主題之間的演化關系, 其中主題余弦相似度越高, 主題之間存在演化關系的可能性越大。通過計算相鄰兩個時間切片任意兩個主題之間的相似度, 得到2 553個主題對。綜合考慮演化結果的可解釋性, 將兩個專利技術主題之間演化關系的相似度閾值設置為0.8902, 認定相鄰時間窗口間余弦距離值高于0.8902 的主題具有演化關系, 利用Pyecharts圖表庫將主題演化關系繪制成?;鶊D, 結果如圖8 所示。圖8 中, 每個元素塊都有其相應的主題, 元素塊的大小表示其主題文檔的數量, 元素塊越大, 主題所包含的主題文檔數量越多, 主題之間的連線表示主題之間的演化流動方向及聯系, 連線的粗細表示主題余弦相似度的高低,連線越粗, 則表明主題之間的演化關系越緊密。

由圖8可知, 區塊鏈主題演化圖中很多主題與物聯網之間具有演化關系, 物聯網是指通過使用互聯網將各種物理設備和傳感器相連接, 使得其能夠相互通信和交換數據。由于區塊鏈技術的去中心化和加密特性能夠確保物聯網設備之間的通信與數據傳輸更具安全性, 同時區塊鏈技術能夠消除中心化的第三方機構, 使得設備之間能夠直接交互, 并且基于區塊鏈技術的不可篡改性, 能夠確保數據真實可靠?;诖?, 區塊鏈技術在物聯網中可以用于進行身份驗證、訪問控制、產品溯源、防偽識別、數據交互、智能合約等。因此, 區塊鏈與物聯網之間的融合創新具有巨大的發展潛力, 可以廣泛應用于物流、供應鏈、能源管理、智能城市等方面, 未來隨著技術的不斷發展, 能夠出現更多的創新應用場景和商業模式。相鄰時間切片技術主題之間的演化方向以繼承、融合為主, 演化強度(即技術主題之間的相似度)也相對較高, 例如, stage5_7(交易)→stage6_23(交易), stage5_23(產品管理)→stage6_17(物聯網), stage4_10(物聯網)→stage5_23(產品管理), stage3_9(信任平臺)→stage4_10(物聯網), stage2_22(數據安全)→stage3_9(信任平臺)等主題對之間具有較強的繼承、融合演化關系。

區塊鏈的構架研究與行業應用研究之間也存在較強的演化關系, 可以發現區塊鏈專利的研發重點隨著研發的深入以及技術應用的發展, 由最初的技術研究逐漸演化到與行業應用結合的實際應用研究,密鑰安全、分布式系統等主題在不同時間窗口的主題相似度較高且主題延續性較強。區塊鏈架構研究隨著研發的深入和技術應用的發展, 研發重點從網絡節點共識的安全性演化為區塊鏈和行業應用的結合, 提高行業應用的安全性和效率。例如, 分布式系統與物聯網、支付, 密鑰安全與數字資產之間存在演化關系, 分布式系統地去中心化與多節點, 通過網絡通信的拓撲結構特征使得其在支付應用中更具安全性, 數字資產也是依托電子支付形成的, 在區塊鏈技術的加密保護下, 數字資產存在形式更具穩健性。

4結論

LDA 主題模型和Word2vec 模型、BERT 模型的融合能夠實現基于全球區塊鏈領域專利文獻的技術主題精準挖掘研究, 以及區塊鏈技術主題之間的演化關系分析。同時通過構建基于“主題熱度”“主題族群”“主題技術” 的技術“主題關注度” 指標和基于“主題新穎度” 的“主題新興度” 指標,實現對全球性顛覆性技術—區塊鏈領域新興熱點技術主題和新興技術主題的測度和分析, 實證分析結果發現:

1) 從主題識別的角度來看, 構建了基于LDA2Vec-BERT 模型的主題識別方法, 分別識別出6 個時間切片下的技術主題分布, 并將全時間段主題概括為5 類, 分別是區塊鏈架構(共識機制、智能合約、分布式系統等)、信息資源存儲共享體系(數據存儲、用戶管理、資源共享等)、行業應用(金融、供應鏈、能源電力、版權保護、醫療健康等)、區塊鏈安全保障(數據安全、密鑰安全、身份認證、數字簽名等)、高新產業領域應用(物聯網、人工智能、車輛互聯網、邊緣計算等)。

2) 從新興熱點技術主題與新興技術主題的識別角度來看, 構建的“主題關注度” 和“主題新興度” 指標, 能夠有效識別出區塊鏈領域的新興熱點技術主題: 聯邦學習、數字資產和車輛互聯網, 以及新興技術主題: 聯邦學習、異常檢測、能源電力、審計和數據確權, 為未來領域技術發展和技術攻關方向選擇提供參考借鑒。

3) 從主題演化可視化角度來看, 區塊鏈技術從底層構架技術(例如密鑰安全、智能合約、分布式系統)快速演化發展到區塊鏈技術在不同行業中的廣泛應用研究。到2022年, 區塊鏈技術已經在醫療行業、能源行業、審計行業、金融科技行業等行業中得到廣泛應用, 并發展到應用于國家戰略前沿產業技術領域, 如物聯網、人工智能、數字資產、車輛互聯網等[54-55] 。

本研究仍然存在一些不足之處: 一是本文的主題識別分析只選取了專利數據的標題和摘要部分,未對全文的內容進行挖掘分析; 二是未結合其他數據源進行組合分析。下一步的研究將綜合區塊鏈領域科技論文、科技報告和政策文本進一步探索區塊鏈技術在科學研究和國家政策方面的技術熱點主題和實際應用情況。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 四虎影视库国产精品一区| 中文纯内无码H| 免费一看一级毛片| 成人午夜视频网站| 97视频精品全国免费观看| 在线观看国产小视频| 国产欧美在线观看视频| 午夜一级做a爰片久久毛片| 亚洲床戏一区| 久久99久久无码毛片一区二区| 美女无遮挡免费视频网站| 青青草综合网| 91久久国产热精品免费| 黄色网址手机国内免费在线观看| 午夜不卡视频| 操美女免费网站| 精品久久久久无码| 大学生久久香蕉国产线观看| 国产一级妓女av网站| 欧美午夜在线观看| 亚洲第一区在线| 美女高潮全身流白浆福利区| 亚洲国产成人超福利久久精品| 97在线视频免费观看| 国产综合亚洲欧洲区精品无码| 日韩av手机在线| 91精品国产情侣高潮露脸| 人妻丰满熟妇AV无码区| 91国内外精品自在线播放| a毛片免费观看| 亚洲综合精品香蕉久久网| 亚洲成a人在线播放www| 一级爱做片免费观看久久| 国产黄色免费看| 久久精品中文字幕少妇| 国产小视频网站| 欧美成人第一页| 欧美色亚洲| av在线无码浏览| 精品国产一二三区| 人妻一本久道久久综合久久鬼色| 伊人久综合| 国产成人久久777777| 日韩欧美成人高清在线观看| 国产成人乱无码视频| 亚洲精品另类| 国产高清在线观看| 亚洲性网站| 日韩a在线观看免费观看| 色婷婷亚洲综合五月| 国产成人精品高清不卡在线| 亚洲资源站av无码网址| 波多野结衣无码AV在线| 99视频精品在线观看| 99久久精品免费观看国产| 国产一区成人| 国产18页| 亚洲不卡影院| 热99re99首页精品亚洲五月天| 亚洲黄色片免费看| 国产激爽爽爽大片在线观看| 国产老女人精品免费视频| 国产精品久久久久无码网站| av色爱 天堂网| 久久久久久久久亚洲精品| 在线毛片免费| 玩两个丰满老熟女久久网| 亚洲欧洲一区二区三区| 日韩午夜伦| 国产迷奸在线看| 在线欧美日韩国产| 亚洲国产高清精品线久久| 欧美日韩国产精品va| 91久久国产综合精品女同我| 亚洲欧美精品在线| 91精品综合| 午夜一区二区三区| av一区二区无码在线| 午夜老司机永久免费看片| 91色爱欧美精品www| 在线免费观看a视频| 欧美国产成人在线|