999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多源數據融合的新興技術識別方法研究

2025-03-24 00:00:00王宏劉沁瑩玉峰王慶紅周育忠
科技進步與對策 2025年5期
關鍵詞:機器學習

摘 要:新興技術在科技革命和產業變革中發揮著重要作用,準確把握新興技術發展方向有助于國家政策制定和科技快速發展。融合學術論文和專利文獻數據,構建一套新興技術識別方法。通過主題N元語法(TNG)模型抽取和篩選技術主題,確定關鍵技術主題,通過量化新興技術的5項特征指標:影響力、增長性、連貫性、創新性、不確定性和模糊性,計算新興指數得分,對多源數據融合新興技術進行識別和預判。預測新興技術未來發展趨勢,可為電網領域可持續發展提供有價值的參考,驗證研究方法的可行性和有效性。

關鍵詞:新興技術;多源異構數據融合;新興技術畫像;機器學習

DOI:10.6049/kjjbydc.2023080688

中圖分類號:G303 文獻標識碼:A

文章編號:1001-7348(2025)05-0021-11

0 引言

新一輪科技革命和產業變革正在重塑世界格局,新興技術作為技術創新的先導力量和戰略抓手,已經成為大國博弈的核心。隨著新能源技術、人工智能等領域的迅猛發展,這些技術應用和探索深刻影響著國家安全和經濟發展的各個方面。世界各科技發達國家對新興技術高度重視,例如,歐盟地平線計劃投入巨資支持新興技術開發及其相關產業發展,以促進戰略自主權;同時,韓國科技評估與規劃研究院(KISTEP)的6G研發實施計劃旨在加快6G等新興技術研發,打造重點領域核心競爭力。中國“十四五”戰略性新興產業發展規劃則聚焦于增強原始創新,實現關鍵新興技術自主可控。新興技術探測有助于我國實現前沿技術突破[1],開展前瞻性部署[2],培育新興市場,布局未來產業方向。因此,準確把握新興技術發展趨勢,是國家、企業掌握競爭優勢和發展主動權的關鍵。

新興技術最初被界定為“基于科學、有可能創立新行業或改造現有行業的創新”。此后,學術界對新興技術概念的內涵與外延不斷進行拓展[3-4]。Small等[5]認為新興技術具有增長性和新穎性兩大特征;Wang[6]指出新興技術具有影響力、增長性、連貫性和創新性等特征;Carley等[7]將新興技術特征總結為創新性、持續性、社區性和成長性;Rotolo等[8]指出,新興技術是一種具有根本性創新且快速發展的技術,隨著時間推移會保持一定連貫性,且對社會經濟具有巨大影響潛力。基于此,本文總結出新興技術的五大特征:影響力、增長性、連貫性、創新性、不確定性和模糊性。

現有新興技術識別研究主要關注專利和論文等單一數據源,或在多源數據基礎上進行數量統計,從多源數據融合視角構建新興技術識別評價指標體系的研究不夠深入,而且鮮有量化操作不確定性和模糊性的新興技術識別研究。因此,本文采取資源融合方法,用論文數據表征科學、用專利數據表征技術,同時量化新興技術的五大特征。

碳中和是全球共同努力的重要目標,世界各國已經展開多項具體研究和實施工作。例如,歐盟委員會發布了《歐洲氣候法》草案,計劃通過立法在2050年實現碳中和;美國宣布重新加入《巴黎協定》;值得注意的是,2020年9月22日,我國在第七十五屆聯合國大會上提出將努力爭取2060年前實現碳中和。電網企業要實現國產替代和在國際市場上取得競爭優勢,首先需要以科技創新驅動電網高質量發展,其次要摸清電網新興技術發展方向,瞄準未來電網發展新興技術領域,策劃開展電網行業急需、剛需的關鍵技術攻關,從而帶動我國電網領域技術由國產替代走向國產引領。因此,本文致力于探測電網領域的新興技術,捕捉該領域相關技術發展方向,引導電網研發投資精準施策,以期在國際競爭中占據先導優勢地位,有力推動我國電網領域技術發展。

1 研究現狀

1.1 新興技術內涵

華宏鳴(1995)從商業角度提出新興技術是尚未被商業化但在未來3~5年有可能會商業化的技術,或是已經應用且會發生顯著變化的技術。與之不同,Day等[9]在《Wharton on Managing Emerging Technologies》一書中將新興技術定義為“基于科學創新,有潛力創造新產業或改變現有產業的技術,包括非連續創新和漸進性創新”。這兩種觀點均強調新興技術的商業化潛力和創新性質,并引發了學術界對新興技術的廣泛關注。此外,Cozzens等[10]認為新興技術具有巨大市場潛力,但其價值尚未證明或未達成共識,具有增長性、創新性、未開發的市場潛力和高科技基礎4個關鍵特征。為凸顯潛在技術價值和經濟價值, Rotolo等[8]認為新興技術是一種高創新性且快速發展的技術,對經濟社會具有巨大影響力,并提出5個關鍵特征:影響力、增長性、連貫性、創新性、不確定性和模糊性;李昌等[11]在此基礎上,將新興技術界定為利用特征關鍵詞表征的新技術領域,在一定時間內足夠新穎,同時對其它技術具有推動作用,具有較高關注度,且在整個發展歷程中表現出有序快速、連貫發展性特征?;谶@一定義,本文認為新興技術包括5個動態變化特征:新穎性、關注性、引領性、傳承性和無序性??傊瑢W術界對新興技術的定義和特征未達成共識,不同觀點如表1所示。其中,Cozzens等[10]和Rotolo等[8]的觀點影響作用較大,本文采用Rotolo等[8]的觀點,對電網領域新興技術進行識別。

1.2 新興技術識別方法

當前,關于新興技術識別方法的研究大致可分為兩類:定性分析法和定量分析法。定性分析是早期學者識別新興技術的一種研究方法,包括德爾菲法、情景分析法、技術路線圖法,主要依靠專家主觀判斷作為新興技術識別標準,受主觀因素影響較大,問卷設計和收集不但耗時且成本較高,不適合大數據時代新興技術識別。

隨著機器學習技術的迅猛發展,許多研究者開始使用大數據挖掘方法改進傳統新興技術識別過程,從而出現了一系列定量研究方法。例如,徐碩等[14]基于專利文獻數據,從創新性、獨創性、原創性角度出發,利用負二項回歸方法和邏輯回歸方法探測醫藥領域新興技術;與專利數據不同,Liu等[15]認為論文分析通常位于專利分析“上游”,他們利用染料敏化太陽能電池(DSSC)、非線性編程(NLP)和納米藥物輸送(NEDD)3個領域論文數據集,在Porter等[16]研究的基礎上構建持久性、社區性、增長性三維新興技術識別評價指標體系。隨著大數據時代的到來,新興技術探測使用數據來源越來越廣,逐漸形成以多源異構數據為基礎的新興技術識別趨勢。例如,周云澤等[17]基于LDA模型,利用專利和論文數據源,采用主題強度、主題新穎度兩個指標識別自動駕駛汽車領域的新興技術;張維沖等[18]以區塊鏈技術為例,利用主題關聯分析法,運用專利、論文(期刊論文、學位論文和會議論文)、圖書、基金項目和行業報告5類資源識別新興技術;Noor等[19]使用論文數據與社交媒體數據識別4個領域的新興技術。表2展示了學者識別新興技術所采用的方法、度量特征以及數據源。由表2可知,當前研究在識別新興技術方面存在數據源單一的局限性,這種單一數據源研究雖然有其價值,但忽視了其它數據來源的潛在信息。事實上,專利和論文分別代表科技創新發展不同階段,它們都包含對新興技術的重要見解。因此,綜合使用多源異構信息資源對于全面了解特定領域新興技術演變規律具有重要意義。

2 研究設計

2.1 研究思路

為識別新興技術,本文從新興技術影響力、增長性、連貫性、創新性、不確定性和模糊性5個方面構建評價指標體系,并綜合采用學術論文和專利文獻資源對每項技術進行畫像,衡量其是否為新興技術。新興技術識別路線如圖1所示。具體過程如下:首先,收集專利和論文多源異構數據。其次,剔除無效數據和不完整數據,對原始數據進行清洗,包括句子切分、分詞、詞形還原、停用詞過濾等。運用主題N元語法模型(Topical N-Grams,TNG),從學術論文和專利文獻中提取技術主題(term-based theme),測算技術主題的影響力、增長性、連貫性、創新性、不確定性和模糊性五維指標。利用支持向量回歸機模型對五維指標進行外推分析,計算新興度得分,在此基礎上預判新興技術。

2.2 主題識別技術

大多數主題模型,如Blei等[28]提出的隱含狄利克雷分布模型(LDA)均是基于詞袋(BoW)假設,即假設文本中每個單詞都是獨立的,忽視了單詞之間的順序和上下文信息。Wang等[29]在LDA模型的基礎上提出一個擴展模型,即TNG主題模型,此模型考慮了詞序信息,比LDA模型解釋力更強[30],因此本文選用TNG模型抽取新興技術主題。

表3總結了TNG模型用到的數學符號,其中v=0表示段落或句子開始或結束標記,k=0表示對應v=0的主題。圖2為TNG模型概率圖,其中雙圓圈節點表示觀察變量,單圓圈節點表示潛在變量,箭頭表示條件依賴,方盤表示內部元素需要重復右下角指定的次數。

式(1)為吉布斯采樣的迭代條件概率公式。

2.3 主題識別指標

2.3.1 影響力指標構建

影響力是指新興技術具備某種改變現有產業“行事方式”的潛力,本文將其量化為新進入相應技術領域關鍵研究者的數量。一篇學術論文通常會涉及多個機構的合作署名,一篇專利文獻通常會涉及多個申請機構。同時,學術論文和專利文獻通常會涵蓋多個技術主題。本文在不同時間切片下通過量化機構對主題k的貢獻,利用機構在主題上的累積貢獻值判斷科學影響力。

為闡釋方便,假設科技文獻m共涉及Am個單位,按署名順序將其表示為om=(om,1,om,2,…,om,Am)。本文利用SDC計數法[31],運用貢獻分配方案計算每個單位對該文獻的貢獻比,單位om,i對其文獻貢獻的分配權重cm,i計算過程如下:

在得到貢獻分配權重后,計算每個單位x在時間切片t對技術主題k的科學貢獻值∑m:timestamp=t∧m∈A∧om,i=xcm,i和技術貢獻值∑m:timestamp=t∧m∈P∧om,i=xcm,i。

針對時間切片t和技術主題k,在學術論文中,按照科學貢獻值從大到小排序,確定最少單位數目,使這些單位貢獻累積值大于或等于用戶預設閾值,確定科學影響力InfluenceAk,t。類似地,對專利文獻中的單位按照技術貢獻值從大到小排序,確定最少單位數目,使這些單位貢獻累積值大于或等于用戶預設閾值,確定技術影響力InfluencePk,t。因此,技術主題k在時間切片t的影響力計算公式如下:

2.3.2 增長性指標構建

在新興技術發展過程中,增長性是一個重要指標,用于衡量該技術相對于其它技術的增長速度。通常情況下,新興技術呈現出比其它技術更快的增長趨勢。本文采用流行度斜率反映不同技術主題之間的相對增長速度。具體而言,針對時間切片t和技術主題k,技術主題增長性公式如下:

Growthk,t=wApAk,t-pAk,t-1+wP(pPk,t-pPk,t-1)pAk,t=∑m:timestamp=t∧m∈Am,kpPk,t=∑m:timestamp=t∧m∈Pm,k(8)

其中,pAk,t、pPk,t分別表示時間切片t的技術主題k分別在學術論文和專利文獻的流行度,可通過計算學術論文和專利文獻多項式概率分布得到。

需要說明的是,A表示學術論文,P表示專利文獻,wA表示賦予學術論文指標計算結果的權重,wP則表示賦予專利文獻指標計算結果的權重。

2.3.3 連貫性指標構建

連貫性是指相應技術并非突然出現,而是需要經過一段時間積累,但具體含義比較穩定,不同于仍處于波動狀態的技術。本文使用對稱Kullback-Leibler散度(symKLD)指標測量新興技術連貫性。具體而言,技術主題k在時間切片t的連貫性計算公式如式(9)所示。

CoherencesymKLDk,t=12wAKLDAφk,t-1,φk,t+KLDAφk,t,φk,t-1+12wPKLDPφk,t-1,φk,t+KLDPφk,t,φk,t-1(9)

當時間t時某個技術主題概率較高詞匯與時間t-1時同個主題概率較高詞匯完全不同時,CoherencesynKLDk,t值變大,意味著這一主題含義從時間t-1到時間t發生遷移。

2.3.4 創新性指標構建

識別新興技術創新性的關鍵在于挖掘其技術本質,著名經濟學家Arthur[32]在《技術的本質》一書中指出,所有技術都來自其它次級技術的組合,元初技術是對自然現象及其效應的捕獲。這樣,新興技術被視為采用全新的科學原理、或對已有功能或方法進行重新組合而產生新的、不同于原有母體技術的技術。

結合TNG模型,進一步計算學術論文和專利文獻在時間切片t下技術主題k的創新性值,計算公式如下:

Noveltyk,t=wA∑m∈AZA10mm,k+wP∑m∈PZP10(m)m,kZA10(m)=obsA(m)-expA(m)σA(m)NZP10(m)=obsP(m)-expP(m)σP(m)(10)

其中,ZA10(m)、ZP10(m)分別表示學術論文m和專利文獻m的創新性值,通過計算參考文獻所屬期刊組合[33]和被引專利IPC分類號組合Z值的十分位數得到。

2.3.5 不確定性和模糊性指標構建

不確定性和模糊性是指新興技術產出和用途不可預期,其中包含跨學科、技術領域與科研實踐社群間的模糊性。根據香農在1948年提出的“信息熵”(Shannon entropy, SE)理論,某項新興技術在前期無序性較大,隨著時間推移其無序性開始降低,技術更加明確。因此,本文采用信息熵法對尚處于早期階段、無序性還在增加的新興技術主題進行預判。某個技術主題越有序,說明該主題信息熵越低;反之,則說明信息熵越高。

對于學術論文和專利文獻,分別采用研究領域與技術類別(IPC分類號)的信息熵值表示新興技術主題的不確定性和模糊性。具體來說,在時間切片t技術主題k的不確定性和模糊性計算公式如下:

其中,PAk,tc、PAk,tc分別表示學術論文研究領域和專利文獻技術類別(IPC分類號)在技術主題k和時間切片t上的分布概率,cm表示學術論文m的研究領域或專利文獻m的技術類別(IPC分類號)。

3 實證結果分析

3.1 數據獲取

近年來,電網尖端科技領域發展是國家實現可持續發展、保障國家能源安全的重大部署,因此應準確把握新興技術在電網領域的科學定位,破解電網領域技術難題,搶占行業發展制高點,提前對技術發展創新趨勢進行預測。本文以電網領域為例,開展電網新興技術識別和預判研究。從德溫特創新數據庫(Derwent Innovation)中下載專利文獻集合,選定Web of Science核心合集下載學術論文集合。由于專利文獻和學術論文檢索式較長,本文不再一一列示,檢索文獻類型限定為“Article”和“Review”,時間范圍為2015—2022年,學者大多選用5~10年數據作為支撐[25]。由于電網領域論文與專利數據量較大,同時8年數據量能有效保證識別出的技術范圍在合理區間之內,并能精準提出相應政策建議,故選取近8年數據。經過檢索,本文最終獲取743 344篇學術論文和1 247 235篇專利文獻。

圖3展示了2015—2022年電網領域學術論文和專利文獻數量分布情況。由圖3可以看出,電網領域學術論文和專利文獻發表量總體呈逐年遞增態勢。與論文數量不同,專利數量增長速度在2019年之后明顯加快,這在一定程度上體現了人們對于技術創新的關注度和投資力度,反映出電網領域近年來研究熱度不斷上漲,發展速度加快、發展規模擴大。

3.2 數據預處理

為確保數據質量,首先對學術論文和專利文獻數據進行初步清洗,包括去除無效、重復和不完整的數據。本文使用OpenNLP工具對標題和摘要進行句子切分、分詞和詞形還原。其次,利用英文停用詞列表過濾停用詞,并將科技文獻中的數字替換為“Number”。通過上述過程,最終獲得實驗語料集。

3.3 候選技術主題識別

3.3.1 模型參數設定

本文利用TNG模型識別技術主題,其中TNG超參數取值為:α=0.5, β=0.01, γ=0.1和δ=0.01。為對參數后驗分布進行估計,使用Gibbs采樣方法,并設置迭代次數為1 000次。困惑度在評估主題模型性能方面發揮關鍵作用,是一種衡量模型泛化能力的指標。通過對不同主題數困惑度進行比較,本文確定最優主題數量為50。

3.3.2 候選技術主題內容

經過篩選,剔除明顯不相關主題后,最終確定36個相關技術主題。同時,通過人工判斷和歸納,對這些技術主題標簽進行提煉,如表4所示。

3.4 新興度指標計算

本文致力于確定36個技術主題是否屬于電網領域新興技術。首先,收集關于36個技術主題的5個特征指標數據,即影響力指標Influence'k,t、增長性指標Growth'k,t、連貫性指標Coherence'k,t、創新性指標Novelty'k,t、不確定性和模糊性指標Uncertainty'k,t。這些指標數據包括特定時間切片t下每個技術主題k的值。在計算新興度指數之前,采用最小值—最大值歸一化方法,將所有五維指標歸一化至共同區間[0,1]。這一步驟是為消除不同指標之間的度量單位和范圍差異,以確保它們具有可比性。對連貫性指標進行正向化處理,歸一化處理公式如下:

在新興度指標計算中,每個特征指標都有一個權重 wi,它們代表每個指標的重要性。本研究對5個指標賦予相同權重,即 w1=w2=w3=w4=w5=1/5。最終,使用簡單線性加權法,將歸一化后的五維特征指標值乘以相應權重,然后將它們相加,得到新興度指數得分。具體計算公式如下:

3.5 技術主題識別與解讀

基于上述指標,本文得到2016—2022年技術主題新興度得分及排名。其中,“新型電力系統低碳規劃研究”在過去一段時間一直保持較高的新興度排名。在當前電力行業深度發展戰略中,低碳轉型升級是至關重要的戰略環節。在實施 “雙碳”目標進程中,能源是關鍵領域,而電力則扮演著核心角色。新型電力系統具有安全高效、清潔低碳、柔性靈活和智能融合4個重要特征,其中清潔低碳是核心目標。因此,該新興技術與當前戰略目標高度契合。本文將2022年排名前六的技術判定為電網領域新興技術,分別為新型電力系統低碳規劃研究、電機驅動與控制技術、輸電線智能巡檢技術、數字電網智能運維技術、多無人系統中的協同控制技術和內燃機動力系統技術。通過對相關文獻、政策規劃以及工業應用進行綜合調研,可間接證實識別結果的合理性。舉例來說,“新型電力系統低碳規劃研究”在歐美國家推進新能源發展過程中不僅規定了中長期戰略目標,還重視能源立法及體制機制設計。在立法方面,英國出臺《能源法案》及《電力市場改革》,德國不斷修訂《可再生能源法》等,以完整的法律框架保證能源政策的前瞻性、連續性和可操作性;同時,國家能源局發布的《新型電力系統發展藍皮書》也提出要加強電力供應支撐體系、新能源開發利用體系、儲能規?;季謶皿w系、電力系統智慧化運行體系四大體系建設。“電機驅動與控制技術”在《中國制造2025》國家戰略背景下備受關注,作為系統高效運行和低能耗的關鍵,電機驅動與控制技術正朝著高能效、智能化和集成化方向發展,目前發達國家新能源汽車使用鋰離子電池能量密度已經實現300Wh/kg以上的高能量密度電池,不但實現技術標準化,而且產能更高效?!拜旊娋€智能巡檢技術”在智能電網背景下具有重要地位,數字化手段有助于實現輸電線路狀態可視化、智能化巡檢,而且這項技術在國家相關戰略規劃中得到驗證,如《“工業互聯網+安全生產”行動計劃(2021-2023年)》通過開展“5G+智能巡檢”提高實時監測能力。目前,英國加強對設計、生產、運輸、使用和回收等環節的安全管理,建立完善的電池安全檢測和監控機制,保障每個環節的安全性;《南方電網公司建設新型電力系統行動方案 (2021—2030年)白皮書》和“十四五”新型基礎設施建設戰略明確提出數字電網智能運維技術,有力推進電網輸配電網絡智能運維;此外,美國在《Grid2030——美國電力系統下一個百年的國家愿景(2003)》中也強調智能數字電網技術,用信息化+儲能讓電網更好地適應新能源占比提升引發的各類問題?!岸酂o人系統中的協同控制技術”針對我國“制造強國”戰略目標,無人系統已成為社會重點研究領域,而多無人系統協同控制問題則是未來無人系統發展備受關注的核心議題之一。2017年,我國在《新一代人工智能發展規劃》中,將自主式智能無人系統作為人工智能發展的一項重要內容;2018年,美國在未來地面人機組合計劃中專門研究了機器人和人工智能如何與人類協同行動的問題。對于“內燃機動力系統技術”,內燃機是國民經濟和國防建設的“動力心臟”,同時也是“雙碳”目標實現的主力軍,我國《內燃機產業高質量發展規劃(2021-2035)》強調智能化關鍵技術創新與應用,英國也在碳排放稅和配套碳價政策中限制傳統內燃機燃料使用,英國技術戰略委員會同時贊助了3個關于飛輪混合動力系統的研究項目,且掌握了大量飛輪混合動力先進技術。

為深入了解這些新興技術未來發展趨勢,本文采用支持向量機回歸模型對當前五維指標進行外推分析。這種模型以支持向量機的思想為基礎,在特征空間中構建一個超平面,盡可能地擬合基于時間序列的新興技術數據。具體方法如下:首先,計算過去7年時間多維度新興技術特征數據,對每個新興技術數據進行切片處理,使用歷史數據作為自變量,即用前3個時間切片指標數值預測下一個時間切片(t+1)的指標數值,即因變量。窗口大小設置為3,每個窗口包含3個連續的時間切片數據,隨著窗口滑動,數據被切分為不同自變量和因變量組合。其次,將每個新興技術的前n條數據作為訓練集,將最后一條數據作為驗證集。這種數據劃分方式能夠了解同一領域下不同新興技術的特點,從而更好地擬合和預測數據。

本文使用支持向量機回歸模型對這些數據進行擬合分析。為獲得最佳性能,首先利用K折交叉驗證和網格搜索確定最優支持向量機超參數,確保選擇適用于數據集的最佳參數配置,以最大限度減少預測數據的不確定性。其次,根據擬合曲線推測未來一年的指標數值。最后,結合歷史數據和模型擬合結果,預測和分析未來兩年指標趨勢。圖4呈現了未來兩年的外推結果,可見新型電力系統低碳規劃研究、輸電線智能巡檢技術、多無人系統中的協同控制技術和內燃機動力系統技術保持前五位置不變,而智能風能電力系統集成技術和離子電池與能量存儲技術排名逐漸靠前,說明這些新興技術在未來有望獲得更多關注和發展。

4 結論與討論

4.1 研究結論

新興技術在當今世界科技革命和產業變革中扮演著重要角色。各科技發達國家都高度重視新興技術,并將其作為國家戰略規劃的核心。準確把握新興技術發展趨勢至關重要,有助于我國實現技術突破、進行前瞻性技術部署、培育新興市場以及指導產業化布局。

本文采用多源數據融合方法,以電網領域論文和專利數據為基礎開展新興技術識別方法研究。利用TNG模型抽取技術主題,并通過人工篩選確定關鍵主題。基于抽取得到的主題,測度新興技術的影響力、增長性、連貫性、創新性以及不確定性和模糊性特征指標,其中不確定性和模糊性指標之前研究較少涉及,本文基于“信息熵”理論對其進行度量,在驗證中取得較好效果。隨后,對5個指標進行融合分析,得到新興度得分,從而對論文和專利數據中的新興技術進行識別和預測,確定電網領域新興技術為:新型電力系統低碳規劃研究、電機驅動與控制技術、輸電線智能巡檢技術、數字電網智能運維技術、多無人系統中的協同控制技術和內燃機動力系統技術。同時,通過外推未來兩年發展趨勢,本文揭示具有新興潛力的技術為智能風能電力系統集成技術和離子電池與能量存儲技術。這些發現為科學界、產業界和政策制定者提供了有價值的參考,有助于推動電網領域可持續發展,從而驗證本文方法的可行性和有效性。

4.2 不足與展望

新質生產力的提出進一步明確了新興技術在先進生產力發展中的重要地位。本文基于電網領域論文和專利數據,利用影響力、增長性、連貫性、創新性以及不確定性和模糊性特征指標構建新興技術識別框架,以電網領域為例識別新興技術,豐富了新興技術識別領域研究,具有一定理論和實踐意義,但仍存在一定不足,需要后續研究加以完善。

(1)在大數據和人工智能時代背景下,數據來源不斷豐富,本文僅使用論文和專利數據作為主題識別依據,忽視了其它文本數據源如圖書、基金項目、行業報告、政策文獻等,這些資源既能提供科技研究資助和支持方向,還能關注行業發展前沿,以及政府對新興技術的重視程度和政策導向。此外,還可以將初創企業數據、公共輿論數據納入指標度量中,這兩種資源能在一定程度上提供行業企業發展情況和社會輿論方面的關注度,有助于提升新興技術識別的準確性和全面性。

(2)本文旨在提出一種普適性的方法運用于所有領域,因此以電網領域數據為例識別新興技術只是研究開端,后續還需將此方法應用于更多領域,以驗證其普適性。

(3)隨著人工智能和深度學習技術的快速發展,應探索更高效、數據量更大的方法對技術主題進行識別,進而提高識別效率,并形成一套自動化體系,助力其他領域科研人員運用于相關領域研究。

參考文獻:

[1]JOUNG J, KIM K. Monitoring emerging technologies for technology planning using technical keyword based analysis from patent data[J]. Technological Forecasting and Social Change, 2017, 114: 281-292.

[2]徐碩,王聰聰,安欣. 新興技術弱信號掃描預判述評[J]. 情報雜志,2023,42(3):117-122.

[3]盧小賓,楊冠燦,徐碩,等. 計量與演化視角下的新興技術識別研究進展評述[J]. 情報學報,2020,39(6):651-661.

[4]楊思洛,江曼. 新興技術內涵特征和識別方法研究進展[J].情報科學,2023,41(5):181-190.

[5]SMALL H, BOYACK K W, KLAVANS R. Identifying emerging topics in science and technology[J]. Research Policy, 2014, 43(8): 1450-1467.

[6]WANG Q. A bibliometric model for identifying emerging research topics[J]. Journal of the Association for Information Science and Technology, 2018, 69(2): 290-304.

[7]CARLEY S F, NEWMAN N C, PORTER A L, et al. An indicator of technical emergence[J]. Scientometrics, 2018, 115(1): 35-49.

[8]ROTOLO D, HICKS D, MARTIN B R. What is an emerging technology[J].Research Policy,2015,44(10): 1827-1843.

[9]DAY G S, SCHOEMAKER P J H, GUNTHER R E. Wharton on managing emerging technologies[M].Hoboken:John Wileyamp;Sons, Inc, 2000.

[10]COZZENS S E, GATCHAIR S, KANG Y, et al. Emerging technologies: quantitative identification and measurement[J]. Technology Analysis and Strategic Management, 2010, 22(3): 361-376.

[11]李昌,楊中楷,董坤. 基于多維屬性動態變化特征的新興技術識別研究[J]. 情報學報,2022,41(5):463-474.

[12]李仕明,肖磊,蕭延高. 新興技術管理研究綜述[J]. 管理科學學報,2007,10(6):76-85.

[13]徐建國,李孟軍,游翰霖. 新興技術識別研究進展[J]. 情報雜志,2018,37(12):8-12,7.

[14]徐碩,郝麗媛,安欣. 基于藥物專利信息資源的新興技術探測研究[J]. 中國發明與專利,2021,18(6):14-23.

[15]LIU X, PORTER A L. A 3-dimensional analysis for evaluating technology emergence indicators[J]. Scientometrics, 2020, 124: 27-55.

[16]PORTER A L, GARNER J, CARLEY S F, et al. Emerging scoring to identify Ramp;D topics and key players[J]. Technological Forecasting and Social Change, 2019, 146: 628-643.

[17]周云澤,閔超. 基于LDA模型與共享語義空間的新興技術識別——以自動駕駛汽車為例[J].數據分析與知識發現,2022,6(Z1):55-66.

[18]張維沖,王芳,趙洪. 多源信息融合用于新興技術發展趨勢識別——以區塊鏈為例[J]. 情報學報,2019,38(11):1166-1176.

[19]NOOR S, GUO Y, SHAH S H H, et al. Research synthesis and thematic analysis of twitter through bibliometric analysis[J]. International Journal on Semantic Web and Information Systems, 2020, 16(3): 88-109.

[20]CORROCHER N, MALERBA F, MONTOBBIO F. The emergence of new technologies in the ICT field: main actors, geographical distribution and knowledge sources[R]. Department of Economics, University of Insubria, 2003.

[21]楊冠燦,丁月,徐碩,等. 基于專利動態指標的新興技術預測建模方法——以癌癥藥物領域為例[J]. 情報學報,2022,41(8):786-795.

[22]LEE C, KWON O, KIM M, et al. Early identification of emerging technologies: a machine learning approach using multiple patent indicators[J]. Technological Forecasting and Social Change, 2018, 127: 291-303.

[23]宋欣娜,郭穎,席笑文.基于專利文獻的多指標新興技術識別研究[J]. 情報雜志,2020,39(6):76-81,88.

[24]任惠超,黃慶龍,張祖國,等. 船舶領域新興技術主題識別技術研究[J]. 情報理論與實踐,2022,45(11):103-106.

[25]XU S,HAO L,YANG G, et al. A topic models based framework for detecting and forecasting emerging technologies[J].Technological Forecasting and Social Change, 2021, 162: 120366.

[26]XU S, HAO L, AN X, et al. Emerging research topics detection with multiple machine learning models[J]. Journal of Informetrics, 2019, 13(2): 100983.

[27]高楠,高嘉騏,陳洪璞. 新興技術識別與演化路徑分析方法研究——以集成電路領域為例[J]. 情報科學,2023,41(3):127-135,172.

[28]BLEI D M, NG A Y, JORDAN M I. Latent Dirichlet allocation[J]. Journal of Machine Learning Research, 2003, 3: 993-1022.

[29]WANG X, MCCALLUM A, WEI X. Topical n-grams: phrase and topic discovery, with an application to information retrieval[C].Proceedings of the 7th IEEE International Conference on Data Mining. IEEE, 2007: 697-702.

[30]MANN G S, MIMNO D, MCCALLUM A. Bibliometric impact measures leveraging topic analysis[C].Proceedings of the 6th ACM/IEEE Joint Conference on Digital Libraries,2006: 65-74.

[31]TSCHARNTKE T, HOCHBERG M E, RAND T A, et al. Author sequence and credit for contributions in multiauthored publications[J]. PLoS Biology, 2017,5(1): 18.

[32]ARTHUR W B. The nature of technology: what it is and how it evolves[M]. New York: Simon and Schuster, 2009.

[33]UZZI B, MUKHERJEE S, STRINGER M, et al. Atypical combination and scientific impact[J]. Science, 2013, 342(6157): 468-472.

(責任編輯:王敬敏)

An Approach to Identifying Emerging Technologies by Fusing Multi-Source Data

Wang Hong1, Liu Qinying1, Hu Yufeng2, Wang Qinghong1, Zhou Yuzhong1

(1.Southern Power Grid Research Institute Co., Ltd.Guangzhou 510663,China;2.China Southern Power Grid Co., Ltd., Guangzhou 510663, China)

Abstract:Emerging technologies not only signify the cutting edge of technological innovation but also represent a pivotal aspect of international competition, and they are highly valued by nations, international organizations, and leading corporations worldwide. By swiftly and accurately detecting potential emerging technologies in target domains, they can grasp the opportunities of future technological and industrial development, break through the technological barriers in various fields, and thus enhance the competitive advantage of both nations and enterprises in strategic global competitions. In the context of China's aggressive pursuit of its \"carbon neutrality and carbon peak\" goals, innovation in power grid technology assumes exceptional importance. Power grid companies are compelled to deeply comprehend and master the evolving trends in emerging grid technologies, undertake crucial technological research, and guide precise research and development investments to secure a dominant position in the international arena.

As vital carriers of scientific information, academic papers and patent literature are predominantly used to evaluate the level of scientific research activities and the innovation in industrial technology, and have become the primary sources for detecting emerging technologies. An in-depth study and analysis of these documents, followed by the extraction and selection of innovative information within them, helps to uncover latent technological knowledge. Although single data source methods are operationally effective, they struggle to accurately reflect the complexity of scientific themes. Conversely, research on detecting emerging technologies through multi-source data remains relatively scarce. Currently, there is a lack of academic consensus on the definition of emerging technologies, leading to different indicators for assessing whether a technology topic is an emerging technology. Identifying these technologies accurately and delineating their quintessential characteristics—impact, growth, coherence, novelty, and uncertainty—is crucial. It is noteworthy that quantified research on these features, particularly uncertainty and ambiguity, is still scarce.

This paper introduces a method for integrating multi-source data, aiming to amalgamate academic and patent data to enhance semantic complementarity between varied data types, thereby boosting efficiency in identifying emerging technologies. The study utilizes the Topical N-Grams (TNG) model to extract technological themes from academic papers and patent documents, followed by manual selection to ascertain key technological themes. According to these themes, it computes five primary feature indicators: impact, growth, coherence, novelty, and uncertainty. These indicators are then amalgamated to calculate an emergence score. Subsequently, the study employs a support vector regression machine model for extrapolating these indicators, identifying emerging technologies with potential for future growth. Focusing on the grid sector, the study collects patent literature from the Derwent Innovation database and academic papers from the Web of Science core collection,limiting document types to \"Article\" and \"Review\" and setting the timeframe from 2015 to 2022, with a total of 743 344 academic papers and 1 247 235 patents. The analysis of the annual distribution of academic and patent papers published in the grid field reveals a steady increase in research interest; the emerging technologies in the grid sector for 2022 include research on low-carbon planning for new power systems, electric motor drive and control technology, intelligent inspection technology for transmission lines, smart operation and maintenance technology for digital grids, cooperative control technology in multi-unmanned systems, and internal combustion engine power system technology. Notably, research on low-carbon planning for new power systems has consistently ranked high in emergence in recent times. In the deep development strategy of the current power industry, low-carbon transformation and upgrading are deemed vital. Further indicator extrapolation indicates that research on low-carbon planning for new power systems, intelligent inspection technology for transmission lines, cooperative control technology in multi-unmanned systems, and internal combustion engine power system technology maintain their top-five status, while intelligent wind energy power system integration technology and ion battery and energy storage technology are gradually climbing the ranks, suggesting that these emerging technologies are poised for increased attention and development in the future. In addition to academic papers and patent literature, funding programs and policy texts are also very important sources of information. These resources can provide information about the direction of funding and support for Samp;T research, as well as the level of government attention and policy orientation towards emerging technologies.

Key Words:Emerging Technology;Multi-Source Heterogeneous Data Fusion;Profile of Emerging Technology;Machine Learning

收稿日期:2023-08-29 修回日期:2024-01-04

基金項目:中國南方電網有限責任公司創新項目(ZBKJXM20220013)

作者簡介:王宏(1989—),男,湖北荊州人,南方電網科學研究院有限責任公司高級工程師,研究方向為技術和戰略情報分析、數據挖掘、電力系統自動化;劉沁瑩(1996—),女,貴州六盤水人,博士,南方電網科學研究院有限責任公司工程師,研究方向為技術和戰略情報分析、電網風險管控、電力系統自動化;胡玉峰(1975—),男,湖南郴州人,博士, 中國南方電網有限責任公司高級工程師,研究方向為科技創新管理、知識產權管理、電力系統自動化;王慶紅(1976—),男,貴州銅仁人,博士,南方電網科學研究院有限責任公司教授級高級工程師,研究方向為電力科技創新、技術競爭情報、知識產權管理;周育忠(1974—),男,廣東汕頭人, 南方電網科學研究院有限責任公司教授級高級工程師,研究方向為知識管理、標準化、電力大數據。

猜你喜歡
機器學習
基于詞典與機器學習的中文微博情感分析
基于網絡搜索數據的平遙旅游客流量預測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
科教導刊(2016年26期)2016-11-15 20:19:33
下一代廣播電視網中“人工智能”的應用
活力(2016年8期)2016-11-12 17:30:08
基于支持向量機的金融數據分析研究
基于Spark的大數據計算模型
基于樸素貝葉斯算法的垃圾短信智能識別系統
基于圖的半監督學習方法綜述
機器學習理論在高中自主學習中的應用
極限學習機在圖像分割中的應用
主站蜘蛛池模板: 色精品视频| 久久窝窝国产精品午夜看片| 喷潮白浆直流在线播放| 久久国产精品波多野结衣| 国产精品视频免费网站| 国产一区三区二区中文在线| 国产精品流白浆在线观看| 成人国产免费| 亚洲日韩第九十九页| 亚洲AV色香蕉一区二区| 国产成人喷潮在线观看| 亚洲欧美日韩中文字幕一区二区三区| 精品欧美视频| 欧美日韩一区二区在线免费观看| 亚洲成在线观看| 国产精品主播| 高h视频在线| 强奷白丝美女在线观看| 91精品伊人久久大香线蕉| 欧美黄色网站在线看| 亚洲天堂视频在线播放| 国产永久无码观看在线| 国产亚洲精品精品精品| 伊人色在线视频| 久久动漫精品| 免费va国产在线观看| 亚洲天堂成人在线观看| 欧美午夜视频| 2021国产v亚洲v天堂无码| AⅤ色综合久久天堂AV色综合| 国产免费看久久久| 91色老久久精品偷偷蜜臀| 一级片免费网站| 无码国产偷倩在线播放老年人| 国产女人18毛片水真多1| 五月天香蕉视频国产亚| 国产永久在线视频| 成年女人a毛片免费视频| 福利视频99| 国内精品一区二区在线观看| 国产永久在线视频| 亚洲色图欧美一区| 亚洲国产精品无码AV| 一级毛片免费播放视频| 久久免费精品琪琪| 88av在线| 一区二区三区四区日韩| 九色在线视频导航91| 男女性午夜福利网站| 欧美日韩v| 91久草视频| 精品国产Av电影无码久久久| 中文字幕日韩丝袜一区| 999福利激情视频| 中文字幕有乳无码| 极品国产一区二区三区| 国产91熟女高潮一区二区| 最新日韩AV网址在线观看| hezyo加勒比一区二区三区| 久久精品一卡日本电影| 国产精女同一区二区三区久| 国产精品手机视频| 精品国产一二三区| 免费人成视网站在线不卡| 久久国产精品77777| 亚洲αv毛片| 午夜福利无码一区二区| 国产欧美日韩18| igao国产精品| 在线观看亚洲精品福利片| 欧美性猛交xxxx乱大交极品| 日韩小视频网站hq| 国产麻豆永久视频| 成人无码一区二区三区视频在线观看| 久久久久中文字幕精品视频| 亚洲一区二区在线无码| 嫩草在线视频| 色哟哟国产成人精品| 欧美亚洲另类在线观看| 嫩草国产在线| 久久青草免费91观看| 中文字幕首页系列人妻|