999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于知識元遷移的ESI研究前沿知識演進分析方法

2021-10-26 05:41:30冷伏海
情報學報 2021年10期
關鍵詞:文本研究

孫 震,冷伏海

(1. 山東理工大學信息管理研究院,淄博 255000;2. 中國科學院科技戰略咨詢研究院,北京 100190)

1 引 言

大數據所引發的“ 數據洪流(data deluge) ”使得數據泛濫成為當前時代的特點,數據泛濫背后的 “知識匱乏” 現象嚴重影響著各行業的數據應用。其對科研領域的沖擊更為強烈,這是由于科學數據資源的利用往往不在于大數據的表層加工,而是對大數據中萃取的 “有價值” 知識的挖掘和應用。例如,科研人員面對海量科技文獻的選題或調研時,其目的常常在于聚焦特定選題的核心文獻集合,挖掘與該主題密切相關、并反映前沿方向的領域知識。美國早在2012 年便提出了 “大數據研發計劃(Big Data R&D Initiative) ”[1],旨在提高從大型復雜數據集中提取知識和見解(extract knowl‐edge and insights) 的能力。 中國工業和信息化部2014 年出版的《大數據白皮書》 中也曾提到,大數據分析技術需要將海量的、復雜的、多源的數據轉化為機器可識別的具有明確語義的信息,進而從中提取有用的知識。

在此背景下,傳統的科技情報工作有必要面向學科用戶的領域 “問題需求”,開展基于專業領域的知識挖掘、處理、分析和利用的 “精準知識服務”。2007 年,時任中國科學技術信息研究所所長賀德方[2]就曾提出,科技情報工作應發揮支撐科研活動和戰略決策的作用,幫助科技工作者更加方便地獲取知識。2016 年,科技部副部長李萌[3]發文指出,信息技術與大數據的融合應用,已將科技情報研究工作轉變為一種基于海量數據的知識分析和知識發現的過程。2019 年,時任中國科學技術信息研究所所長戴國強[4]指出,科技情報工作需要圍繞宏觀、中觀和微觀等不同層次用戶需求,為科技創新管理與決策提供情報支撐。

要想實現由傳統的 “信息” 對象到 “知識” 中心的情報工作的轉變,一個重要的前提是能夠通過知識計算及可視化表征,將隱含在文本內的重要知識及知識關系揭示出來,并利用相關的知識內容發現新的知識模式。計算機技術的飛速發展,已經使得信息的組織、存儲和索引技術日趨成熟,但在科技情報研究領域,能夠借助知識技術,實現科技文獻隱含知識內容關系揭示,并進行知識發現的研究卻為少數。究其原因,目前科技情報工作的分析對象主要局限在文獻的標題、摘要、關鍵詞等外部知識特征數據,這些數據源雖然能夠反映部分領域知識,但在深入揭示文獻內隱藏知識及其潛在知識關系方面仍具有局限性。

不同于關鍵詞或主題詞,本文前期研究提出的知識元概念[5-6],不再是學術文獻抽象的、間接的代表符號,而是實實在在代表具體科學概念和創新內容的科學觀點語言,是能夠表征特定領域科學內涵的學科專業元素或基本要素。結合語言學、共現分析和引文分析的基礎理論,利用文本挖掘和自然語言處理技術,對研究前沿語義層面的文本特征進行研究,已被證明能夠探測研究前沿內部微觀的科學知識結構特征[7]。 基于以上背景和前期研究基礎[5-7],本文將研究前沿演進具象化為知識元的遷移,提出一種基于知識元遷移的ESI (essential sci‐ence indicators) 研究前沿知識演進分析方法,通過對研究前沿中的知識元遷移現象進行定量分析和遷移程度計算,從語義分析和知識計算的角度,進一步探索研究前沿的演進機理。以期能夠更為深入地回答“研究前沿的追蹤發展變遷,以及研究前沿形成后、后續研究在解決何種創新科學問題” 的問題,也為面向學科前沿的科技情報工作提供方法論參考。

2 基礎理論闡述

2.1 ESI研究前沿的問題驅動導向

對于科技情報工作而言,情報研究的方法論和產品應用性永遠是決定情報產品價值的基礎影響因素。 中國科學院與科睿唯安(Clarivate Analytics)聯合發布的ESI 《研究前沿》 系列報告,就是在“文獻計量+專家研判+綜合分析” 綜合集成方法上產生的科技智庫情報產品。首先,利用共被引方法對WoS (Web of Science) 高被引論文進行聚類整合,篩選代表研究前沿的核心論文及其施引文獻;其次,邀請權威領域專家進行專家獨立評議、召開專家研討會,對研究前沿內涵表現準確性進行把關評判;最后,研究團隊將計量分析證據結果與專家評議意見進行綜合集成,綜合分析判讀篩選,并確定最終的研究前沿分布。 具體方法流程如圖1 所示。筆者曾有幸參與《研究前沿》 報告的研制過程,以及多次專家研討會議,包括李國杰、于淥、姚檀棟等多位院士在內的權威領域專家,不但對研究前沿的結果內涵進行把關,還一再強調,《研究前沿》 高端智庫產品應該基于領域真實的科研問題,始終把控兩點 “應用” 屬性:對國家科技政策制定者而言,《研究前沿》 應具有 “把握世界科技發展大勢、研判科技發展戰略方向” 的應用屬性;對科研工作者而言,《研究前沿》 應具有 “監測和分析科學研究發展脈絡、識別科技創新突破口和生長點” 的應用屬性。

圖1 ESI《研究前沿》報告“問題驅動”綜合集成研制流程圖

“對科技決策者有用、對科研工作者能用” 已然成為科技情報工作的基本特質。當然,正由傳統“數據導向” 到 “問題驅動” 轉變、由被動到主動轉型的科技情報工作也面臨著一系列挑戰:科學計量如何突破傳統的關鍵詞、主題詞、題錄元數據的數據源局限?如何獲取并深入挖掘文獻內部的學科領域知識,尤其是那些代表領域關鍵問題的知識要素?科學計量學如何在語義語用走向上發展,計量口徑的細粒度能深入聚焦到何種層次?科技情報工作如何走向科研一線,為科學家提供解決領域問題真正需要的情報產品?借助大數據分析工具技術,科技情報研究如何立足于 “機器” 和 “方法”,提供解決領域問題的 “精準化” 知識服務?這些挑戰的解決,將在很長時間內決定著科技情報工作和科技情報研究的未來發展方向。

2.2 ESI研究前沿的知識元遷移現象

情報計量與監測是科技情報研究的核心技能之一,情報定量分析就是為了給態勢研判提供定量的情報證據,只有從對專業領域問題的假設入手,才能保證情報揭示證實的專業準確性,滿足用戶的情報需求。ESI 研究前沿的研究和實踐就是在此情報學理論背景上展開,然而,以往ESI 研究前沿工作常常側重于計量學 “統計性宏觀評價” 功能的體現,計量學 “規律性微觀分析” 的特質鮮有描述,而ESI Research Fronts 中的知識元遷移現象,恰為我們提供了一個獨特的視角,對ESI 研究前沿的定量演化規律進行深層次挖掘剖析。

ESI 研究前沿概括了6 年間成形的科學結構整體 “知識地貌”,而基于知識元的演進分析,則可以揭示 “知識地貌圖” 的內在微觀成因及其推演變遷脈絡。例如,以物理學領域 “引力波” 研究為例,早在1916 年,愛因斯坦就發表論文預言了引力波的存在[8];1918 年,他得到引力輻射源的能量減少率與質量4 極矩3 階變化率的關系[9]。就在愛因斯坦創立廣義相對論的100 周年后,美國激光干涉引力波天文臺(Laser Interferometer Gravitational-Wave Observatory,LIGO) 于2016 年宣布,觀測到引力波產生于兩個黑洞的并合[10],第一次觀測到此種黑洞過程,并因此位列Science和Nature年度十大科學發現榜首,獲得了2017 年諾貝爾物理學獎。如果從計量學 “科學地貌圖” 主題演化監測結果上看,引力波研究在100 年前和100 年后都有 “知識地理位勢” 的隆起,論文引用及其他指標關注度均較高。但是,傳統基于論文外在知識特征的計量分析,無法揭示引力波研究 “知識地貌” 隆起的深層次原因;而借助知識元分析,不但可以發現高位勢科學知識地貌成形的內在緣由,還能揭示知識元遷移的內在機理:100 年前,愛因斯坦預言了引力波的存在,革命了傳統物理學的認知;100 年后,激光探測技術的革新性升級、靈敏度的提升,使得LIGO 探測器光路可以達到引力波波長的1/4,最終助力引力波的探得[11]。100 年前的 “廣義相對論”“引力輻射源”“質量4 極矩3 階變化率”,以及100年后的 “激光干涉”“邁克爾孫干涉儀”“Fabry-Pe‐ro 腔”“相位差振蕩” 等知識元成為理解引力波研究不同時期引起轟動的關鍵,而 “引力波” 從與“廣義相對論” 到與 “LIGO” 知識元組合發生的遷移現象,又成為推演 “知識地貌” 不同時期成形變遷的基礎和證據。由此可見,深入文獻內部的知識元研究,有助于厘清相同科學主題在不同時期由于“概念提出”“應用拓展”“技術升級”“方法革新”等科學創新要素引發的科學突破,這種優勢是傳統計量學研究無法實現的。

文獻[7]的研究已經證明,ESI 研究前沿的語詞特征表現為具有語義功能的知識元集合,而研究前沿演進過程實質上是與不同語義功能知識元相關的創新與應用的變化。例如,在《2016 研究前沿》 與鈣鈦礦太陽能電池相關的前沿中(表1),不同知識元具有不同的語義功能:organometal trihalide (三鹵化有機金屬化合物)、lead halide (鹵化鉛)、or‐ganic-inorganic (有機-無機) 等知識元代表了鈣鈦礦太陽能電池的不同研究材料組成; planar (平面)、heterojunction (異質結)、hybrid (雜化) 等知識元表征鈣鈦礦太陽能電池的不同內部構造類型;solution-processed ( 溶 液 法)、 low-driving-voltage(低壓驅動)、encapsulated (密封) 等知識元代表了鈣鈦礦太陽能電池的制備實驗方法; diffusion lengths (擴散長度)、trap-state density (俘獲狀態密度) 等知識元則表示鈣鈦礦太陽能電池具有的能量狀態特性。知識元遷移外在表象是指相同的知識元在不同研究前沿出現的現象,其實質反映了研究前沿演進的過程中,知識元隨時間推移、與其他知識元關聯的創新應用變化。 例如,在表1 中,CH3NH3PbI3、perovskite 等 “鈣鈦礦” 知識元在不同年份與上述具有不同語義功能類型知識元的組合,不僅反映了不同時期鈣鈦礦太陽能電池的研究熱點和創新突破點,也清晰地展現了一條鈣鈦礦太陽能電池技術的發展路徑軌跡線:鈣鈦礦型太陽能電池在非晶硅、染料敏化、有機太陽能電池等基礎上,已發展成為第三代太陽能電池的熱門方向,其核心為有機金屬鹵化物吸光材料,主要是碘化鉛甲胺(CH3NH3PbI3);但其在光電轉換工作機理、具有大載流子擴散長度的材料制備、穩定性、光電性質等方面仍存在許多研究空間,是近年來的研究焦點。

表1 《2016研究前沿》鈣鈦礦太陽能電池相關前沿知識元分布表

類比于現實中科技人才種群的地域性遷移現象,知識元相當于具有不同本領與知識特長的科技人才種類,研究前沿相當于不同的地域方位,人才種群在不同地域的遷移流動,勢必會對本地域的知識構成和科技創新具有一定的影響,引發當地的科技知識重組,推動科技的創新應用和發展。相應地,具有不同科技語義語用功能的知識元,在不同時期發生不同的遷移現象,與不同前沿的不同種類知識元進行重組,從專業領域的知識結構系統來看,勢必會推動研究前沿的演進、革新研究前沿的科技突破方向。因此,研究前沿中的知識元遷移現象具有普遍性,而從研究前沿核心知識元隨時間的變化遷徙入手,能夠基于領域知識的最微觀視角,剖析研究前沿內部科學知識構造的演變過程和機理。

3 研究方法

本文在前期研究文獻[7]的基礎上,將研究前沿的演進分析深入到個體知識元層面,重點關注知識元的遷移現象,即知識元在不同前沿主題的引入與遷出。知識元遷移,是指相同知識元在不同時期前沿主題中出現的現象,指代前沿主題具有不同語義語用功能知識元所發生的變化,這是由于在研究前沿演進過程中,實際上反映的是與知識元關聯的領域知識創新和應用的變化。而且從個體知識元演進規律分析入手,也是在前期研究基礎上,進一步從微觀專業知識結構角度理解研究前沿演進過程的驅動因素。

為了更有針對性地比較檢驗本文方法的延展性和有效性,首先,仍利用與文獻[7]相同的全文語料基礎數據,對于經過OSCAR4 (即OSCAR (The Open-Source Chemistry Analysis Routines) 工具的第4代Java 庫版本) 知識實體識別和POS 詞性標注(part-ofspeech tagging) 后的實驗文本,將得到的知識元詞袋(bag of knowledge elements) 實施PLDA (paral‐lel latent Dirichlet allocation) 算法進行主題建模(其實質是抽取文本的科學內涵主題,解析反映科學創新知識的內部結構),得到PLDA 訓練抽取的不同時段 “前沿主題-知識元詞項” 概率分布結果,每個知識元對應的概率可以看作是該知識元對前沿主題知識內容的貢獻;其次,將 “前沿主題-知識元詞項” 概率分布計算轉置為 “知識元詞項-前沿主題” 概率分布,考察知識元在不同前沿主題的分布情況下,知識元詞項在對應前沿主題下概率越高,表明知識元與這個前沿主題研究聯系越緊密,對于促進和推動該前沿主題的知識創新起到了重要作用;再次,利用信息熵(information entropy) 理論對知識元遷移進行定量表示(知識元詞項-前沿主題分布的信息熵值變化表現的是知識元遷移程度的高低);最后,通過知識元詞項前沿主題概率分布與信息熵值變化的可視化分析,繪制其隨時間標簽變化而變遷的歷時遷移圖譜,對研究前沿知識元遷移的穩定性和不同類型進行定量分析測度。具體研究方法流程如圖2 所示。

圖2 基于知識元遷移的ESI研究前沿知識演進分析方法流程圖

3.1 LDA與PLDA主題模型

LDA (latent Dirichlet allocation) 是一種可以計算文檔主題概率分布的經典主題模型,由Blei 等[12]在2003 年提出,LDA 采用狄利克雷分布(Dirichlet distribution) 作為概率主題模型多項分布的先驗分布,概率模型為

其中,θ為文檔-主題概率分布,是隱式參數,需要通過概率推導求解;參數α和β是固定值,由用戶預先定義,α可以理解為主題在遇到文本之前的被抽樣頻數,β則是主題遇到詞匯語料庫前所抽樣獲得的詞匯出現頻數;zm,n表示第m個文檔中第n個詞的主題;wm,n代表第m個文檔中的第n個詞,文檔中各詞項的陰影部分wm,n值是可觀測的數據,文檔主題等其他變量則均為隱含。

隨著大數據時代的到來,學者們又提出基于共享及非共享內存的并行計算LDA 主題模型框架,以應對爆炸增長的數據處理需要。其中,非共享內存并行計算框架的LDA 主題模型算法相對更加成熟。 2008 年,Newman 等[13]提出,基于Gibbs sam‐pling 全局同步思想的近似分布狄利克雷分布模型(approximation distribution latent Dirichlet allocation,AD-LDA):先基于全局初始化主題模型參數,優化任一分配主題模型,然后經過同步融合獲取全局主題模型參數。此后,Wang 等[14]又對AD-LDA 主題進行改進,并提出了PLDA 主題模型算法,提高了AD-LDA 主題模型的分析效率。

PLDA 模型相較于傳統的主題識別方法,可以有效縮短文本集主題信息分析的抽取計算時間,且準確度高于LDA 模型[15];通過提高算法的運行效率及并行加速比,其在揭示詞項語義關聯關系上也更加有效,識別效率與精確性上均有提升[16]。因此,本文利用PLDA 主題模型算法,對知識元 “詞袋” 進行抽取計算分析。具體來說,將前沿的每個Research Front 類比每篇文檔的topic,每個Research Front 文本中的化學實體知識元(knowledge ele‐ment) 類比于每個topic 中的word 詞項分布。

3.2 信息熵

研究前沿中,知識元的遷移程度是與知識元在各前沿主題中的分布均勻程度相關聯的。若要對知識元的遷移進行定量化表示,則問題的關鍵就在于尋找一個適用于表示知識元在不同時期、不同前沿主題文本內分布均勻程度的測量指標。解決該問題的核心在于對知識元在前沿主題中無序程度的測量,即對不確定性的量度。而測量一個系統的不確定性與無序混亂分布程度,就等價于測量這個系統的熵值。因此,本文應用信息熵理論對知識元在不同研究前沿隨時間遷移程度進行定量化表征測度。

熵(entropy) 的概念最早起源于物理學,用于度量熱力學系統的無序程度(失序現象)。在信息論(information theory) 中,信息論之父Shannon[17]于1948 年第一次提出了 “信息熵” 的概念,用數學語言闡明了概率與信息冗余度的關系,解決了信息的量化度量問題。

在傳統經典熱力學中,熵被定義為對系統的宏觀測度,并沒有涉及概率分布,而概率分布是信息熵的核心定義。信息熵值的大小表現是隨機變量X所服從概率分布的均勻性,分布越均勻,熵值越小;分布越不均勻,熵值越大。熵值的取值范圍在[ 0,1] 之間,最小值為0,最大值為1。在本文中,若某個知識元在某時刻前沿主題所有文本的實驗部分均出現,則該知識元在該時刻內對于該前沿主題文本的熵值為0;若某知識元在某時刻只在某一特定前沿主題的特定文本實驗部分出現,則該知識元在此時刻對于該前沿主題文本的熵值為1。某時期知識元的熵值表現,反映的是該知識元在此時期前沿主題中的研究均勻分布程度,熵值越小,證明此時期該知識元出現在科學家視野中越普遍,在前沿主題中分布越均勻;熵值越大,證明此時期該知識元在前沿主題受到的關注程度越小,分布越集中,研究均勻程度越低。而如果再加上時間標簽,將某知識元在不同時期、不同前沿主題的熵值歷時分布情況進行可視化展現,計算該知識元在相鄰時段信息熵值的變化率值作為量度其遷移程度的標準,就能清晰地展示該知識元在研究前沿的遷移路徑,進而從知識元個體變遷的視角展現該領域前沿的微觀知識演進過程和規律。

4 實證研究

4.1 全局前沿主題高權重知識元詞項抽取

在文獻[7]的研究中,經過數據預處理和知識元實體識別后,每個時期研究前沿文本就構成一個詞袋(bag of words,BoW),即知識元袋(bag of knowledge elements)。 依據詞袋模型的前提假設,知識元袋中的知識元是獨立同分布的,具有相同的權重,沒有特定的先后順序,就像隨機無序地放入一個 “袋子” 內。經過預處理的文本語料,每行表示一定時期的一篇文本,每篇文本對應一個知識元袋。PLDA 主題模型在詞袋假設基礎上實施,得到的訓練結果中,每篇文檔表示為關于特定數目前沿主題的概率分布,即文檔的主題概率分布。每個前沿主題又表示為關于特定數目知識元詞項的概率分布,即主題的知識元詞項概率分布。文檔-主題概率分布中,每個主題對應概率大小可以看作該前沿主題對文檔內容的貢獻大小;相應地,主題-知識元詞項概率分布中,每個知識元對應的概率大小可以看作這一知識元詞項對前沿主題內容的貢獻大小。

本文的目的是,從知識元個體角度探究其隨時間推演時,在不同前沿主題中出現及相關屬性的變化遷移規律,因而,對文獻[7]的研究中得到的所有知識元個體均進行實驗并不現實。可行的方法是,先從所有時段的綜合文本集合內,選定抽取具有全局代表性的小數據量知識元,對這些起到關鍵核心作用的知識元進行個體視角的定量化遷移分析研究,以證明該理論方法的可行性和實用性。因此,首先要做的是利用PLDA 從所有文本中抽取具有代表性的全局前沿主題,確定下文需要分析的關鍵核心知識元集合。

關于PLDA 模型抽取前沿主題數目的選定,結合本文的研究目的,對鈣鈦礦太陽能領域研究前沿主題進行考察,前沿主題抽取數目不宜過多。綜合考慮選取研究前沿領域數據規模,針對2010—2017年共2677 篇全文文本的實驗部分數據,進行全局前沿主題下的知識元抽取,最終選定5 個前沿主題。經過多次預處理實驗,為保證識別結果的精確度和全面性,PLDA 相關參數最終設置為:No. of topics(主題數) 設為5 個,No. of words per topic (每個主題下的知識元詞項) 設為50 個,Alpha 設為0.1,Beta 設 為0.01,No. of iterations 設 為1000,No. of threads (線程數) 設為8。另外,在文獻[7]的研究中發現,該領域前沿文本在進行知識元實體抽取時,存在化學歸屬類別過多、體量過大的問題,噪音數據過多,因此,為了更好的進行數據清洗,依照PLDA 主題模型識別后的概率數值降序排列結果,每個主題下初步選取50 個知識元詞項,然后,人工去除無實際化學意義或指代過為寬泛、不具有領域代表性的知識元詞項,每個主題最終篩選保留排名前10 位的高概率知識元,以保證這些知識元不僅能代表每個前沿主題的研究方向側重,還將是下文進行定量遷移研究的主要分析對象。

表2 中列出了經過PLDA 主題模型識別得到的5個全局前沿主題,并對應篩選保留的權重最高的前10 位核心知識元詞項分布。

表2 全局前沿主題抽取結果(權重值排名前10位的核心知識元)

利用表2 中5 個主題的知識元分布,發現通過PLDA 對2010—2017 年全文文本的主題抽取,可以從該前沿微觀知識元成分組成的角度,探測出5 個極具代表性的全局前沿主題。其主要研究內容概述如下。

Topic1 前沿主題可以概括為對染料敏化太陽能電池(dye-sensitized solar cells,DSSC 或DSSCs)、量子點(quantum dots,QD 或QDs) 太陽能電池的改進研究;Topic2 前沿主題主要是涉及對鈣鈦礦太陽能電池的基本結構及其主要材料組成的研究;Topic3 前沿主題主要是對新型、高效溴化物(bro‐mide) 鈣鈦礦太陽能電池材料的研究和探索;Top‐ic4 前沿主題主要包含對透明導電電極(fluorinedoped tin oxide and indium-doped tin oxide,FTO/ITO)和金屬對電極(counter electrode) 等鈣鈦礦太陽能電池的 “電極工程器件” 研究;Topic5 前沿主題主要包括石墨烯及相關二維晶體材料(graphene and related materials,GRMs) 在鈣鈦礦太陽能電池中的應用研究。

由上文可以看出,利用PLDA 主題模型算法,不僅可以描繪近年來該前沿的全局熱點主題外貌輪廓,還能準確地識別每個主題內具有代表性的核心知識元組分。另外,通過上述5 個Topic 的概述與文獻[7]中識別結果的比較,也能看出5 個全局Topic所包含的50 個高位知識元,基本可以反映鈣鈦礦太陽能電池前沿的研究全貌。因此,若進一步從中篩選關鍵核心知識元,對每個知識元在不同前沿、不同時期的遷移現象進行探究,則能夠深入到該前沿的科學知識結構內部,從最細微、最直接的視角觀測研究前沿的知識流動和演進特征。

4.2 關鍵核心知識元語義語用功能標注

對表2 中抽取得到的知識元列表作初步處理,結合5 個全局前沿主題(Topic) 反映的鈣鈦礦太陽能電池的研究方向側重,除去重復的知識元,合并含義相同的知識元,去除指代過為寬泛(如halide、bromide、CsPbX3、HTM 等)、單獨存在時無實際化學意義的知識元(如graphite、SiC 等),去除只作為中間化學試劑或電池襯底、并非構成鈣鈦礦太陽能電池最終材料組分的知識元(如MAI、 PbCl2、SLG),去除只作為鈣鈦礦太陽能電池前期改造基礎、與鈣鈦礦太陽能電池本身核心部件無關的知識元(如QDs 和QD、DSSC 和DSSCs)。5 個全局Top‐ic 共余剩30 個知識元,具體組成如表3 所示。

表3 每個Topic的關鍵核心知識元組成

由于本文的研究目標是在文獻[7]中的知識元鏈接整體關系推演的基礎上,從知識元個體在不同時期的遷移特征入手,探索研究前沿的演進規律。但即便是將單個知識元作為分析對象,也不應是對表3 中30 個知識元雜亂無章的簡單排布對比。文獻[7]已證明,知識元在科技文本中并非無序散亂分布,而是在某特定語義空間位置、以特定科學語用功能有序集合排布。也就是說,在科技文獻中,具有相似語義和語用的知識元,當以一定語義語用規則加以標注時,可以以 “知識元組” 的形式組合分類。在本文中,知識元語義功能的具體體現是,知識元代表不同的化學意義,可以利用化學領域知識要素分類進行語義標注;而知識元語用功能的具體表現是,知識元是構成鈣鈦礦太陽能電池系列材料、器件、溶液的基本組成成分,可以與不同的知識元組合應用,合成、制備、生產具有不同化學特征和效用的鈣鈦礦太陽能電池構件,能夠利用鈣鈦礦太陽能電池的結構組成對知識元的語用進行分類標注。因此,為了便于在相同語義和語用情境下進行知識元的遷移參照比較,還需從知識元所具有的特定語義和語義功能入手,對表3 中的知識元進行標注,分組標注結果如表4 所示。

表4 關鍵核心知識元語義語用功能分類標注

通過上述對知識元語義語用功能的標注,可以清晰地看出知識元所具有的代表實際領域知識內涵的組合分布。如果以表征鈣鈦礦太陽能領域的某一特定知識元組內、具有相同語義和語用的知識元為研究對象,從該組知識元個體在前沿演進中的定量遷移規律入手,進而將該組內所有知識元對該前沿主題的歷時貢獻與遷移程度進行定量計算并予以可視化表示,就能清楚地展現該研究前沿內在知識結構隨著時間演進的變化規律。

4.3 用于定量遷移分析的目標知識元選取

由鈣鈦礦太陽能電池的工作原理和結構組成可知[18],無論是何種結構的鈣鈦礦太陽能電池,電子傳輸層、鈣鈦礦光吸收層、空穴傳輸層、金屬對電極、導電玻璃基底都是其最重要的組成部分。這些組成部分不僅在電子空穴的生成轉移到電流產生過程中起到不可替代的作用,也是能夠提高鈣鈦礦太陽能電池光電效率和構件穩定性的關鍵創新要素。因此,要想從細粒度專業知識構造的角度研究鈣鈦礦太陽能電池前沿的演化路徑,就應以其最重要的材料組件作為研究對象,基于這些代表核心器件材料語義語用功能的知識元組,探究組內單個知識元的定量遷移情形,挖掘鈣鈦礦太陽能電池不同時段核心器件材料內在構成特點和機理。

此外,為更好地對比觀測知識元的定量遷移情況,用于遷移分析的同語義組知識元不宜太少,而導電玻璃基底和空穴傳輸層分別只包含ITO 和FTO、spiro-OMeTAD 和P3HT 兩類材料知識元(這也與現實中兩器件的材料種類分布情形相似)。因此,最終選取表征金屬對電極材料、電子傳輸層材料以及鈣鈦礦吸光材料語用功能的3 個知識元組,將其內擁有相同語義功能的單個知識元作為定量遷移分析的目標對象,各知識元組成分如表5 所示。

表5 用于定量遷移分析的目標知識元組

4.4 知識元遷移定量分析指標

本文基于研究假設,設計兩種用于知識元遷移的定量測度指標:貢獻度指數CVI (contribution value index) 和遷移度指數MVI (migration value index)。

研究假設1:某知識元對于前沿主題的概率值越大,證明該知識元對于前沿主題的語用內容貢獻越大、熱度越高,對于前沿主題知識創新作用也越大。

為了保證知識元對于前沿主題概率分布測度的準確性,最大限度地避免偏差,本文在2010—2013年、2014 年、2015 年、2016 年、2017 年5 個 時 間 窗口,每個時段分別利用PLDA 主題概率模型訓練抽取5 個前沿Topic;同時,為了更好地去除噪音數據,并擁有足夠的數據量以支持知識元的對應指標分析,每個Topic 下仍識別保留50 個高權重知識元,然后,分別計算5 個Topic 下任一知識元個體的主題概率值。具體來說,由于PLDA 算法識別出的主題是由前沿主題標簽Topic、知識元詞項word 以及每個word 對于該前沿主題的權重值weight 組成,即前沿Topic= {word1, word2, word3, … , word50}; Topic weight={weight1, weight2, weight3, … , weight50}。 因此,t時刻某特定知識元K對于該前沿主題的權重概率Pt,即該知識元的權重值除以主題內所有知識元權重的加和,計算公式為

其中,WK表示知識元K相對于該前沿主題的權重值。

因此,對于t時刻某特定知識元個體而言,將該時間窗口下5 個 “前沿主題-知識元詞項” 轉置計算形成 “知識元詞項-前沿主題” 概率分布后,其在5 個前沿主題的權重概率分布就構成了Kw={P1,P2,P3,P4,P5}五元數組,則該知識元在此時間窗口下,對總體前沿主題知識內容的平均貢獻度CVI,即知識元在此時刻相對于5 個Topic 權重概率總和的平均值,計算公式為

貢獻度代表了該知識元此時段在前沿主題的平均分布情況,知識元詞項在對應前沿主題下貢獻度越高,表明知識元此時期與這個前沿主題研究聯系越緊密,對于形成該前沿主題科學知識內容 “地貌” 的貢獻程度越大,即對于促進和推動該前沿主題的知識創新起到了越發重要的作用。

研究假設2:某知識元對于前沿文本的信息熵值越大,證明該知識元在前沿文本分布越不均勻,越少有科學家在化學材料實驗制備中予以應用;而若某知識元在相鄰時期內的熵值相對變化率(熵變) 越大,則證明該知識元在科學家實驗中應用的關注變化速度越大,在此時間間隔內可能作為推動某類科技創新的重大知識拐點存在,對于促進科技前沿突破具有重要作用。

知識元在前沿主題遷移的穩定性程度利用其相鄰時段熵值變化率來衡量。對于某特定知識元而言,首先需要分別計算其在2010—2013 年、 2014年、2015 年、2016 年、2017 年五個時段下對于前沿主題文本的信息熵值。由于信息熵值的大小表現的是隨機變量X所服從概率分布的均勻性,分布越均勻,則熵值越小;分布越不均勻,則熵值越大。結合鈣鈦礦太陽能電池領域的研究特點,一般情形下,革命性創新器件材料剛開始總是會有少數科學家關注并應用于實驗制備,因而,知識元在起始年份主題文本中的分布會非常不均勻,信息熵值較大;等到越來越多的科學家意識到該材料對于鈣鈦礦太陽能電池光電效率和穩定性等起到的革新突破效應,該知識元隨時間演進將會被更多的科學家用于實驗研究,故其在后期主題文本中出現的情況將變得較為普遍,分布趨向均勻,信息熵值逐漸變小。因此,假設某知識元在T1時刻對于前沿主題文本的信息熵值(entropy value) 為EV1,在相鄰后一時段T2時刻的對應信息熵值為EV2,則該知識元在此兩時段間對于前沿主題文本的遷移度指數MVI,計算公式為

其中,|EV2- EV1| 為從前一時刻到后一時刻知識元的絕對熵變數值,將其與前一時刻的信息熵值EV1相除,所得到的值即為知識元在后一時刻相對于前一時刻相對熵值的變化程度和遷移速率。

知識元的熵值表現反映的是該知識元在此時期前沿主題中的研究均勻分布程度,熵值越小,則證明此時期該知識元出現在科學家視野中越普遍、在前沿主題中分布越均勻;熵值越大,則證明此時期該知識元在前沿主題受到的關注程度越小、分布越集中,研究均勻程度越低。而熵值后一時期較前一時期的相對變化率反映的是該知識元的遷移程度大小,遷移度指數越大,表明此時段期間,該知識元在科學家實驗應用中的相對關注變化速率越大,可能對于性能的改良、革新或升級的影響推動力也越大;遷移程度越小,說明該知識元一直作為科學家實驗的基本材料成分存在,關注程度并未發生突變。若某知識元的相對熵值變化率越大,則該知識元作為引起科學家實驗關注程度突變的關鍵節點,對于識別可能在某時段引發重大科技革新的核心創新知識元具有重要意義。

4.5 基于知識元遷移的ESI研究前沿演進分析

4.5.1 金屬對電極前沿主題知識元遷移特征

Au、Ag、Cu 是鈣鈦礦太陽能電池領域金屬對電極前沿主題的目標知識元對象。基于每個時段轉置后的 “知識元-前沿主題” 矩陣,首先需要計算知識元在5 個時間窗口下,5 個不同前沿Topic 的權重概率,并在此基礎上計算知識元的貢獻度指數CVI,以知識元Au 為例,其相應結果如表6 所示。

表6 知識元Au在不同時段局域主題的概率權重與CVI分布

由于每個時段所抽取的5 個局域前沿主題,其實質為篩選該時段對科技前沿具有重大貢獻程度的領域知識內容,反映了科學家在不同文本Experi‐mental Section 部分描述的、對鈣鈦礦太陽能電池某材料組分的實驗研究熱度。也就是說,5 個Topic 只能代表特定年份科技前沿的關鍵核心知識主題領域,每個Topic 內也只由研究熱度達到一定閾值的知識元組成。因此,假使知識元某時段只在個別科技文本實驗中予以使用,其對該前沿主題知識內容的貢獻程度,以及科學家對該知識元材料的研究熱度,并未達到一定閾值,那么極有可能該知識元在此時段的所有5 個局域主題中均未出現,其該時段對應的概率權重值和CVI 值均可以為0。

進一步而言,即使某知識元在某時段5 個局域主題中的權重概率Pt值均為0,該時段對于全部前沿主題的貢獻度指數CVI 值為0,只是表示知識元未包含于高研究熱度和高知識貢獻度知識元所聚成的簇集中,知識元只是對關鍵核心局域主題沒有貢獻,并不一定意味著該知識元在全局前沿主題文本中均未出現。因此,對于這些主題概率權重和CVI值均為0 的知識元來說,就需要進一步輔以知識元在不同時段對前沿主題文本的信息熵值(代表該知識元此時期在不同文本實驗部分出現的均勻無序程度,反映科學家在實驗中對知識元材料的應用程度和關注熱度) 及其熵值相對變化遷移度指數MVI 進行整體權衡剖析。金屬對電極Ag 和Cu 知識元均具有此種情形,其具體主題權重概率、CVI 值和信息熵值EV (entropy value) 計算結果分別如表7 和表8所示。

表7 知識元Ag不同時段主題權重概率、CVI和信息熵值分布

表8 知識元Cu不同時段主題權重概率、CVI和信息熵值分布

需要說明的是,前沿主題的演進分析需要借助主題內各知識元權重概率的量化比較,為了能夠更好地反映知識元對前沿主題的相對貢獻程度,還需要對各組內知識元所對應的CVI 值進行歸一化處理,以便于直觀的對比各知識元對主題內容知識的貢獻程度大小。最后,結合該組內所有知識元在不同時段的貢獻度指數CVI 值、信息熵值及代表相對熵變速率的遷移度指數MVI 值,通過對比同語義語用組內各知識元隨時間推演的定量遷移情況,即可展現前沿主題內部科學知識結構的變遷規律和演化脈絡。

金屬對電極前沿主題內Au、Ag、Cu 知識元的CVI 值(歸一化處理后)、信息熵值分布情況如表9所示。

表9 金屬對電極前沿主題各知識元CVI值和信息熵值分布

將Ta定義為2010—2013 年到2014 年的間隔時段,將Tb定義為2014—2015 年的間隔時段,將Tc定義為2015—2016 年的間隔時段,將Td定義為2016—2017 年的間隔時段,則Au、Ag、Cu 知識元在4個時間間隔內的MVI 值與熵值增減情況如表10所示。

表10 金屬對電極前沿主題各知識元MVI值與熵變分布

金屬對電極前沿主題內Au、Ag、Cu 知識元隨時間演進的CVI 貢獻度指數遷移曲線如圖3 所示。

圖3 金屬對電極知識元CVI貢獻度指數遷移曲線

金屬對電極前沿主題內Au、Ag、Cu 知識元隨時間演進的信息熵值變化曲線及其MVI 遷移度指數表現如圖4 所示。

圖4 金屬對電極知識元信息熵值變化曲線與MVI遷移度指數

結合圖3 和圖4 中所展現的知識元遷移情況,從不同視角對鈣鈦礦太陽能電池金屬對電極前沿的知識演進規律進行總結分析:在2014 年之前,Au對該前沿主題的貢獻度指數最大,由于Au 相比于其他金屬電極的化學穩定性更高,不易與其他物質發生反應,更容易獲得穩定的電池性能,此時,科學家在實驗中主要利用Au 作為電極關鍵材料,開展鈣鈦礦太陽能電池研究。然而,科學家逐漸發現,Au 原子在較高溫度下(高于70℃) 會向鈣鈦礦層擴散,導致電池效率的衰減[19]。因此,從2015年開始,Au 不再作為高熱度權重知識元出現,由核心知識元簇變遷到邊緣知識元類簇,并且MVI 指數也較高,遷移程度較大。

同一時期,Cu 作為鈣鈦礦太陽能電池頂電極引發科學家的關注,知識元Cu 由邊緣發生遷移,成為前沿主題的核心知識元。Cu 作為金屬對電極,不僅可以使得鈣鈦礦太陽能電池表現出極好的電池性能(光電轉換效率>20%) 和穩定性,加上其價格比Au 和Ag 較為低廉,在電池的工業化推廣應用方面,Cu 具有更大的競爭優勢。Cu 在2014—2017年的信息熵值曲線呈直線減少趨勢,MVI 指數也逐年升高,說明隨時間推移,知識元Cu 在越來越多主題文本的Method 部分出現,作為電極材料在越來越多實驗制備中予以應用。

另外,知識元Ag 在各時期對前沿主題內容貢獻程度和前沿主題文本分布均勻程度介于Au 和Cu之間,整體CVI 指數和MVI 指數相較而言未發生較大幅度變化。 Ag 相較于Cu 作電極材料時不易腐蝕、相較于Au 經濟成本稍低,這使得Ag 成為鈣鈦礦太陽能電池的一種重要電極材料,其對中心前沿主題的知識貢獻程度一路攀升,并逐步超過Cu,且近年來在鈣鈦礦太陽能領域實驗文本中分布的均勻程度也超過了Au。

4.5.2 電子傳輸層前沿主題知識元遷移特征

與上一前沿主題計量算法相同,電子傳輸層前沿主題內TiO2、ZnO、Al2O3、PCBM 知識元的CVI值(歸一化處理后)、信息熵值如表11 所示。

表11 電子傳輸層前沿主題各知識元CVI值和信息熵值分布

TiO2、 ZnO、 Al2O3、 PCBM 知識元在4 個時間間隔內的MVI 值與熵值增減情況如表12 所示。

表12 電子傳輸層前沿主題各知識元MVI值與熵變分布

電子傳輸層前沿主題內TiO2、 ZnO、 Al2O3、PCBM 知識元隨時間演進的CVI 貢獻度指數遷移曲線如圖5 所示。

圖5 電子傳輸層知識元CVI貢獻度指數遷移曲線

電子傳輸層前沿主題內TiO2、 ZnO、 Al2O3、PCBM 知識元隨時間演進的信息熵值變化曲線及其MVI 遷移度指數表現如圖6 所示。

圖6 電子傳輸層知識元信息熵值變化曲線與MVI遷移度指數

通過圖5 和圖6 可對構成鈣鈦礦太陽能電池電子傳輸材料的關鍵知識元遷移情況進行判讀,挖掘電子傳輸層前沿主題隨時間演進的知識結構變遷特征和規律。TiO2在各時間段均毋庸置疑的處于電子傳輸層材料的絕對核心地位,雖有起伏,但CVI 值相較于其他同語義組知識元均為最高;其信息熵值雖逐步增長,但持續在低位值域演進,證明其作為主要的電子傳輸層材料成分,在各時期前沿主題實驗文本中均有提及和應用。這種規律也印證了文獻[7]得出的相應結果,在鈣鈦礦太陽能電池中,納米TiO2由于具有合適的禁帶寬度、良好的光電化學穩定性、電子遷移率較低、制作工藝簡單等特點,被作為電子收集和傳輸材料,獲得了廣泛應用[20]。

ZnO、Al2O3、PCBM 知識元在各年間的CVI 值和信息熵值差別不大,說明這3 種知識元材料成分在實驗制備中的使用熱度和對電子傳輸層前沿主題的知識貢獻程度較為平均。值得注意的是,相較其他兩種知識元,ZnO 對前沿主題內容貢獻更大,且在2014 年間獲得了最大的MVI 值,表明在此期間ZnO 知識元的遷移程度最大,科學實驗中對其研究關注的突變速度最大,可能作為電子傳輸材料的重要知識拐點,對改良或提高鈣鈦礦太陽能電池性能具有重大的推動作用。查閱專業文獻也證實了該規律,在2013—2014 年,有諸多研究發現,ZnO 作為電子傳輸材料的巨大創新效應。例如,2013 年,Bi等[21]利用ZnO 納米棒替代多孔TiO2作為電子傳輸層,將得到的鈣鈦礦太陽能電池暴露于空氣中500 h 進行實驗,發現電池的效率僅由原來的5.0% 下降到4.35%;2014 年,Son 等[22]利用電子傳輸能力更高的ZnO 替代TiO2框架,研究發現,在ZnO 框架下,生長的鈣鈦礦太陽能電池效率提高到11%;同年,Liu 等[23]結合低溫工藝,以ZnO 作為電子傳輸層材料,在玻璃和PET 柔性襯底上分別制備出光電效率達15.7% 和10% 的平面異質結鈣鈦礦太陽能電池器件。

Al2O3和PCBM 知識元對該前沿主題的知識內容貢獻度相對較低,但PCBM 的熵值曲線呈連續下降趨勢,在2014 年MVI 指數最高,此后CVI 指數有小幅上升跡象。PCBM 等富勒烯衍生物分子層用作電子傳輸材料(electron transporting material,ETM) 時,可以降低缺陷態密度,減小載流子復合,提高填充因子,使得該知識元成分被越來越多的科學家所重視,有更多的實驗采用了此類材料,在前沿主題文本中的分布也越來越均勻。由于沒有TiO2等材料在紫外光中的氧分子解吸附效應,使得Al2O3體系器件在全光譜太陽光照射下仍有穩定的光電流輸出,因此,Al2O3雖然不是主流的ETM 材料,但常與TiO2作為復合電子傳輸材料應用[24]。Al2O3的CVI 值各時期均較低,且其熵值曲線自2015 年呈直線增長趨勢,MVI 指數也較高,說明其作為電子傳輸材料成分受科學家關注的熱度越來越小。

4.5.3 鈣鈦礦吸光層前沿主題知識元遷移特征

鈣鈦礦吸光層前沿主題內CH3NH3PbI3、CH3NH3PbBr3、 FAPbI3、 CsPbI3、 CsPbBr3、 CsPbCl3知識元的CVI 值(歸一化處理后)、信息熵值分布如表13 所示。

表13 鈣鈦礦吸光層前沿主題各知識元CVI值和信息熵值分布

CH3NH3PbI3、 CH3NH3PbBr3、 FAPbI3、 CsPbI3、CsPbBr3、CsPbCl3知識元在4 個時間間隔內的MVI值與熵值增減情況如表14 所示。

表14 鈣鈦礦吸光層前沿主題各知識元MVI值與熵變分布

鈣鈦礦吸光層前沿主題CH3NH3PbI3、CH3NH3PbBr3、FAPbI3、CsPbI3、CsPbBr3、CsPbCl3知識元隨時間演進的CVI 貢獻度指數遷移曲線如圖7 所示。

圖7 鈣鈦礦吸光層知識元CVI貢獻度指數遷移曲線

鈣鈦礦吸光層前沿主題CH3NH3PbI3、CH3NH3PbBr3、FAPbI3、CsPbI3、CsPbBr3、CsPbCl3知識元隨時間演進的信息熵值變化曲線及其MVI 遷移度指數表現如圖8 所示。

圖8 鈣鈦礦吸光層知識元信息熵值變化曲線與MVI遷移度指數

利用圖7 和圖8 的可視化展現,結合表13 和表14 的計量指標分布,可以對鈣鈦礦吸光層的6 種關鍵核心知識元的遷移演進規律進行分析解讀。CH3NH3PbI3是唯一一種在所有年段對前沿主題核心知識內容均有所貢獻的知識元材料,并在2015 年的知識貢獻程度達到峰值。MVI 曲線也顯示CH3NH3PbI3在2014 年開始熵變遷移程度最大,對應的熵值在此后一直處于較低值域位置,直至2017 年才有所波動。實驗證明,由于碘化鉛甲胺(CH3NH3PbI3) 具有高載流子遷移率、高光吸收系數和寬吸收光譜、低激子束縛能、低缺陷態濃度以及可低成本溶劑制備等諸多優點,使其成為應用最為廣泛的半導體鈣鈦礦吸光材料。除此之外,由于CH3NH3PbBr3同為甲胺基(MA 基,CH3NH+3) 鹵 化 物,與CH3NH3PbI3相比,可提高鈣鈦礦導帶位置,降低價帶位置,有利于實現鈣鈦礦與電子選擇性接觸電極間的電荷注入,有效提升器件開路電壓[25]。因此,CH3NH3PbBr3知識元在經歷2014—2015 年兩次躍遷式熵減變化后,EV 熵值曲線逐漸趨于平緩,作為鈣鈦礦吸光層材料在實驗文本中均勻分布,MVI 遷移度指數較低,對前沿主題的知識貢獻度CVI 指數逐漸升高。

FAPbI3也是一種較為常用的鈣鈦礦吸光材料,自2009 年日本Miyasaka 教授首次將鈣鈦礦應用于太陽電池以來,英國Snaith 研究組和韓國Park 研究組先后將碘化鉛甲脒(NH2CHNH2PbI3,FAPbI3) 用于平面和介孔結構,獲得了14.2% 和16.01% 的電池效率;2015 年,韓國化學技術研究所Sang Il Seok 團隊在Science上發文,利用FAPbI3作為光吸附材料,更是取得了超過20% 的轉換效率[26]。相比于傳統的MAPbI3,FAPbI3具有更強的耐高溫能力與熱穩定性、更為寬廣的光吸收能帶結構(吸收截止波長838 nm),在未來的實用化應用更有優勢,因此,其自2014 年開始對該前沿主題核心知識貢獻度CVI指數逐年增長,對應的信息熵值也逐年降低,在前沿主題實驗部分文本中有越來越多的相關描述,MVI 遷移度指數在2015 年和2016 年也是持續走高。

CsPbI3、CsPbBr3、CsPbCl3知識元的CVI 和MVI等指標的遷移演進情形較為相似,均是近幾年才開始對鈣鈦礦吸光材料前沿主題的核心知識有所貢獻。鈣鈦礦吸光層納米晶的結構通式為ABX3,其中,B 為金屬離子Pb2+或Sn2+;X 為鹵素離子Cl?、Br?、 I?或其二元三元混合物,如果將A中常用的MA基、FA 基替換為陽離子銫(Cs+),就構成了全無機鹵化鉛銫鈣鈦礦(CsPbX3),上述3 種知識元均屬于此類材料。由于有機無機雜化鈣鈦礦的雙分子輻射復合過程緩慢,所含碘甲胺(MA) 和甲脒(FA) 兩種有機陽離子容易吸濕,使得此類吸光材料對濕度、熱度和氧氣非常敏感,容易導致器件失效,為了解決材料的合成穩定性等問題,含Cs 全無機鈣鈦礦2014 年開始引起科學家重視[27]。由于理論計算得到CsPbX3(X=I、Br、Cl) 的禁帶寬度分別是1.11eV、1.12eV 和1.46eV[28],帶隙更低的CsPbI3因具有更高的吸光范圍而在早期獲得更高使用率,熵值相對較低,在更多實驗文本中出現。此后,科學家逐漸發現CsPbBr3的熒光量子效率最高約為90%,且穩定性好,納米晶的生長具有較好的操作可控性[28],因此,CsPbBr3在2015 年后的CVI 指 數增幅較大,對該前沿主題內容貢獻越來越大,信息熵值也呈直線下降,MVI 指數連年增長,在科學實驗中的分布應用率逐步達到CH3NH3PbBr3的水平。雖然CsPbCl3知識元的EV 值呈下降趨勢并于2016 年趨于平穩,但其熵值一直處于該前沿主題的最高位置,并且MVI 指數逐年降低,直至2017 年才入選前沿主題的核心知識元簇,這說明該組分作為鈣鈦礦吸光材料較少受到科學家關注。

5 結 語

研究前沿的演進過程,反映的是前沿主題從內容到結構隨時間的變化情況,這種變化涉及前沿主題內多種結構和知識特征,當前主題演化研究對于主題內容微觀知識結構的分化融合以及細粒度知識交流情況的關注較少[29]。在文獻[7]的研究中,已經從知識元組成鏈接和網絡的知識社區內在構造規律入手,對研究前沿的演化路徑進行了探究。本文在此基礎上,進一步研究知識元的遷移現象,即以前沿主題的個體知識元作為分析對象,從最為直接、最為細粒度的視角,對研究前沿隨時間變化時內在知識結構特征的變遷規律進行挖掘,揭示知識元在不同時期的新生、成長、收縮等演化狀態。

研究前沿主題在本質上是具有不同語義語用功能的知識元集合,要想理解研究前沿的演化機理并對其進行深入分析,就需要最終落腳到對單個知識元的分析之上。本文所進行的前沿主題演化過程中,知識元的定量遷移研究是關于研究前沿定量演進分析的一個比較新的切入視角,其核心是考察具有相同語義語用功能的知識元組合,在不同前沿主題文本中的歷時分布情況,并基于此對研究前沿演進過程實施更為細粒度(單個知識元粒度,即詞語粒度) 的分析,以實現對研究前沿內部科學知識構造進行深層次解讀的目的。

本文借助命名實體識別、詞袋模型、LDA 主題模型、信息熵算法等文本語義挖掘和自然語言處理技術,通過設計貢獻度指數CVI 和遷移度指數MVI兩種計量指標來探究知識元的遷移規律。首先,通過命名實體識別技術對全文文本的實驗部分數據進行挖掘抽取,構建鈣鈦礦太陽能領域的化學知識元實體詞袋(BoW);其次,利用PLDA 模型對所有時段的知識元詞袋實施主題識別算法,抽取5 個代表全局研究前沿的主題,各篩選前10 位的高權重知識元詞項,生成 “前沿主題-知識元詞項” 矩陣;再次,基于鈣鈦礦太陽能電池領域專業知識,對知識元詞項進行語義和語用功能標注,最終篩選出能夠表征鈣鈦礦太陽能電池關鍵器件材料的知識元,作為遷移研究的目標對象; 其次,分5 個時間窗口,每個時間窗口下各抽取5 個Topic 作為局域前沿主題,以表示研究前沿在該時間窗口下的領域主題知識結構,每個Topic 保留前50 位高權重知識元詞項,參照本文設計的CVI、EV 和MVI 等計量指標,對轉置歸一后的 “知識元詞項-前沿主題” 矩陣進行相應指標定量計算;最后,利用領域知識對鈣鈦礦太陽能電池研究前沿主題進行解構,將知識元在金屬對電極、電子傳輸層和鈣鈦礦吸光層3 個代表鈣鈦礦太陽能電池核心構件前沿主題的計量結果予以可視化展現,結合定量遷移計算的結果與可視化圖譜,對鈣鈦礦太陽能電池主要器件基本材料組分隨時間演進的遷移情況進行解讀,挖掘該前沿的演進脈絡。

知識元遷移,是指知識元在不同時期、不同前沿主題內出現的現象,知識元在不同時段的前沿主題出現時,又具有內容貢獻度和分布均勻度兩種知識特征。PLDA 模型可以計算知識元詞項在前沿主題中的潛在語義關聯概率,反映知識元對前沿主題文本內容的貢獻程度。由于本文的數據基礎為截取的每篇科技文本的實驗部分,因此,利用PLDA 對知識元貢獻程度的計算,所得到的就是知識元對該前沿主題知識內容構造占據的成分比例,CVI 貢獻度指數是在此基礎上所設計的。利用信息熵值可以計算知識元在某時期主題文本中分布的無序均勻程度,即知識元某時期在實驗中為科學家所應用的分布均勻程度,利用后一時期相對于前一時期的熵變數值,可以表示某知識元在相鄰時期受科學家實驗關注程度的變化速率,因此,MVI 指數被設計為知識元遷移程度的量度。

通過最后的解讀分析發現,結合CVI、EV 及MVI 指數數據及其可視化結果,可以清晰的離析鈣鈦礦太陽能電池研究前沿隨時間推演時,其核心器件材料知識元所發生的遷移分化和交流融合情況,進而展現該研究前沿內在科學知識結構的變遷規律。不僅如此,利用CVI、尤其是MVI 指數,不但能表現個體知識元的生長狀態和遷移趨勢,還有助于從前沿主題 “知識地貌圖隆起” 的視角,挖掘推動科技創新和突破的關鍵轉折點。另外,本文也通過查閱專業文獻和邀請領域專家判讀的方式對識別結果予以了佐證。

猜你喜歡
文本研究
FMS與YBT相關性的實證研究
2020年國內翻譯研究述評
遼代千人邑研究述論
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
視錯覺在平面設計中的應用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
在808DA上文本顯示的改善
EMA伺服控制系統研究
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
新版C-NCAP側面碰撞假人損傷研究
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 天天爽免费视频| 国产在线精彩视频论坛| 国产手机在线小视频免费观看| 国产理论最新国产精品视频| 久久综合色视频| 亚洲第一成人在线| 亚洲视频免费在线看| A级毛片无码久久精品免费| 不卡无码网| 国精品91人妻无码一区二区三区| 久久国产亚洲欧美日韩精品| 91最新精品视频发布页| 亚洲国产成人麻豆精品| 国产无码精品在线播放| 中文字幕亚洲综久久2021| 国产欧美中文字幕| V一区无码内射国产| 国产成人啪视频一区二区三区 | 成人午夜亚洲影视在线观看| 久久香蕉国产线看观看亚洲片| 国产微拍一区二区三区四区| 国产亚洲欧美在线人成aaaa| 成人免费网站久久久| 成人国内精品久久久久影院| 久久天天躁夜夜躁狠狠| 人妻91无码色偷偷色噜噜噜| 伊人色综合久久天天| 日韩精品无码免费专网站| 国产亚洲欧美在线中文bt天堂 | 久久久受www免费人成| 五月婷婷丁香综合| 亚洲高清无码精品| a级毛片免费播放| 91久久国产综合精品女同我| 午夜久久影院| 91精品久久久久久无码人妻| 特级做a爰片毛片免费69| 免费毛片全部不收费的| 国产精品亚洲综合久久小说| 久久这里只有精品免费| 亚洲精品制服丝袜二区| 欧美亚洲国产日韩电影在线| 亚洲国产欧美目韩成人综合| 波多野结衣二区| 91亚洲免费视频| 亚洲区第一页| 久久男人视频| 日本成人不卡视频| 中文字幕日韩丝袜一区| 国产国产人在线成免费视频狼人色| 国产91无码福利在线| 国产夜色视频| 欧美福利在线播放| 91精品啪在线观看国产60岁| 国产在线视频自拍| 久久精品91麻豆| 91免费在线看| 久久亚洲国产视频| 国产尤物在线播放| 内射人妻无套中出无码| 久久国产精品77777| 色九九视频| 伊人久热这里只有精品视频99| 国产人妖视频一区在线观看| 黄色国产在线| 久久熟女AV| 欧美亚洲网| 中文精品久久久久国产网址| 不卡视频国产| 欧美精品另类| 99ri国产在线| 人妻丝袜无码视频| 国产精品yjizz视频网一二区| 亚洲第一区欧美国产综合| 国产自无码视频在线观看| 华人在线亚洲欧美精品| 午夜视频免费一区二区在线看| 欧美19综合中文字幕| 国产精品免费露脸视频| 国产成人精品免费视频大全五级| 亚洲视频一区| 91人妻日韩人妻无码专区精品|