999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

產業鏈視角下結合K-means和LDA的專利技術主題挖掘與趨勢分析

2020-12-14 04:14:57陳玲林平段堯清
知識管理論壇 2020年3期
關鍵詞:文本研究

陳玲 林平 段堯清

摘要:[目的/意義]在產業鏈視角下,以虛擬現實技術為例,構建VR專利產業鏈語料庫,挖掘中國VR專利的技術主題、研發熱點和未來發展趨勢。[方法/過程]首先,利用Python爬取VR領域的專利文本,通過數據清洗得到有效語料庫;然后,結合IPC分類號和K-means聚類算法,構建并驗證VR專利產業鏈;最后,基于TF-IDF算法和LDA主題模型,識別出產業鏈視角下中國VR專利的核心技術主題及其綜合強度、技術研發熱點和未來趨勢。[結果/結論]當前中國VR產業鏈各環節的專利比例不均衡,上游研發最熱門,其次是下游應用,最薄弱的是中游制作。主題挖掘方面,上游熱點為軟件研發,中游熱點為影視制作,下游熱點為醫療、教育、娛樂應用。未來趨勢方面,產業鏈上游將以電數字數據處理、光學元件、圖像通信等技術為主流,中游將以車輛部件、動力裝置、減振裝置等技術為主流,下游將以室內游戲、醫學診斷、鑒定等技術為主流。

關鍵詞:K-means聚類算法? ?LDA主題模型? 技術主題演化? 文本挖掘? VR(虛擬現實)

分類號:G250

DOI:10.13266/j.issn.2095-5472.2020.013

引用格式:陳玲, 林平, 段堯清. 產業鏈視角下結合K-means和LDA的專利技術主題挖掘與趨勢分析 ——以虛擬現實技術為例[J/OL]. 知識管理論壇, 2020, 5(3): 135-146[引用日期]. http://www.kmf.ac.cn/p/208/.

1? 引言

專利是衡量科學技術發展的重要指標,專利內容挖掘是提高科學技術競爭力的主要途徑之一。專利內容挖掘涉及專利分類、專利聚類、主題識別、技術趨勢分析等方面,其中專利技術主題分析是其研究的核心所在。專利技術主題分析聚焦于識別專利文本的主題(如對主題進行分類、構建主題間的相互關系、預測主題的發展趨勢等),對技術研發內容具有高度的概括性和代表性[1]。隨著深度學習和機器學習的興起,文本挖掘被越來越廣泛地應用在技術專利主題分析中,其中以LDA(Latent Dirichlet Allocation)主題模型尤為突出。專利技術主題分析方法主要是抽取專利文獻標題、摘要及技術要點中的技術特征詞,利用文本挖掘方法選擇獲得主題詞,建立主題詞之間的共現關聯關系,從而聚類獲得技術主題[2]。專利技術主題分析常用的方法包括:①利用專利的分類屬性作為其技術主題;②通過專利共現網絡和引用關系為專利聚類;③使用SAO(subject -action -object)結構語義相似度識別、主題模型或主題聚類等方式從專利等科技文獻中挖掘技術主題;④借助技術主題的時間信息,使用時間序列分析等方式預測技術主題演化趨勢[3]。

在信息技術快速發展的知識經濟時代,虛擬現實作為戰略新興技術的代表,涉及通信、互聯網、新媒體等多個領域,具有突出的跨界融合性與技術交叉性,有望引領新一輪技術的變革。眾多科技新興企業均在VR領域積極布局,主要科技大國也均把VR列為戰略新興領域,中國在國家“十三五”規劃綱要、G20工商峰會上的重要講話中提出要發展人工智能和虛擬現實等技術,大力支持虛擬現實(VR)等新興前沿領域創新和產業化,建設創新型世界經濟[4-8]。在產業鏈視角下,深度挖掘中國VR領域的專利技術主題、技術熱點與發展趨勢,可以分別從宏觀、中觀和微觀不同的角度對政府、產業和企業提供不同的情報服務,在此基礎上制定相應的競爭戰略;有助于相關政府部門、VR科研機構和企業等主體在中國和全球范圍內更好地進行專利布局,為中國VR產業發展提供參考建議,最終提高中國VR領域的整體產業競爭力。

2? 相關研究

2.1? 虛擬現實

虛擬現實是以計算機技術為核心,生成與現實環境在視、聽、觸感等方面高度近似的數字化環境。用戶借助相關設備與虛擬環境中的對象進行交互,從而產生真實環境的感受和體驗。目前關于虛擬現實的研究主要集中在技術研究[4-5]、系統研究[6-7]、應用研究[8]3個方面:①虛擬現實技術研究。學者主要從立體顯示技術[9]、傳感器技術[10]、三維圖形生成技術[11]等方面將虛擬和現實環境進行混合、實時交互、三維注冊。②虛擬現實系統研究。主要分為硬件研究和軟件研究,硬件研究包括三維跟蹤定位設備、人體運動捕捉設備、觸覺力覺反饋設備等的研究[12];軟件研究包括數據庫研究[13],三維動畫、網絡場景等應用軟件研究[14],基于Vizard軟件、Virtools軟件、EON軟件等的虛擬現實開發平臺研究[15]。③虛擬現實應用研究。隨著技術不斷地進步與成熟,虛擬現實技術逐漸被應用到教育[16]、醫療[17]、圖書館[18]、博物館[19]等不同場合,從而為人們的生產、生活、學習帶來巨大的影響與沖擊。

2.2? 基于文本挖掘的專利技術主題分析

技術主題分析是文本挖掘在專利分析中的重要應用之一。目前已有較多利用文本挖掘方法進行專利技術主題分析的研究成果,依次包括詞頻統計分析、共詞分析、文本聚類分析、文本挖掘技術與引文聚類相結合的技術主題分析[20]。①基于詞頻統計的技術主題研究。主要是通過IPC分類號、高頻詞等的統計分析,研究某技術領域的主題分布情況[21]。②基于共詞分析的技術主題研究。主要包括共詞網絡分析、共詞聚類分析和戰略圖分析3種方法,可以比較客觀地揭示技術領域中的各技術主題及技術主題之間的相互關聯[22-23]。③基于文本聚類的技術主題研究。主要是對專利進行聚類,形成代表技術主題的多個聚簇;為每個聚簇生成主題詞,從而直觀有效地表示技術主題的分布情況[24]。④基于文本挖掘與引文聚類相結合的技術主題研究。主要從文本信息與引用信息的底層融合角度,分析技術研究熱點、識別新興技術主題、預測技術主題的發展趨勢[25]。

4.1? 基于IPC分類號的專利產業鏈構建

依據文獻調研、專家咨詢和專利的IPC分類號,將虛擬現實產業鏈分為工具/設備設計、內容制作、行業應用。在此基礎上,選取專利的IPC分類號作為語義情景的限定,為所有專利賦予產業鏈語義。在提取IPC分類號時,不同的IPC層級會產生不同的聚類效果。基于IPC大類的劃分過于粗泛,聚類效果不明顯;基于IPC大組的劃分過于密集,同樣不適合聚類;而基于IPC小類的劃分,能夠在區分度明顯的基礎上保證規模不過于巨大,因而最終選定以主IPC分類號小類作為語言情景的限定。為了研究過程的簡易性及結果展示的直觀性,將專利數據涉及的產業鏈與IPC小類進行編碼,部分編碼分布情況如表3所示。其中,產業鏈上游為“工具/設備設計”,產業鏈中游為“內容制作”,產業鏈下游為“行業應用”。

4.2? 基于關鍵詞聚類的專利產業鏈驗證

研究采用K-means算法驗證已構建的專利產業鏈。首先,合并“同類關鍵詞”。通過人工觀察,將包含“本發明”“本發明專利”“本專利”等數據的關鍵詞,統一合并為“發明專利”。其次,采用K-means算法中的歐氏距離來計算數據對象間的距離。根據相似性原則,將具有較高相似度的數據對象劃分至同一類簇,將具有較高相異度的數據對象劃分至不同類簇。

VR專利摘要文本的K-means聚類效果如圖2所示。依據產業鏈的分類特性和已有關于產業鏈劃分的研究文獻可知,專利產業鏈通常劃分為上、中、下3類[32]或基礎、技術、應用3類[33-34]。據此,研究將類簇個數K值設定為3,將專利文本聚集成3類主題。從圖2中可以看到3個類簇有效地分隔開來,相似主題的文獻聚集在一起,文本聚類效果較好。其中黃色表示“工具/設備設計”主題,紫色表示“行業應用”主題,綠色表示“內容制作”主題;且“工具/設備設計”專利聚類數量>“行業應用”專利聚類數量>“內容制作”專利聚類數量。觀察聚類結果可知,“工具”“設備”等關鍵詞聚為一類,劃分至“工具/設備設計”專利類別;“游戲生產”“聲音生產”“視頻生產”等關鍵詞聚為一類,劃分至“內容制作”專利類別;“醫療應用”“教育應用”“旅游應用”等關鍵詞聚為一類,劃分至“行業應用”專利類別。基于關鍵詞聚類的VR專利產業鏈驗證結果,與上文中基于IPC分類號的VR專利產業鏈構建結果具有一致性。據此,根據產業鏈的構建和驗證結果,對中國VR專利進行分類,構建產業鏈語料庫。

5? 產業鏈視角下中國VR專利的技術主題與趨勢分析

5.1? 基于TF-IDF算法的技術關鍵詞挖掘

為了避免LDA主題分析抽取出的特征詞匯不具主題代表性,研究首先使用TF-IDF算法對所得詞匯賦予不同權重,有效過濾常見詞匯,保留重要詞匯,進而提高主題特征詞的抽取準確率。TF-IDF是一種計算詞語權重的經典統計方法,由詞頻(term frequency,TF) 和逆向文檔頻率(inverse document frequency,IDF) 兩部分數據組成。TF-IDF的計算如公式(1)所示,其中,tfi,j代表詞語wi在文檔dj中出現頻率,idfi代表詞語wi在文本庫d中的逆向文檔頻率。通過公式可以看出,詞語wi對文檔dj 的重要程度和它在文檔dj中出現的頻率成正比,和它在整個文本庫dj中包含詞語wi的文檔數成反比。

依照產業鏈語料庫數據和編碼分詞,在Python中提取摘要文本關鍵詞;整合相似的文本數據,刪除無實際作用的字段,根據TF-IDF算法計算關鍵詞權重。TF-IDF算法是通過計算特征詞在整個文本庫中出現的總頻率,從而標記出關鍵詞的重要程度。產業鏈各環節中國VR專利摘要文本的高頻關鍵詞及權重計算結果如表4所示,可以看出“發明專利”類型在產業鏈上、中、下游的比重均較大。此外,產業鏈上游“工具/設備設計”中“發明專利”類型占比較大,產業鏈中游“內容制作”中“外觀設計”類型專利占比較大,產業鏈下游“行業應用”中“實用新型”類型專利占比較大。

5.2? 基于LDA模型的技術主題詞挖掘

在基于LDA模型的主題挖掘中,最佳主題數目的確定是最為關鍵的一步,本文使用Gibbs采樣的方法推斷LDA模型中所涉及的多個分布。首先,充分參考虛擬現實產業鏈環節數量后, 將各個環節的輸出主題數目初步確定為3-10個,對LDA模型進行訓練。其次,通過計算模型困惑度Perplexity來判斷模型的好壞,從而確定該模型的最佳參數,即使用不同數量的主題分別建模,隨機將語料庫劃分為訓練集與測試集,訓練集和測試集比例為8:2。最后,通過計算困惑度10次結果的平均值將產業鏈上游的最佳主題數目確定為4個,將產業鏈中游的最佳主題數目確定為3個,將產業鏈下游的最佳主題數目確定為7個。

通過充分了解該領域的技術知識,對中國虛擬現實領域專利進行技術主題標注,確定主題名稱。某種程度上,使用LDA主題模型挖掘到的主題可視為從技術鏈角度對虛擬現實技術進行細分,如表5所示。由表5可以看出,每個主題之間的區分非常明顯。產業鏈上游——“工具/設備設計”的4個主題分別為輸入設備、顯示設備、拍攝設備、軟件;產業鏈中游——“內容制作”的3個主題分別為影視、聲音、游戲;產業鏈下游——“行業應用”的7個主題分別為房地產、旅游、工業、軍事、醫療、教育、娛樂。

5.3? 產業鏈視角下的技術主題強度與熱點分析

經文獻研究與小組討論認為,產業鏈視角下技術主題強度的衡量指標主要包括:產業鏈各環節的專利數量權重與專利文檔概率。其中,產業鏈各環節的專利權重為上、中、下游專利數量在總專利數量中的占比,文檔概率為上、中、下游產業鏈視角下各主題的隸屬概率值。產業鏈視角下各技術主題的綜合強度計算如公式(2)所示:

TIi為第i個主題的綜合強度。其中,i為專利的15個主題(i=1,2,3,……,14),p為這14個主題分別對應的三個產業鏈環節(p=1,2,3)。LDAi為第i個主題的LDA權重值,nip為第i個主題所對應的第p個產業鏈環節的專利數量,為第p個產業鏈環節的專利數量

權重值;為第i個主題的LDA權重值與其所對應的第p個產業鏈環節的專利數量權重值之乘積。

根據LDA模型提取的權重值,結合產業鏈各環節的專利數量,計算出產業鏈視角下各技術主題的綜合強度分布,結果如表6所

示。由表6的綜合主題強度可知,上游“工具/設備設計”產業鏈的強度最大,是當前最熱門的研究領域;其次是下游“行業應用”,也是中國VR領域研發的共同關注焦點;最后是中游“內容制作”產業鏈,是中國VR領域研發的薄弱環節。從表6所示的各技術主題強度分布來看,在“工具/設備設計”環節,研發熱點集中在Topic4軟件研發和Topic1輸入設備;在“內容制作”環節,研發熱點集中在Topic5影視;在“行業應用”環節,研發熱點集中在Topic12醫療、Topic13教育、Topic14娛樂。

5.4? 產業鏈視角下的技術發展趨勢分析

基于產業鏈語料庫中的IPC編碼,統計分析了中國VR專利的熱點技術領域,部分統計結果如表7所示。結合表7的專利熱點技術領域以及表6的VR產業鏈各環節技術主題的強度分布,可以分析出未來5-10年中國VR專利的發展趨勢。具體體現在:①中國VR專利研發在產業鏈各個環節均會呈上升趨勢,且上游研發與中、下游研發之間的增長幅度會漸漸趨于一致,三者之間的專利數量差距會緩慢減小。②熱點研發環節仍會集中在上游的“工具/設備設計”,且以G06(計算;推算;計數)、G02(光學)、H04(電通信技術)等技術領域為主流。③產業鏈下游的“行業應用”研發環節將會呈迅猛增長態勢,且以A63(運動;游戲;娛樂活動)、A61(醫學或獸醫學;衛生學)、E04(建筑物)等技術領域為主流。④產業鏈中游的“內容制作”作為薄弱研發環節會保持緩慢上升,且以B60(一般車輛)、F16(工程元件或部件;為產生和保持機器或設備的有效運行的一般措施)、B64(飛行器;航空;宇宙航行)等技術領域為主流。

6? 結論與展望

6.1? 研究結論

研究主要得出以下幾個方面的結論:

(1)在產業鏈的構建與驗證方面,結合IPC分類號、K-means聚類的定性和定量分析可知,中國VR專利的上游材料端為“工具/設備設計”,中游生產端為“內容制作”,下游應用端為“行業應用”;且上游材料端專利聚類數量>下游應用端專利聚類數量>中游生產端專利聚類數量。此外,不僅在專利數量方面,而且在專利文本挖掘方面,目前中國VR行業更加注重上游產業端專利,且上游專利和中、下游專利之間的差距較大,產業鏈各環節的專利比例不均衡。

(2)在研發主題分布方面,結合VR產業鏈語料庫的TF-IDF關鍵詞權重值、LDA概率權重值可知,“發明專利”類型在產業鏈上、中、下游的比重均較大。此外,上游研發主題包括輸入設備、顯示設備、拍攝設備、軟件等工具/設備,其中“發明專利”類型占比較大;中游研發主題包括影視、聲音、游戲等內容制作,其中“外觀設計”類型占比較大;下游研發主題包括房地產、旅游、工業、軍事、醫療、教育、娛樂等行業應用,其中“實用新型”類型占比較大。

(3)在主題強度與研發熱點挖掘方面,結合產業鏈視角下各主題的研發強度可知:綜合主題強度中,上游是當前最熱門的研究鏈,其次是下游產業鏈,最薄弱的是中游產業鏈,這與IPC分類號、K-means聚類結果相一致,進一步驗證了研究結果的科學性。此外,從各技術主題的強度分布來看,上游研發熱點為輸入設備和軟件,諸如“信息輸入設備”“數據輸入設備”“客戶端輸入設備”等;中游研發熱點為影視,諸如“VR高清立體影視柔性傳輸線”“用于虛擬現實影視制作的穩拍系統”“VR影視拍攝履帶車”“用于播放3D影視的VR眼鏡”等;下游研發熱點為醫療、教育、娛樂,醫療諸如“基于VR技術的醫療手術模擬仿真系統”“基于虛擬現實的醫療設備操控系統”“基于虛擬現實的醫療設備演示系統”等,教育諸如“基于VR技術的小學生科技教育系統”“基于VR和動作捕捉的遠程教育系統”“VR安全教育動感座椅”等,娛樂諸如“三自由度虛擬現實游樂設備”“基于真實球拍的協同式增強現實乒乓球系統”“虛擬與現實有機結合的開心農場及實現方法”等。

(4)在技術發展趨勢方面,中國VR專利研發在產業鏈各個環節均會呈上升趨勢,且上游研發與中、下游研發之間的專利差距會緩慢減小。通過進一步細分的IPC分類號可知,產業鏈上游“工具/設備設計”的具體技術研發趨勢為G06F(計算;推算;計數——電數字數據處理)、G02B(光學——光學元件、系統或儀器)、H04N(電通信技術——圖像通信,如電視)等領域;產業鏈下游“行業應用”的具體技術研發趨勢為A63F(運動;游戲;娛樂活動——利用小型運動物體的室內游戲)、A61B(醫學或獸醫學;衛生學——診斷;外科;鑒定)、E04H(建筑物——專門用途的建筑物或類似的構筑物)等領域;產業鏈中游“內容制作”的具體技術研發趨勢為B60R(一般車輛——不包含在其他類目中的車輛、車輛配件或車輛部件)、B64D(飛行器;航空;宇宙航行——用于與飛機配合或裝到飛機上的設備;飛行衣;降落傘;動力裝置或推進傳動裝置的配置或安裝)、F16F(工程元件或部件——彈簧;減震器;減振裝置)等領域。

(5)研究雖然是以VR專利領域為例進行實證分析,但相關研究思路、研究框架和研究方法可擴展到其他領域進行專利分析應用。在數據采集與清洗的基礎上,基于IPC分類號構建專利產業鏈,并通過K-means聚類進行產業鏈驗證,通過定性和定量研究方法的結合,而不僅僅是通過單一的定性方法,進行專利產業鏈的構建,為專利領域產業鏈研究提供新的研究視角。在產業鏈視角下,通過計算上、中、下游專利文本的關鍵詞權重、主題詞權重,進而結合二者衡量專利的綜合強度,以此挖掘專利的技術主題強度與熱點,預測專利的技術發展趨勢,為專利文本挖掘和技術主題分析提供新的研究思路。

6.2? 對策建議

中國VR正處于產業爆發的前夕,即將進入持續高速發展的窗口期。可以預見,在未來的五年內,VR消費市場將迅速爆發,行業應用有望全面展開,文化內容將日趨繁榮,技術體系和產業格局也將初步形成。為推動我國VR產業發展,建議從以下方面開展工作:①進一步加強虛擬現實技術的研發。政府應支持設立重大相關研發項目,為產業發展提供共性技術、關鍵技術甚至顛覆性技術的供給;圍繞虛擬現實產業鏈的關鍵環節,加強產學研合作,積極引導企業與科研單位投入虛擬現實研究,在關鍵技術上開展深度合作。②大力促進虛擬現實技術的市場化和產業化。以虛擬現實技術在工業、文化、教育、娛樂和醫療等領域帶來的廣闊前景為契機,明確產業政策支持的方向。? ? ③盡快建立虛擬現實技術的行業標準。形成我國虛擬現實技術標準體系,鞏固自主技術布局占位,提高產業自主話語權。

6.3? 研究展望

研究的局限性在于選取的檢索數據庫為“中國專利數據庫”,數據僅限于在華申請的專利,且數據庫沒有相應的引文數據,無法做到與引文指標的對比分析。因此,在下一階段的研究中,可以選擇德溫特專利數據庫(Derwent Innovation Index,DII)作為檢索數據庫,德溫特數據庫及其專利引文索引涵蓋100多個國家、40多個專利機構,數據最早可追溯至1963年,為大規模的專利文獻研究提供了規范可靠的數據來源,而它的及時更新又為專利技術前沿的研究提供了可能,是企業和相關研究人員分析專利情報必不可少的工具。

參考文獻:

[1] 楊超, 朱東華, 汪雪鋒, 等.專利技術主題分析:基于SAO結構的LDA主題模型方法[J].圖書情報工作, 2017, 61(3): 86-96.

[2] 李姝影, 張鑫, 許軼, 等.核心專利集篩選及專利技術主題識別影響[J].情報學報, 2019, 38(1): 17-24.

[3] 陳偉, 林超然, 李金秋, 等.基于LDA-HMM的專利技術主題演化趨勢分析——以船用柴油機技術為例[J].情報學報, 2018(7): 732-741.

[4] 張婷婷.網絡綜合布線實驗室虛擬現實技術下的設計與研究[J].電子測試, 2019(3): 106-107.

[5] 孫柏林.區塊鏈+虛擬技術:仿真技術的新動向[J].計算機仿真, 2019, 36(1): 8-13, 35.

[6] 周永偉.巖石工程虛擬現實系統的建立及應用[J].山西建筑, 2019, 45(2): 77-79.

[7] 謝敬偉.分布式虛擬現實交互仿真系統研究[D].杭州:浙江大學, 2017.

[8] PAN X, HAMILTON A F D C. Why and how to use virtual reality to study human social interaction: the challenges of exploring a new research landscape[J].British journal of psychology, 2018:395-417.

[9] 劉子騰.面向虛擬人體解剖模型的交互式立體顯示方法研究[D].哈爾濱:哈爾濱工業大學, 2017.

[10] 李發達.基于多傳感器的交通控制硬件在環仿真技術研究與應用[D].北京:北京工業大學, 2017.

[11] 周雪, 李颯.基于真實感圖形生成技術的三維偶動畫創作探索[J].中國教育技術裝備, 2017(16): 43-44.

[12] 許兵.基于虛擬現實設備的典型飛機機翼裝配仿真[D].沈陽:沈陽航空航天大學, 2017.

[13] 閻麗, 胡丹丹, 閻春元, 等.基于感知覺學習的兒童視覺及智能虛擬現實數據庫系統對弱視治療效果的研究[J].臨床醫學工程, 2006(2): 32-33.

[14] 周哲泓, 薛錦云, 黃捷文. 虛擬現實軟件系統開發方法研究[J]. 計算機工程與科學, 2019, 41 (11): 1968-1975.

[15] 申閆春, 王銳, 郭富榮, 等.基于并行渲染的虛擬現實開發平臺設計與實現[J].計算機仿真, 2012, 29(11): 24-27.

[16] 劉園.VR技術在教育領域的研究與應用[J].電腦知識與技術, 2016, 12(16): 207-208.

[17] BA?OS R M, GUILLEN V, QUERO S, et al. A virtual reality system for the treatment of stress-related disorders: a preliminary analysis of efficacy compared to a standard cognitive behavioral program[J]. International journal of human-computer studies, 2011, 69(9): 602-613.

[18] 陸穎雋, 程磊.基于虛擬現實技術的圖書館信息資源建設與服務創新研究——以CADAL為例[J].圖書與情報, 2017(4): 8-12.

[19] 丁錚.增強現實和虛擬現實在博物館的應用[J].信息與電腦(理論版), 2017(24): 47-50.

[20] 胡阿沛, 張靜, 雷孝平, 等.基于文本挖掘的專利技術主題分析研究綜述[J].情報雜志, 2013(12): 88-92.

[21] 張彬, 陳永翀, 張艷萍, 等.鋰漿料電池國際專利技術分析[J].儲能科學與技術, 2017(5): 1000-1007.

[22] 隗玲, 許海云, 劉春江, 等.技術領域主題發現研究——以基因工程疫苗領域為例[J].數字圖書館論壇, 2017(1): 39-47.

[23] 張杰, 劉美佳, 翟東升.基于專利共詞分析的RFID領域技術主題研究[J].科技管理研究, 2013, 33(10): 129- 132, 140.

[24] 林廣杰.基于頻繁項集的海量文本聚類研究[D].北京:北京郵電大學, 2015.

[25] 丁麒, 莊志畫, 劉東丹.基于文本數據挖掘技術的95598業務工單主題分析應用[J].電力需求側管理, 2016(A01): 55-57.

[26] 王镠富, 胡等金.基于產業鏈的專利叢林測量與對策研究[J].情報理論與實踐, 2019, 42(4): 101-106.

[27] 張杰, 趙君博, 翟東升, 等.基于主題模型的微藻生物燃料產業鏈專利技術分析[J].數據分析與知識發現, 2019, 3(2): 52-64.

[28] 吳紅, 伊惠芳, 馬永新, 等.面向專利技術主題分析的WI—LDA模型研究[J].圖書情報工作, 2018(17): 68-74.

[29] 張超.基于專利數據挖掘的技術趨勢分析方法[D].大連:大連理工大學, 2014.

[30] 林志堅, 諶凱, 潘婷婷, 等.國內外虛擬現實技術專利分析研究[J].競爭情報, 2018:24-32.

[31] 黃立業, 趙輝, 王堅, 等.基于專利分析的產業競爭情報分析框架研究[J].情報科學, 2015(4): 59-63.

[32] 王靜宇, 劉穎琦, KOKKO A .基于專利信息的中國新能源汽車產業技術創新研究[J].情報雜志, 2016, 35(1): 36-42.

[33] 于申, 楊振磊.全球人工智能產業鏈創新發展態勢研究[J].天津經濟, 2019(5): 13-18.

[34] 方思, 李國秋.全球無人駕駛汽車專利分析——從產業鏈和技術鏈的二維角度[J].競爭情報, 2016,12(5): 27-36.

作者貢獻說明:

陳? 玲:數據收集與分析,論文起草與修改,論文最終版本修訂;

林? 平:數據分析;

段堯清:提出整體研究思路與框架,修改論文。

Technology Topic Mining and Trend Analysis from the Perspective of Industrial Chain Combined with K-Means and LDA

——Taking Virtual Reality Technology as an Example

Chen Ling1? ?Lin Ping1? ?Duan Yaoqing1,2

1School of Information Management, Central China Normal University, Wuhan 430079

2Hubei Research Center of Data Governance and Intelligent Decision-making, Wuhan 430079

Abstract: [Purpose/significance] From the perspective of industry chain, this paper takes virtual reality technology as an example, constructs VR patent industry chain corpus, and explores the technical theme, research and development hotspot and future development trend of China VR patent. [Method/process] First of all, this paper used Python to crawl the patent text in VR field and got effective corpus through data cleaning. Secondly, combining IPC classification number and K-means clustering algorithm, this paper constructed and validates VR patent industry chain. In addition, based on TF-IDF algorithm and LDA theme model, we identified the core technology themes and their comprehensive strength, technology research and development hotspots and future trends of China VR patents from the perspective of production chain. [Result/conclusion] At present, the proportion of patents in each link of China VR industry chain is unbalanced. The upstream link is the most popular, followed by the downstream link, and the weakest link is the midstream link. In terms of theme mining, the upstream hot spot is software development, the midstream hot spot is film and television production, and the downstream hot spot is medical, educational and entertainment applications. In terms of future trends, the upstream of the industrial chain will be dominated by technologies such as electronic digital data processing, optical components, image communication, etc., the midstream will be dominated by technologies such as vehicle components, power devices, damping devices, etc., and the downstream will be dominated by technologies such as indoor games, medical diagnosis, identification, etc..

Keywords: K-means clustering algorithm? ? LDA theme model? ? technology theme evolution? ?text mining? ? VR

猜你喜歡
文本研究
FMS與YBT相關性的實證研究
2020年國內翻譯研究述評
遼代千人邑研究述論
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
視錯覺在平面設計中的應用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
在808DA上文本顯示的改善
EMA伺服控制系統研究
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
新版C-NCAP側面碰撞假人損傷研究
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 国内精品久久久久久久久久影视| 制服丝袜 91视频| 毛片视频网| 乱人伦中文视频在线观看免费| 欧美一区二区福利视频| 国产99在线| 日本精品一在线观看视频| 幺女国产一级毛片| 四虎影视库国产精品一区| 露脸国产精品自产在线播| 国产97色在线| 丁香综合在线| 亚洲另类第一页| 老色鬼久久亚洲AV综合| 久久精品人人做人人综合试看| 久久精品国产精品青草app| 亚洲床戏一区| 在线免费亚洲无码视频| 精品国产成人国产在线| 天天操天天噜| 福利小视频在线播放| 一级毛片在线免费视频| 91色国产在线| 国产不卡国语在线| 尤物在线观看乱码| 亚洲码一区二区三区| 伊在人亚洲香蕉精品播放 | 免费看av在线网站网址| 国产成人一二三| 一区二区三区四区在线| 亚洲精品在线观看91| 91探花国产综合在线精品| 国产无码精品在线播放| 欧美一区二区精品久久久| 久久亚洲日本不卡一区二区| 五月婷婷亚洲综合| 无码高潮喷水在线观看| 国产精品密蕾丝视频| 波多野吉衣一区二区三区av| 亚洲国产成人精品一二区| 99久久这里只精品麻豆| 一级在线毛片| 宅男噜噜噜66国产在线观看| 狠狠v日韩v欧美v| 亚洲国产系列| 国产精品片在线观看手机版| 国产无人区一区二区三区| 亚洲中字无码AV电影在线观看| 亚洲精品自产拍在线观看APP| 久久亚洲国产最新网站| 国产精品3p视频| 中文字幕久久亚洲一区| 精品人妻AV区| 亚洲视频免| 99国产精品国产高清一区二区| 国产精品污视频| 亚洲欧洲自拍拍偷午夜色| 免费中文字幕一级毛片| 免费a级毛片视频| a毛片在线| 免费人成网站在线观看欧美| 欧美激情综合一区二区| 天天综合网亚洲网站| 国产噜噜噜视频在线观看| 91精品国产无线乱码在线| 成人午夜在线播放| 五月婷婷综合色| 亚洲天堂免费在线视频| 日韩A∨精品日韩精品无码| 国产精品护士| 欧洲日本亚洲中文字幕| 亚洲国产精品无码久久一线| 国产精品无码一区二区桃花视频| 伊人久久福利中文字幕| 中文毛片无遮挡播放免费| 好紧太爽了视频免费无码| 国产成人综合在线观看| 免费一级全黄少妇性色生活片| 亚洲成a人在线观看| 人妻一区二区三区无码精品一区| 日本亚洲欧美在线| 老司国产精品视频|