廖列法++勒孚剛



〔摘要〕[目的/意義] 運用概率主題模型全面研究專利文獻主題演化,分析專利技術發展過程及趨勢。[方法/過程]LDA模型按時間窗口對專利文本建模,困惑度確定最優主題數,按專利文本結構特性提取主題向量,采用JS散度度量主題之間的關聯,引入IPC分類號度量技術主題強度,最后實現主題強度、主題內容和技術主題強度3方面的演化研究。[結果/結論]實驗結果表明:該方法能夠深入挖掘專利文獻的主題,可以較好地分析專利技術隨時間的演化規律,幫助相關從業人員了解專利技術的演化過程及趨勢。
〔關鍵詞〕專利文獻;LDA;JS散度;IPC分類號;技術主題強度;專利技術演化
DOI:10.3969/j.issn.1008-0821.2017.05.003
〔中圖分類號〕G25553〔文獻標識碼〕A〔文章編號〕1008-0821(2017)05-0013-06
Research on Patent Technology Evolution Based on
LDA Model and Classification NumberLiao LiefaLe Fugang
(School of Information Engineering,Jiangxi University of Science and Technology,Ganzhou 341000,China)
〔Abstract〕[Purpose/significance]This paper used the probability topic model to study the evolution of patent literature,and analyzed the development process and trend of patent technology.[Methods/process]The LDA model modeled the patent text by time window,confusion degree method was used to determined the optimal number of topics,extracting topic vectors according to the structural characteristics of patent text,used the JS divergence to measure the association between topics,introduced IPC classification number to measure technical topic strength,finally,the evolution of topic strength,topic content and technical topic strength were studied.[Results/conclusion]The experimental results showed that this method could deeply excavate the topic of the patent literature,and could analyze the evolution of patent technology over time and help the practitioners to understand the evolution process and trend of patent technology.
〔Key words〕patent literature;LDA;JS divergence;IPC classification number;technical topic strength;patent technology evolution
專利文獻是技術情報的載體,它的文本中隱藏了大量的技術情報信息,是技術情報的最佳情報來源。從2011-2016年我國專利申請數量已經連續5年蟬聯全球專利申請量之首,因此,從海量的專利文獻中挖掘專利發展趨勢具有重要的研究意義。專利技術演化分析是專利文本分析的重要研究方法。技術演化分析是指技術變化過程的發現和描述,進而進行技術發展趨勢預測等內容。全面、深入和準確地分析技術發展情況,可以幫助國家制定科學技術發展規劃,幫助企業了解市場發展動態和制定正確的市場技術路線,還可以幫助科研人員從技術的發展趨勢中獲得啟發與借鑒。
本文針對專利文本結構特點[1],提出基于LDA和分類號的專利技術演化模型。首先該方法在文本建模時,考慮專利文本內容的權重差異;其次結合專利文本權重提取專利文檔的主題概率分布,然后在文本演化分析中,分析主題的主題強度和主題內容演化,及結合專利的IPC分類號分析技術主題強度。最后實驗表明,該模型能夠較好地分析出專利文本的主題強度、主題內容演化和技術主題強度演化過程及趨勢。
1相關研究
因專利技術演化分析能夠探索和挖掘專利文本中的一些潛藏信息[2-4],故已成為該領域對特定技術發展研究的重要手段,國內外研究者對專利技術演化做了大量的研究工作[5-9]。根據技術演化分析方法中利用專利文獻中的不同信息,可以將專利技術演化分析方法分為3類。
11基于專利分類號的技術演化
專利分類號(IPC分類號、德溫特手工代碼等)是對專利技術內容的反映。基于專利分類號的技術演化分析方法[10]是通過時間窗口切分專利文獻,依據專利對應的專利分類號,在各時間塊內對專利進行統計分析,常見的專利分類號統計方法有:根據專利分類號對同類專利統計數量,分類號的頻次統計分析、共現統計分析等。通過統計分析專利分類號隨時間的演變,來揭示某技術領域的技術演化過程及發展趨勢。這類技術演化分析方法雖然能夠在一定程度上分析技術的演化過程,但是并沒有深入到專利文本的內容,只停留在宏觀表面上,不能夠全面深入地分析技術發展演化過程及趨勢。
2017年5月第37卷第5期現?代?情?報Journal of Modern InformationMay,2017Vol37No52017年5月第37卷第5期基于LDA模型和分類號的專利技術演化研究May,2017〖〗Vol37No512基于專利引用關系的技術演化
專利之間的引用關系使專利之間產生了關聯,構造成專利引用網絡,通過對專利關聯和網絡的研究,分析專利技術之間的聯系和演進關系。侯彼蓉、司有和和吳海燕[11]提出基于引文路徑分析的專利技術演進圖的描繪,利用醫學內窺鏡專利技術進行實案論證。Changwoo Choi和Yongtae Park[12]提出一種利用專利引用網絡對技術發展過程進行分析的方法,分析技術變化、明確技術發展路徑及預測技術發展趨勢。分析專利引用關系能夠發現不同專利之間的相互關系及演化過程和趨勢,但是此類算法存在兩個明顯的缺陷:①專利引用體系不完整,不易發現所有專利之間的引用關系;②引用關系同樣停留在宏觀表面,沒深入到專利文本內容,不能發現專利內在聯系。
13基于專利文本的技術演化
早期基于專利文本的技術演化分析方法是通過人工閱讀來完成的,但隨著專利文本數量的陡增,人工閱讀的成本也在迅速增加,因此采用機器學習文本挖掘算法是一種必然的趨勢。該類方法利用文本挖掘算法提取專利文本中的文本信息,然后根據文本信息進行技術演化分析,其中專利的文本包括名稱、摘要、主權項等。Young Gil Kim等[13]提出一種關鍵詞語義網絡的構建方法,對專利文本進行聚類,根據不同簇關鍵詞的共現及首現時間,構建關鍵詞語義網絡,分析技術主題變化過程。方曙等[14]在分析現有方法不足的基礎上,提出一種更完善的基于專利文本的技術演化分析方法。該方法結合專利文本信息,能更直觀深入地表達專利的內在信息與聯系,最終更好的發現專利技術演化過程和趨勢?;趯@谋镜募夹g演化研究常用方法有:專利詞頻統計方法,空間向量模型等,其中對概率模型方法涉及很少,故本文利用概率主題模型結合專利分類號來分析專利文本的技術演化過程及趨勢。
4實驗及結果分析
41實驗環境及數據集
實驗是在CPU為Inter(R)E5-2620 v2@210GHz、內存為16G、操作系統為64位的Window8的PC機上運行。
本文利用從專利局獲取的稀土專利數據進行實驗。實驗數據集包含2007-2015年共31 000篇稀土專利文獻[21],時間窗口的長度劃為1年,根據專利的申請時間將專利文獻分到對應的時間窗口。利用困惑度函數確定各個時間窗口的最優主題數,具體的數據情況如表2所示。
42實驗設置
實驗分詞采用R軟件的Rwordseg包中的segmengCN方法[22],由于專利文本具有專業性強、領域詞匯多的特點,若直接采用R軟件進行分詞效果不是很好,需要擴充分詞表的詞庫,故在搜狗詞庫中下載相關的專利詞語詞庫,使像“金屬氧化物”、“二氧化鈦”等日常少見的詞匯能正確被表2數據集各時間窗口具體數據情況
年限文檔數詞匯數最優主題數20076814 1945620081 7346 3066120091 9406 4515920102 2097 0856520112 4076 9627020123 7818 2907820134 5068 5747220145 4409 4068520156 1799 78582
切分,提高分詞正確率,并為后續分析提供好的實驗數據。
在LDA建模過程中,參數估計采用MCMC方法中的Gibbs抽樣算法,根據經驗設置α=50/K、β=001,Gibbs抽樣的迭代次數參數iteration為1 000,保存迭代參數save step為800。其中各時間片的具體最優主題數如表2所示。
43實驗結果及分析
LDA模型根據表2各時間片的最優主題數分別建模,選取各個主題中分布概率前10的關鍵詞表示主題內容。2015年熱點主題的分布情況如表3所示:表32015年熱點主題
Topic 0Topic 8Topic 9Topic 11Topic 13Topic 39合金催化劑磁體熒光發光玻璃熔煉煙氣粉末熒光粉轉換摻雜鋁合金活性燒結發射吸收陶瓷鑄造催化汝鐵硼發光紅外線透明融化凈化磁性激化可見光制備鐵合金浸漬粘結化學余輝石英精煉助劑磁場紅色紫外線摩爾鎂合金廢氣鐵氧體綠色磷光燒結澆鑄尾氣溫度波長彩色折射率鑄錠催化活性擴散二極管顏色抗熱
根據表3可知,2015年專利文本的主題集中在合金材料、催化劑材料、磁體、發光、熒光和玻璃等。通過對這些熱點主題的具體內容含義分析,可以了解2015年專利大概的申請情況。主題0主要是合金方面的內容,包括鋁合金、鐵合金、鎂合金等的合成等;主題8主要是催化材料方面的內容,側重對各種工業廢氣、發動機尾氣和煙氣的處理及凈化;主題9主要是磁性材料方面的內容,磁性材料的主要對象還是汝鐵硼永磁材料的研究;主題11主要是熒光領域的內容,重點在各種顏色光波長研究;主題13主要是發光領域的內容,發光領域包括發光、熒光材料等方面;主題39主要是玻璃材料方面的內容,包括玻璃的摻雜、燒結、抗熱和折射率等,側重在玻璃材料創新方面。
431專利的主題強度演化結果
依據LDA模型提取的文檔-主題和主題-詞匯概率分布,計算主題在各個時間片上的主題強度,分析主題強度隨時間的演化趨勢。下面以稀土行業中的幾個熱門主題進行分析,具體的演化情況如圖3所示:
圖3為主題的主題強度隨時間的演變情況圖,依據圖可以清晰地看出各主題的主題強度隨時間變化的情況。從圖中分析各主題強度演變得出:主題0的主題強度一直很高,在2012年和2015年熱度達到最大值,主題0的整體主題強度有一個上升的趨勢,說明合金方面的內容一直是稀土技術研究的熱點;主題8是有關催化材料方面的主題,整體主題的主題強度是一個上升過程,這跟時代需求有關,隨著各種廢氣、尾氣處理凈化的要求,引發了該類技術的研究熱潮;主題9的主題強度整體是個下降趨勢,說明在磁性材料方面的研究達到了一定技術瓶頸,研究熱度慢慢下降;主題11和13事關于發光領域的內容,隨著時間主題的強度值跨度較大,呈現一個大的上升趨勢,隨著近些年國家飛速發展,這方面技術是一個較新的研究領域;主題39是關于玻璃材料領域的內容,主題的強度波動不大,說明該領域研究穩定。
432專利的主題內容演化結果
對各個時間窗口建模,獲取主題-詞匯概率分布,在不同的時間窗口中同一主題的內容是不一樣的,根據JS距離公式,得到主題相似性度量結果。下面列舉了合金主題的內容變化情況。具體情況如表4所示:
表4合金主題的內容變化
20072008〖〗2009201020112012201320142015合金鋁合金合金合金合金合金合金合金合金原料合金熔煉熔煉鎂合金雜質熔煉熔煉熔煉制備保溫鎂合金性能熔煉鎂合金鑄造鋁合金鋁合金真空溫度性能鑄造雜質熱處理熔化鑄造鑄造熔煉熔化高溫試樣退火強度退火融化融化氫氣工藝熱處理提高余量熔煉精煉澆注鐵合金保護熔煉提高變質精煉含量澆注精煉精煉破碎冷卻鑄造鐵合金變形鎂合金鎂合金鎂合金鎂合金氬氣升溫元素磨損熱處理高強澆鑄退火澆鑄融化精煉精煉工藝擠壓微量鑄錠鈦合金鑄錠
實驗提取主題概率分布前10的關鍵詞作為該主題的表示形式,從主題強度圖中可以分析出,合金領域的主題強度一直很高,是近些年的研究熱點,而主題的內容是變化的,從表4中可以看出合金技術在內容上,從各種熔煉慢慢集中在各類金屬的合成上,這正和近些年合金技術發展相吻合,說明這主題內容演化很好的論證技術方向的發展。
433專利技術組主題強度演化結果
依據IPC分類的特性,對小組分類的同類技術進行技術主題強度演化分析。下面列舉了近些年一些熱門技術的主題強度演化情況,具體情況如圖4所示:
圖42007-2015年技術主題主題強度演化趨勢
圖4宏觀上描述技術主題強度隨時間演化趨勢圖,隨著近些年環境污染的日益嚴重,使得有關環保節能方面技術成為研究熱點,圖中純稀土合金節能環保制備技術和廢汽車尾氣凈化劑制備技術的主題強度隨著時間呈現一個強勢上升趨勢,這和實際情況相吻合;近些年稀土提取技術主題強度曲線波動較大,因為它相對其他專利的申請量在減少,但它的量是在穩步上升的;各種光照技術在飛速提升,因為這是當前各企業研究的熱點,也是商業競爭的關鍵技術,圖中光電器件制備技術和照明光源制備技術由2011年后是一個穩步上升的趨勢,符合當前專利技術發展實情。
5結論與展望
本文利用LDA模型對不同時間窗口的專利文獻建模,提取各專利文檔的主題,利用困惑度確實最優主題數,從主題強度、主題內容、技術主題強度等方面,全面研究了專利文獻主題的演化情況。結論表明該方法可以較好地分析專利文獻主題隨時間的強度演化規律、主題內容演化趨勢和技術主題強度演化情況。本文只考慮專利文本結合IPC分類號的專利技術演化分析,對于技術之間的相互引用、相互聯系和相互作用等考慮不足,因此這是下一步的研究方向,以能夠更全面深入地研究專利技術演化,使主題演化效果更真實反映專利文獻的發展概況。
參考文獻
[1]胡冰,張建立.基于統計分布的中文專利自動分類方法研究[J].現代圖書情報技術,2013,29(7):101-106.
[2]祖坤琳,趙銘偉,林鴻飛.基于有序聚類的專利知識演化研究[J].計算機工程與科學,2016,38(4):785-791.
[3]魏景璇,魯燃,張艷輝,等.基于動態閾值和命名實體的雙重過濾話題追蹤[J].計算機應用研究,2015,32(4):982-985.
[4]賀亮,李芳.科技文獻話題演化研究[J].現代圖書情報技術,2012,(4):61-67.
[5]胡阿沛,張靜,張曉宇,等.基于專利文獻的技術演化分析方法評述[J].現代情報,2013,33(10):172-176.
[6]秦曉慧,樂小虬.基于LDA主題關聯過濾的領域主題演化研究[J].現代圖書情報技術,2015,(3):4.
[7]李勇,安新穎.基于LDA的主題演化研究[J].醫學信息學雜志,2013,(2):57-61.
[8]Sugimoto C R,Li D,Russell T G,et al.The shifting sands of disciplinary development:Analyzing North American Library and Information Science dissertations using latent Dirichlet allocation[J].Journal of the American Society for Information Science and Technology,2011,62(1):185-204.
[9]王金龍,徐從富,耿雪玉.基于概率圖模型的科研文獻主題演化研究[J].情報學報,2009,(3):347-355.
[10]欒春娟.基于專利共現的全球太陽能技術網絡及關鍵技術演進分析[J].情報學報,2013,32(1):68-79.
[11]侯筱蓉,司有和,吳海燕,等.基于引文路徑分析的專利技術演進圖制作的實證研究——以醫學內窺鏡專利分析為例[J].情報學報,2008,27(5):788-792.
[12]Choi C,Park Y.Monitoring the organic structure of technology based on the patent development paths[J].Technological Forecasting & Social Change,2009,76(6):754-768.
[13]Kim Y G,Suh J H,Sang C P.Visualization of patent analysis for emerging technology[J].Expert Systems with Applications An International Journal,2008,34(3):1804-1812.
[14]方曙,胡正銀,龐弘遷,等.基于專利文獻的技術演化分析方法研究[J].圖書情報工作,2011,55(22):42-46.
[15]Blei D M,Ng A Y,Jordan M I.Latent Dirichlet Allocation[J].Journal of machine Learning research,2003,3(1):993-1022.
[16]王曰芬,傅柱,陳必坤.采用LDA主題模型的國內知識流研究結構探討:以學科分類主題抽取為視角[J].現代圖書情報技術,2016,32(4):8-19.
[17]Heinrich G.Parameter Estimation for Text Analysis[J].Technical Report,2005.
[18]李保利,楊星.基于LDA模型和話題過濾的研究主題演化分析[J].小型微型計算機系統,2012,33(12):2738-2743.
[19]李湘東,張嬌,袁滿.基于LDA模型的科技期刊主題演化研究[J].情報雜志,2014,(7):115-121.
[20]韓紅旗,付媛,朱禮軍.基于專利IPC分類號的技術競爭對象的群組分析方法[J].情報工程,2015,(4).
[21]于佳欣.2006-2010年稀土專利申請現狀分析[J].稀土信息,2012,(4):38-40.
[22]Roberts M E,Stewart B M,Tingley D.stm:R package for structural topic models[J].R package,2014,(1):12.
(本文責任編輯:孫國雷)