余本功 陳楊楠 楊穎



摘要:[目的/意義]專利是企業(yè)技術創(chuàng)新活動的重要成果,對專利數(shù)據(jù)進行分析,有利于客觀評價企業(yè)技術創(chuàng)新能力。[方法/過程]從計量的角度對企業(yè)專利數(shù)據(jù)進行分析的同時,結合機器學習的方法,通過LDA模型對專利摘要文本進行內容挖掘,構建基于專利文本內容的評價指標,建立由專利數(shù)量、專利趨勢和專利內容三方面指標組成的技術創(chuàng)新評價體系。[結果/結論]采用熵值法確定各項指標對企業(yè)技術創(chuàng)新的影響權重,并通過實驗對國內自主品牌制造企業(yè)進行技術創(chuàng)新評價,說明了評價方法的現(xiàn)實意義。
關鍵詞:主題模型;專利數(shù)據(jù);LDA;內容挖掘;熵值法;技術創(chuàng)新評價
DOI:10.3969/j.issn.1008-0821.2019.01.014
[中圖分類號]G306 [文獻標識碼]A [文章編號]1008-0821(2019)01-0111-07
創(chuàng)新是驅動企業(yè)發(fā)展的原動力,對于一家制造企業(yè)來說,技術能力是公司內部進行資源調度與配置,提高生產力并實現(xiàn)戰(zhàn)略目標的重要技能和素質,而只有擁有特定資源和特殊特征能力的公司才能獲得競爭優(yōu)勢。
企業(yè)的技術創(chuàng)新能力是其在制造領域的影響力的重要體現(xiàn),企業(yè)的技術創(chuàng)新又會受到諸多因素影響,從企業(yè)進行技術創(chuàng)新活動時所需支持要素考慮,會受到企業(yè)的科研經費投入、研發(fā)人員比例、研究機構的數(shù)量等因素影響;從企業(yè)創(chuàng)新活動過程中的各個環(huán)節(jié)出發(fā),會受到市場機會反應速度、主要產品更新周期等因素影響;從企業(yè)的技術創(chuàng)新產出成果方面分析,新產品銷售收入、企業(yè)專利數(shù)量等也都是技術創(chuàng)新的重要影響因素。對企業(yè)技術創(chuàng)新能力進行系統(tǒng)分析和綜合評價,有利于企業(yè)科學認識自身的技術創(chuàng)新狀態(tài),采取有效的技術創(chuàng)新戰(zhàn)略,增強企業(yè)競爭力,從而獲得最佳的經濟效益和社會效益。
專利數(shù)據(jù)作為反映企業(yè)技術創(chuàng)新能力的綜合性指標,是科技創(chuàng)新活動的最主要和最直接的產出重要成果之一,和企業(yè)的創(chuàng)新活動密切相關,是全面評價企業(yè)技術創(chuàng)新的一個關鍵因素,而企業(yè)的專利數(shù)據(jù)所包含的信息是大規(guī)模的、多維度的,僅從數(shù)量層面去評價企業(yè)技術創(chuàng)新能力是不全面的。為此,應從多視角對企業(yè)技術創(chuàng)新開展評價,以計量的角度分析專利數(shù)據(jù)的同時,也需要對專利內容加以分析。主題模型是一類用來發(fā)現(xiàn)文本抽象主題的無監(jiān)督模型,能夠從主題層面對專利文本進行挖掘,將主題模型方法和統(tǒng)計方法相結合對專利數(shù)據(jù)進行分析,能夠更加全面反映企業(yè)的創(chuàng)新活動,更好地對企業(yè)技術創(chuàng)新做出評價。
1相關研究
多年來,企業(yè)技術創(chuàng)新評價的研究日漸豐富,如利用層次分析法將影響技術創(chuàng)新的因素間的相互關聯(lián)及隸屬關系按不同層次聚合,形成目標層、準則層、指標層3個層次的評價體系,考慮到不同層次的元素和元素組內部的關聯(lián)關系,提出的指標層具有網絡結構的基于網絡層次分析法的評價體系;使用因子分析法將眾多評價指標濃縮成幾個關鍵的影響因素并計算它們的影響程度來評價企業(yè)的技術創(chuàng)新能力,以及使用數(shù)據(jù)包絡分析和兩階段DEA的方法,從技術創(chuàng)新投入和產出兩方面構建評價體系,還有TRIZ理論、模糊評價、BP神經網絡以及密切值法等理論方法的應用,使得評價結果更加客觀公正。
專利數(shù)量是反映企業(yè)技術創(chuàng)新產出的一項重要指標,但數(shù)量只是企業(yè)創(chuàng)新活動產出的一個方面。因此,孫斌等基于生產視角分解科技創(chuàng)新各環(huán)節(jié),構建了包含專利創(chuàng)造能力、專利運用能力和專利支持環(huán)境的區(qū)域科技創(chuàng)新評價指標體系;鄭佳從專利的數(shù)量與質量、絕對與相對、自主研發(fā)與國際合作3個層次建立了基于專利指標的技術創(chuàng)新能力評價體系;曹明等在已有的基于專利的評價指標體系基礎上,引入協(xié)同創(chuàng)新能力等指標,綜合宏觀(地區(qū))、中觀(行業(yè))和微觀(企業(yè))3個層面構建多維度、立體的技術競爭力評價體系;梁曉捷等從創(chuàng)新方向、創(chuàng)新效率、創(chuàng)新質量3方面選取指標評價企業(yè)技術創(chuàng)新能力。這些文獻都沒有深入到專利文本內容,而專利文本中相當一部分信息是某個技術領域的相對較新的內容,所以專利文本的內容挖掘是了解企業(yè)乃至整個領域技術創(chuàng)新的發(fā)展趨勢和核心要素的一種重要方式。
LDA模型是主題模型中的典型代表,假設每個文檔由多個抽象主題組成,基于文檔中詞語的共現(xiàn)關系將詞聚合在一個主題下,生成主題一詞概率分布,詞概率的大小反映了該詞與這個抽象主題之間的關聯(lián)關系的強弱。根據(jù)文檔中詞的主題分布情況可以獲得文本一主題概率分布。借助LDA模型可以發(fā)現(xiàn)熱門話題,對不同時間段的文檔集進行建模,還可以獲得主題的演化關系。
本文提出一種結合LDA模型和專利數(shù)據(jù)的技術創(chuàng)新評價方法,從計量和內容兩個維度展開,一方面,對制造企業(yè)的專利數(shù)量、專利趨勢等指標進行分析;另一方面,利用LDA模型發(fā)現(xiàn)企業(yè)專利中的領域核心關鍵詞并計算企業(yè)創(chuàng)新核心值,構建起基于專利內容的評價指標,再利用熵值法確定各指標對技術創(chuàng)新能力的影響權重,進而對企業(yè)技術創(chuàng)新能力進行評價。
2基于專利數(shù)據(jù)的技術創(chuàng)新能力評價框架
文章從專利數(shù)量、專利趨勢和專利內容3方面選取下述7項指標構建技術創(chuàng)新能力評價框架,由淺入深,具有很好的泛化性。
2.1主要指標及說明
2.1.1專利數(shù)量指標
數(shù)量指標是反映企業(yè)技術創(chuàng)新產出成果的一個直接指標,本文選取的數(shù)量指標主要包括發(fā)明專利數(shù)量X1、實用新型專利數(shù)量墨和授權發(fā)明專利數(shù)量X3。
1)發(fā)明專利數(shù)量:發(fā)明分為產品發(fā)明和方法發(fā)明兩大類型,對于企業(yè)來說,新產品的問世、新生產方法的上線以及實驗方案的改進等都是企業(yè)技術創(chuàng)新活動的重要成果。
2)實用新型數(shù)量:相比于發(fā)明專利,實用新型專利更多體現(xiàn)出實用性,且必須為具體的、有一定形狀的產品,而不能是抽象的理論。例如,汽車的真空助力器帶制動主缸裝置、放氣可控式輪胎裝置等都是幫助企業(yè)在行業(yè)內獲得領先的技術創(chuàng)新產出。
3)發(fā)明授權專利數(shù):為保護企業(yè)的自主知識產權,國家知識產權局會對符合專利要求的專利技術方案嚴格審查,并對其中一部分發(fā)明專利和實用新型專利進行授權,而這部分專利必須具備新穎性、創(chuàng)造性和實用性。
2.1.2專利趨勢指標
趨勢指標反映出了企業(yè)技術創(chuàng)新產出的變化態(tài)勢及發(fā)展方向,本文選取的趨勢指標包括專利年申請量X4和技術分布趨勢X5。
1)年申請量變化率:每一條專利都是企業(yè)長時間技術投入和技術創(chuàng)新的成果,每年的專利申請數(shù)量從一定角度上反映了企業(yè)的研發(fā)效率以及創(chuàng)新成果轉化率,年申請量的變化則說明了企業(yè)研發(fā)效率及創(chuàng)新成果轉化率的起伏。
2)技術分布變化率:根據(jù)《國際專利分類表》(IPC分類)發(fā)明專利和實用新型專利被分入8部,而每個制造領域都會有與該領域相關度很高的專利類型。企業(yè)在相應分部里的專利占比在一定程度上反映了企業(yè)技術創(chuàng)新的集中程度,技術分布的變化則反應了企業(yè)創(chuàng)新集成狀況的變化。
2.1.3專利內容指標
專利的內容關系到制造領域技術創(chuàng)新的關鍵和核心要素,本文選取的內容指標是核心關鍵詞數(shù)X6和創(chuàng)新核心值X7。
1)核心關鍵詞數(shù):專利內容涉及領域內方方面面,但其中熱門詞匯一定是領域中關注的重點,涉及到技術創(chuàng)新活動的對象或者過程。因此,企業(yè)專利中包含領域核心關鍵詞的數(shù)量反映出了該企業(yè)與行業(yè)發(fā)展方向的一致性。
2)創(chuàng)新核心值:創(chuàng)新要素在領域內有重要性的差異,核心關鍵詞也會有熱度的區(qū)別。關鍵詞熱度越高,則該關鍵詞所涉及的內容越是受到行業(yè)重視。創(chuàng)新核心值是核心關鍵詞在企業(yè)專利內容中受重視程度的數(shù)值表現(xiàn),也說明了企業(yè)在制造領域對核心要素的把握情況。
綜上所述,可得企業(yè)技術創(chuàng)新能力評價指標體系,如圖1所示。
2.2基于LDA模型的專利內容指標說明
企業(yè)的領域核心關鍵詞數(shù)和創(chuàng)新核心值指標不同于其他5項指標,不能直接通過企業(yè)的專利數(shù)據(jù)統(tǒng)計獲得,需要通過LDA模型對企業(yè)專利摘要文本進行關鍵詞的提取,統(tǒng)計各家企業(yè)所包含的領域核心關鍵詞數(shù)并計算各企業(yè)的創(chuàng)新核心值。本節(jié)將對LDA模型進行簡單介紹,并詳細說明核心關鍵詞數(shù)和創(chuàng)新核心值的獲取過程。
2.2.1 LDA主題模型
LDA主題模型是一個3層貝葉斯概率模型,主要包括文檔、主題和詞3層結構,認為每個文檔是由多個主題的混合,每個主題是由一系列詞組成。其模型如圖2所示:
3實證分析
3.1實驗對象及數(shù)據(jù)統(tǒng)計
以國內自主品牌汽車企業(yè)為例,選擇的實驗對象為北京汽車股份有限公司(北汽集團)、重慶長安汽車股份有限公司(長安汽車)、長城汽車股份有限公司(長城汽車)、奇瑞汽車股份有限公司(奇瑞汽車)、安徽江淮汽車股份有限公司(江淮汽車)、浙江吉利控股集團有限公司(吉利汽車)6家國產自主品牌汽車專利數(shù)據(jù)。根據(jù)中國汽車工業(yè)協(xié)會公布的《2017年1~10月中國品牌汽車分車型前10家生產企業(yè)銷量排名》,這些公司占據(jù)榜單中的6席,并且擁有很大數(shù)量的中國汽車專利。因此,這6家自主品牌汽車公司是具有代表性的自主品牌汽車公司。
專利數(shù)量指標選擇的是公開日期為2012年1月1日-2016年12月31日的6家企業(yè)的中國發(fā)明專利數(shù)、實用新型專利數(shù)和授權發(fā)明專利數(shù);專利趨勢指標選擇的是申請日期為2012年1月1日-2016年12月31日的6家企業(yè)的中國專利年申請量變化量平均值,B部、F部和G部專利所占比例的平均值;專利內容指標選取公開日期為2012年1月1日-2016年12月31日的6家企業(yè)的實用新型和發(fā)明專利摘要文本。數(shù)據(jù)來源于中國知網專利數(shù)據(jù)庫及佰騰專利網,專利情況統(tǒng)計如表1所示。
3.2專利內容指標獲取
獲得6家企業(yè)和領域核心關鍵詞數(shù)及創(chuàng)新核心值,首先要對所有的專利摘要文本進行下述預處理過程:
1)每條專利摘要看作是一個文檔,去除文檔長度低于100字的數(shù)據(jù);
2)將文檔里所有大寫英文字母轉化成小寫字母:
3)使用jieba模塊對數(shù)據(jù)進行分詞,使用停用詞詞典去除標點和停用詞,并進行詞性標注,引入百度百科汽車術語建立用戶詞典。
經過預處理獲得29916個專利文檔,建立起包括318個汽車術語的用戶詞典,選擇文檔集困惑度較小的主題數(shù)30,即K=30。經過LDA建模和進一步的TF-IDF計算,每個主題保留權重最高的10個主題詞,即h=10,并從這些主題詞中選取汽車領域核心關鍵詞。限于篇幅,圖3僅展示了主題11~主題13和主題20~主題22的主題詞及其概率分布。
我們從這些主題詞中選取汽車領域核心關鍵詞時將服從以下原則:
選取汽車領域核心關鍵詞時將遵守以下幾條原則:
1)去除名詞中,例如“板”、“螺桿”、“齒輪”、“芯片”、“蓋”、“軟管”、“硬管”等無法確定具體所指對象的通用詞;
2)去除“方法”、“功能”、“接口”和“導向”等單獨出現(xiàn)時無意義的名詞;
3)合并例如“座椅”和“汽車座椅”,“減震器”、“避震器”和“減振器”等表征相同意義的名詞。
通過上述原則篩選,我們最終獲得90個領域核心關鍵詞,其中包括和發(fā)動機系統(tǒng)相關的“溫度傳感器”、“水泵”、“油管”、“進氣歧管”、“氣缸”等關鍵詞;和底盤系統(tǒng)相關的“轉向器”、“轉向管柱”、“剎車”、“減震器”等關鍵詞;和車身系統(tǒng)相關的“保險杠”、“儀表盤”、“遮陽板”、“后視鏡”等關鍵詞;和空調系統(tǒng)相關的“濾清器”、“空氣壓縮機”等關鍵詞;和電子系統(tǒng)及電器設備系統(tǒng)相關的“蓄電池”、“尾燈”、“傳感器”等關鍵詞。統(tǒng)計每個主題下的關鍵詞數(shù),并根據(jù)公式(1)計算每個關鍵詞的重要值。
在獲得汽車領域的核心關鍵詞后,我們單獨對各家企業(yè)的發(fā)明和實用新型專利文本進行LDA建模,主題數(shù)設置為20,即k=20,獲得每家企業(yè)的主題一主題詞分布,統(tǒng)計每家企業(yè)包含的領域核心關鍵詞數(shù),并通過公式(2)計算每家企業(yè)的領域創(chuàng)新核心值。結果如表2所示:
3.3技術創(chuàng)新評價
將表1及表2中數(shù)據(jù)進行標準0~1變換處理,如表3,再運用熵值法計算各項指標的熵值ej進而確定各項指標的權重,如表4所示。
由表4可得汽車企業(yè)的專利數(shù)量指標權重為0.57,專利趨勢指標權重為0.17,專利內容指標權重為0.26。
根據(jù)公式(6)可獲得各企業(yè)技術創(chuàng)新能力評價值,并進行排名,如表5。
觀察表5的結果,我們發(fā)現(xiàn)江淮公司雖然專利總數(shù)不是最多的,卻獲得了最高的技術創(chuàng)新評價值,吉利汽車公司雖然專利數(shù)最多,但因為近5年內申請專利數(shù)量下降較快,排列第2位,奇瑞位列第3位,北汽集團排列最后一位,并與其他公司差距較為明顯。總結來說,2012年1月1日-2016年
12月31日期間,江淮、吉利公司技術創(chuàng)新能力屬于第1梯隊,奇瑞、長城公司屬于第2梯隊,長安和北汽公司屬于第3梯隊。
對比實驗結果和2017年12月汽車評價研究院發(fā)布的《汽車行業(yè)安亭指數(shù)排行榜》和《乘用車發(fā)明專利排行榜》,我們發(fā)現(xiàn)實驗結果雖存在微小偏差,但結論基本一致,出現(xiàn)偏差的原因是本文提出的技術創(chuàng)新評價體系是從專利數(shù)據(jù)的3個維度出發(fā),選取的專利指標跨越的時間范圍更長,涉及專利數(shù)據(jù)的維度更寬泛,和汽車研究院發(fā)布的車型排行榜產生一點偏差.而文中提出的方法是面向企業(yè)進行的技術創(chuàng)新評價。因此,文中提出的基于主題模型和專利文本的技術創(chuàng)新評價方法具有一定的實際意義。
4結論
文章通過對企業(yè)專利數(shù)據(jù)的統(tǒng)計和內容挖掘,構建了基于專利數(shù)量指標、專利趨勢指標和專利內容指標的技術創(chuàng)新評價方法。經過實驗證明,LDA在對數(shù)量較多、文本長度較長、領域性較強的汽車專利文本進行建模時,提取領域關鍵詞效果良好,利用此框架不僅可以從專利的數(shù)量、趨勢以及內容3個角度評價汽車企業(yè)的技術創(chuàng)新能力強弱,同時也可以發(fā)掘出汽車領域的一些創(chuàng)新熱點。