陳 一
(昆明理工大學管理與經濟學院,云南 昆明 650000)
在全球產業(yè)鏈重構和大國博弈的背景下,核心技術是買不來的,要提高核心競爭力,增強產業(yè)鏈供應鏈自主可控能力,實現(xiàn)高質量發(fā)展,還是要依靠自主創(chuàng)新。自主創(chuàng)新的過程中,專利的研究和分析具有重要的戰(zhàn)略指導意義,而隨著專利數(shù)量的增加,如何從海量的專利中發(fā)現(xiàn)研發(fā)熱點,需要引入大數(shù)據(jù)挖掘的方法,可以通過對專利文本的主題聚類來探索專利的研發(fā)熱點。但是專利文本會涉及不同學科領域的專業(yè)詞匯,比如青刺果專利會涉及醫(yī)學、化學、植物學等學科領域的專業(yè)詞匯,做文本數(shù)據(jù)挖掘時,特征詞具有不可分割性。而運用傳統(tǒng)的TF-IDF 算法的LDA主題模型來做主題聚類不能很好的處理專業(yè)性的特征詞。針對專利文本的專業(yè)性特征詞,如何做專利的專業(yè)性主題聚類,本文以青刺果德溫特專利數(shù)據(jù)為例,首先運用Word2vec 對青刺果專利的德溫特分類代碼和專利標題訓練詞向量,然后引入基于去停用詞的N-Gram 算法優(yōu)化TF-IDF 加權,最后運用LDA 做主題聚類。
青刺果(Prinsepia utilis Royle)又稱總花扁核木,是薔薇科李亞科扁核木屬植物,為常綠或落葉小灌木。青刺果耐旱、耐寒、抗逆性和適應性強,主要生長于印度北部和中國西南部喜馬拉雅山區(qū)的高海拔地區(qū)。對青刺果的研究主要集中在化學成分分析和藥理作用方面。化學成分方面,青刺果莖中能提取到單體化合物駢雙四氫呋喃類木脂素,以及L-表兒茶素和β-谷甾醇-β-葡萄糖苷;青刺果的總黃酮的回收率在101.41%,黃酮類組成有山奈酚、兒茶素、槲皮素和圣草酚;發(fā)酵能顯著增加青刺果種子的多酚含量;青刺果油含有豐富的維生素和不飽和脂肪酸。藥理研究方面,青刺果具有降血脂、抑菌、保濕、抗氧化、延緩皮膚衰老、抗腫瘤、抑制血小板聚集等作用。青刺果具有極大的藥用價值和商用價值,關于青刺果也有大量的專利,但相關文獻缺少對青刺果專利進行分析的研究,本文通過對青刺果專利文本的主題聚類來探索青刺果專利的研發(fā)熱點。
Word2vec 是由Mikolov 等人提出的一種用于訓練詞向量的神經網絡概率語言模型。Word2vec 詞向量是根據(jù)詞匯所在上下文計算出的,充分捕獲了上下文的語義信息,還能解決傳統(tǒng)向量空間模型處理短文本時的特征稀疏問題,適用于短文本分類。青刺果專利德溫特分類代碼和專利標題都是短文本,本文選擇Word2vec 訓練詞向量。針對Word2vec 模型無法區(qū)分文本中詞匯的重要程度,本文引入TF-IDF 算法計算Word2vec 詞向量的權重,但是TF-IDF 算法存在過于依賴特征詞的提取效果和未考慮特征詞的出現(xiàn)位置等問題。而Jestes 等人提出的N-Gram 算法,能保留詞匯的特征信息和特征詞的位置信息,N-Gram 算法對特定領域特征詞的提取效果明顯,比如在計算機病毒特征碼的提取和SQL語句固定維數(shù)的特征向量提取的研究,N-Gram算法能夠豐富特征詞又能清除無效特征詞帶來的影響,同時加重符合文本主題的特征詞的權重。因此,本文引入基于去停用詞的N-Gram算法,優(yōu)化TF-IDF 加權。用N-Gram 來改進TF-IDF,特征詞的TF值可以客觀地反映特征詞對文本的重要程度,將特征詞位置因子和詞頻因子結合,距離越遠、頻次越高的特征詞對文本更重要,應賦予更高的權重。青刺果專利文本的特征詞具有專業(yè)性,經過Word2vec訓練詞向量和改進的TF-ID 優(yōu)化加權,再運用LDA做主題聚類,可以提升專利主題聚類的專業(yè)性。
在德溫特專利數(shù)據(jù)庫中搜索所有年份的“青刺果”專利,把全紀錄導出,通過Python 爬蟲獲取的青刺果專利德溫特分類代碼結果的部分截圖如圖1 所示,青刺果專利標題結果的部分截圖如圖2所示。

圖1 青刺果專利德溫特分類代碼結果的部分截圖

圖2 青刺果專利標題結果的部分截圖
以青刺果專利的德溫特分類代碼和專利標題作為語料,爬取的爬取的用Word2vec的Skip_gram 模型訓練詞向量,然后用N-Gram 改進TF-IDF,對詞向量優(yōu)化加權,最后運用Python 中的nltk 和gensim 庫做LDA主題聚類,結果如下所示。

從青刺果德溫特專利文本主題聚類出來的結果可以看出,主題詞都是醫(yī)學、化學、植物學等學科領域的專業(yè)詞匯,主要有七類。
第一類:皮膚,治療,保濕,化妝品,配方。
第二類:組合物,有機物,芳烴,聚合物,化合物。
第三類:植物,提取,草藥,油,粉。
第四類:提取,分離,蒸發(fā),結晶,透析。
第五類:醫(yī)療,藥品,殺菌,消炎,抗缺氧。
第六類:油,脂肪,蠟,脂肪酸,精油。
第七類:設備,發(fā)酵,釀造,食品,生產。
這七類主要涉及青刺果的功能、應用、提取技術和成分分析。
從青刺果德溫特專利文本的主題聚類結果可以看出青刺果專利的研究熱點主要集中在青刺果的功能、應用、提取技術和成分分析方面。青刺果是藥食兩用的植物,在食用性、藥用性以及生產工藝上值得繼續(xù)研究探索。但是青刺果種植受地域性限制,其產品的推廣及宣傳仍有待提高,相關專利在種植和包裝方面猶嫌不足,青刺果專利未來的研究可以多從種植和包裝方面進行,以擴大青刺果種植,降低生產成本,促進產品營銷,讓青刺果能夠發(fā)揮更大的社會價值,產生更大的經濟效益。對于青刺果德溫特專利文本,通過運用Word2vec 訓練詞向量,再用N-Gram 改進TF-IDF 優(yōu)化加權,然后用LDA 做主題聚類的方法,針對青刺果專利文本涉及不同學科領域專業(yè)詞匯的特點,做出了專業(yè)性的主題聚類。但是如果存在亞專科更細分領域的詞匯,就需要進一步探索新的識別算法。