陳 一
(昆明理工大學(xué)管理與經(jīng)濟(jì)學(xué)院,云南 昆明 650000)
在全球產(chǎn)業(yè)鏈重構(gòu)和大國博弈的背景下,核心技術(shù)是買不來的,要提高核心競爭力,增強(qiáng)產(chǎn)業(yè)鏈供應(yīng)鏈自主可控能力,實現(xiàn)高質(zhì)量發(fā)展,還是要依靠自主創(chuàng)新。自主創(chuàng)新的過程中,專利的研究和分析具有重要的戰(zhàn)略指導(dǎo)意義,而隨著專利數(shù)量的增加,如何從海量的專利中發(fā)現(xiàn)研發(fā)熱點,需要引入大數(shù)據(jù)挖掘的方法,可以通過對專利文本的主題聚類來探索專利的研發(fā)熱點。但是專利文本會涉及不同學(xué)科領(lǐng)域的專業(yè)詞匯,比如青刺果專利會涉及醫(yī)學(xué)、化學(xué)、植物學(xué)等學(xué)科領(lǐng)域的專業(yè)詞匯,做文本數(shù)據(jù)挖掘時,特征詞具有不可分割性。而運(yùn)用傳統(tǒng)的TF-IDF 算法的LDA主題模型來做主題聚類不能很好的處理專業(yè)性的特征詞。針對專利文本的專業(yè)性特征詞,如何做專利的專業(yè)性主題聚類,本文以青刺果德溫特專利數(shù)據(jù)為例,首先運(yùn)用Word2vec 對青刺果專利的德溫特分類代碼和專利標(biāo)題訓(xùn)練詞向量,然后引入基于去停用詞的N-Gram 算法優(yōu)化TF-IDF 加權(quán),最后運(yùn)用LDA 做主題聚類。
青刺果(Prinsepia utilis Royle)又稱總花扁核木,是薔薇科李亞科扁核木屬植物,為常綠或落葉小灌木。青刺果耐旱、耐寒、抗逆性和適應(yīng)性強(qiáng),主要生長于印度北部和中國西南部喜馬拉雅山區(qū)的高海拔地區(qū)。對青刺果的研究主要集中在化學(xué)成分分析和藥理作用方面。化學(xué)成分方面,青刺果莖中能提取到單體化合物駢雙四氫呋喃類木脂素,以及L-表兒茶素和β-谷甾醇-β-葡萄糖苷;……