999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

青刺果德溫特專利的專業(yè)性主題聚類*

2022-07-29 14:12:20
計算機時代 2022年7期
關鍵詞:詞匯文本

陳 一

(昆明理工大學管理與經濟學院,云南 昆明 650000)

0 引言

在全球產業(yè)鏈重構和大國博弈的背景下,核心技術是買不來的,要提高核心競爭力,增強產業(yè)鏈供應鏈自主可控能力,實現(xiàn)高質量發(fā)展,還是要依靠自主創(chuàng)新。自主創(chuàng)新的過程中,專利的研究和分析具有重要的戰(zhàn)略指導意義,而隨著專利數(shù)量的增加,如何從海量的專利中發(fā)現(xiàn)研發(fā)熱點,需要引入大數(shù)據(jù)挖掘的方法,可以通過對專利文本的主題聚類來探索專利的研發(fā)熱點。但是專利文本會涉及不同學科領域的專業(yè)詞匯,比如青刺果專利會涉及醫(yī)學、化學、植物學等學科領域的專業(yè)詞匯,做文本數(shù)據(jù)挖掘時,特征詞具有不可分割性。而運用傳統(tǒng)的TF-IDF 算法的LDA主題模型來做主題聚類不能很好的處理專業(yè)性的特征詞。針對專利文本的專業(yè)性特征詞,如何做專利的專業(yè)性主題聚類,本文以青刺果德溫特專利數(shù)據(jù)為例,首先運用Word2vec 對青刺果專利的德溫特分類代碼和專利標題訓練詞向量,然后引入基于去停用詞的N-Gram 算法優(yōu)化TF-IDF 加權,最后運用LDA 做主題聚類。

1 相關文獻綜述

青刺果(Prinsepia utilis Royle)又稱總花扁核木,是薔薇科李亞科扁核木屬植物,為常綠或落葉小灌木。青刺果耐旱、耐寒、抗逆性和適應性強,主要生長于印度北部和中國西南部喜馬拉雅山區(qū)的高海拔地區(qū)。對青刺果的研究主要集中在化學成分分析和藥理作用方面。化學成分方面,青刺果莖中能提取到單體化合物駢雙四氫呋喃類木脂素,以及L-表兒茶素和β-谷甾醇-β-葡萄糖苷;青刺果的總黃酮的回收率在101.41%,黃酮類組成有山奈酚、兒茶素、槲皮素和圣草酚;發(fā)酵能顯著增加青刺果種子的多酚含量;青刺果油含有豐富的維生素和不飽和脂肪酸。藥理研究方面,青刺果具有降血脂、抑菌、保濕、抗氧化、延緩皮膚衰老、抗腫瘤、抑制血小板聚集等作用。青刺果具有極大的藥用價值和商用價值,關于青刺果也有大量的專利,但相關文獻缺少對青刺果專利進行分析的研究,本文通過對青刺果專利文本的主題聚類來探索青刺果專利的研發(fā)熱點。

2 研究方法

Word2vec 是由Mikolov 等人提出的一種用于訓練詞向量的神經網絡概率語言模型。Word2vec 詞向量是根據(jù)詞匯所在上下文計算出的,充分捕獲了上下文的語義信息,還能解決傳統(tǒng)向量空間模型處理短文本時的特征稀疏問題,適用于短文本分類。青刺果專利德溫特分類代碼和專利標題都是短文本,本文選擇Word2vec 訓練詞向量。針對Word2vec 模型無法區(qū)分文本中詞匯的重要程度,本文引入TF-IDF 算法計算Word2vec 詞向量的權重,但是TF-IDF 算法存在過于依賴特征詞的提取效果和未考慮特征詞的出現(xiàn)位置等問題。而Jestes 等人提出的N-Gram 算法,能保留詞匯的特征信息和特征詞的位置信息,N-Gram 算法對特定領域特征詞的提取效果明顯,比如在計算機病毒特征碼的提取和SQL語句固定維數(shù)的特征向量提取的研究,N-Gram算法能夠豐富特征詞又能清除無效特征詞帶來的影響,同時加重符合文本主題的特征詞的權重。因此,本文引入基于去停用詞的N-Gram算法,優(yōu)化TF-IDF 加權。用N-Gram 來改進TF-IDF,特征詞的TF值可以客觀地反映特征詞對文本的重要程度,將特征詞位置因子和詞頻因子結合,距離越遠、頻次越高的特征詞對文本更重要,應賦予更高的權重。青刺果專利文本的特征詞具有專業(yè)性,經過Word2vec訓練詞向量和改進的TF-ID 優(yōu)化加權,再運用LDA做主題聚類,可以提升專利主題聚類的專業(yè)性。

3 實驗與結果分析

在德溫特專利數(shù)據(jù)庫中搜索所有年份的“青刺果”專利,把全紀錄導出,通過Python 爬蟲獲取的青刺果專利德溫特分類代碼結果的部分截圖如圖1 所示,青刺果專利標題結果的部分截圖如圖2所示。

圖1 青刺果專利德溫特分類代碼結果的部分截圖

圖2 青刺果專利標題結果的部分截圖

以青刺果專利的德溫特分類代碼和專利標題作為語料,爬取的爬取的用Word2vec的Skip_gram 模型訓練詞向量,然后用N-Gram 改進TF-IDF,對詞向量優(yōu)化加權,最后運用Python 中的nltk 和gensim 庫做LDA主題聚類,結果如下所示。

從青刺果德溫特專利文本主題聚類出來的結果可以看出,主題詞都是醫(yī)學、化學、植物學等學科領域的專業(yè)詞匯,主要有七類。

第一類:皮膚,治療,保濕,化妝品,配方。

第二類:組合物,有機物,芳烴,聚合物,化合物。

第三類:植物,提取,草藥,油,粉。

第四類:提取,分離,蒸發(fā),結晶,透析。

第五類:醫(yī)療,藥品,殺菌,消炎,抗缺氧。

第六類:油,脂肪,蠟,脂肪酸,精油。

第七類:設備,發(fā)酵,釀造,食品,生產。

這七類主要涉及青刺果的功能、應用、提取技術和成分分析。

4 結論與討論

從青刺果德溫特專利文本的主題聚類結果可以看出青刺果專利的研究熱點主要集中在青刺果的功能、應用、提取技術和成分分析方面。青刺果是藥食兩用的植物,在食用性、藥用性以及生產工藝上值得繼續(xù)研究探索。但是青刺果種植受地域性限制,其產品的推廣及宣傳仍有待提高,相關專利在種植和包裝方面猶嫌不足,青刺果專利未來的研究可以多從種植和包裝方面進行,以擴大青刺果種植,降低生產成本,促進產品營銷,讓青刺果能夠發(fā)揮更大的社會價值,產生更大的經濟效益。對于青刺果德溫特專利文本,通過運用Word2vec 訓練詞向量,再用N-Gram 改進TF-IDF 優(yōu)化加權,然后用LDA 做主題聚類的方法,針對青刺果專利文本涉及不同學科領域專業(yè)詞匯的特點,做出了專業(yè)性的主題聚類。但是如果存在亞專科更細分領域的詞匯,就需要進一步探索新的識別算法。

猜你喜歡
詞匯文本
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
在808DA上文本顯示的改善
本刊可直接用縮寫的常用詞匯
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
一些常用詞匯可直接用縮寫
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 国产真实乱人视频| 成人欧美在线观看| 亚洲va精品中文字幕| 秘书高跟黑色丝袜国产91在线| 国产乱子伦精品视频| 亚洲精品国产成人7777| 国产欧美又粗又猛又爽老| 日韩无码黄色| 国产尤物视频在线| 国内精品视频在线| 免费在线色| 欧美成人手机在线观看网址| 久久久波多野结衣av一区二区| 亚洲无码在线午夜电影| www.亚洲色图.com| 欧美日韩高清| 狠狠色丁香婷婷| 国产成人亚洲精品无码电影| 亚洲AⅤ无码日韩AV无码网站| 亚洲无码高清一区二区| 青青国产视频| 四虎永久在线精品影院| 久久精品视频一| 国产成人免费手机在线观看视频| 国产女人18毛片水真多1| 成人精品亚洲| www.狠狠| 欧美一级在线| 中国国产A一级毛片| 国产AV毛片| 最新痴汉在线无码AV| 亚洲无码电影| 欧美a在线看| 亚洲色图欧美一区| 亚洲欧美成人影院| 国产人人乐人人爱| 欧美成人精品高清在线下载| h网址在线观看| 免费在线观看av| 无码有码中文字幕| 亚洲制服丝袜第一页| 久久免费视频播放| 亚洲精品卡2卡3卡4卡5卡区| 免费在线a视频| 伊伊人成亚洲综合人网7777| 18禁影院亚洲专区| 国产美女在线免费观看| 99免费视频观看| 国产成人无码久久久久毛片| 动漫精品中文字幕无码| 99热最新网址| 亚洲最大福利视频网| 青青操视频免费观看| 欧美日韩精品一区二区视频| 在线国产91| 亚洲水蜜桃久久综合网站| 久久国产精品夜色| 成人免费一区二区三区| 国产精品私拍在线爆乳| 午夜视频免费一区二区在线看| 一本一道波多野结衣av黑人在线| 国产不卡国语在线| 无码在线激情片| julia中文字幕久久亚洲| 亚洲成人免费在线| 国产精品高清国产三级囯产AV| 91精品福利自产拍在线观看| 亚洲Aⅴ无码专区在线观看q| 国产免费黄| 一区二区三区四区精品视频 | 亚洲一区二区约美女探花| 国产精彩视频在线观看| 久久国产拍爱| 久久先锋资源| www.youjizz.com久久| 欧美精品一区二区三区中文字幕| 亚洲欧美自拍中文| 女人一级毛片| 红杏AV在线无码| 欧美自拍另类欧美综合图区| 88av在线| 国产精品爽爽va在线无码观看 |