999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于密度峰值聚類的專利地圖制作方法

2020-06-15 10:16:48黃柏如周志平趙衛(wèi)東
科技管理研究 2020年10期
關(guān)鍵詞:文本信息

黃柏如,周志平,王 利,趙衛(wèi)東

(同濟大學(xué)電子與信息工程學(xué)院,上海 201804)

1 研究綜述

1.1 專利地圖簡介

國際上尚未對專利地圖的概念進(jìn)行統(tǒng)一、標(biāo)準(zhǔn)的定義。通常專利地圖泛指利用可視化方法對搜集到的專利信息進(jìn)行整理歸納,以直觀的圖表形式呈現(xiàn)的方法。通過對專利資料以及與專利資料相關(guān)的其他資料的統(tǒng)計分析,得到專利某些屬性的分布情況或?qū)@g的關(guān)聯(lián)信息,以圖表的方式呈現(xiàn),從而直觀地反映出搜集到的大量專利資料中的信息,使得文本數(shù)量多、篇幅長、內(nèi)容復(fù)雜的專利資料以更明晰的形式呈現(xiàn),為企業(yè)或國家的專利戰(zhàn)略決策提供支持[1]。

專利地圖的概念十分寬泛,視專利地圖分析者與使用者的目的和使用的技術(shù)不同,專利地圖的表現(xiàn)形式和內(nèi)容多變。根據(jù)分析對象與分析方法的不同,專利地圖一般可分為3 類:定量專利地圖、定性專利地圖、定性定量結(jié)合專利地圖[2]。專利地圖功能主要包括行業(yè)技術(shù)分析管理、技術(shù)預(yù)見、企業(yè)技術(shù)預(yù)警、競爭情報挖掘、企業(yè)戰(zhàn)略制定等方面[3]。

1.2 專利地圖研究現(xiàn)狀

最早的專利地圖在20 世紀(jì)60 年代誕生于日本,彼時日本由于戰(zhàn)爭原因,科技水平十分落后,而同時期歐美許多國家已經(jīng)積累了大量的先進(jìn)技術(shù),因此,日本需要大量引進(jìn)國外的先進(jìn)技術(shù),同時又需要注重自身的科技發(fā)展。在這樣的情況下,專利地圖作為一種實用的專利分析工具逐漸在工業(yè)界得到了應(yīng)用,幫助日本企業(yè)突破了歐美國家的技術(shù)壟斷,乃至如今使日本成為世界上最大的技術(shù)輸出國之一。

目前專利地圖在國外已經(jīng)得到了廣泛的應(yīng)用,除日本外,韓國與美國在專利地圖的研究方面也有所發(fā)展,制作了很多不同領(lǐng)域的專利地圖。與此同時,對于專利地圖制作方法的基礎(chǔ)研究亦在不斷地更迭,如日本特許廳提出的FI 分類方法以及更為精細(xì)的F-term 分類方法能夠更高效地根據(jù)專利文獻(xiàn)內(nèi)容對專利文獻(xiàn)進(jìn)行分類[4]。

此外,隨著專利數(shù)據(jù)的迅速膨脹,仍采用人工抽取信息、整理信息、繪制專利地圖的方式過于費時費力甚至于無法完成,而隨著機器學(xué)習(xí)技術(shù)的興起,對于專利數(shù)據(jù)的智能化分析也隨之開始發(fā)展,如Lamirel 等人[5]使用MultiSOM 算法,根據(jù)專利文獻(xiàn)材料自動化地生成了多種不同專利地圖;Chang等人[6]提取了專利文獻(xiàn)中的關(guān)鍵詞與關(guān)鍵短語來構(gòu)建專利地圖,以此監(jiān)測碳納米管場發(fā)射顯示器的技術(shù)趨勢。

我國目前對專利地圖的研究仍較少,在中國知網(wǎng)數(shù)據(jù)庫中檢索“專利地圖”關(guān)鍵詞,統(tǒng)計2003—2018 年間專利地圖相關(guān)中文文獻(xiàn)數(shù)量,結(jié)果如圖1所示。國內(nèi)最早對專利地圖進(jìn)行研究的是吳新銀等人[7-9],他們通過研究國外的專利地圖文獻(xiàn)及具體的應(yīng)用實例,引入了專利地圖的基本概念,并整理了其分類與功能等,探討了專利地圖的制作方法。自2009 年以來,國內(nèi)關(guān)于專利地圖的文獻(xiàn)發(fā)表量相較之前大幅增加,國內(nèi)學(xué)者對于專利地圖的研究重視有所提升;然而就絕對值而言,有關(guān)專利地圖的中文文獻(xiàn)數(shù)量仍處于較低的水平,與此同時,其中大部分文獻(xiàn)注重的是專利地圖的應(yīng)用或基于專利地圖對某一領(lǐng)域的研究[10-11],而針對專利地圖制作方法、表示方式等基礎(chǔ)理論的研究較少。

圖1 國內(nèi)專利地圖相關(guān)研究的文獻(xiàn)量與增長率年度分布

1.3 目前研究存在的問題

制作專利地圖的基礎(chǔ)是數(shù)據(jù),即大量的專利文獻(xiàn)。專利文獻(xiàn)包含結(jié)構(gòu)化項目,即語義格式統(tǒng)一的項目,如專利申請?zhí)?、申請日期等,以及非結(jié)構(gòu)化項目,即無固定格式的項目,如權(quán)利要求、摘要、發(fā)明的說明書等。通常定量分析專利地圖只利用結(jié)構(gòu)化項目,而對非結(jié)構(gòu)化項目利用較少,得到一系列諸如柱狀圖、折線圖形式的圖表。而定性分析如技術(shù)路線圖,對非結(jié)構(gòu)化項目的利用主要通過人工分析,依賴于專家的主觀判斷,也并未完全利用結(jié)構(gòu)化項目,僅在結(jié)果中進(jìn)行標(biāo)注而已[2]。邱洪華等人[12]基于K-Means 聚類方法,從專利間關(guān)鍵詞的語義關(guān)聯(lián)出發(fā),提出了一種新穎的專利地圖制作方法,將專利申請時間與專利內(nèi)容結(jié)合呈現(xiàn)出來,但對非結(jié)構(gòu)化信息的利用仍依賴于人工篩選。專利文獻(xiàn)通常含有大量技術(shù)術(shù)語,人工解讀分析十分困難,因此在專利地圖的制作中對專利技術(shù)特征的智能提取與利用十分重要。

綜合以上分析發(fā)現(xiàn),我國對專利地圖的研究更多的仍是應(yīng)用方面,而對其制作的基礎(chǔ)理論研究較少,目前仍存在一定的問題:(1)專利地圖的可視化表現(xiàn)形式局限,多為簡單的圖表,表達(dá)的信息量有限;(2)專利地圖制作過程中沒有充分利用結(jié)構(gòu)化項目與非結(jié)構(gòu)化項目,只通過其中一種信息制作專利地圖,沒有使用另一種或只在完成的專利地圖上添注另一種信息;(3)對專利地圖非結(jié)構(gòu)化項目信息的利用依賴人工分析,缺少智能化分析手段。

2 研究方法

本文提出一種新的專利地圖制作與表達(dá)方法,將采用文本挖掘的方法利用專利文本信息構(gòu)建專利向量空間模型,通過密度峰值快速搜索聚類(clustering by fast search and find of density peaks,CFSFDP)算法得到具有相似關(guān)鍵詞組成的一系列專利,并通過分析同一聚類內(nèi)的專利關(guān)鍵詞異同,結(jié)合非結(jié)構(gòu)化項目構(gòu)建以有向圖表示的專利地圖。具體制作方法流程如圖2 所示。這樣的專利地圖充分地利用了專利的多種信息,能夠清晰地表達(dá)目標(biāo)技術(shù)領(lǐng)域中的關(guān)鍵技術(shù)與創(chuàng)新方向的發(fā)展過程,同時也更具可信度。

圖2 基于密度峰值快速搜索聚類的專利地圖制作流程

2.1 專利文獻(xiàn)特征提取與距離定義

2.1.1 專利文獻(xiàn)關(guān)鍵詞提取

在確定研究目標(biāo)后,即某個特定的專業(yè)領(lǐng)域,需要擬定選擇一系列關(guān)鍵詞進(jìn)行專利文獻(xiàn)的檢索。為更全面、充分地對檢索得到的專利文本進(jìn)行分析,檢索時僅使用關(guān)鍵詞是遠(yuǎn)遠(yuǎn)不夠的,需要從各文本中提取更多的關(guān)鍵字,為此通過計算TF-IDF(term frequency-inverse document frequency)提取關(guān)鍵詞。

逆文本頻率的具體計算公式為:

這樣得到的TF-IDF 值一方面考慮到了專利文本中詞匯與其主題的關(guān)聯(lián)性,亦考慮到了詞匯在整個專利文本庫中對于這一文本的代表性,能夠較為準(zhǔn)確地衡量每個詞的價值。

2.1.2 專利向量空間模型與距離定義

其次,定義兩篇專利文本間的距離為其向量表示的歐氏距離。在考慮文本間的距離關(guān)系時,只考慮文本中各關(guān)鍵詞的分布情況,因此需先將其歸一化,具體方法如下:

至此完成了專利向量空間模型與距離的定義。

2.2 基于聚類的專利地圖制作

2.2.1 使用CFSFDP 算法聚類

經(jīng)典的聚類方法K-Means 的核心思想是指定聚類中心,隨后每次迭代時根據(jù)現(xiàn)有的聚類中心將每個點歸類為最近的聚類中心的聚類,再根據(jù)這樣的聚類計算更合理的聚類中心。K-Means 方法思想簡單易于實現(xiàn),但對非凸的類簇效果較差。而基于密度的聚類方法如DBSCAN(density-based spatial clustering of applications with noise)相較K-means而言,雖對類簇的形狀無限制,對非凸形狀的類簇效果較好,但是需要給定一個密度閾值,且聚類結(jié)果對于這個閾值十分敏感。此外還有基于分布的聚類,則需要預(yù)先給定分布,通過參數(shù)化的方式聚類。

從技術(shù)發(fā)展的角度來看,在技術(shù)的推陳出新過程中,新技術(shù)專利文獻(xiàn)與舊技術(shù)專利文獻(xiàn)間存在若干共同的技術(shù)關(guān)鍵詞,而新專利文獻(xiàn)中必然會存在舊技術(shù)文獻(xiàn)中沒有的技術(shù)關(guān)鍵詞,而舊技術(shù)文獻(xiàn)中的舊技術(shù)或因不再使用或因成為默認(rèn)程序而不再出現(xiàn)。基于以上考慮,根據(jù)式(4)所定義的專利向量的分布通常是不規(guī)則的,呈現(xiàn)出類樹狀的聚類分布結(jié)構(gòu),真實的聚類結(jié)果通常不會是球面甚至是非凸的,亦難以找到合適的分布模型或其他密度聚類算法中的閾值。聚類算法CFSFDP 對任意形狀的類簇均可達(dá)到聚類目的,算法中的閾值可根據(jù)數(shù)據(jù)自動指定,且對此閾值不敏感[13]。

本文根據(jù)CFSFDP 算法以及式(7)中所定義的距離,對于每個專利文本向量計算其兩個數(shù)值特征:局部密度和到最近的更高局部密度的點的距離構(gòu)建專利地圖所使用的專利文本數(shù)量巨大,因此通過高斯核函數(shù)將專利文本向量映射至高維空間。給定距離閾值的兩個特征計算分別如下:

使用CFSFDP 算法進(jìn)行聚類后,所有專利文本被分為若干類則每類內(nèi)的專利文本具有相似的關(guān)鍵詞,即相似的專利技術(shù)、創(chuàng)新方向等等,結(jié)合專利資料的其他信息,能夠進(jìn)一步挖掘各專利間的關(guān)聯(lián)。

2.2.2 構(gòu)建以有向圖表示的專利地圖

根據(jù)各個聚類內(nèi)的關(guān)鍵詞信息的異同,構(gòu)建初始語義網(wǎng)絡(luò),以有向圖表示專利地圖。初始的專利地圖包括n個節(jié)點,即提取的關(guān)鍵詞兩個節(jié)點間存在邊當(dāng)且僅當(dāng):

即當(dāng)同一聚類中的兩篇專利文獻(xiàn)具有至少K個相同關(guān)鍵詞且其中1 篇專利文獻(xiàn)中存在獨有的關(guān)鍵詞那么可以認(rèn)為從關(guān)鍵技術(shù)t發(fā)展出了關(guān)鍵技術(shù)即由引一有向邊。

2.2.3 結(jié)構(gòu)化信息的結(jié)合

上述步驟根據(jù)專利文本間的語義關(guān)聯(lián)構(gòu)建了初始的專利地圖,在語義網(wǎng)絡(luò)的基礎(chǔ)上,利用結(jié)構(gòu)化項目能夠生成更為準(zhǔn)確、含有更多信息量的專利地圖。同樣的n個節(jié)點,兩個節(jié)點間存在邊當(dāng)且僅當(dāng):

圖3 根據(jù)同一聚類中的專利文本建立有向邊

至此,專利地圖的構(gòu)建充分利用了結(jié)構(gòu)化信息與非結(jié)構(gòu)化信息,并通過有向圖中的點與邊結(jié)合表達(dá)了兩方面的信息。

3 結(jié)論與展望

本文提出了一種新穎的專利地圖制作與表達(dá)方法,其主要特點包括:(1)使用文本挖掘方法智能化地從非結(jié)構(gòu)化的專利文本中提取關(guān)鍵詞信息;(2)針對專利文本在所構(gòu)建向量空間中的分布特點,選取了適合的CFSFDP 聚類算法進(jìn)行聚類;(3)制作過程中同時利用了專利文本間的語義關(guān)聯(lián)與結(jié)構(gòu)化信息;(4)對專利地圖表達(dá)方式進(jìn)行了創(chuàng)新,以不同于傳統(tǒng)圖表的,更為自由、包含更多信息的形式呈現(xiàn)。

本文主要利用的是專利文本與專利申請日信息進(jìn)行專利地圖的構(gòu)建,得到的專利地圖以關(guān)鍵技術(shù)或創(chuàng)新方向為節(jié)點,能夠展現(xiàn)目標(biāo)領(lǐng)域?qū)@夹g(shù)的發(fā)展過程。未來對于專利地圖制作的基礎(chǔ)研究在以下兩個方面仍需深入:一是在不依賴專家分析的智能化專利地圖制作過程中,如何充分考慮更多方面的專利信息以提高專利地圖的準(zhǔn)確度和可信度;二是針對傳統(tǒng)專利地圖表達(dá)信息單一的問題,如何在專利地圖中以直觀的方式呈現(xiàn)出更多有價值的信息。

猜你喜歡
文本信息
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
如何快速走進(jìn)文本
語文知識(2014年1期)2014-02-28 21:59:13
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
健康信息(九則)
祝您健康(1987年2期)1987-12-30 09:52:28
主站蜘蛛池模板: 亚洲无码高清一区| 国产chinese男男gay视频网| 免费全部高H视频无码无遮掩| 久久无码av三级| 中文字幕中文字字幕码一二区| 欧美日本二区| 国产精品主播| 亚洲九九视频| 在线观看欧美国产| 成年av福利永久免费观看| 99精品国产自在现线观看| 免费观看男人免费桶女人视频| 伊人久久影视| 中文成人在线| 在线观看国产小视频| 欧美色99| 91视频精品| 亚洲视频a| 国产一区成人| 囯产av无码片毛片一级| 精品国产成人国产在线| 欧美成人日韩| 无码综合天天久久综合网| 国产91av在线| 欧美黑人欧美精品刺激| 国产噜噜噜视频在线观看| 国产导航在线| 成人亚洲视频| 极品av一区二区| 国产va在线观看| 尤物在线观看乱码| 国产亚洲欧美另类一区二区| 国产精品自拍合集| 国产毛片久久国产| 一级黄色网站在线免费看| 成人在线视频一区| 精品撒尿视频一区二区三区| 国产玖玖视频| 无码内射在线| 国产97公开成人免费视频| 野花国产精品入口| 日韩av资源在线| 中文天堂在线视频| 亚洲成年人网| 国产精品香蕉在线| 日韩欧美中文在线| 欧美一级黄色影院| 人妻精品久久久无码区色视| 国产男人的天堂| 中文无码毛片又爽又刺激| 最新国产你懂的在线网址| 欧美精品在线看| 伊人久久大香线蕉影院| 经典三级久久| 日本国产一区在线观看| 精品国产黑色丝袜高跟鞋 | 日本精品影院| 国产手机在线观看| 在线国产综合一区二区三区| 一级全免费视频播放| 偷拍久久网| 国产主播在线一区| 国产在线八区| 久久人与动人物A级毛片| 中文字幕66页| 亚洲av无码成人专区| 尤物视频一区| 欧美成人精品在线| 99re在线免费视频| 综合色区亚洲熟妇在线| 99视频精品全国免费品| 91久久国产综合精品女同我| 久久精品国产999大香线焦| 3D动漫精品啪啪一区二区下载| 久久人搡人人玩人妻精品一| 欧美精品成人一区二区视频一| 国产杨幂丝袜av在线播放| 国产一级小视频| 国产成人免费| 久久中文无码精品| 亚洲香蕉在线| 国产亚洲精品91|