王鑫,趙蘊華,高芳
(中國科學技術(shù)信息研究所,北京 100038)
基于分類號和引文的專利相似度測量方法研究*
王鑫,趙蘊華,高芳
(中國科學技術(shù)信息研究所,北京 100038)
面向?qū)@麛?shù)據(jù)領(lǐng)域,根據(jù)專利引文數(shù)據(jù)、IPC分類號、德溫特分類號構(gòu)建一種專利相似度的測量方法,以LTE移動通信領(lǐng)域?qū)@麨闃颖具M行實證分析,發(fā)現(xiàn)該方法對專利相似程度區(qū)分性較好。
專利相似度;專利分類號;專利引文;專利文本挖掘
專利作為知識產(chǎn)權(quán)的核心代表,是一個企業(yè)、行業(yè)乃至國家競爭力的集中體現(xiàn)。充分利用專利信息可以分析出企業(yè)戰(zhàn)略布局、研發(fā)進度、技術(shù)導向、未來市場瞭望等眾多難以獲得的企業(yè)情報。有效運用專利情報,平均可縮短研發(fā)時間60%,節(jié)省研發(fā)費用40%[1],助力企業(yè)知己知彼、緊跟行業(yè)步伐,引領(lǐng)市場潮流。相似專利的檢索不僅在專利布局、專利預警、專利價值衡量、新技術(shù)識別、專利規(guī)避中占據(jù)重要地位,對于新專利的申請、侵權(quán)檢測、專利訴訟等也意義重大。提高專利相似度測量的準確性和有效性對于專利分析意義深刻。
專利具有標題、摘要等文本信息及分類號、引用關(guān)系等結(jié)構(gòu)信息,還包括權(quán)利要求項、申請日、優(yōu)先權(quán)等獨特字段。由專利審查員授予一個或多個分類號,對內(nèi)容范疇的界定統(tǒng)籌也更加準確。專利引文除專利申請人引用外也還包括審查員引用。由此便產(chǎn)生了兩種相似度測量方法,基于文本的專利相似度測量和基于引用的專利相似度測量。……