


摘要:企業(yè)擁有有效專利量日趨增長(zhǎng)的今天,高效且有針對(duì)性的專利分析已備受關(guān)注。本文從智能語(yǔ)義檢索;數(shù)據(jù)挖掘、預(yù)測(cè)性分析;以及多元可視化展示三個(gè)方面,分別以Patentics的語(yǔ)義檢索、本應(yīng)科技的技術(shù)監(jiān)控系統(tǒng)和技術(shù)排名算法、東方靈盾的世界傳統(tǒng)藥物專利數(shù)據(jù)庫(kù)、以及WIPS Global的詞云檢索等專利分析平臺(tái)技術(shù),淺釋有效的專利分析技術(shù)在企業(yè)發(fā)展中的應(yīng)用。
關(guān)鍵詞:專利分析;語(yǔ)義檢索;數(shù)據(jù)挖掘;專利分析可視化
截至2020年底,我國(guó)發(fā)明專利有效量為221.3萬(wàn)。國(guó)內(nèi)擁有有效發(fā)明專利的企業(yè)共24.6萬(wàn)家,較上年增加3.3萬(wàn)家。其中,高新技術(shù)企業(yè)10.5萬(wàn)家,擁有有效發(fā)明專利92.2萬(wàn)件,占國(guó)內(nèi)企業(yè)有效發(fā)明專利擁有量的近六成。專利信息作為世界上最大的技術(shù)信息源,企業(yè)承載著其中逾二分之一的專利信息量。可見(jiàn),企業(yè)對(duì)專利信息能否做到有效分析和利用,是否能夠滿足企業(yè)技術(shù)創(chuàng)新過(guò)程中的情報(bào)需求,已是企業(yè)生存和發(fā)展至關(guān)重要的一步。
專利分析通常是指對(duì)專利文獻(xiàn)進(jìn)行數(shù)據(jù)挖掘、加工、統(tǒng)計(jì)處理,進(jìn)而獲取符合分析目標(biāo)要求的有價(jià)值信息,主要應(yīng)用包括專利導(dǎo)航、專利預(yù)警、專利布局、專利評(píng)估、技術(shù)規(guī)避、侵權(quán)分析等。對(duì)于企業(yè)來(lái)說(shuō),專利分析的價(jià)值充分體現(xiàn)在產(chǎn)品研發(fā)、企業(yè)戰(zhàn)略、權(quán)利保護(hù)等等方面[1]。隨著專利分析手段的日趨成熟和普及,專利分析已經(jīng)越來(lái)越被認(rèn)可與重視。
專利分析一般包括數(shù)據(jù)采集處理、專利分析、報(bào)告形成及展示。由于專利分析的源數(shù)據(jù)所包含的信息量巨大,第一步需要借助分析工具,以人工的方式,分別在數(shù)據(jù)采集階段,完成技術(shù)分解、檢索和數(shù)據(jù)加工;在檢索過(guò)程中需要憑借分析人員的經(jīng)驗(yàn)與檢索能力,制定相應(yīng)的檢索策略、篩選檢索要素、去除噪聲等等。以上諸多步驟和人為的主觀因素,無(wú)疑會(huì)導(dǎo)致專利分析的高成本和高門(mén)檻。由于專利分析的必要性和局限性,在未來(lái),基于大數(shù)據(jù)技術(shù)、數(shù)據(jù)挖掘以及分析結(jié)果的拓展應(yīng)用將是發(fā)展趨勢(shì)[2]。
1智能語(yǔ)義檢索
專利文獻(xiàn)均采用自然語(yǔ)言撰寫(xiě)而成,而現(xiàn)今的計(jì)算機(jī)所采用的計(jì)算機(jī)語(yǔ)言,決定了傳統(tǒng)的檢索系統(tǒng)只能自動(dòng)識(shí)別字符層級(jí)的信息,面對(duì)專利文獻(xiàn)包含有大量同義詞、近義詞,特別是較為復(fù)雜的上下文關(guān)系時(shí),計(jì)算機(jī)無(wú)法有效理解專利文獻(xiàn)中的文字含義,在進(jìn)行專利文獻(xiàn)檢索匹配時(shí),獲取的結(jié)果中通常摻雜有大量噪聲,因此無(wú)法擺脫人工而實(shí)現(xiàn)計(jì)算機(jī)獨(dú)立工作,僅僅是提供有限的輔助。而通過(guò)大數(shù)據(jù)的方法,能夠?yàn)榫哂姓Z(yǔ)義分析功能的計(jì)算機(jī)提供巨量的核心詞匯、關(guān)鍵詞庫(kù)和語(yǔ)義模型,也能向語(yǔ)義分析模型提供更加全面準(zhǔn)確的巨大數(shù)量級(jí)的訓(xùn)練樣本,使計(jì)算機(jī)能夠從語(yǔ)義層級(jí)理解輸入的文本信息,從而,獲得最適合最準(zhǔn)確的檢索結(jié)果。借助基于大數(shù)據(jù)的圖形語(yǔ)義分析方法,還可能實(shí)現(xiàn)智能高效的圖形化檢索。
以索意互動(dòng)信息技術(shù)有限公司的專利智能檢索分析平臺(tái)Patentics為例,Patentics具備的語(yǔ)義檢索功能,是通過(guò)對(duì)每篇專利進(jìn)行上萬(wàn)維度的描述,基于對(duì)語(yǔ)義模型進(jìn)行千萬(wàn)數(shù)據(jù)量的訓(xùn)練,從而完成自動(dòng)理解專利文本,并結(jié)合自動(dòng)的詞匯擴(kuò)展和IPC分類核準(zhǔn),同時(shí)綜合新穎性、侵權(quán)等信息,來(lái)實(shí)現(xiàn)智能語(yǔ)義檢索功能的。利用語(yǔ)義檢索,可以及時(shí)發(fā)現(xiàn)競(jìng)爭(zhēng)對(duì)手和技術(shù)人才,也可以應(yīng)用于檢索、分類、分析、標(biāo)引等各個(gè)環(huán)節(jié),無(wú)疑可以提高工作效率。在Patentics平臺(tái)中采用專利號(hào)進(jìn)行檢索,可以獲得60%的X文件,X文件出現(xiàn)在結(jié)果中第一位的概率是9.76%,出現(xiàn)在第二十位的概率是29.55%,出現(xiàn)在前一百位的概率是45.34%[3]。
除此之外,Patentics將語(yǔ)義檢索與大數(shù)據(jù)分析功能,以及互動(dòng)圖表和多視角的可視化顯示相結(jié)合,可以滿足不同檢索需求,從而更大程度的減少對(duì)專利分析人員的依賴,提高檢索準(zhǔn)確度,提供更多角度的分析結(jié)果,降低分析成本。
2數(shù)據(jù)挖掘、預(yù)測(cè)性分析
大數(shù)據(jù)分析的核心在于數(shù)據(jù)挖掘算法,借助大數(shù)據(jù)分析工具,可以通過(guò)預(yù)測(cè)性分析,從大數(shù)據(jù)中得出規(guī)律性信息,進(jìn)而發(fā)現(xiàn)有價(jià)值的內(nèi)容,比如包括對(duì)手公司、機(jī)構(gòu)、專利權(quán)人及其對(duì)手公司公開(kāi)發(fā)表的著作、發(fā)起的標(biāo)準(zhǔn)、商業(yè)往來(lái)、金融運(yùn)作等信息,將專利信息與其他相關(guān)信息相關(guān)聯(lián),多維、全面的預(yù)測(cè)目標(biāo)對(duì)象的專利、技術(shù)及其行業(yè)發(fā)展方向,這樣能夠最大程度避免由于專利公開(kāi)的滯后對(duì)專利分析結(jié)果造成的影響,從而將專利分析結(jié)果與產(chǎn)業(yè)結(jié)合的更加緊密。
以本應(yīng)科技(Lontologie)為例,通過(guò)其擁有的技術(shù)監(jiān)測(cè)系統(tǒng)可以實(shí)時(shí)監(jiān)測(cè)全球重點(diǎn)產(chǎn)業(yè)和關(guān)鍵領(lǐng)域的最新動(dòng)態(tài),以使企業(yè)做出快速反應(yīng),搶占先機(jī)。該技術(shù)放棄了通過(guò)行業(yè)、專利、圖書(shū)文獻(xiàn)的分類、檢索、統(tǒng)計(jì)等傳統(tǒng)方法,而是利用科學(xué)技術(shù)知識(shí)圖譜,對(duì)科技成果和信息進(jìn)行多維分類,并重新整合科技成果和科技要素,同時(shí),預(yù)判未來(lái)技術(shù)發(fā)展方向、機(jī)構(gòu)研究動(dòng)向、技術(shù)爆發(fā)點(diǎn)、關(guān)鍵變革技術(shù)等??梢宰龅綄?shí)時(shí)跟蹤世界主要國(guó)家和地區(qū)的科研項(xiàng)目資金流向、研發(fā)合同及預(yù)算、創(chuàng)新主體、戰(zhàn)略高技術(shù)動(dòng)向等,從而有可能及時(shí)提供全球顛覆性前沿技術(shù)等重要科技情報(bào),以更好的支撐企業(yè)的戰(zhàn)略布局。
該公司的另一技術(shù)是超高維時(shí)空下復(fù)雜技術(shù)網(wǎng)絡(luò)排名算法,該算法通過(guò)構(gòu)建自然科學(xué)和工程領(lǐng)域的技術(shù)實(shí)體之間的互動(dòng)、派生和演進(jìn)關(guān)系的時(shí)空網(wǎng)絡(luò),分析影響技術(shù)演進(jìn)和創(chuàng)新的核心技術(shù),按照影響程度進(jìn)行排名確定專利價(jià)值。利用該技術(shù)可以進(jìn)行企業(yè)創(chuàng)新能力評(píng)估,同時(shí)也可以賦予專利科學(xué)技術(shù)屬性,為專利重新畫(huà)像,計(jì)算專利在所屬技術(shù)集群下的全球排名、技術(shù)承載年限、研發(fā)人員創(chuàng)新能力等,評(píng)價(jià)單件專利技術(shù)價(jià)值,為專利轉(zhuǎn)讓、許可、布局提供決策依據(jù)。這一技術(shù)與以往采用專利數(shù)量、引用、同族、法律狀態(tài)等評(píng)價(jià)企業(yè),以及利用IPC、CPC作為技術(shù)分類,由專家打分,或者以經(jīng)濟(jì)指標(biāo)或?qū)@珜?xiě)質(zhì)量來(lái)評(píng)價(jià)專利價(jià)值的傳統(tǒng)方法要更加及時(shí)、高效、客觀。
再以東方靈盾(LindenPat)的世界傳統(tǒng)藥物專利數(shù)據(jù)庫(kù)(WTMPD)為例,通過(guò)收錄世界各國(guó)及國(guó)際組織70余萬(wàn)條專利信息,21萬(wàn)多條方劑信息,1萬(wàn)9千多條天然藥物信息,5萬(wàn)多條天然藥物化合物信息,建立了天然藥物專利數(shù)據(jù)庫(kù)。數(shù)據(jù)庫(kù)中包含天然藥物現(xiàn)代藥理、成分信息,天然化合物來(lái)源信息。利用該數(shù)據(jù)庫(kù)可對(duì)天然藥物活性成分進(jìn)行化學(xué)結(jié)構(gòu)檢索和藥理分析,通過(guò)數(shù)據(jù)挖掘技術(shù),開(kāi)創(chuàng)高效率低成本的藥物設(shè)計(jì)新途徑,亦能促進(jìn)中西醫(yī)溝通。7FBBD517-A0D7-4B83-B2EC-A3472FF1EA5E
基于上述技術(shù)的兩個(gè)藥物研發(fā)的雙路徑:路徑一,從藥理信息出發(fā),利用結(jié)構(gòu)生物學(xué)推導(dǎo)出有效藥效團(tuán),結(jié)果導(dǎo)入中藥化學(xué)結(jié)構(gòu)數(shù)據(jù)庫(kù),即可以由有效藥效團(tuán)推導(dǎo)出具有中藥活性成分化學(xué)結(jié)構(gòu),進(jìn)而從活性化學(xué)結(jié)構(gòu)導(dǎo)出藥效團(tuán)組,由該藥效團(tuán)組獲得與其相關(guān)的中藥材,再進(jìn)一步檢索包含上述相關(guān)中藥材的中藥處方,最終可以導(dǎo)出新中藥處方或者新藥先導(dǎo)物。路徑二,可以從中藥處方的方劑信息出發(fā),首先導(dǎo)出藥效組,再?gòu)乃幮ЫM獲得先導(dǎo)化合物,通過(guò)多靶點(diǎn)虛擬篩選與生物篩選,獲得天然產(chǎn)物化學(xué)修飾,形成制劑,進(jìn)一步可以開(kāi)展基于中藥藥效組學(xué)的新藥研發(fā)。
3多元可視化展示
大數(shù)據(jù)的可視化不是單純的數(shù)據(jù)羅列和展示,而是以特定的概覽方式從數(shù)據(jù)中抽取信息,包括數(shù)據(jù)信息的各種變量和屬性的集中展現(xiàn),數(shù)據(jù)信息的不同維度和角度的整合與展示。結(jié)果可視化能夠借助圖表簡(jiǎn)單直觀的展示復(fù)雜的專利分析結(jié)果,并針對(duì)不同的受眾采取不同的展示方式,面對(duì)客戶的不同需求給出多維度的不同視角,同時(shí)可以有效降低專利分析的使用門(mén)檻、擴(kuò)大用戶群體。
以WIPS Global(唯溥思全球數(shù)據(jù)庫(kù))全球?qū)@麢z索和分析一體化系統(tǒng)的詞云檢索為例,詞云檢索可以針對(duì)某一企業(yè)或者某一領(lǐng)域希望快速了解的相關(guān)企業(yè)重點(diǎn)技術(shù)或重點(diǎn)發(fā)展方向,通過(guò)系統(tǒng)自動(dòng)生成選定專利的重點(diǎn)關(guān)鍵字以不同大小比例進(jìn)行顯示,并形成云朵狀詞條,從而更快速、更直觀的了解相關(guān)技術(shù)或企業(yè)的重點(diǎn)發(fā)展方向??梢钥吹矫總€(gè)申請(qǐng)人的關(guān)鍵詞和常用關(guān)鍵詞。并在關(guān)鍵詞地圖中直接操作,實(shí)現(xiàn)關(guān)鍵詞的過(guò)濾、關(guān)鍵詞的組合和對(duì)比分析。其中,關(guān)鍵詞對(duì)比功能可以通過(guò)關(guān)鍵詞及其顏色,確定競(jìng)爭(zhēng)對(duì)手的密集研究領(lǐng)域和共同研究領(lǐng)域。
再以Patentics的分析結(jié)果可視化和思維導(dǎo)圖為例,該平臺(tái)具有56種可視化圖表,每一類分析都具有適合展示的可視化圖表??梢宰杂赊D(zhuǎn)換統(tǒng)計(jì)內(nèi)容和坐標(biāo)軸。點(diǎn)擊圖表中感興趣的部分即可進(jìn)一步獲取更深信息。專利分析特色圖表還加入技術(shù)生命周期圖、質(zhì)量圖、樹(shù)形圖、專利名片等專利分析可視化特色圖表。且其可視化圖表的導(dǎo)出格式也較為多樣,支持二維碼、PPT、WORD、高清圖片等多種形式,從而適合多種展示場(chǎng)景,其中,二維碼分享功能,可以隨時(shí)隨地多人瀏覽和展示動(dòng)態(tài)圖表。各類分析還支持一鍵生成可視化思維導(dǎo)圖,形成多種邏輯脈絡(luò)圖。
通過(guò)將分析結(jié)果可視化,利用多角度視圖的不同側(cè)重點(diǎn),充分演繹專利分析結(jié)果,將片面數(shù)據(jù)立體化,從而充分?jǐn)U展分析結(jié)果的內(nèi)容承載力,可以最大限度發(fā)揮和利用專利分析成果。
4結(jié)語(yǔ)
縱觀上述專利分析平臺(tái)的大數(shù)據(jù)專利分析技術(shù)可以發(fā)現(xiàn),精準(zhǔn)全面的檢索、具有深度的信息挖掘、流暢的操作體驗(yàn)、立體多維度的展示以及全生命周期的服務(wù)鏈條,是越來(lái)越多數(shù)據(jù)提供商和企業(yè)用戶所青睞的技術(shù)高地。眾家專利檢索分析企業(yè)都在數(shù)據(jù)的廣度與數(shù)據(jù)挖掘的深度上做功夫。數(shù)據(jù)的廣度已不僅僅是數(shù)據(jù)源是否權(quán)威和更新周期是否夠快,還包括通過(guò)對(duì)專利信息進(jìn)行數(shù)據(jù)加工,使傳統(tǒng)信息具備更高的可檢索化,并利用日臻完善的語(yǔ)義檢索功能,使得在原有數(shù)據(jù)的基礎(chǔ)上,擴(kuò)展數(shù)據(jù)的寬度,提高檢索的命中率和準(zhǔn)確率。在數(shù)據(jù)挖掘上,也不僅僅局限于資深檢索員的檢索報(bào)告。而是檢索結(jié)果的深入分析與挖掘,數(shù)據(jù)之間的交互與鏈接,充分利用數(shù)據(jù)信息,實(shí)現(xiàn)價(jià)值評(píng)估、專利導(dǎo)航、專利布局、產(chǎn)品研發(fā)、產(chǎn)業(yè)雷達(dá)、預(yù)警與侵權(quán)等全方位、全生命周期的護(hù)持。使得專利分析產(chǎn)品愈加具備更低的成本、最快的途徑、更全面準(zhǔn)確的結(jié)果,從而具有更深遠(yuǎn)的市場(chǎng)吸引力。
參考文獻(xiàn)
[1]謝秋梅.國(guó)內(nèi)外幾種常用專利分析工具比較[J].中國(guó)科技信息,2018(15):18-20.
[2]鄧鵬.大數(shù)據(jù)時(shí)代專利分析服務(wù)的機(jī)遇與挑戰(zhàn)[J].中國(guó)發(fā)明與專利,2014(02):29-31.
[3]張立麗,胡徐兵,劉鳳.云存儲(chǔ)平臺(tái)的數(shù)據(jù)安全保護(hù)技術(shù)專利分析[J].科技展望,2016,26(23):268-270.
作者簡(jiǎn)介:史潔薔(1981-),女,漢族,北京人,碩士,從事專利檢索方向研究。7FBBD517-A0D7-4B83-B2EC-A3472FF1EA5E