999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

南京市新一代信息技術(shù)領(lǐng)域?qū)@麢z索關(guān)鍵詞庫構(gòu)建

2023-03-31 06:17:16劉連政
科技與創(chuàng)新 2023年6期
關(guān)鍵詞:信息技術(shù)

劉連政,唐 堯,笪 偉

(南京市知識(shí)產(chǎn)權(quán)保護(hù)中心,江蘇 南京 210000)

2016 年國(guó)家知識(shí)產(chǎn)權(quán)局陸續(xù)開始在各地建設(shè)知識(shí)產(chǎn)權(quán)保護(hù)中心過程中提出專利申請(qǐng)預(yù)審業(yè)務(wù),其作為知識(shí)產(chǎn)權(quán)保護(hù)中心核心業(yè)務(wù)職能,主要負(fù)責(zé)對(duì)特定區(qū)域創(chuàng)新主體符合特定領(lǐng)域的專利申請(qǐng)進(jìn)行預(yù)先審查,對(duì)審查合格的案件準(zhǔn)予進(jìn)入快速審查通道。預(yù)審業(yè)務(wù)的開展一方面可以提高備案主體專利申請(qǐng)質(zhì)量,另一方面也可大幅縮短專利申請(qǐng)授權(quán)周期。知識(shí)產(chǎn)權(quán)保護(hù)中心預(yù)審員主要針對(duì)備案主體提交的預(yù)審案件的新穎性和明顯創(chuàng)造性進(jìn)行檢索,因此在整個(gè)專利申請(qǐng)預(yù)審機(jī)制中,專利申請(qǐng)文件的檢索準(zhǔn)確率和效率對(duì)整個(gè)預(yù)審業(yè)務(wù)的開展顯得尤為重要。而在檢索過程中,預(yù)審員輸入的檢索關(guān)鍵詞對(duì)最終檢索結(jié)果影響甚大。

目前預(yù)審員對(duì)于在預(yù)審案件審查中的關(guān)鍵詞輸入主要依靠預(yù)審員自我提取,預(yù)審員在閱讀專利申請(qǐng)文件后提取出能體現(xiàn)專利申請(qǐng)技術(shù)方案發(fā)明點(diǎn)的關(guān)鍵詞,然后通過預(yù)審員的審查經(jīng)驗(yàn)進(jìn)行關(guān)鍵詞擴(kuò)展,這種方式過多依賴預(yù)審員的個(gè)人經(jīng)驗(yàn),如果能輔助使用相關(guān)關(guān)鍵詞詞庫自動(dòng)擴(kuò)展技術(shù),將在一定程度上提升預(yù)審員的審查效率,而目前市場(chǎng)上并沒有統(tǒng)一的針對(duì)新一代信息技術(shù)領(lǐng)域的專利檢索詞庫幫助預(yù)審員對(duì)關(guān)鍵詞進(jìn)行有效的拓展。即使有可供部分預(yù)審員參照使用的也是不同的各類技術(shù)詞典和互聯(lián)網(wǎng)搜索碎片,也需要預(yù)審員花費(fèi)時(shí)間精力去尋找類似關(guān)鍵詞拓展資料,且該類資料并沒有突出特定行政區(qū)域內(nèi)的產(chǎn)業(yè)技術(shù)發(fā)展共性。因此有必要通過構(gòu)建統(tǒng)一、全面、動(dòng)態(tài)的針對(duì)南京市新一代信息技術(shù)這一特定領(lǐng)域的關(guān)鍵詞庫,使得預(yù)審員在檢索關(guān)鍵詞擴(kuò)展的時(shí)候具有更有效、更便捷的參考,從而解決專利申請(qǐng)預(yù)審員在檢索關(guān)鍵詞擴(kuò)展中的詞條局限性和檢索效率低下的問題。

1 相關(guān)理論

關(guān)鍵詞提取技術(shù)隨著自然語言處理技術(shù)發(fā)展而來,屬于文本挖掘的一種,廣泛應(yīng)用于人工智能和語義識(shí)別等諸多領(lǐng)域。在現(xiàn)有應(yīng)用中,關(guān)鍵詞提取算法一般可以分為無監(jiān)督和有監(jiān)督2種關(guān)鍵詞提取方法。

無監(jiān)督關(guān)鍵詞提取方法是指沒有監(jiān)督學(xué)習(xí)的過程,不需要進(jìn)行人工語料標(biāo)注,只需要利用某種規(guī)則對(duì)文本中比較重要的詞進(jìn)行提取即可形成主要關(guān)鍵詞。根據(jù)提取過程中使用的規(guī)則,大致可以分為基于統(tǒng)計(jì)特征的關(guān)鍵詞提取、基于詞圖模型的關(guān)鍵詞提取和基于主題模型的關(guān)鍵詞提取方法。基于統(tǒng)計(jì)特征的關(guān)鍵詞提取算法的思想是利用文檔中詞語的統(tǒng)計(jì)信息抽取文檔的關(guān)鍵詞;基于詞圖模型的關(guān)鍵詞提取首先要構(gòu)建文檔的語言網(wǎng)絡(luò)圖,然后對(duì)語言進(jìn)行網(wǎng)絡(luò)圖分析,在這個(gè)圖上尋找具有重要作用的詞或者短語,這些短語就是文檔的關(guān)鍵詞;基于主題關(guān)鍵詞提取算法主要利用的是主題模型中關(guān)于主題分布的性質(zhì)進(jìn)行關(guān)鍵詞提取[1],這一類關(guān)鍵詞提取方法由于不需要進(jìn)行大量的人工標(biāo)注語料集合訓(xùn)練,使用過程更加便捷,多用于科研和實(shí)驗(yàn)環(huán)境中。

有監(jiān)督關(guān)鍵詞提取方法是運(yùn)用二分類原理,簡(jiǎn)化關(guān)鍵詞提取過程,訓(xùn)練關(guān)鍵詞抽取分類器。對(duì)于新的待選文檔,首先提取出所有的候選詞,并利用訓(xùn)練好的關(guān)鍵詞提取分類器,然后對(duì)每個(gè)候選詞進(jìn)行分類,最終生成具有關(guān)鍵詞標(biāo)簽的候選詞作為關(guān)鍵詞[2]。此類關(guān)鍵詞提取方法由于需要不斷進(jìn)行訓(xùn)練器訓(xùn)練,調(diào)節(jié)多種影響關(guān)鍵詞提取的參數(shù)信息,因此提取效果要高于無監(jiān)督關(guān)鍵詞提取方法,但是由于訓(xùn)練過程需要花費(fèi)高昂的人工成本,因此現(xiàn)有的文本關(guān)鍵詞提取方法主要還是使用無監(jiān)督關(guān)鍵詞提取方法。

《同義詞詞林》是梅家駒等人于1983年編纂而成,時(shí)間久遠(yuǎn),收錄內(nèi)容相對(duì)較少,對(duì)于目前的使用不太適合,哈爾濱工業(yè)大學(xué)實(shí)驗(yàn)室基于該詞林進(jìn)行擴(kuò)展,構(gòu)建了《同義詞詞林?jǐn)U展版》,它按照樹狀的層次結(jié)構(gòu)把所有收錄的詞條分成大、中、小3類,12 個(gè)大類分為人、物、時(shí)間和空間、抽象事物、特征、動(dòng)作、心理活動(dòng)、活動(dòng)、現(xiàn)象與狀態(tài)、關(guān)聯(lián)、助語、敬語,共18 490 個(gè)詞群,每個(gè)詞群有1個(gè)8 位的編碼,第8 位編碼有3 種,分別是“=”“#”“@”,其中“=”表示本詞群的所有詞條在意義上相等或同義[3]。擴(kuò)展后的詞林相比于原先的詞林,詞條數(shù)從53 895 個(gè)擴(kuò)展到77 343 個(gè),編碼層數(shù)從三層提高到了五層,前三層與1983 版的詞林相同,而后兩層中的第四層用大寫英文字母表示,第五層使用二位十進(jìn)制整數(shù)表示。具體編碼規(guī)則如表1 所示。

表1 編碼說明

2 構(gòu)建過程

2.1 IPC 聚類與分組

構(gòu)建南京市新一代信息技術(shù)關(guān)鍵詞庫的首要步驟是對(duì)符合該領(lǐng)域的專利申請(qǐng)文件中最常見的關(guān)鍵詞進(jìn)行聚類分析,在聚類前需要對(duì)南京市新一代信息技術(shù)領(lǐng)域?qū)@暾?qǐng)文件進(jìn)行分類號(hào)篩選,以便更精準(zhǔn)篩選屬于新一代信息技術(shù)領(lǐng)域的專利申請(qǐng)文件。

對(duì)分類號(hào)進(jìn)行篩選的過程主要包括對(duì)照國(guó)民經(jīng)濟(jì)行業(yè)代碼和專利IPC 分類號(hào),選取與新一代信息技術(shù)領(lǐng)域最相關(guān)且申請(qǐng)量排名靠前的60 個(gè)新一代信息技術(shù)領(lǐng)域分類號(hào)作為南京市新一代信息技術(shù)領(lǐng)域關(guān)鍵詞庫基礎(chǔ)分類號(hào),并對(duì)該60 個(gè)分類號(hào)細(xì)分為10 個(gè)具體領(lǐng)域組,分別為半導(dǎo)體,測(cè)量,電機(jī)、電氣裝置、電能,電信,光學(xué),基礎(chǔ)通信程序,計(jì)算機(jī)技術(shù),控制,數(shù)字通信和音像技術(shù)。分組后的部分分類號(hào)如表2 所示。最后通過使用incopat 商業(yè)專利檢索網(wǎng)站,并根據(jù)該分組后的60 個(gè)IPC 分類號(hào)篩選出中國(guó)專利庫中近五年該部分分類號(hào)內(nèi)的南京市的全部專利申請(qǐng)文本。

表2 技術(shù)領(lǐng)域IPC 分類

2.2 關(guān)鍵詞提取

關(guān)鍵詞提取的步驟即為對(duì)在IPC 聚類與分組過程中篩選出的專利申請(qǐng)文本進(jìn)行關(guān)鍵詞提取,提取出的專利關(guān)鍵詞應(yīng)該是可以體現(xiàn)專利發(fā)明主要內(nèi)容和主要發(fā)明點(diǎn)的詞語。本文選取無監(jiān)督關(guān)鍵詞提取方法中的RAKE(Rapid Automatic Keyword Extraction)工具用來提取主要關(guān)鍵詞,該工具的設(shè)計(jì)思路是首先使用標(biāo)點(diǎn)符號(hào)將一篇文檔分成若干分句,然后對(duì)于每一個(gè)分句,使用停用詞作為分隔符,將分句分為若干作為最終關(guān)鍵詞的候選詞短語,最后利用詞頻等統(tǒng)計(jì)信息降序輸出提取出的關(guān)鍵詞。該關(guān)鍵詞提取方法的優(yōu)勢(shì)在于算法簡(jiǎn)單高效而且能取得不錯(cuò)的效果,并且適用于提取一些較長(zhǎng)的專業(yè)術(shù)語。

對(duì)每一個(gè)分類號(hào)下的專利申請(qǐng)文本提取關(guān)鍵詞后,通過自動(dòng)化軟件自動(dòng)摘選出在這些專利申請(qǐng)文本中出現(xiàn)頻次排名靠前的主要關(guān)鍵詞,并進(jìn)行人工分類和組合,最終形成約15萬條有效的關(guān)鍵詞條原始數(shù)據(jù),作為南京市新一代信息技術(shù)領(lǐng)域關(guān)鍵詞庫的基礎(chǔ)標(biāo)引詞。

2.3 關(guān)鍵詞擴(kuò)展

在關(guān)鍵詞提取步驟中對(duì)所有符合領(lǐng)域的專利申請(qǐng)文本進(jìn)行關(guān)鍵詞提取和篩選后,需要對(duì)基礎(chǔ)標(biāo)引詞進(jìn)行詞義擴(kuò)展,本文主要將關(guān)鍵詞擴(kuò)展詞段分為技術(shù)領(lǐng)域、IPC 分類、英文詞、上位詞、下位詞、同義詞和相關(guān)詞等部分。其中技術(shù)領(lǐng)域、IPC 分類和英文詞主要通過人工標(biāo)注的方式拓展,而對(duì)于其中的上位詞、下位詞、同義詞和相關(guān)詞主要通過同義詞詞林進(jìn)行擴(kuò)展。其同義擴(kuò)展的主要步驟包括以前述關(guān)鍵詞提取過程后形成的基礎(chǔ)標(biāo)引詞的集合作為算法輸入,在同義詞詞林中查找與基礎(chǔ)標(biāo)引詞對(duì)應(yīng)的詞群,將該詞群下的詞語作為該關(guān)鍵詞的同義詞和相關(guān)詞進(jìn)行輸出,重復(fù)上述步驟可完成關(guān)鍵詞同義詞和相關(guān)詞擴(kuò)展。

通過上述關(guān)鍵詞提取和關(guān)鍵詞擴(kuò)展過程后,最終形成完整的南京市新一代信息技術(shù)領(lǐng)域?qū)@麢z索關(guān)鍵詞庫。最終構(gòu)建的關(guān)鍵詞庫中某條數(shù)據(jù)的示例如表3所示。

表3 關(guān)鍵詞擴(kuò)展示例

為解決構(gòu)建的關(guān)鍵詞庫更新的問題,本文還建立了詞庫共享機(jī)制,在關(guān)鍵詞庫使用過程中預(yù)審員可以動(dòng)態(tài)地對(duì)詞庫進(jìn)行修改和補(bǔ)充,不斷循環(huán)改進(jìn)關(guān)鍵詞庫的內(nèi)容。在具體的預(yù)審工作中,預(yù)審員可以通過專用平臺(tái)系統(tǒng)錄入檢索詞后,由專人進(jìn)行分類后補(bǔ)充專利檢索關(guān)鍵詞庫。

3 結(jié)束語

專利申請(qǐng)預(yù)審機(jī)制的關(guān)鍵在于通過檢索在現(xiàn)有技術(shù)中找尋相關(guān)對(duì)比文件,而輸入的檢索關(guān)鍵詞的準(zhǔn)確度和全面性決定檢索結(jié)果的查準(zhǔn)率和查全率。因此本文針對(duì)專利申請(qǐng)預(yù)審員在專利檢索過程中關(guān)鍵詞擴(kuò)展不全面的問題,利用專利主題分析、關(guān)鍵詞聚類和同義詞擴(kuò)展技術(shù)構(gòu)建針對(duì)南京市新一代信息技術(shù)領(lǐng)域的專利檢索關(guān)鍵詞庫。該詞庫的構(gòu)建可以使專利申請(qǐng)預(yù)審員在檢索關(guān)鍵詞的拓展中得到有效的參考,避免出現(xiàn)專利申請(qǐng)人通過規(guī)避檢索的方式轉(zhuǎn)換技術(shù)表述導(dǎo)致審查員檢索結(jié)果查準(zhǔn)率低的情況,該詞庫對(duì)于提高專利申請(qǐng)預(yù)審效率也具有重要的意義。下一步,筆者將把該特定領(lǐng)域關(guān)鍵詞庫融入專利智能檢索開發(fā)過程中,完成關(guān)鍵詞自動(dòng)摘取、自動(dòng)擴(kuò)展、自動(dòng)檢索和自動(dòng)排序的智能化檢索系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)。

猜你喜歡
信息技術(shù)
新一代信息技術(shù)征稿啟示
新一代信息技術(shù)征稿啟示
新一代信息技術(shù)征稿啟示
新一代信息技術(shù)征稿啟示
新一代信息技術(shù)征稿啟示
新一代信息技術(shù)征稿啟示
新一代信息技術(shù)征稿啟示
新一代信息技術(shù)征稿啟示
新一代信息技術(shù)征稿啟示
新一代信息技術(shù)征稿啟示
主站蜘蛛池模板: 欧美区一区二区三| 国产免费人成视频网| 国产网站黄| 国产亚洲一区二区三区在线| 久久99这里精品8国产| 亚洲成人在线网| 久久鸭综合久久国产| 亚亚洲乱码一二三四区| 久久99精品国产麻豆宅宅| 狠狠色综合网| 日本少妇又色又爽又高潮| 亚洲国产精品无码AV| 色欲色欲久久综合网| 国产黄色爱视频| 鲁鲁鲁爽爽爽在线视频观看| 午夜福利在线观看入口| 蜜芽一区二区国产精品| 伊人狠狠丁香婷婷综合色| 蜜桃视频一区二区| 大陆精大陆国产国语精品1024| 国产经典在线观看一区| 极品私人尤物在线精品首页| 99视频免费观看| 国产91视频免费观看| 孕妇高潮太爽了在线观看免费| 精品福利视频导航| 99热最新网址| 91亚瑟视频| 日韩欧美国产另类| 欧美精品一二三区| 国产精品私拍99pans大尺度| 全部无卡免费的毛片在线看| 婷婷午夜影院| 国产激爽大片在线播放| 午夜人性色福利无码视频在线观看| 伊人久久婷婷五月综合97色| 啪啪啪亚洲无码| 久久精品午夜视频| 91在线国内在线播放老师 | 99久视频| 热re99久久精品国99热| a级毛片在线免费| 波多野结衣第一页| 久久国产精品波多野结衣| 国产一级在线播放| 无码免费的亚洲视频| 欧美国产日韩在线观看| 欧美日本在线播放| 国产主播一区二区三区| www精品久久| 色欲色欲久久综合网| 18禁色诱爆乳网站| 欧美高清国产| 日本草草视频在线观看| 日韩在线2020专区| 人妻一区二区三区无码精品一区 | 91精品亚洲| 在线永久免费观看的毛片| 欧美一级黄色影院| 亚洲免费毛片| 国产麻豆aⅴ精品无码| 国产农村1级毛片| 精品国产成人高清在线| 波多野结衣一区二区三区四区 | 成人午夜网址| 福利片91| 在线观看精品自拍视频| 欧美性爱精品一区二区三区 | av手机版在线播放| 国产成年无码AⅤ片在线| 久久毛片基地| 国产精品短篇二区| 国产精品一线天| 久久精品丝袜| 亚洲天堂久久新| 黄色网站在线观看无码| 成人韩免费网站| 精品国产免费人成在线观看| 黄色网址手机国内免费在线观看| 久久精品丝袜| 一本久道热中字伊人| 亚洲国产高清精品线久久|