999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于TRIZ發明原理的專利自動分類方案設計與實現

2019-11-03 14:07:16王保越及歆榮
電腦知識與技術 2019年23期

王保越 及歆榮

摘要:為深入挖掘和充分利用已有專利文獻中的創新思路和關鍵技術,基于TRIZ理論中的發明原理,對中文專利文獻自動分類實現方案進行了設計和實現。該方案中基于TRIZ發明原理的經典描述和已標注發明原理的專利文獻構建TRIZ發明原理字典,基于構建的發明原理字典對專利文本進行分詞和特征選擇,利用機器學習方法對專利特征向量樣本進行分類模型訓練和預測。為加快方案驗證,TRIZ發明原理字典的構建、基于構建的發明原理字典的專利文本分詞、特征選擇以及特征向量化都使用軟件實現,利用支持向量機實現分類模型的訓練和預測。實驗結果表明,該方案可以達到較高的分類準確性。因此,該方案的實施可為基于TRIZ發明原理的專利自動分類提供一條可借鑒的思路。

關鍵詞:TRIZ理論;TRIZ發明原理;中文專利文獻;文本分類

中圖分類號:TP391.1? ? ? ?文獻標識碼:A

文章編號:1009-3044(2019)23-0215-03

開放科學(資源服務)標識碼(OSID):

Design of Patent Automatic Classification Scheme Based on TRIZ Invention Principle

WANG Bao-yue, JI Xin-rong

(Hebei University of Engineering, Handan 056038, China)

Abstract: In order to dig deeply and make full use of the innovative ideas and key technologies in existing patent documents, based on the invention principle of TRIZ theory, the implementation scheme of automatic classification of Chinese patent documents is designed. In this scheme, a TRIZ Dictionary of Invention Principles is constructed,which is based on the classical description of TRIZ Invention Principles and the patent documents labeled with TRIZ Invention Principles. Based on the dictionary of Invention Principles, the patent text is segmented and selected. The classification model of patent eigenvector samples is trained and predicted by machine learning methods. In order to speed up the scheme verification, the construction of TRIZ Dictionary of Invention Principles, the word segmentation of patent text based on TRIZ Dictionary of Invention Principles, feature selection and feature vectorization are all realized by software, and the training and prediction of classification model are realized by using support vector machine. The experimental results show that the scheme can achieve high classification accuracy. Therefore, the implementation of this scheme can provide a reference for automatic patent classification based on TRIZ invention principle.

Key words: TRIZ theory; TRIZ invention principle; Chinese patent documents; text classification

1 引言

專利文獻是世界上最大最新的技術信息源,是創新的源泉[1]。當前對于專利分類檢索大多采用國際專利分類法(International Patent Classification, IPC),該分類方法采用功能與應用相結合,以功能為主的分類原則,將專利按技術主題進行多層次分類[2]。因此,人們按照IPC分類方法對專利信息進行檢索,只能檢索到專利所屬的技術領域、應用領域以及其實現的功能,并不能從專利中挖掘出潛在的更有價值的內容,如發明創造和解決技術難題的創新思路等[3]。對于想要進行發明創造的研發人員,IPC分類方法不能滿足他們從專利中獲取創新資源和創新思路的需求。因此,需要一套能夠指導人們進行發明創造和解決復雜工程問題的方法學理論[4]。TRIZ理論是由蘇聯發明家、教育家根里奇·阿奇舒勒(G.S.Altshuller)在1946年開始創立,旨在研究人類進行發明創造、解決技術難題過程中所遵循的科學原理和法則[4]。該理論是阿奇舒勒及其研究團隊通過梳理、分析數以百萬計的已有技術創新成果和相關自然科學知識,歸納總結出的一套能指導人們進行發明創新、解決工程問題的系統化的方法學體系[5]。經過幾十年的發展,TRIZ理論已經成為當今世界上著名的發明問題解決理論,已在世界各國諸多知名企業中推廣應用,加快了人們創造發明的進程和高質量創新產品的產出[5]。TRIZ理論中用以解決系統矛盾的抽象法則——40條發明原理是最流行和最普及的,它利用有限的發明措施來指導發明者解決幾乎無限的發明問題,能夠使發明者清楚地了解到目前專利所采用了哪些發明原理解決了什么矛盾沖突[6]。然而,人工對專利信息進行40個發明原理的分類,其工作量是非常巨大,甚至無法實現[6]。因而,基于TRIZ的40個發明原理對專利信息進行分類和檢索成為當前專利信息管理中一個研究思路。

本文利用自然語言處理技術和機器學習方法,對TRIZ理論中的發明原理的經典描述和已標注發明原理的專利文獻進行分析和研究,提出了一種基于TRIZ發明原理的專利自動分類實現方案。該方案關鍵之處在于其一是基于TRIZ理論中的發明原理的經典描述和已標注發明原理的專利文獻構建發明原理字典;其二是基于構建的發明原理的字典對專利文本進行分詞和特征選擇。使用支持向量機分類算法進行分類模型訓練和測試[7]。經試驗驗證,該方法有效可行。

2 中文專利文本自動分類實現方案設計

為實現對中文專利文獻按照TRIZ發明原理進行分類,本研究對中文專利文本自動分類實現流程中的TRIZ發明原理的字典設計、專利文本的特征抽取、專利文本特征的數字化三項內容進行了分析和設計,然后利用支持向量機分類算法對專利文本數字化樣本集進行了分類模型訓練和預測,具體流程,如圖1所示。

2.1 基于TRIZ發明原理的字典構建

為了準確切分出專利文本中表征TRIZ發明原理的特征詞,本研究首先構建了基于TRIZ發明原理的字典。該字典的構建思路具體包括:⑴準備TRIZ發明原理的經典描述和每個發明原理下的案例描述,該項工作參考了TRIZ理論及應用相關的書籍20余部;⑵準備已標注發明原理的專利文獻,該工作使用了四川大學創新方法工作專項項目的成果——已標注發明原理的1147條專利;⑶借助分詞工具對前面準備的發明原理及相關案例的描述和專利文獻進行分詞;⑷利用人工識別方式將分詞結果中表征發明原理的特征詞加入TRIZ發明原理的字典中。基于上述思路構建了TRIZ發明原理的字典。基于構建的TRIZ發明原理的字典對專利文本進行分詞,可以大大提高專利文本中表征發明原理的特征詞切分的正確率。另外,該字典會隨著分析專利文獻數量的不斷增加而豐富和完善。

2.2 專利文本的特征抽取設計

基于TRIZ發明原理的字典對每條專利進行分詞處理后,首先對專利分詞結果進行詞的去重復處理,然后再利用人工識別方式將去重復處理過的分詞結果中表征發明原理的特征詞加入TRIZ發明原理的字典中,以進一步豐富和完善發明原理字典內容。基于每條專利去重復處理后的分詞結果,對該專利文本進行特征抽取。為了能在專利文本特征抽取時更多的抽取到表征發明原理的特征詞,也為了專利文本特征向量維數盡量低,本研究采用的文本特征抽取方法是基于構建的TRIZ發明原理字典,將專利文本的分詞結果中有的詞并且字典中也有的詞抽取出來,而對專利文本分詞結果中有的詞但字典中沒有的詞不進行抽取。基于該方法對每條專利進行特征抽取,既能抽取到表征發明原理的詞,同時也控制了專利文本的特征向量維數。

2.3 專利文本特征的數字化設計

為了使特征抽取處理后的專利文本易于處理,需要對專利文本特征進行數字化處理。一般來說,文本信息的數字化就是對文本建立特征向量空間模型。BoW(Bag of words)模型是一種比較簡單的構建文本信息特征向量的方法, 其思路是將特征選擇后的每個詞作為列向量,每篇文本的特征詞作為行向量建立矩陣,將文本信息中出現列向量對應單詞的位置置為1,在文本中未出現單詞的位置置為0。本研究對專利文本特征的數字化思路是將TRIZ發明原理字典中的每個詞語表示為文本空間向量的列向量,將每篇專利表示為文本空間向量的行向量, 將每條專利文本特征向量與由TRIZ發明原理字典構成的列向量進行比對,在專利文本特征向量有列向量對應的特征詞的位置設置為1,在沒有列向量對應特征詞的位置設置為0,以此實現專利文本特征的數字化。

2.4 專利文本分類器的構建

為了實現專利文本特征的模型構建和預測,本研究采用了支持向量機分類算法。由于本研究屬于多分類應用,而支持向量機是一個典型的兩分類算法,本工作采用了支持向量機構建多分類器的思路,即通過兩兩任意組合的方式設計分類器,將其中一類標記為正,另一類標記為負,構建多個分類器[8]。

3 中文專利文本自動分類實現

為了驗證本研究方案的可行性,利用PYTHON編程語言和jieba中文分詞工具包對20多部TRIZ理論及應用相關書籍中的發明原理的描述和案例進行了分詞,并對四川大學創新方法工作專項項目成果中已標注發明原理的專利文獻的標題和摘要使用同樣的方法進行了分詞處理,然后人工識別出能表征發明原理的特征詞。利用JAVA編程語言和JAVA WEB開發技術設計了能實現該方案的軟件,該軟件實現了TRIZ發明原理字典的管理、專利文獻管理、專利文本分詞管理、專利文本特征向量生成、專利文本特征數字化等功能。具體功能如圖2~圖5所示。

為了驗證該方案中專利自動分類模型訓練和預測效果,對四川大學創新方法工作專項項目成果中已標注發明原理的專利文獻中屬于分割原理、抽取原理和局部質量原理三個發明原理的專利文本進行多分類模型的訓練和預測。本實驗所用數據具體情況見表1,使用MATLAB仿真環境和支持向量機(Support Vector Machine)分類算法進行專利文本模型訓練和預測。三種類別的專利樣本通過兩兩組合進行模型訓練和預測,每兩個類別實驗隨機選擇訓練樣本數據和測試樣本數據,且都重復50次,得到的模型平均預測精度結果見表2。

從表2的模型預測正確率結果可以看出,分割與抽取兩類模型預測正確率較高,其次是分割和局部質量分類模型的預測正確率,最后是抽取和局部質量分類模型預測正確率,該結果表明訓練樣本數量越多,模型預測正確率越高,符合機器學習統計原理,因此,按照本研究設計方案進行模型訓練與預測是可行的。但模型預測正確率效果不理想,分析產生該結果的原因主要是模型訓練樣本數量太少,分割原理樣本最多為40個,另外兩類都為24個,對于維數較高的樣本來說,該實驗中訓練樣本數量太少;另外一個原因是TRIZ發明原理字典里面的特征詞還不全面。隨著TRIZ發明原理字典的不斷完善以及訓練樣本數據的增加,模型預測正確率會明顯提高。

4 結束語

本文基于TRIZ理論中的發明原理,對中文專利文獻按發明原理自動分類的實現方案進行了設計和實現。其中,對基于TRIZ發明原理的字典構建、專利文本特征抽取、專利特征向量數字化以及基于SVM的自動分類模型的訓練和預測進行了詳細設計和具體實現。仿真實驗結果表明,本文提出的中文專利按TRIZ發明原理自動分類的設計方案是可行的。為了進一步提高模型預測正確率,增加專利自動分類模型訓練樣本數量和完善基于TRIZ發明原理的字典是下一步要開展的工作。

參考文獻:

[1] 楊雪琴,關玉蘭.專利文獻與企業技術創新[J].青海科技,2001(2):48-49.

[2] 賈杉杉. 基于IPC的專利文本自動分類研究綜述[A]. 中國計算機用戶協會網絡應用分會.中國計算機用戶協會網絡應用分會2017年第二十一屆網絡新技術與應用年會論文集[C].北京:中國計算機用戶協會網絡應用分會:北京聯合大學北京市信息服務工程重點實驗室,2017:4.

[3] 劉玉琴,桂婕,朱東華.基于IPC知識結構的專利自動分類方法[J].計算機工程,2008,34( 3) : 207-209.

[4] HE Cong,HAN Tong Loh.Grouping of TRIZ Inventive Principles to Facilitate Automatic Patent Classification[J]. Expert Systems with Applications,2008,34(1) : 788-795.

[5] 秦曉梅.基于TRIZ的專利標引系統的設計與實現[J].電腦知識與技術,2018,14(22):65-66.

[6] 翟繼強, 王克奇. 依據TRIZ發明原理的中文專利自動分類[J].哈爾濱理工大學學報, 2013, 18(3): 1-5.

[7] 李云,高茂庭.支持向量機在文本分類上的研究[J].電腦知識與技術,2009,5(10):2643-2645.

[8] 龐劍鋒,卜東波, 白碩. 基于向量空間模型的文本自動分類系統的研究與實現 [J]. 計算機應用研究, 2001(9) :23-26.

【通聯編輯:梁書】

主站蜘蛛池模板: 97在线公开视频| 国产黄色片在线看| 3344在线观看无码| 毛片网站观看| 国产网友愉拍精品| 免费人欧美成又黄又爽的视频| 国产免费久久精品99re不卡| 五月婷婷丁香综合| 日韩无码真实干出血视频| 精品超清无码视频在线观看| 精品午夜国产福利观看| 91福利一区二区三区| 亚洲精品片911| 伊人大杳蕉中文无码| 无码有码中文字幕| 色吊丝av中文字幕| 丝袜美女被出水视频一区| 69av免费视频| 在线精品亚洲国产| 91麻豆精品国产高清在线| 久久91精品牛牛| 在线观看国产一区二区三区99| 国产色爱av资源综合区| 女人18毛片久久| 99久久亚洲精品影院| 中文字幕久久亚洲一区| 亚洲aaa视频| 亚洲色欲色欲www在线观看| 国产在线精彩视频论坛| 亚洲人成电影在线播放| 色综合热无码热国产| 精品亚洲麻豆1区2区3区| 久草视频一区| 国产成年无码AⅤ片在线| 亚洲精品在线观看91| 粉嫩国产白浆在线观看| 免费看av在线网站网址| 久久无码av一区二区三区| 国产人成网线在线播放va| 在线综合亚洲欧美网站| 蜜臀av性久久久久蜜臀aⅴ麻豆| 久久一日本道色综合久久| 日韩欧美一区在线观看| 91系列在线观看| 欧美一区二区精品久久久| 亚洲天堂视频在线免费观看| 亚洲不卡网| 久热re国产手机在线观看| 少妇人妻无码首页| 亚洲综合九九| 国产呦精品一区二区三区网站| 成人福利在线看| 亚洲色图在线观看| 亚洲午夜福利在线| 亚洲精品动漫| 无码专区第一页| 亚亚洲乱码一二三四区| 97超碰精品成人国产| 亚洲一级无毛片无码在线免费视频| 亚洲精品视频网| 毛片在线看网站| 色视频国产| 国产欧美高清| 国产剧情一区二区| 亚国产欧美在线人成| 欧美精品黑人粗大| 毛片久久久| 四虎永久免费地址| 农村乱人伦一区二区| 日韩精品无码不卡无码| 欧日韩在线不卡视频| 亚洲男人的天堂网| 国产小视频免费观看| 国产在线一区视频| 99激情网| 国产99视频免费精品是看6| 国产精品无码在线看| 国产专区综合另类日韩一区 | 国产丝袜第一页| 狼友av永久网站免费观看| 久久精品人妻中文视频| 天堂在线亚洲|