張玉靜


關鍵詞:TRIZ發明原理;專利自動分類方案;樸素貝葉斯
0引言
近幾年,TRIZ發明原理因其科學性和可操作性而得到廣泛關注。作為一種創造性思維方法,TRIZ發明原理可以將一個整體對象或系統分割為較小的部分,同時展示不同技術集成的過程,并深刻揭示創造發明的內在規律。在新時期的專利分析中應用TRIZ發明原理,可以進一步提高科研工作者解決創造發明問題的效率。因此,探討基于TRIZ發明原理的專利自動分類方案設計與實現具有重要意義。
1基于TRIZ發明原理的專利自動分類方案設計需求
1.1功能需求
TRIZ發明原理通過分割和轉換系統問題來解決問題。在設計基于TRIZ發明原理的專利自動分類方案時,首先需要落實TRIZ發明原理的內涵,增加系統問題錄入功能。同時,方案應允許普通用戶填寫相應字段進行提交,提交后自動根據專利名稱生成分類詞條并進行準確分類[1]。
其次,專利分類方案應具備登錄注冊、退出登錄、增加、刪除、修改、查詢、權限設置等功能。
最后,方案應提供專利查詢入口,允許專利使用者根據個性化需求查詢分類結果,并賦予文檔生成、下載、打印的權限。
1.2非功能需求
根據發明問題解決的需求,基于TRIZ發明原理的專利自動分類方案應布局清晰、界面簡潔、操作便捷。同時,新專利信息錄入后,系統應能在短時間內提取專利關鍵詞并反饋結果,且分類頁面應能正常跳轉,使用端響應時間應短于10秒[2]。
2基于TRIZ發明原理的專利自動分類方案設計方案
2.1基于TRIZ發明原理的專利自動分類方案框架
根據方案的功能需求和非功能需求,基于TRIZ發明原理的專利自動分類方案可以劃分為使用管理模塊、分類模塊、檢索模塊、字典模塊幾個部分,整體框架如圖1所示。
圖1中,使用管理模塊主要負責滿足專利發明者和專利信息使用者的不同需求;分類主模塊包括特征詞提取和類別劃分兩個核心功能;檢索模塊可分為精確檢索和任意檢索;字典模塊主要負責專利信息分類管理。
在總體框架內,可以以NB(NaiveBayes,樸素貝葉斯)為支撐,基于貝葉斯定理,將專利自動化分類問題視為基于貝葉斯公式的專利文本所屬類別條件概率估計。即:根據已知的特征和類別,進行待分類專利文本所屬類別概率的核算,公式如式(1):
式中:P(c|x)為專利文本內每一特征屬于類別的概率;x為類標號未知的專利樣本;c為專利所屬類別。c為一個集合,具體為{c1,c2,...,cm},表示c共有m個類別。P(x|c)為某一類別屬于特征的概率;P(c)為專利文本全部類別概率;P(x)為某一專利文本樣本概率。根據式(1),可以將待分類專利歸類到與其關系最緊密的類別,求解向量歸屬特定類別的概率P,概率最大的類別為對應專利所屬類別。
2.2基于TRIZ發明原理的字典設計
字典設計是準確切分表征TRIZ發明原理特征詞(專利文本內)的前提。在基于TRIZ發明原理的字典設計時,可以先參考TRIZ發明原理及應用書籍,準備TRIZ發明原理的經典描述、每一發明原理下的案例描述,再利用已標注發明原理的海量專利,為特征詞切分做好準備。最終,面向以TRIZ發明原理為基礎的字典,借助人工識別手段,加入表征發明原理特征詞。局部字典內容如表1所示。
后期,根據專利信息擴充要求,可以借助網頁抓取的方式,進入國家知識產權局的網站,由服務器端下載URL(UniformResourceLocator,統一資源定位符)對應內容到本地,并記錄URLHTTP請求對應編碼數據,順利采集新領域大量專利特征詞,實現基于TRIZ發明原理的字典內容不斷更新。
2.3基于TRIZ發明原理的訓練集構建
文本分類訓練是基于TRIZ發明原理的專利自動分類的基礎,主要依靠已標記類別的訓練測試數據集。在訓練數據集構建前,由專人采集專利文獻,分析下載專利文獻頁面標題、權利要求、摘要等文本數據,初步明確分詞[3]。明確分詞后,以基于TRIZ發明原理的字典為依據,抽取特征,完成特征向量化處理,并獲得訓練數據集。在獲得訓練數據集后,以標記為類別不一的數據集為對象,借助兩兩組合的手段,進行一個向量矩陣的合并處理。在向量矩陣中,將第一列定義為標簽列,標記每一篇專利向量化結果所在行,同類標記、另一類標記分別為1、-1。最終,將打上標簽的向量矩陣保存為.xls格式文件。
基于TRIZ發明原理的訓練集具體設計過程如下:
1)輸入jieba(結巴分詞)庫,導入分詞工具。同時打開已篩選的特征詞文件并讀取,將文件存儲為字符串形式。進而正則化篩選特征詞文件內詞語,選中全部特征詞后連接,并對特征詞進行去重處理。
2)選中全部基于TRIZ發明原理的特征詞,導入創建Excel表格庫。在庫內新建工作簿和一個表格,將表格命名為0,遍歷全部特征詞,將所遍歷的特征詞寫入表格。
3)選中專利文本并打開,讀取文件,將文件存儲為字符串形式。同時正則化選擇專利文件內文本內容,以專利文本內容分詞為對象,連接分詞后詞語,對分詞后詞語進行去空格處理。去空格后,在文本列表內存儲分詞后詞語[4]。
4)遍歷分詞后全部專利文本內容(含詞語),根據每一篇文章對應列表,對比專利文本分詞訓練結果、字典特征向量。若特征詞位于專利文本內,則在表格中寫入1;若專利文本未包含特征詞,則在表格中寫入0。
5)在Excel表格中保存全部專利文本數據。
3基于TRIZ發明原理的專利自動分類方案實現措施
3.1實現環境
基于TRIZ發明原理的專利自動分類方案實現語言為Java語言。實現環境為安裝JDK(JavaDevelop?mentKit,Java語言的軟件開發工具包)的PC機,操作平臺為Windows10,操作平臺中已安裝Tomcat7.0,數據庫為JDBC數據庫連接池連接技術支撐的MySQL關系型數據庫,工具為MyEclipse8.5,瀏覽器為谷歌瀏覽器[5]。環境后臺、前臺分別為SSM框架、EasyUI框架,以JavaServlet、JSP與JavaScript、HTML技術為支撐。
3.2實現流程
基于TRIZ發明原理的專利自動分類方案實現流程如下:
第一,中文專利自動分類主要是恰當選擇專利中的幾個成分組合(權利要求、標題、摘要、說明等)作為輸入。輸入優選可體現專利中包含TRIZ發明原理的信息,如選擇輸入為標題、摘要,避免因選用成分過多而影響分類結果準確性。同時因中文句子內各詞條間無分隔符,在分類器分類前,需借助基于HMM(Hi?erarchicalHiddenMarkovModel,多層隱馬模型)的ICTCLAS(InstituteofComputingTechnology,ChineseLexicalAnalysisSystem,中科院計算所中文信息處理系統)分詞系統,開展專利摘要詞條切分。切分須先后經歷“建立切分詞圖”“詞語粗分獲得若干概率最大切分結果”“角色標注識別計算概率”“加入未登錄詞”“動態規劃優選切分結果”幾個環節,最終完成分詞。
第二,完成分詞后,針對專利文本內存在大量僅發揮語法作用的詞,參考《現代漢語語料庫文本分詞規范》,借助哈希表建立一個停用詞列表,匯總停用詞,如“新型”“發明”“領域”等實意詞和“然后”“最終”等非實意連詞[6]。在每次中文專利查詢時,自動搜集哈希表,及時發現、刪除停用詞表對應詞,降低向量空間維數。若為英文專利樣本,可以免除分詞、去停用詞環節,直接利用專利文本中英文分隔符,進行特征選取。
第三,在停用詞刪除后,針對專利文檔內無法輔助類別區分的詞條,由低層次出發,進行高層次正交維數特征集的構造。構造方法可選擇基于概率的交叉熵法,其公式為:
式中:CE(t)為詞匯的交叉熵;t為詞匯;P(ci|T)為真實分布中c類別的概率;T表示模型預測分布中c類別的概率;P(ci|t)表示文本主題類分布概率;ci表示某一類別專利的數量;log為以2為底的對數。CE(t)是文本主題類概率分布、出現特定詞匯下主題類概率分布之間距離的彰顯,詞匯交叉熵與文本主題類分布所受干擾成正比。
第四,選取詞匯交叉熵較大的特征后,可以在NB(Na?veBayes,樸素貝葉斯)分類器內進行專利分類。最終建立近千條發明數據集,從數據集中提取百余可標示所使用TRIZ發明原理的專利,顯示為分類選擇組合框,在選擇測試文本時,自動進行專利分類并輸出分類結果(含分類器性能評價),整體界面較為直觀、簡潔。
3.3質量評估
基于TRIZ發明原理的專利自動化分類質量評估與傳統評估方法存在較大差異。傳統專利分類效果評估為單一樣本分類,以專利被標注單一標簽是否有誤為判斷依據[7]。而在TRIZ發明原理支撐的專利自動化分類質量評估中,一個專利可能對應多個TRIZ發明,即一個標簽集合,集合內存在部分有誤或無誤的標簽,甚至存在隱藏標簽。因此,在專利自動分類質量評估時,可以分類器為對象,核算真實TRIZ發明原理集合、預測TRIZ發明原理集合的差異。
考慮預測錯誤、遺失錯誤,以海明損失評估樣本TRIZ發明原理被錯誤劃分類別的概率。在海明損失等于0時,樣本分類取得最佳效果;海明損失越小,專利自動分類效果越佳。同時將全部分類的正確專利文本、實際專利文本的文本數之比作為準確度評估依據,將全部分類正確的文本與應有專利文本數量之比作為召回率評估依據。在已有條件下,依托基于MODEL-x的多標簽名分類模式,對方案進行測試,確定方案應用效果。在發明數據集標示專利數量為688個時,分類準確率達到0.73,分類召回率達到0.65,基本滿足中文專利分類要求。
4結束語
綜上所述,專利文獻是全球最大最新技術信息源,對專利信息進行分類是信息利用的前提條件。TRIZ發明原理是一種解決發明創新問題的系統方法學體系,可以加快專利分類方案優化。因此,可以構建基于TRIZ發明原理的字典和分類器,梳理基于TRIZ發明原理的專利分類流程,有序推進分詞、去停用詞、特征提取、分類、測試等環節,順利實現專利文檔類別劃分的自動化。