李 晨
知識是智力的基礎,人類的智力活動主要是獲得并運用知識。計算機必須具有知識,才能使其具有智能,能夠模擬人類的智力行為,知識需要用適當的模式表示出來才能存儲到計算機中。傳統的知識存儲模式包括文本文檔、結構化數據庫等。但是,由于互聯網信息暴增且雜亂無章,這就為知識的獲取、存儲和表達帶來了挑戰。
知識圖譜是機器大腦中的知識庫、人工智能應用的基礎設施,旨在利用圖結構建模知識,并實現識別、發現和推理事物、概念之間的復雜關系,是事物關系的可計算模型。構建知識圖譜的核心任務之一是從海量資源中自動抽取新知識,并將它們與圖譜中已有知識相融合。
知識圖譜是隨著語義網發展而衍生出的概念,作為一種表示結構化知識的描述框架,其組成元素包含具有明確語義信息的“實體”、實體的“屬性”以及實體之間的“關系”。不同于語義網絡,為了規范圖譜構建和方便知識擴充,知識圖譜不僅涵蓋了具體的實例知識數據,還包括對知識數據統一的描述和定義,通常被稱為知識體系(Schema )或者本體(Ontology)。知識圖譜的另一個重要特點是其基礎結構單元為三元組格式,能夠以一種簡潔的形式同時表示描述型數據和實例型數據,為計算機自動化、智能化地處理知識提供了有效支持。
為了進一步解釋上述概念,可以換個角度,從實際應用的角度出發,簡單地把知識圖譜理解成多關系圖(Multi-relational Graph)。圖(Graph)是由節點(Vertex)和邊(Edge)來構成,多關系圖一般包含多種類型的節點和多種類型的邊。實體(節點)指的是現實世界中的事物比如人、地名、概念、藥物、公司等,關系(邊)則用來表達不同實體之間的某種聯系,比如人-“居住在”-北京、張三和李四是“朋友”、邏輯回歸是深度學習的“先導知識”等等①CSDN 博主「越前浩波」博客,https://blog.csdn.net/weixin_44023658/article/details/112503294.。
知識圖譜主要用于實現互聯網中數據的知識化,必須具備兩個先決條件:一是數據的語義化,二是語義的表示。常用的數據知識化方法有以下四種:人工方法、自動方法、融合方法和推理方法。知識圖譜的主要特點是:(1)知識圖譜是人工智能應用中最基礎的知識資源;(2)知識圖譜具有語義表達能力豐富的優點;(3)知識圖譜具有表達簡潔的優點;(4)知識圖譜具有表示能力統一,便于不同知識間的重組與融合;(5)知識圖譜的知識來自網絡,來源單一、方便,容易大量獲取;(6)知識圖譜采用圖結構方式,易于存儲與檢索,同時也有利于高效推理②徐潔磐,周海燕.人工智能導論[M],北京:中國鐵道出版社,2021(1):177-180.。
2012 年谷歌公司首先推出知識圖譜表示方法,接著在維基網站中利用它建立了維基百科(Wikipedia),自此以后,各類著名網站相繼推出了各自的知識圖譜。目前,微軟公司和谷歌公司擁有全世界最大的通用知識圖譜,臉書公司擁有全世界最大的社交知識圖譜,而阿里巴巴和亞馬遜公司則分別構建了商品知識圖譜。
現階段,知識圖譜廣泛應用于知識搜索、自動問答及自動推薦等多個領域,并且尚有更大的發展空間,例如,應用于決策支持系統等。這種應用組成了新一代專家系統,這種專家系統是新一代人工智能的重要組成部分。
基于國家知識產權局公開的專利數據,筆者選用“知識圖譜”、“三元組”、“資源描述框架”、“本體”、“關系”等關鍵詞的中英文形式及其縮寫,結合IPC 分類號G06F16/、G06F17/30,在中國專利全文數據庫(CNTXT)、世界專利文摘數據庫(WPABS)中進行檢索,并去噪后統計,最終獲得涉及知識圖譜的中國發明專利申請數量共10445 件,全球專利共14795 件(統計時間為2022 年4 月5 日)。需要說明的是,由于專利申請之后需要一段時間才被公開,因此,2020 年至今的部分專利申請處于尚未公開的狀態從而無法體現在以下的分析圖表中。
從圖1 的知識圖譜相關專利申請態勢圖可以看出,在2017 年以前,知識圖譜相關專利申請處于起步階段,呈緩慢增長態勢;自2017 年至今,知識圖譜相關專利申請量呈現明顯增長態勢(排除2020 年以后專利申請公開滯后的影響)。全球專利申請與中國專利申請增長趨勢基本同步,且中國專利申請量在全球專利申請量中占據主體。七成以上的全球專利申請選擇中國作為其申請目標國。

圖1 知識圖譜相關專利申請態勢圖
從圖2 知識圖譜相關專利申請的全球主要申請人分布可知,全球申請量位列前十位的申請人依次為:百度、國際商業機器(IBM)、平安、國家電網、騰訊、微軟、浙江大學、阿里巴巴、北京明略軟件和清華大學。其中有八個申請人是來源于中國或其經濟活動主要在中國,只有國際商業機器(IBM)和微軟兩個申請人來源于美國。說明我國在該領域的研發上投入大,具有一定研發優勢。申請量前十位申請人中,有兩家高校,其余八家均為企業,說明該領域專利申請更多地集中在產業界,知識圖譜和各行各業的深度融合,應用廣泛。據統計,知識圖譜在美國的已決申請中授權率大約為60%,略低于在中國的已決申請中授權率約為62%的授權率③利用HimmPat 檢索分析平臺統計得到。,兩國授權率相差不大。

圖2 知識圖譜相關專利申請全球主要申請人分布
通過上述對知識圖譜相關的專利申請數據的分析可知,我國在該領域的技術發展已經進入高速發展期,同時,包括企業和科研院所在內的眾多創新主體十分重視知識圖譜相關技術的知識產權保護。因此,更好的明確知識圖譜相關專利申請的審查規則,有助于指導創新主體在該領域的申請以及對知識圖譜相關技術給予更好地保護。
我國目前沒有專設針對知識圖譜相關專利申請的審查規則,與該領域專利申請的客體審查相關的法條為:《專利法》第二十五條第一款第(二)項和專利法第二條第二款。相關審查規則還包括:
《專利審查指南》第二部分第一章規定:
在判斷涉及智力活動的規則和方法的專利申請要求保護的主題是否屬于可授予專利權的客體時,應當遵循以下原則:
(1)如果一項權利要求僅僅涉及智力活動的規則和方法,則不應當被授予專利權。
如果一項權利要求,除其主題名稱以外,對其進行限定的全部內容均為智力活動的規則和方法,則該權利要求實質上僅僅涉及智力活動的規則和方法,也不應當被授予專利權。
(2)除了上述(1)所描述的情形之外,如果一項權利要求在對其進行限定的全部內容中既包含智力活動的規則和方法的內容,又包含技術特征,則該權利要求就整體而言并不是一種智力活動的規則和方法,不應當依據《專利法》第二十五條排除其獲得專利權的可能性。
《專利審查指南》(2020 版)第二部分第九章規定:
如果權利要求中涉及算法的各個步驟體現出與所要解決的技術問題密切相關,如算法處理的數據是技術領域中具有確切技術含義的數據,算法的執行能直接體現出利用自然規律解決某一技術問題的過程,并且獲得了技術效果,則通常該權利要求限定的解決方案屬于《專利法》第二條第二款所述的技術方案。
結合上述知識圖譜的技術特點、我國現行相關審查規則和審查現狀,筆者發現在知識圖譜相關的專利的申請和審查規則方面,創新主體普遍存在以下疑問:
1.知識圖譜是某類事物、某個領域知識的圖形化表示,是否知識圖譜的構建就屬于《專利審查指南》中指出的“信息表述方法”,從而不符合專利保護客體的要求?
2.以何種方式撰寫知識圖譜構建方法的專利申請,才有可能屬于專利保護的客體?
3.抽象的知識圖譜構建方法,與具體領域的知識圖譜的構建方法,在是否屬于專利保護客體的審查標準上,有什么不同?
以下將通過三個案例,嘗試解答以上疑問,并以此來明晰有關知識圖譜相關專利申請的審查規則。
1.背景技術
藥品說明書是臨床醫生和臨床藥師在為患者提供藥物治療方案時最重要的循證證據。隨著醫學信息化的發展,各大三甲醫院廣泛使用的處方前置審核系統不但可以方便查找藥品說明書,還可以依據藥品說明書的配伍禁忌、特殊人群、禁忌癥、相互作用等自動提示臨床醫生和臨床藥師該患者處方的問題。這對保障患者的合理安全用藥有非常重要的意義。
在目前,藥品說明書內容是按照醫院處方審核的要求,按照藥品說明書的適應癥、配伍禁忌、用法用量、年齡、人群、禁忌癥、相互作用等不同字段存儲在關系型數據庫中的,在使用的過程中也是通過字段匹配來查找相應的內容的。通過患者處方上提供的性別、年齡、臨床診斷、藥品名稱、用法用量等,尋找數據庫中與查找內容完全相符的信息。
2.問題及效果
現有技術中,無法處理較為復雜的查詢要求,查詢效率低,只能發現患者處方不合理的問題,但無法提供解決方案。該申請提供的藥品說明書的知識圖譜構建方法,通過依據藥品說明書數據庫構建藥品說明書知識圖譜,對藥品說明書進行多維度描述,更貼近臨床醫生和臨床藥師對藥品說明書的理解方式,也提高了檢索效率,為臨床醫生和臨床藥師提供了臨床輔助決策,為患者提供更合理安全的用藥方案。
3.權利要求
一種藥品說明書知識圖譜構建方法,其特征在于,藥品說明書知識圖譜的三元組形式為:<實體>,<關系>或<屬性>,<實體>;
其中,實體的內容包括:藥品名稱、適應癥名稱、禁忌癥名稱、檢驗檢查項、癥狀、不良反應和病史;
實體的關系包括:
映射關系,定義一種實體是另一個實體的一個實例;
分類關系,定義一個實體是一類實體的成員;
屬性關系,定義一個實體與屬性之間的關系;
聚合關系,定義一個實體與全部實體之間的關系;
時間關系,定義不同實體產生的先后順序;
相近關系,定義不同實體藥理近似的關系;
實體的屬性包括詳細描述實體的維度或者設定條件的維度,具體包括:藥品的劑量、劑型、生產廠家、藥品毒副作用、不良反應臨床試驗時間、不良反應發生率、不良反應處理和根據不良反應調整給藥頻次值。
4.案例分析
知識圖譜三元組的定義和表達類似于數據結構的定義和表達。單純的數據結構因屬于信息表達的方法,從而屬于智力活動的規則和方法,不能被授予專利權。
針對某個具體應用領域的知識圖譜的三元組定義和表達,如果方案只涉及對三元組(實體、關系和屬性)的定義,仍屬于信息表述方法,無法獲得專利保護。不會因為其方案有具體的應用領域、知識圖譜的三元組的實體、屬性有具體的參數含義,就使得其屬于專利保護客體。
具體到該申請,方案雖然涉及藥品說明書的知識圖譜構建,但是僅僅是定義了實體的內容包括藥品名稱、適應癥名稱、禁忌癥名稱、檢驗檢查項、癥狀、不良反應和病史;關系的內容包括映射、分類、屬性、聚合、時間等;屬性包括藥品的劑量、劑型、生產廠家、藥品毒副作用、不良反應臨床試驗時間、不良反應發生率等。顯然,上述內容僅涉及對三元組本身的定義,仍屬于信息的表述方法,因此,屬于《專利法》第二十五條第一款第(二)項規定的智力活動的規則和方法,不屬于專利保護的客體。
綜上,對于有具體應用領域的知識圖譜的解決方案,如果方案僅是構建了該領域的知識圖譜,例如只包括三元組的定義和表達,那么該方案無法構成專利保護的客體。
1.背景技術
知識圖譜的初衷是為了闡述現實世界中各種存在的實體之間、關系之間以及實體與關系的屬性的聯系,其利用三元組中的關系來描述“頭實體”和“尾實體”所具有的具體聯系,其主要實現的目標是改進搜索引擎,使其搜索結果的準確性和用戶搜索體驗得到提高,其中涉及分類和預測等多種具體應用。目前的知識圖譜算法大多數都是基于三元組(頭實體,關系,尾實體)形式的,實體是知識圖譜中的最基本元素,不同的實體間存在不同的關系。目前這種三元組的表達方式越來越流行,例如,萬維網聯盟發布的資源描述框架技術標準。特別是在谷歌提出知識圖譜的概念后,這種表達形式更是被廣泛接受。
現有的知識圖譜技術大多基于深度學習算法構建,并且將其中的每個向量中每一維的數據都孤立地看待,這就使得想要構建效果更好的知識圖譜的過程往往需要更多的訓練時間和更大規模的訓練集。
2.問題及效果
基于現有技術的缺陷,該申請引入模糊理論的思想,提出一種基于模糊邏輯和模糊向量的模型,使用模糊向量的運算方法來對各維訓練數據進行運算,將模糊邏輯中賦予數據的語義信息與深度學習理論相結合,減少了訓練的復雜程度,縮短了訓練時間。
3.權利要求
一種基于模糊理論的知識圖譜優化方法,其特征在于,具體步驟如下:
步驟1:獲取訓練集三元組數據,并對所有三元組數據預處理,包括步驟1.1~步驟1.2:
步驟1.1:獲取訓練集三元組數據,將所有三元組隨機初始化,將三元組隨機初始化成兩組不同的向量,一組用來構建三元組本身,另一組用來構建在模糊空間的三元組模糊投影,具體過程如下:
設有p個三元組(hi,ri,ti,)i=1,2,...,p,hi表示頭實體,ri表示關系,ti表示尾實體,(hi,ri,ti,)表示hi和ti具有ri關系,采用模糊矩陣的乘積的形式表示雙重模糊集在模糊關系中的合成,即,對于模糊向量lt和fr,lt在fr上的投影表示為tfr=lt·fr=∨(lt∧fr),對于任意模糊變量a∈lt和b∈fr,設-1 ≤a≤b≤1 時有:

對于每一個三元組(h,r,t)所對應的向量分別初始化:h對應初始化為h和hm;r對應初始化為r和rm;t對應初始化為t和tm,其中,帶有m下標的向量表示用來構建映射矩陣的元素,不帶m下標的代表元素本身的向量;且h與hm均∈Rk,t與tm均∈Rk,r與rm均∈Rn,k和n分別表示實體向量和關系向量的維度,k=n,且h、hm、t、tm、r、rm均被設定為列向量;
步驟1.2:向量歸一化;對h、hm、r、rm、t和tm分別進行歸一化操作,歸一化公式為:x=x/||x||,其中,X=h或hm或r或rm或t或tm,歸一化后的h、hm、r、rm、t和tm數值范圍如下:h≤1,hm≤1,r≤1,rm≤1,t≤1,tm≤1;
步驟2.基于模糊關系合成的知識圖譜構建,獲得知識圖譜的模糊關系,包括步驟2.1~步驟2.2:
步驟2.1:模糊投影:將歸一化后得到的hm和tm分別對rm進行模糊投影,得到兩個模糊矩陣Fhr和Ftr,具體過程和原理如下:
將hm和tm分別對rm進行模糊投影,分別得到如下兩個模糊矩陣Fhr和Ftr:

其中,hT為h的轉置,X○Y形似模糊矩陣的乘積,這里X為rm,Y為hm或者tTm;
步驟2.2:模糊關系合成:將兩個模糊矩陣Fhr和Ftr分別與hT和tT進行模糊關系合成,在得到投影空間之后,通過分別計算對頭實體和尾實體的模糊空間Fhr和FTr的映射的方法來進行模糊關系合成,具體公式如下:

其中,lhr為模糊空間Fhr與hT的模糊關系,ltr為模糊空間Ftr與tT的模糊關系;
步驟3:基于損失函數,最小化目標優化函數,獲得優化后的三元組向量,即為優化后的知識圖譜的三元組集合。
4.案例分析
知識圖譜通常基于三元組進行構建,實體是知識圖譜中最基本元素,不同的實體間存在不同的關系。知識圖譜最廣泛的應用是搜索,即,增加搜索深度和廣度,找到最想要的信息。知識圖譜涉及對知識資源的挖掘、分析、構建、繪制和顯示,融合了應用數學、圖形學、信息可視化技術、信息科學等多門學科,涉及三元組構建的專利申請只是知識圖譜相關專利申請中的一種,判斷涉及知識圖譜的專利申請的客體時,應結合具體案情,根據申請要解決的問題和記載的手段進行具體分析。
具體到該案,該案請求保護一種基于模糊理論的知識圖譜優化方法。該方案利用兩組不同的向量分別構建三元組本身和模糊空間下的三元組模糊投影,基于損失函數獲得優化后的三元組集合。上述手段僅涉及對三元組結構的定義和依據設定規則的計算,其中算法特征的執行未體現出利用自然規律解決技術問題的過程,因而并非技術手段;所能解決的問題僅僅是三元組表達方式的優化,并非技術問題,優化三元組本身的表達獲得的減少數據集訓練時間的效果也并非技術效果。此外,雖然該申請聲稱“使用模糊向量的運算方法對各維訓練數據進行運算,將模糊邏輯中賦予數據的語義信息與深度學習理論相結合”,但當前權利要求記載的手段中并未體現出對語義信息的利用和處理。因此,該申請請求保護的解決方案不構成《專利法》第二條第二款規定的技術方案,不屬于專利保護的客體。
1.背景技術
水輪發電機組的運行狀態是否安全可靠,直接關系到水電站能否安全經濟提供可靠的電力,也直接關系到水電站本身的安全。隨著大型水輪發電機組在整個電力系統中的比重越來越大,對水電設備的可用率、機組運行安全性、可靠性與經濟性提出了更高的要求,事故停機造成的經濟損失可能會更為嚴重,給水電設備的運行管理帶來更多的挑戰。隨著科技發展,水輪發電機組的故障診斷正由人工診斷到智能診斷、由離線診斷到在線診斷、由現場診斷到遠程診斷逐漸發展。
故障診斷的核心是特征提取,通過特征提取后用分類器進行故障分類。目前,在水力發電機組振動故障診斷領域中得以研究和應用的重點方法主要有故障樹故障診斷方法、模糊診斷方法、小波分析、深度學習和神經網絡等。
2.問題及效果
水電機組試驗報告、大修報告、巡檢記錄等非結構文本數據中蘊含大量高價值故障知識,合理抽取文本故障知識對提高水電機組故障診斷效果具有重要意義。對水電機組的故障診斷文本進行知識抽取的關鍵問題在于,從異構的文本非結構化數據中抽取出有效的結構化信息,目前,其研究的重點在于針對故障、特征等命名實體進行識別與實體關系抽取。知識圖譜推理診斷的目的是根據已有的知識圖譜和當前的狀態特征找到對應的設備故障。
該申請通過同時提取非結構化的振動數據和結構化的診斷報告文本數據,并進行異構數據融合,以融合特征作為水電機組故障診斷的依據,解決了水電機組故障診斷時真實故障數據缺乏、故障診斷不夠準確的技術問題。
3.權利要求
一種基于融合特征的知識圖譜的水電機組故障診斷方法,其特征在于,該方法包括以下步驟:
S1.根據水電機組振動數據,提取水電機組的結構化振動數據特征;
S2.根據水電機組多種診斷報告,提取水電機組診斷報告的非結構化文本數據特征;
S3.將所述水電機組的結構化振動數據特征和所述水電機組診斷報告的非結構化文本數據特征進行異構知識融合,得到融合特征;
S4.根據所述融合特征,構建水電機組故障診斷知識圖譜;
S5.根據所述水電機組故障診斷知識圖譜和實時獲取的水電機組當前狀態特征,對水電機組當前狀態進行推理診斷,推斷出各種故障發生的可能性;
其中,振動數據包括振動位移、速度和加速度傳感器采集的原始數據;結構化振動數據特征包括傳統特征和深度特征。
其中步驟S5 具體為:
S501.通過深度學習模型與傳統特征提取,得到與圖譜中對應的特征實體和屬性值;
S502.實時獲取水電機組當前狀態的數值數據、狀態值和超限值;
S503.通過深度提取模型對所述數值數據進行特征提取得到深度特征,以深度特征、狀態值和超限值為目標,在知識圖譜模式層中檢索其名稱并提取出圖譜中的相關實體和邊構成關系子圖;
S504.根據所述關系子圖中節點和邊的拓撲結構,建立貝葉斯概率網絡模型,使用貝葉斯概率網絡推導出故障的概率。
4.案例分析
該申請權利要求請求保護一種基于知識圖譜的水電機組故障診斷方法,該方案通過對水電機組結構化振動數據和診斷報告的非結構化文本數據的特征提取和異構數據的知識融合,解決了水電機組故障診斷中存在的真實故障數據缺乏、故障診斷不夠準確的技術問題;該方法中各步驟具體限定了處理的對象是有明確技術含義的數據,如,水電機組診斷報告的非結構化文本數據等;為解決上述技術問題,該申請所采用的手段并非僅僅是構建知識圖譜本身,而是涉及具體領域的知識圖譜構建及其應用方法。具體而言,該申請根據水電機組故障診斷知識圖譜和實時獲取的水電機組當前狀態特征,對水電機組當前狀態進行推理診斷,推斷出各種故障發生的可能性,采用的手段是遵循自然規律的技術手段,據此獲得了提高故障診斷準確性的技術效果。
因此,該申請權利要求的解決方案構成《專利法》第二條第二款規定的技術方案,屬于專利保護的客體。
綜上所述,知識圖譜相關發明專利申請,并不因為其涉及知識圖譜構建或應用就必然構成技術方案,而要看其方案在整體上是否采用了遵循自然規律的技術手段,并解決相應的技術問題、獲得相應的技術效果。
由以上三個案例的分析可知,對于涉及知識圖譜的專利申請,判斷其是否屬于專利保護客體,需要根據《專利法》第二十五條第一款第(二)項和《專利法》第二條第二款兩個法條來進行判斷。
如果權利要求中僅記載知識圖譜三元組的定義或表達的解決方案,則權利要求的方案實質上是一種單純的信息表述方法,屬于智力活動的規則和方法,不構成專利保護的客體。如果方案僅涉及知識圖譜本身的優化,未采用技術手段解決技術問題以獲得符合自然規律的技術效果,則不構成技術方案。如果方案中用三元組表達的處理對象是語義信息、文本數據等技術數據,體現出對技術數據的具體處理過程,那么,這樣的解決方案有可能構成技術方案。如果方案采用了自然語言處理、異構數據融合等手段解決具體應用領域的技術問題,并獲得了相應的技術效果,則該方案屬于技術方案。
專家點評
“知識圖譜”是人工智能的一個重要分支和研究領域,產業應用廣泛、技術創新活躍、專利申請量較大。本文介紹了“知識圖譜”的概念、全球專利申請態勢及中美兩局知識圖譜領域的專利申請授權率分析,使讀者能夠直觀了解“知識圖譜”相關的專利申請態勢和專利審查概況,進而通過三件典型專利申請的分析,梳理了“知識圖譜”相關專利申請的客體審查規則,以期在一定程度上解答創新主體在“知識圖譜”領域可能存在的疑問,助力創新主體更好地保護知識圖譜相關技術創新成果,促進該領域專利申請質量的提升。