999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

知識圖譜中實體關系抽取的專利狀況分析

2022-11-07 05:28:24劉芳張濤
河南科技 2022年18期
關鍵詞:數據庫

劉芳 張濤

(國家知識產權局專利局專利審查協作北京中心,北京 100070)

0 引言

知識圖譜(Knowledge Graph)的概念于2012 年由Google 公司提出并成功應用于搜索引擎,給互聯網語義搜索帶來了活力,并成為互聯網知識驅動的智能應用的基礎設施。在知識圖譜出現之前,人工智能領域中對知識和結構化數據的表示方式主要是本體(Ontology)[1]和數據庫(Database)兩大類。本體是通過對象類型、屬性類型以及關系類型對領域知識進行形式化描述的模型,其強調的是抽象的概念表示,也即對數據的定義進行描述,而不關注具體的個體以及這些具體個體間的關系。數據庫是為了用電腦表示和存儲人工智能中需要的數據而設計開發的產品,如關系型數據庫、面向對象數據庫、非關系型數據庫等。其主要存儲數據用于數據的傳遞和交換。而對于數據的描述和定義,在傳遞和交換中會假定參與方都已經明白和理解,例如數據庫中的學生信息,一般數據庫假設開發者已經知曉表結構,如表中字段屬性、主鍵含義、對應外鍵等信息。而在人工智能中,不僅需要抽象的概念定義,也需要具體的知識實例數據、數據描述和定義等。在表達知識實例上,知識圖譜具有顯著的優勢。知識圖譜是結構化的語義知識庫,以結構化的形式描述客觀世界中概念、實體及其關系,將互聯網的信息表達成更接近人類認知世界的形式。其基本組成單位是<實體,關系,實體?三元組,以及實體及其相關屬性值對,實體間通過關系相互聯接,構成網狀的知識結構。

為了構建知識圖譜得到<實體,關系,實體?三元組,離不開實體關系抽取技術。實體關系抽取是自動識別實體之間具有的某種語義關系的技術,一般指的是二元關系,即兩個實體之間的關系,也可以是已知關系類型和其中一個實體找出另一個實體。根據所抽取的關系的類型是否預先限定,分為限定域關系抽取和開放域關系抽取。限定域關系抽取中實體關系類型是預先設定的有限個類別,一般是結構化信息中屬性關系,因此也稱屬性關系抽取(Attribute Relation Extraction)或者模板關系(Template Relation)抽取[2]。開放域關系抽取[3]則不限定關系抽取的類別,使用實體對上下文中的一些詞語來描述實體間的關系,因此也稱開放信息抽取(Open Information Extraction)或者信息抽取[4](Information Extraction)。

1 專利申請現狀

本研究以全球和中國范圍內的專利數據為數據源,對實體關系抽取技術領域的專利進行檢索,數據庫為CNABS 和DWPI 專利數據庫,結合人工篩選和數據標引,得到公開日為2021 年8 月1 日之前的專利文獻共7 202 篇。針對上述專利文獻,從發展趨勢、主要專利申請人分析以及重要專利等角度對知識圖譜中實體關系抽取技術專利進行總體分析。

1.1 全球/中國申請態勢分析

從申請量的趨勢來看(見圖1),全球范圍內在1987 年已有相關研究,2003 年增長曲線開始抬頭,我國該技術的發展從1997 年開始起步,基本同步于1996年舉行的MUC-6(包含關系抽取任務)的評測會議,2014年增長曲線開始上揚。與全球申請量相比,我國對該技術的研究起步較晚,落后于世界10 年左右。但隨著國內研究學者的持續研究和國外對國內市場的重視,我國在該領域的申請量與全球申請水平呈現追趕態勢。并且從申請量的趨勢來看,該技術還處于增長期,尤其是2015 年之后,該技術增長曲線呈指數式增長(注:2021 年該領域申請量急轉直下,是由于2021 年的有些專利申請數據還未公開)。

圖1 實體關系抽取領域的全球和中國申請量

1.2 全球/中國主要申請人分析

如表1 所示,全球前十位主要申請人中美國占三席,分別是IBM、微軟和谷歌,中國占七席,分別是中國平安保險、百度、中國科學院、騰訊、國家電網、阿里和華為。IBM 擁有專利數據最多,撤駁率最低授權率最高,被引度最高,這些指標都表明IBM 具有卓越的創新實力和專利保護意識。中國平安保險在數量上僅次于IBM,專利有效度高,但是平均生命周期較短(1.9 年),授權特征度較高,創新能力強,專利保護力度待提升。百度作為以搜索、問答等自然語言處理為主業的企業,在知識圖譜構建中技術創新優勢顯著,專利數量僅次于IBM和中國平安保險,專利有效度高,授權特征度合適。中國科學院中計算所、自動化所、軟件所都有實體關系抽取的相關研究團隊,也非常重視專利申請,申請數量也非常可觀,但專利度較小,授權特征度大,創新保護力度有待提高。騰訊作為自驅力強、注重自我更新進步的企業,其在實體關系抽取領域的技術研發投入也不小,專利有效率高,授權專利度適中。國家電網非常重視專利申請,申請數量排第六,但是撤駁率較高,授權率較低,授權特征度高,授權專利度小,保護力度不夠。微軟作為優秀的跨國企業,在專利保護上也非常優秀,專門成立了微軟技術許可責任有限公司用于更好地保護專利創新,其在授權專利度、授權特征度、同族數方面都是做得最好的,授權率上僅次于IBM 和谷歌。阿里巴巴的專利有效率高,授權專利度和特征度適中,授權率高;華為非常重視專利申請和保護,常年穩居專利申請榜第一名,在實體關系抽取領域也有較多技術積累,是排名前十的申請人中生命期最長的(10 年),質量度也最高。谷歌的專利度最大,授權專利度和特征度上僅次于微軟,與微軟相比,具有同樣優秀的專利保護能力(注:專利度指授權時保護專利權項的個數,該指標越大越好;特征度指授權獨立權利要求中技術限制特征數,該指標越小越好;撤駁率和授權率分別指撤回駁回總量和授權量占該申請人專利申請總量的比值,撤駁越少授權越多越好;生命期指申請日至付費結束;同族度指平均同族數,被引度指平均被引用篇數;被引影響度指被引用申請的平均影響數)。

表1 前十申請人的專利實力情況對比表

1.3 全球/中國主要申請人分析

為了找到本領域中具有重要技術價值的專利,對全球7 202 篇專利的具體特征進行分析,綜合考慮專利質量和專利影響力,也即將兩個參數的加和得到的評分作為評價指標,找到最有價值的10 件專利,如表2所示。

表2 最具專利價值的前十篇專利文獻對比表

對這10 篇專利文獻進行分析,可以看出:IBM在其中占據6 篇,超過一半以上的比例,展示了雄厚的技術實力,中科院有2篇,華為、騰訊各有1篇,說明中科院在科研實力上具有一定的競爭優勢,華為、騰訊都有各自的知識圖譜數據庫,因此在該領域上同樣非常具有話語權。這10 篇中授權專利有5 篇,時間跨度為2003—2014 年,如果國內企業想要布局海外市場,上述具有影響力的專利要引起足夠重視。同時,上述10 篇重要專利并非都處于有效狀態。有效狀態的專利可以注意其保護期限,公開狀態的專利可以注意其后續的審查結論。上述專利并不都具有中國同族,因此對更加重視國內市場的創新主體而言,可能并不需要太關注那些沒有中國同族的專利。

2 技術演進

實體關系抽取技術的發展受到了技術競賽的推動。消息理解會議(Message Understanding Conference,MUC)[5]的第6 年(1996 年)提出了最早的實體關系抽取任務:模板元素(Template Element,TE),識別三種限定關系。2000 年后美國國家標準技術研究院(NIST)組織的自動內容抽取(Automatic Content Extraction Evaluation,ACE)代替MUC 繼續實體關系抽取的評測,并將關系類型推廣到7 個大類和18個子類。2009年開始,ACE被歸為文本分析會議(Text Anylysis Conference,TAC)[6],人們認識到關系抽取是知識庫構建的關鍵環節,將關系抽取作為知識庫構建(Knowledge Base Population)的子任務槽填充任務(Slot Filling),關系類型增長到40 種。現在TAC-KBP 評測仍然是知識圖譜領域非常權威的評測。與MUC 同樣推動關系抽取技術發展的還有從1998 年舉辦的語義評測會議(SemEval)[7],成立至今,也一直都有關系抽取相關的任務。

在上述技術評測的推動下,形成了一些知識圖譜的雛形系統。限定域實體關系抽取的代表性成果有卡內基梅隆大學(CMU)Mitcehll 教授團隊于2010 年開發出的一套自學習系統NELL(Never-Ending Language Learner)系統,微軟亞洲研究院2012 年推出的一套旨在讓機器更好理解人類交流的概念知識圖譜Probase 即Concept Graph 的前身以及谷歌公司的知識圖譜Google Knowledge Graph(2012)和Knowledge Vault(2014)。其中NELL 是卡內基梅隆大學基于“Read the web”項目開發的一套永不停歇的語言學習系統,每天不間斷地執行兩項任務:閱讀和學習,可以抽取大量的實體關系三元組,并標注抽取的迭代次數、時間以及系統置信度等。Knowledge Vault 是Google 于2014 年創建的一個大規模知識圖譜,相較于Google 2012 年基于Freebase 的知識圖譜版本Google Knowledge Graph,Knowledge Vault 不再采用眾包的方式進行圖譜構建,而是通過算法自動搜集網上信息,通過機器學習方法對已有的結構化數據進行集成和融合,將其變成可用的知識。國內也產生了一些知識圖譜:2012 年公開的搜狗知立方、2013 年公開的百度知心,還有2017 年亮相TAC-KBP 評測的騰訊Top-Base,TopBase拿下了當年該項評測的冠軍等。

隨著對限定域關系抽取的研究,研究學者發現限定關系抽取存在的局限性。由于自然語言的多樣性和豐富性,導致關系類型是無法窮盡或者有些很難預先定義關系類型,因此提出了另外一種思路,即不事先定義關系類型,而是使用實體對上下文中的一些詞語來描述實體間的關系。華盛頓大學的人工智能研究組分別于2007 年陸續推出多款開放域關系抽取系統:TextRunner(2007 年)、Kylin(2008 年)、WOE(2010 年)、ReVerb(2011 年)等系統,以及知識圖譜YAGO。其中TextRunner 和ReVerb 系統是KnowItAll 項目中的兩個代表系統,ReVerb是TextRunner的升級版本。

3 結語

通過以上分析,在實體關系抽取領域,我國相較全球起步較晚,但技術追趕之勢迅速,雖與IBM等尚有一定差距,但目前在該領域已經有足夠的技術積累,至少有七家科研機構或者企業具有與美國強企IBM、谷歌和微軟相競爭的實力。盡管IBM 仍是該領域非常具有優勢地位的國際企業,但是通過中國平安保險、BAT 等企業的努力,我國在該領域也非常有話語權,尤其從騰訊的知識圖譜產品在國際比賽中取得的優異成績來看,我國的技術實力處于世界領先水平。

猜你喜歡
數據庫
數據庫
財經(2017年15期)2017-07-03 22:40:49
數據庫
財經(2017年2期)2017-03-10 14:35:35
兩種新的非確定數據庫上的Top-K查詢
數據庫
財經(2016年15期)2016-06-03 07:38:02
數據庫
財經(2016年3期)2016-03-07 07:44:46
數據庫
財經(2016年6期)2016-02-24 07:41:51
數據庫
財經(2015年3期)2015-06-09 17:41:31
數據庫
財經(2014年21期)2014-08-18 01:50:18
數據庫
財經(2014年6期)2014-03-12 08:28:19
數據庫
財經(2013年6期)2013-04-29 17:59:30
主站蜘蛛池模板: 日韩精品无码免费一区二区三区 | 国产成人综合亚洲欧美在| 狠狠做深爱婷婷久久一区| 无码综合天天久久综合网| 中文字幕亚洲第一| 91麻豆久久久| 亚洲成人在线网| 全部免费特黄特色大片视频| 99这里只有精品免费视频| 91小视频在线播放| 亚洲国产欧洲精品路线久久| 国产精品亚欧美一区二区三区| 99热精品久久| 色婷婷视频在线| 中文字幕在线看视频一区二区三区| 国内精自视频品线一二区| 婷婷综合亚洲| 伊人天堂网| 一区二区无码在线视频| 毛片网站在线看| 青青草原国产精品啪啪视频| 91在线精品免费免费播放| 午夜影院a级片| 亚洲91精品视频| 欧美一级色视频| 国产a网站| 女人18毛片久久| 亚洲中文字幕在线观看| 91久久性奴调教国产免费| 欧洲免费精品视频在线| 国产午夜福利片在线观看 | 性激烈欧美三级在线播放| 国产在线98福利播放视频免费| 99热线精品大全在线观看| 2020久久国产综合精品swag| 波多野结衣AV无码久久一区| 精品国产免费观看一区| 国产一级毛片网站| 日韩免费成人| 亚洲av无码人妻| 亚洲激情99| 亚洲无码一区在线观看| аⅴ资源中文在线天堂| 无码福利日韩神码福利片| 日韩成人免费网站| 亚洲国内精品自在自线官| 91美女在线| 日韩欧美国产三级| 欧美国产在线精品17p| 亚洲欧美在线综合一区二区三区| 97色婷婷成人综合在线观看| 久久久久亚洲Av片无码观看| 国产爽爽视频| 先锋资源久久| 亚洲无码高清视频在线观看 | 青草视频免费在线观看| 极品国产在线| 精品小视频在线观看| 国产玖玖玖精品视频| 亚洲AⅤ综合在线欧美一区| 色老头综合网| 97se亚洲综合| 精品久久久久成人码免费动漫| 九九热这里只有国产精品| 国产欧美自拍视频| 高清码无在线看| 亚洲欧美自拍中文| AV无码无在线观看免费| 国产高清在线丝袜精品一区| 波多野吉衣一区二区三区av| 中文字幕波多野不卡一区| 免费日韩在线视频| 一级毛片基地| 亚洲国产成熟视频在线多多| 亚洲视频免费播放| 国产免费福利网站| 亚洲婷婷丁香| 亚洲大学生视频在线播放| 欧美亚洲一二三区| 国产成人91精品免费网址在线| 婷婷午夜影院| 狼友视频国产精品首页|