999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于決策樹算法的專利發明人姓名消歧研究

2023-12-29 00:00:00孫笑明余武憬任若冰熊旺王雅蘭
科學與管理 2023年4期

摘要:為了實現高質量的數據清洗,提升專利數據構建網絡的準確性,發明人的姓名消歧已經成為目前國內外眾多研究者重視的關鍵性問題。本文根據中文姓名的特殊性,選取專利數據中分層抽樣采集到的400個姓名對,使用半監督學習算法,以特征向量(如分類號相似度)為信息提取源,構造基于決策樹C4.5算法的分類模型,識別姓名歧義問題,并對分類模型的準確率與可靠性進行了評估。以國內通訊行業專利數據為實例的研究表明:采用該分類模型進行清洗能夠有效提升數據清洗的效率和精確度。

關鍵詞:發明人;姓名消歧;半監督學習;決策樹C4.5

中圖分類號:G354.2 文獻標識碼:A DOI:10.3969/j.issn.1003-8256.2023.04.011

0 引言

近年來,數字經濟作為中國經濟發展最活躍的因素之一,為推動數字產業化快速發展和產業數字化轉型必須精準做好分析網絡數字資源的工作[1]。而專利既是網絡數字資源的重要組成部分,也代表著技術創新的發展趨勢,是各領域企業需要不斷挖掘的數據信息。一方面,專利數據是保障,誰能掌握這類數據并進行準確分析,誰就能夠明確科技情報的先機。另一方面,專利文獻中包含了技術、經濟、法律以及科學研究等多種類型的綜合性信息[2]。通過對其進行深入研究能夠大致了解企業發展的動向與發展所存在的問題,掌握企業的合作關系、企業的供應鏈關系以及企業的創新績效,因此專利信息對于企業的研究來說十分重要。

隨著以5G、物聯網等通信網絡基礎設施和數據中心、智能計算中心為代表的計算基礎設施的建成,云計算、人工智能、區塊鏈等新一代信息技術的運用逐漸成熟,為專利等數字化信息的多個數據服務平臺提供了技術支持[3]。目前,國內外已經建立了多個專利數據服務平臺,如Patsnap、Patent Star Search System、DerventInnovation、PATLAB、Google Patent Search等。除了這些專門服務于專利數據的平臺外,復合型圖書館為能夠積極促進數字化轉型在以后的發展中也不可避免地需要加入專利的分析[4]。據統計,在2021年初商用專利檢索數據庫中全球專利數據總量已超過1.5億條[5],從中能夠發現科技大數據不僅更新速度非常快,同時數據體量龐大,而作為這類數據代表的專利數據更是具備分析價值高、關聯信息類型多的特征[6]。在這之中,企業專利是技術創新和研發投入形成的重要成果呈現,而專利發明人作為重要的研發人員,決定著企業的最新技術動態和戰略方向,能夠對企業的創新績效產生重要的影響[7]。合理使用專利數據中的發明人信息可以為企業進行人才戰略制定[8]、情報技術分析[9]及組織網絡動態變化特征[10]等方面的研究貢獻價值。因此,精確的發明人數據是以上研究分析的基礎,在享受基于專利數據分析所帶來的思想創新之余,怎樣能夠消除有歧義的數據,使得有效查找、收集信息成為了一個需要考慮的問題。

信息資源伴隨著互聯網技術的發展呈現出爆炸增長的趨勢,發布信息的速度不斷加快,任何人都能夠利用網絡發布各類與身份有關的信息,如何快速且準確地從主流人物信息中得到自己想要的數據,成為獲取知識的重要目標。通常人們選擇姓名作為查找信息的關鍵點,名字作為不同實體的代號是最簡單可取的檢索方式。但在現實情境下,用戶想利用搜索引擎僅僅通過簡單的名字查找就準確鎖定需要找尋的對象信息并不容易,這就導致他們需要花費更多的時間從返回的信息中篩選出自己感興趣的那部分數據。曾有一項調查報告結果表明姓名數量對應超出其數倍的實體數量[11],普遍存在的重名現象增加了查找信息的困難程度。一些不準確的姓名信息會影響專利數據的穩定性[10],并對研究結果產生一些不利影響[12],因此有必要將專利數據中這些存在歧義的姓名信息進行識別并消除。目前,國外對于怎樣清洗姓名數據的研究已較為成熟,但漢字與英文的命名和組成規律并不相同,因而研究所提供的方法不能達到成功清洗和消除歧義的目的[13]。

為了克服上述研究的不足,本文考慮如果把最初需要進行名字消歧的數據在每一次篩選中按照一定條件逐步分析,到最終完成篩選流程時會不會達到效率高且經過多輪的數據匹配專利發明人姓名消歧成功率較高的效果。基于決策樹算法的應用為此目標的達成提供重要思路。決策樹算法研究已經較為成熟,且以數據分析效率高、邏輯簡單易懂的特點被廣泛應用于機器學習[14]、知識發現等領域,并在這些領域中都起到了節省成本和提高效率的作用。因此基于決策樹思想,本文主要基于專利數據中的發明人信息,在劉斌等[15]研究的基礎上,從中文姓名的特殊性出發,采用機器學習中半監督學習的算法從各企業中分層抽樣篩選出發明人姓名歧義集合。之后,引入發明人姓名、合作者、專利分類號等特征屬性作為姓名消歧的信息提取源進行分析,用特征屬性值構造基于決策樹C4.5算法的識別是否存在姓名歧義的分類器模型,并對算法的實施效果進行評估。決策樹分類模型提供一種在解決非線性分類問題的情境下識別姓名歧義的方法,彌補了使用logistic回歸模型擬合效果不足的缺陷,大大提高了專利數據姓名消歧的準確率和數據清洗的穩定性。

1 文獻回顧

1.1 姓名消歧方法相關研究

采用實體語義表達存有的不清晰以及數據容量隨網絡流行詞語不斷增多,為辨別實體歧義帶來了很大的挑戰。通常有兩種類型的實體歧義[16]:第一種是多詞同義,意味著多個詞代表相同的含義;第二種則為一詞多義,指的是同一個詞組可以指代許多不同的物體。發明人姓名消歧是消除實體歧義中的重要應用,在專利等大數據分析中具有重要的意義。例如,在專利檢索時,研究者需要在文獻庫中查找名為“張寬”的發明人的專利,但是由于這一詞組對應著很多不同的實體,系統會返回其所查找到的“張長寬”“張見”等所有相似詞組的專利數據,這樣的數據會大大降低搜索結果的有效性和準確性,進而影響分析的結果。因此,作者姓名歧義問題成為近年來研究人員的研究熱點之一。

專利發明人的姓名消歧方法在國外的研究已有很多資料能夠參考[17]。Melamed等[18]使用soundex算法,將發明人姓名進行標準化處理轉化為字母代碼,依據每個發明人所擁有的專利數量為其賦予權重,然后根據權重進行相應的分數匹配來識別姓名歧義問題;Fleming 等[19]在Torvik 和Smalheise[20]姓名匹配算法的基礎上進行改進,利用貝葉斯算法從美國專利數據庫中對發明人姓名進行唯一化處理,通過對發明人合作網絡的屬性(如姓氏出現的頻率、發明人的居住地址和發明人合作者相似度等)設置閾值來識別姓名歧義。但中英文在發音、書寫以及姓氏、名字的文化背景等方面存在較大差異,所以國外研究中的姓名消歧方法并不能適用于中文專利數據的清洗[21]。目前國內對于專利數據姓名消歧的研究較少[22],比較典型的有:劉嘉等[23]首先將中文字符串轉化為英文,基于Token 匹配算法進行中文數據清洗,大大提高了數據清洗的準確率。但其匹配算法并不僅針對中文數據,在處理較短的中文姓名時存在一定誤差。郭舒[24]主要針對文獻數據庫,結合對文獻信息的文本挖掘,提出一種有效的姓名消歧算法。但此算法主要基于文獻數據庫,使用標題及出版物數據進行實證研究,其消歧效果具有一定的局限性,并不能完全用于專利數據中。劉斌等[15]首先使用專利數據,從漢語拼音庫和四角碼庫篩選出可能存在歧義的發明人姓名對,然后引入發明人、合作者及專利分類號等特征屬性,通過建立logistic模型進行回歸擬合對其模擬權重進而計算出發明人姓名對的綜合相似度,最后對綜合相似度確定一個閾值以識別是否存在姓名歧義并進行消除。

綜上所述,雖然利用logistic回歸擬合的方法進行二分類的判別不需要提前對數據分布做出任何概率上的假設,但是其主要適用于線性分類問題,且對數據分布較為敏感,判別的結果也不穩定,不能準確識別出是否存在姓名歧義。當遇到非線性分類問題時,每個網絡屬性之間并沒有明確邊界劃分,如果僅憑一個綜合閾值來判別發明人之間是否存在姓名歧義,這會影響回歸擬合的結果和分類結果的準確性,所以在算法層面還有進一步優化與改進的必要。同時劉斌等[15]并沒有對回歸模型的實施效果如模型的準確率以及實施速度等指標進行評估,所以在實驗深度層面也有完善的必要。如果在上述特征屬性的基礎上將其組合起來,通過一個非線性分類函數算法對特征屬性分別設置閾值進行多層級分類,從而克服logistic回歸模型僅適用于線性分類的缺陷,或將提高姓名消歧的穩定性及準確率,提升專利數據清洗的效率。

1.2 決策樹算法的相關研究

目前,計算機算法領域的研究成果頗豐,其中有一些算法可以借鑒并運用于管理類研究,比如決策樹算法。決策樹由于效率高、誤差小而被廣泛應用于分類問題[25]。在決策樹中,內部分支節點代表一種條件特征[26],葉子節點代表一種決策特征或分類結果。該算法通常根據計算出的熵值大小選擇樹的分支節點,并根據分支節點的情況進行數據訓練。目前,C4.5算法簡單高效,可以有效處理大數據。這類算法是一種常被用于對文本信息分類的規則算法,通常是由兩部分所組成。一為生成樹,起初所有的數據都積累于樹的根部節點上,然后需要依據測試特征進行參數的選擇設置并以不同的測試特性將數據逐一分隔;二為修剪枝,需要從構建的樹中刪去一些不尋常或者錯誤的數據,使得所生成的決策樹能夠更加貼合信息數據的分類需求。

對于怎樣有效構造決策樹,最早是由Quinlan[27]在1986年所提出的ID3算法,這是最具深刻影響的決策樹算法,該算法的基礎為信息熵。此后該類算法的研究大部分是在此基礎上所進行的改進,比如本文所運用到的C4.5 算法,是在ID3 的基礎上增加了對連續屬性的離散化并且還能夠對未知屬性進行處理。其核心思想是利用屬性的信息增益率,將該值最大的屬性作為決策樹分枝的分類屬性,逐一往下按順序完成分枝的構造,最終呈現出完整的數據分析模型。由于該算法具有不需要使用人了解很多背景知識的特殊優勢[28],C4.5算法已經在金融、保險等各個領域發揮了作用。信息增益是一種在文本中進行特征選擇時所常用的算法[29]。在文本分類領域,信息增益的計算是針對每個特征項而言的,對于該值的測量通過信息熵與條件熵所確定。研究人員通常將信息熵作為信息量不確定程度的度量[30]。如果隨機變量(X)變化得較多,那么通過該隨機變量所能接受到的信息就會越多。同時,將條件熵定義為通過觀察另一隨機變量(Y)而得到X的不確定程度。信息熵與條件熵的差值即為信息增益,表示去除不確定性后所得到的信息量。通過信息增益的計算能夠明確某一特征在一類信息文本中貢獻的信息量,若某一特征項的信息增益值越大則表明對于分類也更加重要,因而將這些貢獻信息量較大的特征選取出來用于決策樹分枝的構建可以提高分類效率。

然而,隨著不斷加大訓練樣本集中的樣本數量,需要不斷地增加把這些樣本移入再移出主存中的時間,這會嚴重地影響算法的效率。因此,對于決策樹算法研究中,使該算法能夠有效處理大規模訓練樣本集成為一個的重要問題,而該問題目前也是國內決策樹算法研究的熱點。目前已有很多關于決策樹C4.5算法的優化調整,比如利用Fayyad和Irani的邊界定理對連續屬性進行離散化[31],并在離散化之后用Gini指標代替信息熵對算法進行了化簡[32],從而提高了C4.5算法的計算效率。綜上所述,目前對于決策樹算法的研究已較多,大部分研究C4.5算法的案列中是將其作為原因查找的方法,而在大數據分析方面的運用,特別是對于姓名消歧研究,當前研究文獻還較少。因此本文擬將決策樹算法和姓名消歧結合起來,補充姓名消歧研究和決策樹運用研究。針對目前網上紛繁雜亂的數據,為快速找到和數據分析所匹配的人物信息可通過設計與尋求信息相關的多個關鍵字詞,逐一進行排序和比對,最終經過篩選留下最符合研究需要的數據。

2 基于決策樹C4.5 算法的發明人姓名消歧方案的步驟

本文所設計的消歧方案主要針對發明人姓名之間由于形近字和同音字產生的歧義問題,根據漢語拼音轉換數據庫與四角碼轉換數據庫中文姓名獨有的特性,在劉斌等[15]設計的專利數據發明人姓名消歧方法的基礎上,提出了一種基于決策樹C4.5算法的分類器模型來識別是否存在姓名歧義。設計這一算法考慮到各方面實用性,主要從以下幾個方面展開:首先,從初始專利數據庫,即漢語拼音轉換數據庫和四角碼轉換數據庫中找出存有姓名歧義的集合。其次,依據信息增益最大原則將專利數據所涵蓋的特征屬性進行計算,明確能夠用于決策樹分類的特征屬性。最后,設置決策樹分類特征屬性的閾值,構建決策樹分類模型對產生歧義的人名對逐步判斷其是否存在歧義。其算法流程圖參見圖1。

主站蜘蛛池模板: 亚洲精品午夜无码电影网| 热这里只有精品国产热门精品| 全部无卡免费的毛片在线看| 欧美人人干| 成人免费午夜视频| 亚洲欧美不卡中文字幕| 亚洲视频黄| 国产亚洲精久久久久久久91| 久久久受www免费人成| 午夜视频在线观看免费网站| 国产网站免费| 九九热免费在线视频| 久久福利网| 中文字幕 欧美日韩| 亚洲人成网站色7799在线播放| 精品91在线| 在线日韩日本国产亚洲| 久久人人妻人人爽人人卡片av| 91亚洲精品国产自在现线| 日韩在线中文| 国产v精品成人免费视频71pao | 亚洲国产精品人久久电影| 激情综合图区| 六月婷婷综合| 亚洲看片网| 欧美日本中文| 青青青国产在线播放| 国产午夜精品鲁丝片| 日本三级黄在线观看| 免费va国产在线观看| 欧洲在线免费视频| 欧美精品三级在线| 91极品美女高潮叫床在线观看| 日韩最新中文字幕| 欧美亚洲香蕉| 亚洲成人在线网| 亚洲国产欧美国产综合久久| 久久窝窝国产精品午夜看片| 国产极品美女在线播放| 97精品伊人久久大香线蕉| 午夜不卡视频| 欧美亚洲一区二区三区导航| 高清无码手机在线观看| 欧美a在线视频| 国产成人综合网| 日本福利视频网站| 亚洲人妖在线| 狼友视频一区二区三区| 国产v精品成人免费视频71pao| 亚洲首页在线观看| 日韩在线2020专区| 片在线无码观看| 性视频一区| 制服丝袜一区| 欧美国产综合色视频| 久久精品无码国产一区二区三区| www.99在线观看| 国产精品欧美在线观看| 国内精品视频在线| 亚洲视频二| yjizz视频最新网站在线| 91在线精品麻豆欧美在线| 亚洲 欧美 中文 AⅤ在线视频| 手机成人午夜在线视频| 国产专区综合另类日韩一区| 欧美一区二区自偷自拍视频| 在线视频97| 91激情视频| 日韩成人高清无码| 波多野结衣视频网站| 在线视频精品一区| 麻豆精品国产自产在线| 国产在线98福利播放视频免费| 国产综合在线观看视频| 日韩无码视频播放| 欧美区日韩区| 午夜日b视频| 亚欧乱色视频网站大全| 亚洲无码视频喷水| 99视频精品全国免费品| 91免费在线看| 无码网站免费观看|