999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于專利分析的技術樹構建

2020-09-16 13:29:19李健博張麗瑋
科學與信息化 2020年14期
關鍵詞:文本挖掘

李健博 張麗瑋

摘要:技術樹是用來表示某一領域中產品組成,技術和技術功能之間關系的樹形圖。本研究的目的是使用計算機相關技術,多維度地、快速地構建產業技術樹。本研究主要使用自然語言處理技術提取專利文本中的主體一動作一客體結構(SAO),然后使用數據挖掘技術對上述結構分類、處理、標注,最終構建技術樹。本文使用“捕獲碳(吸附和溶劑)”專利數據集構建了產業技術樹,并從產品、技術和功能的視角分別展示了技術樹的特征。

關鍵詞:文本挖掘;自然語言處理;技術樹;SAO結構

引言

技術樹是用來表示特定技術領域或單體組織中技術特征及技術間關系的樹結構圖,通常包含某特定技術領域的產品組件、技術以及技術的功能及其使用效果之間關系的樹形結構圖,是技術規劃的重要決策工具。通過技術樹的構建,用于幫助技術管理人員梳理并展示企業的技術體系架構,助力于企業技術戰略決策的制定。

目前,對于技術樹的構建常用的主要有兩種方法,分別是基于TRIZ理論中的技術進化樹理論進行構建和通過提取技術、產品等相關信息,根據原始信息的邏輯結構進行技術樹的構建。上述研究成果已經取得了一定的成果,但由于技術樹構建很大程度上依賴專家和構建者的知識和經驗,從而存在人為主觀性強、自動化差等問題。

針對上述問題,本研究使用文本挖掘和自然語言處理技術對專利進行,實現自動化技術樹構建研究,從而對企業技術結構進行多維度展示。其中,具體流程框架如圖1所示:

1技術樹構建

本文使用文本挖掘和自然語言處理技術對專利文獻進行深入解讀和分析,提取SAO結構,并對A0結構分類、標注等,最終構建技術樹。

1.1提取SA0結構

提取SAO結構的步驟包括:篩選專利數據,抽取SAO結構。

①選擇專利語料。針對需要研究的企業,確定檢索式,檢索獲取其相關專利文獻。為確保研究的有效性,本文選取“摘要”和“權利要求書”作為分析語料,進行SAO結構的抽取。

②抽取SAO結構

提取SAO結構主要依賴自然語言處理技術,在此之前需要先對文本進行預處理,包括分句、分詞、去除停用詞、詞性標注、依存句法分析等操作,從而提取SAO結構,如圖2所示。

1.2深度標注SA0結構

在提取和分類SAO的基礎上,對s和AO進行標注。詞組包括產品、技術、技術屬性和材料類型,AO包括從屬類型、功效類型和屬性優化。

(1)衡量SAO結構相似度

提取的SAO結構數量眾多,其中包含很多意思相似的詞組和短語,例如“二氧化碳的回收”、“分離C02”、“除去二氧化碳”,因此需要將他們聚類,并且用更具代表性的詞語標記他們。

本文使用機器學習中第三方模塊sklearn(Scikit-learn)中的TfidfVectorizer將文本轉化為向量,然后用向量的余弦值表示SAO相似度。

提取的SAO結構具有以下特征:可能有很多無效數據,而且無法提前獲知聚類的簇的數量。基于密度的聚類算法不需要指定簇的數目,而且能夠識別噪聲數據,所以本文使用DBSCAN聚類算法對短語和AO分類。

(2)s和0的類型標注

根據聚類的結果將s和0標注為四種類型,包括產品、技術、技術屬性和材料(表1)。

(3)A0類型標注

根據聚類的結果將AO標注為三種類型,包括從屬類型,功效類型和屬性優化。(表3)

1.3構造技術樹

技術樹的類型及構造方法

相應的,技術樹可以分成“產品”技術樹、“技術”技術樹和“功效”技術樹。

“產品”技術樹表示產品和組成產品的部件之間的關系,技術樹的節點是被標記為產品的詞組,例如“吸收劑”由“循環流化床反應器”、“埋管式換熱器”等組成,如圖3示。

“技術”技術樹表示產品和組成產品的部件之間的技術關系,技術樹的節點可以是被標記為技術類型的詞組或者是描述技術屬性的AO結構。

“功能”技術樹表示產品或技術的功能和功能之間的關系,技術樹的節點是描述產品或技術功能的AO結構。

2實證研究

為確保上述研究結果的準確性和有效性,本文應用“碳捕獲”領域的專利數據構建技術樹,驗證本文提出方法的可行性。

2.1SAO結構抽取和標注

本研究使用哈工大自然語言處理工具ltp進行語義依存分析,結合語法規則,使用Python~言編寫程序提取SAO結構。程序處理“中國石油化工股份有限公司”的數據集得到331個SAO結構,部分數據見表3

然后,使用基于向量空間模型的TF-IDF將SAO結構轉換成向量,使用DBSCAN聚類算法對短語和AO分類并標注類型。

2.2技術樹構建與分析

本實驗構建了一個程序,其使用了Python的Pandas庫從SQL Server取出標記好的SAO結構,然后使用Python的繪圖庫Matplotlib將技術書畫出來,保存成圖片。該程序生成了三種類型的技術樹圖,包括“產品”技術樹、“技術”技術樹和“功能”技術樹,分別如圖6、圖7和圖8所示。

(1)“產品”技術樹

一種脫除混合氣體中H2s、CO2和有機硫的固體吸附劑”的“產品”技術樹。(圖6)

(2)“技術”技術樹

“一種聚對苯二胺/石墨烯基氮摻雜多孔碳材料制備方法”構建的“技術”技術樹。

(P代表產品節點、T代表技術節點)

(3)“功能”技術樹

“離子液體的二氧化碳吸收劑”構建的“功能”技術樹。(圖11)

(F代表功能節點)

3結束語

本研究彌補了傳統方法構建專利技術樹的不足,如提高技術樹構建速度,降低對專家知識的依賴,減少工作量,多視角展示技術樹等。本研究以“碳捕獲”專利數據集為例,構建并分析了不同種類的技術樹。

猜你喜歡
文本挖掘
基于貝葉斯分類器的中文垃圾短信辨識
科技資訊(2017年5期)2017-04-12 15:18:52
基于潛在特征的汽車評論要素挖掘
基于評論信息的淘寶服裝類評分體系優化
商情(2016年32期)2017-03-04 00:27:28
數據挖掘技術在電站設備故障分析中的應用
軟件導刊(2016年12期)2017-01-21 15:55:21
基于LDA模型的95598熱點業務工單挖掘分析
文本數據挖掘在電子商務網站個性化推薦中的應用
商(2016年34期)2016-11-24 16:28:51
從《遠程教育》35年載文看遠程教育研究趨勢
基于文獻的中西醫結合治療腦梗死藥物使用情況分析
基于改進Hadoop云平臺的海量文本數據挖掘
慧眼識璞玉,妙手煉渾金
主站蜘蛛池模板: 高清无码手机在线观看| 在线观看国产精美视频| 高清不卡一区二区三区香蕉| 国产黑丝一区| 国产日韩欧美一区二区三区在线| 99在线观看免费视频| 福利国产在线| 国产成人无码久久久久毛片| 亚洲第一极品精品无码| 超碰aⅴ人人做人人爽欧美| 91黄视频在线观看| 国产鲁鲁视频在线观看| 亚洲国产精品日韩专区AV| 在线播放真实国产乱子伦| 欧美日韩精品一区二区视频| 久久综合亚洲鲁鲁九月天| 亚洲综合精品香蕉久久网| 一区二区午夜| 国产精品精品视频| 国产极品粉嫩小泬免费看| 美女黄网十八禁免费看| 国产91熟女高潮一区二区| 91精品啪在线观看国产60岁| 国产在线97| 久久人人97超碰人人澡爱香蕉| 视频二区中文无码| 亚洲一区网站| 久久天天躁狠狠躁夜夜躁| 久久久久久久久18禁秘| 欧美一级高清视频在线播放| 欧洲日本亚洲中文字幕| 国产精品手机在线播放| 免费无码网站| 国内自拍久第一页| 欧美不卡视频在线观看| 欧美午夜理伦三级在线观看| 亚洲第一天堂无码专区| 日韩色图区| 天天色综网| 日本草草视频在线观看| 香蕉eeww99国产精选播放| 一区二区在线视频免费观看| 久久精品无码中文字幕| 亚洲国产成人综合精品2020| 亚洲欧美自拍一区| 色综合综合网| a欧美在线| 国产系列在线| 波多野结衣亚洲一区| 亚洲人成在线精品| 国产69精品久久久久孕妇大杂乱| 国产在线麻豆波多野结衣| 欧美一区二区自偷自拍视频| 综合网天天| 午夜a视频| 国产小视频网站| 91无码网站| 国产正在播放| 91久久偷偷做嫩草影院| 无码一区18禁| 福利在线不卡一区| 久久中文字幕av不卡一区二区| 日韩精品久久久久久久电影蜜臀| 毛片网站免费在线观看| 91综合色区亚洲熟妇p| 国产视频入口| 久久久久久久久18禁秘| 久久午夜夜伦鲁鲁片无码免费 | 精品乱码久久久久久久| 国产欧美成人不卡视频| 色婷婷狠狠干| 玖玖免费视频在线观看| 人妻无码中文字幕一区二区三区| 91福利在线观看视频| 91视频首页| 欧美精品色视频| 国产精品无码制服丝袜| 91视频首页| 毛片网站在线播放| 国产产在线精品亚洲aavv| 特级aaaaaaaaa毛片免费视频| 黄色网在线免费观看|