999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于模式匹配的技術競爭事件抽取研究*

2020-07-03 02:49:22李銳張麗瑋
科學與信息化 2020年13期
關鍵詞:模式識別

李銳 張麗瑋

摘 要 文章旨在采用事件抽取方式對新聞中的技術威脅事件進行結構化表達,為進一步情報挖掘提供參考,為企業決策提供依據。本文闡述了識別競爭事件元素,對事件的時間、地點、結果、語言表現進行抽取,獲取多方面多層次競爭情報等內容。

關鍵詞 模式識別;技術競爭事件;事件抽取

緒論

隨著技術水平的不斷提高,企業搜集競爭情報的方式也在發生著變化。面對新聞中描述的企業各類事件都可以看作競爭情報的來源,因此,本文對新聞文本進行事件抽取,重點識別對高新技術企業構成技術威脅的事件,從而有效規避企業技術研發過程中的技術風險。

1相關研究理論

1.1 基于模式匹配的事件抽取

事件抽取分為兩個核心步驟,事件類別的識別和事件元素的識別,抽取方式分為基于模式匹配的抽取和基于機器學習的抽取。基于模式匹配的抽取方式是指根據規則設計模板,根據觸發詞識別事件類別,依據模板進行抽取事件元素。姜吉發[1]提出一種基于概念知識庫的自動獲取模式的方式。鑒于模式匹配抽取方式在特定領域的優異表現,本文定義事件模式,依據模式抽取事件信息,獲取技術威脅事件。21.2技術威脅事件

形式上,技術威脅事件可表示為TRE,定義為一個六元組:TRE=,其中,技術威脅事件六元組中的元素被稱之為技術威脅事件要素,分別為“技術威脅動作”、“技術威脅對象”、“技術威脅時間”、“技術威脅環境”、“技術威脅結果”以及“技術威脅語言表現”[2]。本文借鑒TRE六元組定義一個競爭事件七元組:<時間,地點,主體,動作,對象,結果,語言表現>,并根據該元組進行競爭事件抽取

2事件元素的識別

事件元素識別是事件抽取的又一關鍵任務,由觸發詞識別競爭事件句,對競爭事件句按定義的模式進行元素識別。事件由基本元素進行描述,在競爭事件句中根據<時間、地點、主體、動作、對象、結果、語言表現>一一匹配各元素。首先對每條新聞進行分句、分詞、詞性標注、依存句法分析、語義角色標注。一方面,基于語義角色標注的結果進行事件主體、對象、時間、地點的抽取。另一方面,為每個詞建立依存句法關系字典。當語義角色標注結果為空時,根據事件觸發詞和依存句法關系抽取事件主體和對象,事件的時間、地點和語言表現再單獨抽取。事件結果的抽取范圍擴大到整條新聞。對抽取的時間、地點進一步處理,規范化時間格式為年-月-日,規范化地點格式為省-市-區。總體的技術路線圖如圖1。

本實驗依托哈工大開發的語言技術平臺(Language Technology Platform,LTP)有分詞、詞性標注、命名實體識別、依存句法分析、詞義消歧、語義角色標注的功能。LTP采用了條件隨機場(Conditional Random Field,CRF)進行分詞;用支持向量機加入偏旁部首特征進行詞性標注;使用高階特征采用基于圖的方法和基于柱狀搜索的解碼算法,進行兩階段依存句法分析[3],LTP3.3.0版則加入了聚類特征和優化算法[4];使用最大熵分類器和整數線性規劃的方法進行語義角色標注[3],LTP3.4.0版則在其中加入了Bi-LSTM模型[4]。pyltp是LTP的Python封裝,可以進行分詞,詞性標注,命名實體識別,依存句法分析,語義角色標注[5]。本文運用pyltp對新聞進行分詞,詞性標注,依存句法分析,語義角色標注的處理。

在新浪滾動新聞科技板塊中手動收集了共303篇2020年3月份的新聞,以此新聞集進行實驗。采用前文的方法抽取得到合同類、會議類、政策類、研發類、生產類和經營類6大類38小類事件,共347條記錄,詳情見表1。

從數據庫中可以發現,如合同類事件抽取結果有“拜騰汽車與多家銷售及服務合作伙伴簽約”,會議類事件抽取結果有“美圖公司舉行2019全年業績發布會”,政策類事件抽取結果有“阿里本地生活服務公司宣布組織架構調整”,研發類事件抽取結果有“格力開發測溫儀的模具”,生產類事件抽取結果有“蘋果供應商生產新的入門級AirPodsPro”,經營類事件抽取結果有“阿里巴巴影業收購天津銀河酷娛”。根據各類事件,各類企業可以結合自身戰略,業務和經營方面有效識別“拜騰汽車”,“美圖公司”,“阿里本地生活服務公司”,“蘋果供應商”,“阿里巴巴影業”為競爭對手,并了解競爭事件的時間、地點、結果、語言表現等。企業可以根據具體的競爭對手進一步收集競爭情報滿足情報需求。抽取的實證結果,如表2所示。

通過新聞文本的實際內容與抽取的結果相比較,準確率較高,從而驗證模型的有效性。

4結束語

企業對競爭情報的需求日益上升,本文提出了一個情報獲取的新思路。利用事件抽取技術從新聞中抽取出企業的各類事件,從事件中得到所需的情報。還簡單介紹了對收集到的情報數據庫,進行數據挖掘。本文提出了新思路但是在實際應用中還有許多要完善的部分,比如收集更多的新聞,提高事件抽取的準確性,同一企業名稱的統一化處理實現對單個企業的競爭情報全面挖掘。

參考文獻

[1] 姜吉發.自由文本的信息抽取模式獲取的研究[D].北京:中國科學院研究生院(計算技術研究所),2004.

[2] 張麗瑋.基于專利分析的高新技術企業技術威脅識別研究[M].北京:科學技術文獻出版社,2016:59.

[3] Bao S,Yu Y,Cao Y,et al.Competitor Mining with the Web[J].IEEE Transactions on Knowledge and Data Engineering,2008,20(10):1297-1310.

[4] 許鑫,郭金龍,姚占雷.基于Web文本挖掘的行業態勢分析——以2011上海車展為例[J].圖書情報工作,2012,56(16):25-31.

[5] 劉挺,車萬翔,李正華.語言技術平臺[J].中文信息學報,2011,25(6): 53-62.

作者簡介

李銳(1995-),男,安徽宣城人;學歷:碩士;現就職單位:首都經濟貿易大學管理工程學院,研究方向:競爭情報、文本挖掘研究。

張麗瑋(1981-),女;學歷:博士,職稱:副教授,碩士生導師;現就職單位:首都經濟貿易大學管理工程學院,研究方向:科技管理,文本挖掘研究。

猜你喜歡
模式識別
紫地榆HPLC指紋圖譜建立及模式識別
中成藥(2018年2期)2018-05-09 07:19:52
2019 IEEE計算機視覺與模式識別會議
UPLC-MS/MS法結合模式識別同時測定芪參益氣滴丸中11種成分
中成藥(2017年10期)2017-11-16 00:50:05
淺談模式識別在圖像識別中的應用
電子測試(2017年23期)2017-04-04 05:06:50
第四屆亞洲模式識別會議
基于可拓模式識別的孤島檢測研究
電測與儀表(2016年6期)2016-04-11 12:07:48
可拓模式識別算法中經典域的確定方法
第3屆亞洲模式識別會議
基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識別
電氣設備的故障診斷與模式識別
河南科技(2014年5期)2014-02-27 14:08:35
主站蜘蛛池模板: 亚洲成年网站在线观看| 欧美a在线看| 色综合中文| 国产三级视频网站| 亚洲国产综合第一精品小说| 亚洲无码一区在线观看| AV无码无在线观看免费| 福利在线免费视频| 风韵丰满熟妇啪啪区老熟熟女| 精品成人一区二区| 久久这里只有精品23| 国产午夜福利亚洲第一| 亚洲高清资源| 国产极品美女在线| 青青草国产在线视频| 亚洲AV人人澡人人双人| 国产福利免费在线观看| 曰韩免费无码AV一区二区| 99热国产这里只有精品无卡顿"| 亚洲激情区| 亚洲第一区欧美国产综合| 久久精品人妻中文系列| 伊人久久婷婷五月综合97色| 无码中文字幕精品推荐| 熟女成人国产精品视频| av尤物免费在线观看| 国产偷国产偷在线高清| 操操操综合网| 久热精品免费| 亚洲第一精品福利| 国产精品七七在线播放| 国产精品专区第1页| 丝袜亚洲综合| 青青青国产免费线在| 伊人激情综合网| 免费无码AV片在线观看中文| 91无码视频在线观看| 精品国产免费观看一区| 日韩在线第三页| 最新国产精品第1页| www精品久久| 99久久无色码中文字幕| 国产精品污污在线观看网站 | 国产美女自慰在线观看| 福利在线免费视频| 亚洲综合国产一区二区三区| 精品精品国产高清A毛片| 国产精品真实对白精彩久久| 国产三级韩国三级理| 美女无遮挡免费网站| 激情视频综合网| 国产91精品最新在线播放| 精品成人一区二区三区电影| 国产精品美女网站| 国产黄网永久免费| 亚洲天堂777| 精品视频在线观看你懂的一区| 国产91无码福利在线| 久久精品人妻中文系列| 成人免费网站在线观看| 亚洲综合在线最大成人| 国产菊爆视频在线观看| 亚洲香蕉久久| 自拍中文字幕| 99久久精品国产麻豆婷婷| 亚洲一级毛片免费观看| 好紧好深好大乳无码中文字幕| 97久久精品人人| 日韩精品一区二区三区大桥未久| 青草国产在线视频| 91年精品国产福利线观看久久 | 亚洲av中文无码乱人伦在线r| 无码乱人伦一区二区亚洲一| 被公侵犯人妻少妇一区二区三区| 国产一区二区三区在线观看免费| 亚洲第一中文字幕| 亚洲香蕉伊综合在人在线| 国产剧情国内精品原创| 欧美亚洲第一页| 精品成人一区二区三区电影| 女人18毛片一级毛片在线 | 无码中文字幕精品推荐|