陳國 彭偉軍 付兵蘭 鐘祥永



一、引言
在信息技術快速發展的當下,許多企業為提高效率而加快促進自身數字化轉型,知識圖譜與RPA技術在數字化轉型過程中扮演了重要角色。
RPA即機器人流程自動化,通過界面識別和系統指令來實現對軟件系統的非侵入式操作,能夠替代人工處理重復度高的工作,達到“IT換人,降本增效”的目的。
知識圖譜是一個結構化的語義網絡,通過相互連接的節點來表示知識,目前已廣泛應用于搜索引擎、智能問答以及智能推薦等領域。
RPA發展至今已經融合了多種技術,近幾年,業界更是提出了“超自動化”的概念,即:以流程自動化為核心,融合人工智能(AI)、大數據挖掘等最新技術,實現更加智能的自動化和更加高級的分析與挖掘。然而,知識圖譜在RPA領域的應用較為有限,這是由于RPA具有應用范圍廣、業務場景復雜等特點,使得知識圖譜的搭建和知識獲取存在一定的難度。但是,知識圖譜技術對未來RPA認知智能的發展至關重要,是實現“數智員工”的基礎。因此,構建RPA領域圖譜勢在必行。
中國移動在磐匠RPA平臺的基礎上,對PRA領域圖譜的搭建做出了有效探索。采用自底向上的構建方法搭建了RPA領域圖譜,采用神經網絡模型和知識推理方法,實現了流程智能推薦與生成,采用TextCNN、Bilstm-CRF和模板匹配技術,實現了IPA平臺使用助手。知識圖譜在RPA領域的應用極大地提高了RPA流程開發人員的工作效率,推動了知識圖譜在RPA領域的深度融合,具有一定的借鑒作用。
二、RPA領域圖譜搭建
(一)功能架構設計
如圖1所示,為RPA領域圖譜功能架構圖,采用自底向上的構建方法,分為數據采集模塊、知識抽取模塊、知識融合模塊、數據存儲模塊和圖譜構建模塊。
1.數據采集
數據采集模塊實現了對RPA多元異構數據的采集,包括結構化數據、半結構化數據和非結構化數據。其中結構化數據包括控制中心、能力中心和運營中心等八大中心數據庫數據,半結構化數據為RPA流程和項目信息,非結構化數據包括后臺日志、作業日志和流程執行錄屏文件。
數據采集模塊主要包含采集模板、采集任務和采集結果三個功能。采集模板和采集任務配置執行后可以生成采集結果,這個采集結果被稱為數據源。數據采集模塊采集的數據將由數據存儲模塊進行存儲,同時也將進入知識抽取模塊進行下一步處理。
2.知識抽取
知識抽取模塊負責將采集的數據轉換成三元組格式的知識數據,包含抽取模板、抽取任務、抽取結果和規則模型四個功能。抽取模板需要將數據采集模塊中的采集結果作為配置項,隨后選擇抽取類別(圖映射、D2R轉換、包裝器、信息抽?。?。當選擇了信息抽取時,可以選用規則模型中項目進行配置使用。
知識抽取得到的規格化知識并不是直接放入到知識圖譜中,需要通過知識融合模塊進行指代消解、實體統一、實體消歧以及質量評估。
3.知識融合
知識融合模塊負責對規格化知識進行進一步處理,使知識的質量符合使用要求。知識融合模塊包含融合模板、融合任務、質量評估和規則模型四個功能。融合模板既可以選擇知識抽取模塊的抽取結果作為輸入數據,也可以選擇來自圖譜構建模塊中抽出的子圖作為輸入數據。選擇好輸入數據后,可以選擇指代消解、實體統一、實體消歧三個分類中的算法模型。算法模型均可以通過規則模型功能進行配置,最后通過質量評估功能評估抽取結果。
4.數據存儲
數據存儲模塊負責系統所有數據的存儲功能,包括原始數據存儲和知識圖譜存儲。原始數據存儲功能負責存儲采集的原始數據、系統平臺的應用數據、算法模型數據。
5.圖譜構建
知識圖譜構建模塊包括圖譜管理、子圖生成和知識推理三個功能。圖譜管理包括知識的增刪改查等一系列交互工具,子圖生成則實現了多租戶管理,每個用戶能夠從知識圖譜中抽取子圖,并構建個人圖譜。知識推理采用內置推理引擎,可以依照用戶給定推理規則進行知識推理。
(二)技術架構設計
如圖2所示,為RPA領域圖譜技術架構圖,整個系統在技術上分為5層:數據存儲、基礎服務、數據治理、Web、數據服務。并在外部對接公司AI中臺,進行模型訓練與AI計算。
1.數據存儲層
MongoDB是一個文檔型數據庫,最大特點是不需要保證表結構的一致性,對于功能架構中所述各類模板涉及的異構參數配置問題,具有良好的兼容性,因此采用MongoDB進行業務數據存儲。FastDFS是一個開源的輕量級分布式文件系統,對于RPA中視頻、日志、流程等數據都能進行存儲,解決了大容量存儲和負載均衡問題,故選用FastDFS對采集的數據源進行文件存儲。Cassandra是一套開源分布式NoSQL數據庫文件系統,選擇它作為知識圖譜的存儲數據庫是因為它原生支持JanusGraph。
2.基礎服務層
基礎服務層實現了主要的業務邏輯,包括任務調度、數據管控和知識圖譜管理。采用Spring框架進行開發,集成Quartz任務調度組件,方便對采集任務、抽取任務進行任務調度,并基于Java實現數據管控邏輯和權限控制?;贘anusGraph圖數據庫實現千億級知識節點存儲、管理和查詢,符合RPA領域圖譜的使用需求。
3.數據治理層
知識抽取能夠從磐匠RPA平臺的業務流程、能力中心、控制中心中抽取有用知識。對于鏈接數據采用圖映射技術進行轉換,對于數據庫中的結構化數據采用D2R轉換工具進行轉換,業界采用較多的是D2RQ。對于表格、列表、JSON、XML等半結構化數據,則采用包裝器技術進行信息抽取。對于純文本、視頻等非結構化數據,采用規則和模型方式進行信息抽取,分為實體抽取、關系抽取、屬性抽取,需要根據不同的場景和領域選用不同的規則和模型。
在RPA領域中,基于規則和詞典的抽取方法得到了應用,通過自定義詞典和詞性能夠識別出特定實體,如組件名稱、組件類型、執行結果等等,通過Jieba+Refo工具結合,實現了依照給定規則提取實體,缺點是需要依靠大量的規則和模板,覆蓋范圍有限,很難適應數據變化?;诮y計機器學習的方法也被用于RPA作業日志的分析中,采用了Bilstm-CRF進行日志數據的實體識別與提取,提取效果良好,但是受到訓練集合限制,存在無法覆蓋特定數據導致識別錯誤的情況。
4.數據服務層
數據服務層是對接外部系統的一層,采用Java進行開發,通過RestAPI實現與外部系統的對接,實現知識圖譜能力的輸出。
5.Web層
前端采用HTML、JQuery、Echart等技術,采用前后端分離的架構進行開發。
三、RPA領域圖譜智能化應用
(一)流程智能推薦與生成
RPA領域圖譜能夠收集流程知識和業務知識并轉化為相關聯的三元組。如圖3所示,為一個登錄業務三元組與登錄流程三元組的關聯關系,各節點之間通過特定的屬性相互聯系,方便進行節點搜索和規則推理。
采用TextCNN神經網絡模型和Jena推理引擎實現流程智能推薦與生成。具體實現流程如圖4所示,用戶將業務需求輸入到系統中,通過TextCNN神經網絡進行意圖識別得到業務意圖,將業務意圖輸入到知識圖譜中進行圖遍歷得到相關聯的業務流程,另一方面根據業務意圖進行推理規則生成得到推理規則,將關聯業務流程和推理規則結合進行推理,從而得到最終流程。最終生成的流程可能是知識圖譜中已經存在的符合用戶需求的流程,也可能是通過推理規則將各個子流程關聯組合而成的新流程。
實驗結果顯示,所設計應用能夠解析用戶需求,并根據知識圖譜中現有流程進行推薦,能夠推理規則進行流程重組,達到生成新流程的目的,但所生成流程還需要用戶手動調整才能運行。
(二)磐匠平臺使用助手
磐匠平臺使用助手的功能在于協助用戶更好的使用CM-IPA產品,包括使用幫助、問題解決、流程示例等等。為此,IPA平臺使用助手需要從運營中心收集各類工單數據和解決方案,基于智能問答的形式為用戶提供服務。
在IPA領域圖譜的基礎上,融合自然語言處理技術,實現RPA知識智能問答,相關偽代碼如下:
User_Req=Input();
User_Intention=TextCNN(User_Req);
Req_Entity=BilstmCRF(User_Req)
Swich User_Intention:
Case 1:
SQL_Template=Create_SQL_Template(1, Req_Entity);
Case 2:
SQL_Template =Create_SQL_Template(2, Req_Entity);
…
Result=KG_Query(SQL_Template)
User_Result=SQL_Template.Fuse(Result)
首先獲取用戶輸入的問題,并將問題輸入到TextCNN神經網絡中獲取用戶意圖,輸入到Bilstm-CRF模型中得到實體數據,根據用戶意圖,選擇不同的規則模板,輸入實體數據得到具體的查詢模板。然后將查詢模板輸入到知識圖譜中得到結果數據,將結果數據融合進查詢模板中,得到最終的問題答案。Bilstm-CRF模型被用于實體提取,采用BIO標注法進行數據集標注。
實驗結果顯示,TextCNN對用戶意圖的識別得到較好的效果,但對于一些沒有見過的數據表現一般,因此需要增大訓練集,調整參數,提高神經網絡的泛化能力。Bilstm-CRF召回率和f1得分有99%,但是針對大型數據集時,召回率和f1得分會有所下降,因此對于復雜的數據還需對此模型進行進一步強化。整個應用對于問題模板中涉及的問題都能有效識別和生成答案。
四、結束語
本文提出了在磐匠RPA平臺基礎上進行RPA領域圖譜搭建的方法,該方法針對RPA領域應用范圍廣、業務場景復雜、數據異構等特點形成了有效解決方案,實現了RPA領域知識收集和管理?;赗PA領域圖譜,采用神經網絡模型和知識推理方法,實現了流程智能推薦與生成,幫助RPA用戶快速獲得所需流程;采用TextCNN、Bilstm-CRF和模板匹配技術,實現了IPA平臺使用助手,幫助RPA流程開發人員提高工作效率。
知識圖譜在RPA領域在未來會有更廣泛的應用,其可以作為知識后臺為RPA平臺提供認知智能,包括:提供智能決策,幫助RPA應用處理各類突發情況;提供智能診斷,幫助RPA平臺進行故障定位;提供智能協同,幫助IPA平臺處理分布式計算、彈性計算等復雜場景。
作者單位:陳國? ? 彭偉軍? ? 付兵蘭? ? 鐘祥永? ? 中國移動信息技術中心