一、引言
機器人流程自動化(Roboticprocessautoma-tion,簡稱RPA)技術,以其自動監管、簡單易用、安全可靠、靈活維護等特性,已發展成為一種高效的數字生產力工具,在財務、采購、供應鏈管理等諸多業務領域得到廣泛應用。然而,在其規模化應用過程中,面臨著自動化任務挖掘難度大、流程設計復雜以及流程執行成功率低等挑戰,嚴重阻礙了機器人流程自動化智能處理業務的發展。一方面,業界傳統的RPA實施方式需要人工對用戶業務流程進行分析,反復梳理自動化流程,并主觀評估自動化收益,這導致了對人工的高度依賴度以及實施效率低下等問題,與企業降本增效的目標相背離。另一方面,在機器人業務流程設計過程中,主要依靠設計人員手動拖拽能力組件,這要求其充分了解業務系統,熟悉業務流程,并開展大量調試工作,設計過程復雜且效率低下。此外,在機器人流程執行過程中,傳統流程引擎資源占用率高、無法自動捕獲和智能處理異常等問題愈發凸顯,使機器人運行不穩定成為當前亟待解決的行業問題。
本文提出了多模態智能任務挖掘方法、智能檢測與封裝方法、無代碼智能流程設計方法,以及端到端智能流程執行方法。這些方法能夠顯著提高任務挖掘效率,降低機器人設計門檻,全面保障機器人運行的穩定性,有助于實現機器人全生命周期的智能化。
二、多模態智能任務挖掘方法
本文提出一種多模態智能任務挖掘方法,自動采集
用戶業務操作記錄,挖掘具備高自動化潛力的業務,并自動生成RPA流程,實現了全自動、高效率的需求挖掘能力,顯著提升了任務挖掘效率。
(一)基于多模態數據的自動采集方法
本文采用基于時間間隔的行為序列自動切分方案,與傳統需求挖掘技術不同,用戶在每次任務的開始和結束時向數據采集器發出通知。該方法中的多模態數據是指來自不同傳感器或不同類型的數據,如圖像、音頻、文本等。自動采集方法能夠依據不同的數據類型,選擇相應的采集方式和技術。一旦數據采集模塊獲取到用戶的操作數據,數據處理模塊便會開始分析各條用戶操作時間,并根據時間間隔將用戶操作數據組合成用戶操作行為序列。
該方法中的自動化切分技術徹底消除了人工介入操作的必要,從而大幅提高了整個方案的自動化程度。用戶操作數據被切分為多個行為序列,每個序列代表一項工作的操作流程。這一數據處理模塊的創新性在于其能夠自動分割操作序列,無需用戶手動干預,實現非侵入式數據采集,保障了自動化采集的順暢性,提高了數據采集效率。
(二)基于圖文序列語義特征的聚類分析算法
本方法將每個操作行為視為圖節點,以此構建了圖結構的數據表示。隨后,通過多模態圖神經網絡聚類算法,將相似的任務歸為一類。這一步驟的關鍵在于整合多模態數據,包括文本、圖像、Xpath等,從而更精準地區分和聚類不同的工作任務。多模態圖神經網絡聚類算法創新性地融合了多模態數據和圖神經網絡技術,對于任務挖掘領域的應用具有重要意義。
圖1多模態智能任務挖掘架構

傳統的任務挖掘聚類算法通常僅能處理單一模態的數據,如僅支持文本數據的處理。本算法采用圖神經網絡(GNN)來學習多模態數據之間的表示和關系。圖神經網絡是一種針對圖數據的深度學習方法,能夠有效捕獲圖中節點之間的信息傳遞和特征提取。將GNN引入多模態聚類中,使算法可以更好地挖掘多模態數據的潛在結構和模式,如圖1所示。
三、智能檢測和封裝方法
本文提出了可編排能力組件的智能檢測與封裝方法,借助智能化手段,將第三方能力快速接入,實現了能力組件的靈活拓展,為財務、政企等復雜業務場景下的流程自動化應用提供支撐。
(一)智能檢測方法
明確待接入能力的通用規格并形成模板,該模板涵蓋接口地址、請求方法、返回數據格式等內容,進而構建服務信息庫。依托專用的接口掃描工具,定期對企業內部的服務資源進行掃描,自動更新服務信息庫,以保障數據的時效性。基于業務規則引擎,對每個服務接口的參數展開詳細分析,提取參數名稱、類型、必填項以及默認值等關鍵信息。通過對參數進行分類整理,生成標準化的參數列表,助力用戶快速掌握接口調用規則。運用服務智能檢測方法,探測其可用性、穩定性、并發性能等指標,以此作為調度執行中的依據。
(二)能力組件智能封裝方法
本文提出能力組件智能封裝方法,自動加載配置,從外部文件獲取關鍵詞、文件路徑、服務器地址等關鍵參數,以生成字典對象,確保其在不同場景下的復用性和可移植性。動態生成組件架構,為每個新能力組件生成版本控制、配置信息及代碼文件,保證系統的靈活性和兼容性。依據組件定義和參數,結合預設組件模板自動生成JSON配置文件,復制模板代碼并填充參數自動生成組件執行文件,動態調用接口處理結果。為實現組件的即時調用,可以利用動態加載生成Python模塊,并通過反射機制調用組件中定義的核心功能,還可根據需求隨時擴展組件庫,且無需對系統主架構進行改動。通過智能封裝,能力組件能夠高效、靈活地集成到不同的應用場景中,從而大幅提升系統的開發效率和維護便利性。
四、無代碼智能流程設計方法
本文提出一種無代碼智能流程設計方法,旨在降低用戶學習成本,提升開發效率。元素拾取是指自動獲取桌面元素的結構化信息,并在自動化流程中定位操作元素。傳統的元素獲取方式較為單一,難以契合當前多樣化的元素拾取任務需求,也無法實現元素的自適應推薦。本文提出融合圖文語義理解能力的智能元素拾取策略、契合用戶偏好的智能元素推薦方法以及支持自然語言的沉浸式智能序列設計方法。
(一)基于圖文信息特征融合表征的元素拾取方法
元素拾取的可用性和易用性是衡量一款RPA產品的關鍵指標。盡管RPA元素拾取技術已相對成熟,但在實際應用中仍存在一些難點與挑戰。用戶所處環境具有多樣性,需要面對不同的操作系統、不同的應用程序,以及不同的底層架構,元素拾取方式也各不相同,單一技術或框架無法解決所有問題,尤其是涉及跨平臺時,底層技術差異更為顯著。本文設計了一種基于圖文信息特征融合表征的元素拾取方法,該方法融合多種桌面技術,并結合圖文信息特征,以解決各類場景下的元素拾取問題。
圖3基于用戶習慣在線學習的個性化推薦算法

一方面,通過融合UIA、DOM解析、API調用等常規元素拾取能力和AI能力,并結合圖像信息技術,實現場景的自動發現與識別,自動選擇最優方案,提供精度更高的智能拾取技術。另一方面,屏蔽不同應用軟件以及不同操作系統間的差異,提供統一接口,實現對各類復雜環境的兼容,提升環境適配性以及產品可推廣性。
通過元素拾取能夠獲取元素的結構化信息,系統會根據當前識別出的內容,推薦用戶接下來可能用到的組件。在該步驟中,本方法采用基于用戶習慣在線學習的個性化推薦算法,其由基于規則的推薦算法和基于深度強化學習的推薦算法組成。首先,使用基于規則的推薦算法為用戶推薦組件,分析現有圖形化界面,分別按照桌面和網頁統計元素標簽,并根據標簽對常用組件進行分類。在對元素進行拾取并得到其結構化信息后,從中提取出元素的標簽信息,然后運用所定義的規則為用戶推薦相應的組件。若用戶對該結果不滿意,則采用基于深度強化學習的推薦算法,為用戶推薦符合其使用習慣的組件。
(二)基于用戶習慣在線學習的個性化推薦算法
傳統的流程生成方法依托拖拉拽能力組件,要求用戶預先學習相關知識,理解組件含義和用法,學習成本較高。并且,傳統的拖拉拽組件的方式,需要用戶同時操作目標業務系統與設計流程,需在設計器和目標操作系統之間頻繁切換,導致開發效率低下。同時,用戶在完成流程設計后,還需要逐個調試組件,與期望的業務流程進行對比,以判斷是否符合預期。對于復雜流程而言,這種模式的時間成本過高。本文提出的一種基于用戶習慣在線學習的個性化推薦算法,可以根據用戶的使用習慣,推薦符合用戶需求的組件,從而大幅降低開發
基于深度強化學習的推薦算法通過對用戶歷史流程數據進行分析和學習,推薦符合當前用戶需求的組件。具體而言,所使用的推薦算法包含特征提取、組件推薦、用戶反饋、模型更新四個步驟:首先,利用Transformer模型獲取元素和組件的特征向量,接著將其作為輸入,利用DQN模型得到滿足用戶習慣的組件推薦。將組件推薦給用戶以后,邀請用戶對推薦結果進行反饋,并根據反饋結果對模型進行更新。強化學習具備“在交互中進行學習”的特點,模型可以依據用戶反饋在線進行學習和更新。而深度強化學習在模型中引入了深度學習算法,借助深度學習模型強大的學習能力,能夠更好地對用戶歷史數據進行建模,從而得到更符合用戶需求的組件推薦。
(三)基于上下文語義信息聯合推理的流程智能生成算法
本文提出一種基于上下文語義信息聯合推理的流程智能生成算法。此算法可降低流程設計的門檻,大幅提升設計效率。該算法在給定的流程原子能力集合條件下,能夠將一段用戶文本指令轉化為一個可完成該指令的智能流程。具體而言,該流程智能生成算法包含以下四個要點:場景知識庫構建、原子能力集合構建、指令理解與任務分解、原子能力序列生成。為具備多輪生成上下文語義信息聯合推理的能力,在遍歷過程中維護了一個變量表,用于明確保存上下文信息。對于每一次生成式語言模型輸出的符號語言進行解析,并將輸出變量名及其描述添加到變量表中,作為下一次運行生成式語言模型的輸入之一。顯式的變量表提供了豐富的上下文信息,有助于模型進行更深入的推理和決策,同時確保指令序列的連續性和一致性。
五、端到端智能流程執行方法
隨著流程自動化軟件機器人的大規模落地,運行過程中的穩定性成為影響其成功率的重要因素。針對傳統流程引擎框架部署復雜,內存占用高、無法全方位捕獲異常等問題,本文提出結合知識圖譜的智能調度方案以及基于CNN和Transformer模型的智能執行異常檢測算法,明顯提高了流程執行的準確率。
(一)基于知識圖譜的智能調度方法
智能流程引擎在機器人流程自動化平臺中具有重要地位,其作用是定義、存儲、執行和調度各種智能流程。傳統的流程引擎框架在功能、靈活性和性能等方面存在各種權衡與取舍:部分引擎將流程設計為JSON或DAG有向無環工作流等簡單格式。這種設計雖然簡化了流程管理,但不可避免地導致流程的功能單一、描述能力較弱。另一部分引擎則依賴于BPMN等高度復雜、耦合嚴重的格式,普遍存在體量過大、內存消耗高、強依賴數據庫支持等問題,影響其性能與穩定性。
為解決以上問題,同時保障流程引擎的功能、靈活性與性能,本文結合知識圖譜技術,設計了IPA智能流程調度與執行解決方案。該方案包括:基于三元組實體關系構建流程知識圖譜,實現流程的靈活配置與快捷解析;基于有限狀態機與知識抽取建立高自由度流程引擎,擺脫數據庫的依賴,實現流程的精準調度、高效執行;基于知識存儲、知識融合、知識計算等技術,構建企業級IPA流程知識圖譜。與傳統流程引擎相比,該方案大幅降低了內存占用,顯著提升了執行速度。
(二)結合卷積神經網絡(CNN)和Transformer模型的智能執行異常檢測方法
執行自適應是指在無需人工參與的情形下,使出現故障而無法工作的RPA機器人實現自我修復。針對執行自適應框架的異常捕獲需求,本項目提出了基于CNN和Transformer模型的智能執行異常檢測算法,通過日志與圖像兩種途徑獲取當前異常信息。日志異常檢測模型采用Transformer架構,輸入的日志經過預處理以及分詞編碼處理,得到文本向量,再將其輸入編碼器以融合高層語義信息,最終識別并輸出當前異常類別或具體信息。圖像自適應模型基于anchor-free架構和輕量化網絡,采用二段式設計,首先借助一個異常檢測模型完成異常區域聚焦,然后在此基礎上檢測消除異常所需要操作的區域,最終檢測準確率達到 91.5% 。
六、結束語
本文對機器人流程自動化智能處理關鍵技術展開研究,提出了多模態智能任務挖掘方法、智能檢測和封裝方法、無代碼智能流程設計方法,這對于實現流程自動化全生命周期智能化具有重要影響。未來的目標是朝著構建功能更為完備、性能更完善的自動化流程智能處理技術體系邁進。具體而言,將加大流程自動化大模型的研發投入,實現更多的用戶自然語言指令處理功能,研發RPAAgent,助力用戶實現高效率的流程生成,全面提升數字化生產力。
作者單位:付兵蘭何慧敏江乾榮周運陳瓊雁中移信息技術有限公司