張蘭蘭
(中海油信息科技有限公司,天津 300452)
作為企業業務經營的重要依據,合同的管理已經越來越被企業所關注,隨著國家對于法治央企建設的相關政策性要求與文件的出臺,集團公司對于合同管理的合法性、合規性、抗風險能力的要求也越來越高,從而對于法律共享中心的法務工作人員合同審核的專業程度、及時響應及準確程度均提出了更高的要求。
因此需要在合同審核階段的業務處理過程中引入智能化應用以輔助業務的辦理,將法務工作人員從大量的重復性、常識性、規律性的工作中解放出來,從而提升集團法律共享中心的法務工作人員的工作效率、服務質量以及審查的準確性。
自然語言處理(Natural Language Processing,NLP)是語言信息處理的一個重要分支,是實現人機交互的重要溝通方式,在我國就是中文信息處理的意思[1]。
機器學習就是要使計算機能模擬人的學習行為,自動地通過學習獲取知識和技能,重新組織已有的知識結構,不斷改善自身的性能,實現自我完善。
在機器學習的主要方式為三種,分別為類監督學習、無監督學習以及半監督學習[2]。
為了提升合同管理的信息化水平、提高合同管理業務處理效率,2014年集團開始了合同管理的數字化管理進程,合同管理始建于2015年,并同期開始提供全集團的內部服務,覆蓋了合同業務管理的簽訂前、簽訂中、履行中、履行后及統計分析的全生命周期。
人工智能通用技術研究有助于深入理解技術前景及其局限。當前人工智能領域以“AI+行業”的方式展開,人臉識別、人臉支付、語音識別、智能醫療、智能家居、智能零售等應用快速步入社會經濟。在這些新興應用領域的背后,是機器學習、知識圖譜、自然語言處理、人機交互、計算機視覺、生物特征識別、虛擬現實等通用技術的支撐。新技術在帶來熱潮和繁榮的同時也有其局限性。通過對人工智能通用技術的研究,能夠了解當前技術發展狀況,充分認識技術的更多可能以及其局限性。
人工智能技術在法律事務及合同管理領域的應用,國內外同類軟件提供的主要應用包括合同關鍵信息結構化、合同預篩選、合同審查、風險狀況統計、風險分析報告以及自助式訓練等,其中合同審查功能是所有軟件的核心應用。研發這些軟件涉及到的人工智能關鍵技術,包括機器學習算法、文本分析、自然語言處理、知識圖譜等技術。
總體技術架構通過以下幾層展開(圖1):
(1)系統層是系統的支撐,是整個技術架構的基礎。
(2)數據層描述的是系統涉及到的不同方面的數據的存儲。

圖1 項目技術架構圖Fig.1 Project technical architecture diagram

圖2 語義分析處理過程Fig.2 Semantic analysis processing process
(3)數據訪問層負責與數據庫存儲設備打交道,為業務層提供數據服務。
(4)算法層負責數據對象的運算和操作,為業務層提供符合業務場景的數據運算服務。
(5)業務層確定業務的邏輯結構和工作流程,以各種協議及中間件為依托,為整個系統提供專門的服務能力。
(6)負載分配層為服務提供高可用,可擴展,高負載的服務能力提供有效保障。
(7)系統中各個子系統及服務通過RESTful API的方式進行統一的權限與認證及配置體系,通過統一的消息系統進行系統間消息的傳遞與接收,通過統一的日志處理進行日志的記錄與查看,從而形成一整套完整的技術體系架構。
眾所周知,如果想要得到一個性能良好的模型,需要大量的數據標注工作,同時也需要大量的用于標注的數據。對于通用模型,我們可以從互聯網獲取很多免費的可供標注的數據資源,同時也有大量的提供標注服務的公司。但是對于合同這個領域,一方面合同數量極其有限,另一方面合同中包含大量敏感信息,不便外泄。所以就需要一個能在小語料的場景下能夠提供更多泛化能力的模型來進行自然語言處理的工作。
本項目通過對近200份包含三類(分別是IT類硬件設備采購合同-中心2017修訂模板,IT類系統維護與技術支持服務合同-中心2017修訂模板,IT類實施服務合同-中心2017修訂模板)合同進行標注,如圖2。

圖3 智能化應用管理平臺處理機制Fig.3 Processing mechanism of intelligent application management platform
模型訓練除了必不可少的語料之外,還加入了實體詞庫。前者來自人工標注的數據,經過加工形成語料,后者一部分來自人工標注的數據,一部分來自表達式匹配抽取的數據,后續還可以通過結合已有系統的數據來充實實體詞庫。這樣就為模型訓練提供了更多的特征數據,相當于間接地擴充了語料。
在進行合同要素提取的時候,通過對模型預測的結果進行二次優化,也是提升精確率的一個關鍵步驟,通過總結提煉合同每個要素信息的特點,完善優化算法,對模型預測結果進行必要的糾錯及補充,最終達到合同文本內關鍵要素提取的較高的準確率。
由于企業經營合同信息屬于商業機密要件,在無法為智能化應用場景中的機器訓練提供足夠的樣本,作為訓練的數據依據,只能在應用智能化應用場景中采用小樣本、小語料環境下采用半監督模式進行學習與訓練。因此在本次項目中采用了機器學習與人工干預相結合的方式增加信息抽取與標定的精度。經過研究與驗證,本次項目構建的智能化應用管理平臺的處理機制為,如圖3所示。
同時滿足了合同審核業務中的如下業務要求:
(1) 統一后臺管理,提供模型數據的全過程處理能力。
(2)提供模型的版本管理能力,可實現在線的版本切換、回退。
(3)提供機器學習算法的擴展接口,便于改進升級新的算法。
(4)提供模型評估能力,便于跟蹤模型訓練效果。
基于合同智能應用平臺,技術開發人員和合同管理業務人員可以共同進行合同審查相關數據模型、審查規則的不斷優化完善。