王敏 汪依帆 黃維

摘要
立法智能分析平臺為法律咨詢者提供法律案件的智能分析和成果展現。用戶通過系統提交需要咨詢的法律案件,分析系統提取提交案件的文字信息,通過篩選、清洗、智能識別和自然語言處理等操作挖掘出案件關鍵點內容,找出與已發生案件的相識點和沖突點,建立相關案件的關系模型,最后由可視化系統實現分析成果展示,為廣大用戶提供智能化的法律咨詢服務。
【關鍵詞】立法平臺 大數據 智能分析 法律咨詢
1 引言
1.1 平臺現狀
大數據時代有關法律信息化、法律智能化的產業服務層出不窮,人們的法律意識所有提升,對法律信息的獲取率顯著增長,人們可以容易的從現存法律數據數據庫中檢索到所需的法律法規和案件信息?,F有法律數據管理系統,可以對存入法律數據庫的法律法規和案件信息進行全文檢索,包括標題、日期、分類、效力級別等信息,在獲得檢索結果后,如果進一步地查找相關法條,需要花費大量的時間和精力才能找到案情相關信息。當查到相關法律法規條款后,直接進行相應條款的案件類型和要素識別的智能化程度還不高,難以自動判定法律法規中的沖突點、相似點,對法律法規的立改廢和用戶的法律咨詢不足實現智能化參考與服務。
1.2 需求分析
立法智能分析平臺為法律咨詢者提供法律案件的智能分析和成果展現。用戶通過系統提交需要咨詢的法律案件,分析系統提取提交案件的文字信息,通過篩選、清洗、智能識別和自然語言處理等操作挖掘出案件關鍵點內容,找出與己發生案件的相識點和沖突點,建立相關案件的關系模型,最后由可視化系統實現分析成果展示,為廣大用戶提供智能化的法律咨詢服務。
2 立法大數據平臺的構建
2.1 平臺數據來源
立法大數據數據來源主要有以下幾個途徑:
(1)立法機構提供的官方數據,該數據也是最具有權威的數據。
(2)各立法系統平臺數據,該數據可以通過網絡爬取方式獲得,具有一定的法律基礎,有參考價值,數據更新快,但是各地域可能存在立法數據差異問題。
(3)通過第三方平臺購買的數據,該數據的可靠性由第三方決定,但會存在數據版權等問題。
(4)用戶自己上傳的案例數據,該數據不作為法律依據,但是可以作為案例分析和平臺驗證數據,具有應用實踐作用和案例參考價值。
2.2 平臺架構設計
大數據立法智能分析系統分別為:數據采集系統、智能分析系統、數據管理系統和服務與應用系統四個子系統組成。如圖1所示。
數據采集系統用于采集原始數據,原始數據的基本信息包括來源網址、采集時間、標題、全文、發布單位、發布時間、類別、效力級別、時效性等。可通過網絡爬蟲、文件導入、數據庫遷移合并、網絡提交等方式獲取立法相關數據,采集系統將對數據進行清洗和質檢。數據管理系統對采集符合要求的數據進行統一入口管理,數據存儲有分布式數據庫和本地數據庫兩種方式。智能分析系統獲取到原始數據基本信息,檢測數據相似性、沖突性和建立關系模型,分析的成果數據存儲到數據庫中。系統采用基于hadoop的分布式計算、基于spark的迭代式計算、基于 storm的流式計算、基于tensorflow的深度神經網絡計算實現數據來智能分析功能。服務與應用系統從數據庫中獲取分析后數據進行可視化顯示。實現系統的對外服務接口,為用戶提供友好的分析展現界面。
3 立法平臺關鍵技術
智能化的立法大數據平臺包含了較多的新技術領域,從立法數據定義、采集技術方案、數據質檢標準、清洗規則、存儲模式、大數據計算架構、智能分析模型、法律文本提取、文本規則分析、信息推送、數據可視化呈現等技術都是一個及其復雜的系統工程,平臺技術主要集中在以下幾點:
3.1 數據融合技術
立法基礎數據是整個平臺的數據支撐,數據收集難度依取決于數據采集來源,立法平臺數據收集是多源異構數據整合,需對不同格式的數據格式進行歸一化處理,對不同數據字段進行統一標準合并,對重復數據進行去重處理,對立法沖突數據進行標記分類等。
3.2 智能分析技術
數據智能分析是平臺的核心支撐,數據分析體現兩個層面:
(1)海量立法原始數據批量處理,通過hadoop平臺進行處理可以滿足效率和性能需求;
(2)基于tensorfiow的深度神經網絡計算平臺,由多臺GPU服務器集群組成,實現多GPU并行計算,對現有立法文本數據進行自然語言處理,對現有案例文件庫進行學習和訓練,建立立法數據分析特征庫,系統對用戶體提交的立法案例進行分析識別。智能分析技術核心目標是建立立法數據與法律案件的多維度關系模型,設計出基于分布式、多GPU的高性能、高可靠的并行算法。
3.3 大數據存儲
立法大數據的存儲系統分為兩個級別:
(1)原始數據庫,存儲海量原始數據,采用HDFS分布式文件存儲系統,由數據管理系統統一訪問接口與權限控制,優化并行訪問策略,提升系統應用效率。
(2)成果運行數據庫,存取數據較小的成果數據,采用關系型數據庫mysql,由數據管理系統提供統一服務接口,完成業務數據的交互。
3.4 數據可視化
數據展示部分為了適應不同終端的顯示效果,界面布局采用響應式布局。按立法主題的不同設計對應的呈現風格,數據呈現應體現良好的設計效果和行業專業性,將數據的基本信息、相似性、沖突性等分析成果通過圖形化和交互式動畫效果等手段進行顯示。
4 結束語
隨著云計算、大數據、人工智能的高速發展,利用大數據和人工智能解決法律糾紛問題的越來受到人們的重視,針對傳統的結構化系統的運行,系統數據處理速度慢、計算效率低下、準確度不高,提出一種基于大數據的立法智能分析平臺具有較強的使用價值。為了滿足人們對法律的咨詢需求,還需立足法律行業、促進國家立法建設,服務人類社會,實現立法大數據的平臺建設與長期服務社會。
參考文獻
[1]張茜.論大數據時代我國網絡服務提供者的法律責任[J].合肥工業大學學報(社會科學版),2018(08).
[2]張敏.我國大數據交易的立法思考[J].學習與實踐,2018(07).
[3]張偉.醫療大數據平臺數據高并發方案設計與關鍵技術分析[J].信息技術與網絡安全,2018(04).