999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于BERT的民事相關問答問句分類

2021-03-15 06:59:23武鈺智常俊豪
電腦知識與技術 2021年1期

武鈺智 常俊豪

摘要:[目的]針對當前民事問句數據集不完全以及法律問答問句分類模型中存在無法利用語境信息或難以學習到復雜語句表示的問題,構建了基于BERT的問句分類模型。[方法]通過爬取的6萬人工標記的民事相關問句作為分類的訓練樣本,構建了基于BERT-Base-Chinese的民事相關問句分類模型進行分類研究,并與SVM方法做對比基準。[結果]基于BERT的民事相關問句分類模型的分類效果均優于SVM方法,精準率和F1值分別達到0.978和0.973,F1值比SVM方法高出25.5%。[局限]僅對法律領域下的民事類別做了分類實驗,沒有將法律全部領域納入。[結論]基于BERT的問句分類方法能夠顯著提高民事相關問句的分類效果,可以作為民事問答系統的問句分類模型。

關鍵詞:問句分類;BERT;民事問句

中圖分類號: TP311? ? ? ? 文獻標識碼:A

文章編號:1009-3044(2021)01-0004-04

Abstract:[Objective] Aiming at the problems of the data set of the current civil question is incomplete and unable to use contextual information or difficult to learn complex sentence representation in the legal question answering classification model ,the question classification model based on BERT was constructed.[Methods] This study takes 60,000 manually marked civil issue-related question sentences as training samples for classification, and constructs a civil issue-related question classification model based on the BERT-Base-Chinese to perform cataloguing research, and the SVM method was used as a comparison benchmark. [Results] The question classification model of civil-related questions based on BERT is better than the SVM model in classification effect, the F1-score and precision respectively reaches 0.978 and 0.973, and the F1-score is about 25.5% higher than the SVM model .[Limitations]It only classifies the civil categories in the field of law,but does not include the whole field of law. [Conclusion] The question classification model based on BERT can significantly improve the classification effect of civil-related question and can be used as the question classification model for the civil-related question answering system.

Key words:question classification ; BERT; civil issues

隨著我國社會主義法制建設的不斷加強,民事法律由于關系民生大眾而變得炙手可熱。然而由于人們提出的民事問題只能由持證律師進行解答,并且我國現在的人均律師擁有率遠遠低于歐美等國家,這就導致一大批在線法律問答平臺的回答率較低并且很難及時對提出的問題進行解答[1]。近年來,由于深度學習和人工智能的高速發展,金融、教育、醫療等領域都開始使用人工智能技術來完成各種各樣的工作,因此如何將人工智能技術應用到法律領域成為重要的課題,而構建出一個專業的民事領域問答模型能夠更好地解決回答率較低以及滿足大眾的需求[2-4]。問答系統(Question Answering System, QA)是自然語言處理和信息檢索相關的重要學科,它可以滿足人們對快速、準確地獲取信息的需求[5]。在問答系統中一般有三個研究的基本問題,分別是問題分析、信息檢索和答案抽取,其中問題分析主要是通過對問句分類等方面進行分析,是問答系統的重要模塊,也是提高問答系統檢索效率的關鍵要素[6][7]。

當前關于問句分類的研究,傳統機器學習方法和深度學習方法均有廣泛的應用。傳統機器學習問句分類方法是利用人工標注得到訓練樣本,再經過預處理后,經過特征工程得到特征表征,然后交給分類器監督訓練,得到預測結果。常用的模型有樸素貝葉斯[8]、支持向量機[9-11]、K-鄰近模型[12]等。深度學習問句分類方法是通過一些深度學習網絡自動進行特征提取,然后進行分類。常用的模型有FastText、RCNN和TextRNN等[13-15]。隨著深度學習的不斷發展,基于預訓練的神經網絡語言模型GPT(Generative Pre-trained Transformer)、BERT(Bidirectional Encoder Representations from Transformers)等在分類任務的各項指標上取得了顯著提升[16]。

法律領域作為一個有大量數據積累的領域,非常適合現在由數據驅動的各種人工智能技術應用,然而法律領域的數據集標注需要大量法律領域的專業人士,這就導致法律領域的很多數據集規模并不夠大而且質量也不夠高[17]。因此針對法律特定領域,只有少數研究人員展開了法律問答系統應用的研究。莫濟謙構建了基于CNN模型的中文法律問句分類模型,對采集到的250000條包括法律各個領域的問句進行粗細粒度分類研究,其中細粒度分類達到了92.14%的精度。此外還提出了基于長短期記憶網絡(Long Short-Term Memory,LSTM)的層次分類模型,細粒度分類達到了93.82%的精度[18]。劉葛泓等重點研究了基于文本卷積神經網絡(Text-CNN)的合同法律智能問答系統,并針對合同法的文本特征對其問句進行分類,實現了95.9%的合同法問句分類準確率[19]。

基于CNN、LSTM等架構的神經網絡模型存在無法利用語境信息或難以學習到復雜語句表示,因此針對上述研究及問題,本文研究構建基于BERT的問句分類模型,并與SVM方法分別進行民事相關問句分類實驗,然后分析其效果差異原因。

1 研究方法

1.1數據集的構建

針對當前法律特定領域的數據集規模不大質量不高的問題,本文通過爬蟲技術在國內專業法律問答平臺(www.110.com/ask)爬取18種常見的民事領域的問句,18種民事類別如表1所示。

為了將爬取到的民事問答數據轉換成可用于問句分類的數據集,需要將爬取到的語料進行預處理(去除網頁信息、回答信息等),隨后按照6:3:1的比例劃分訓練集train_data、開發集dev_data和測試集test_data,從而構建民事問句分類數據集,數據結構如圖1所示。

1.2基于BERT的問句分類方法

進行自然語言處理任務時通常會借助于語言模型,通常有兩種在下游任務應用預訓練語言表示的方法,分別是以ELMo為代表的基于特征的方法[20],在特定任務使用特定結構,將使用預訓練語言模型訓練出的詞向量作為特征,輸入到下游目標任務中;還有一種是基于微調的方法,以GPT為代表,指在已經訓練好的語言模型的基礎上,加入少量的特定任務參數, 例如對于分類問題在語言模型基礎上加一層softmax網絡,然后在新的語料上重新訓練來進行微調。在上述模型中由于ELMO使用的是兩個單向LSTM替代雙向LSTM,兩者之間的參數并不互通,所以ELMO和GPT一樣都是單向語言模型。而BERT是一種新的基于雙向Transformer的語言模型,相比于單向語言模型它能夠更深刻地理解語境,并且BERT進一步完善和擴展了GPT中設計的通用任務框架,使它適用于各種自然語言處理任務(如閱讀理解任務、分類任務)。因此本文構建了基于BERT的民事問句分類模型,其模型結構如圖2所示。

其中Toki表示第i個Token(隨機遮擋部分字符),Ei表示第 i個Token的嵌入向量,Ti表示第i個Token在經過BERT處理之后得到的特征向量。

BERT的輸入部分是線性序列,兩個句子之間使用SEP進行分割,在開頭和結尾分別加一個CLS和SEP字符作為標記。對于每一個字符都是由三種向量組成:詞向量、分段向量和位置信息向量,三種向量疊加便是BERT的輸入,如圖3所示。

本文中基于BERT的問句分類方法為直接調用Google發布的BERT-Base-Chinese模型,在加入訓練數據得到輸出結果后增加一個分類層進行微調,再將其應用到問句分類任務中。

1.3 SVM分類方法

由于SVM具有可靠的理論依據,可解釋型較強,在一些機器學習任務中具有良好的表現,并且經過發展也開始應用于多元分類任務,故選用SVM作為BERT的對比基準模型[21][22]。

在進行SVM分類實驗時,本文采用一類對余類(One versus rest,OVR)方法構建多類分類器,如圖4所示。

即假設總共有M個類別,對于每一個類,將其作為+1類,而其余M-1個類的所有樣本作為-1類,構造一個二分類SVM。對于1類,將2類和3類都當成-1類,構造二分類SVM,其決策邊界為d1;對于2類,則將1類和3類都當成-1類,構造二分類SVM,其決策邊界為d2;類似地得到d3。

實驗通過控制變量的方法分析分詞方法、特征提取等因素對SVM模型分類效果的影響,選擇分類效果最好的模型作為基于BERT問句分類實驗方法的對比基準。

1.4評估指標

本文對于問句分類模型的評估指標有三個,分別是精準率P(Precision)、召回率R(Recall)以及F1值(F1-Score)。精準率又稱查準率,是針對預測結果而言的一個評價指標,在模型預測為正樣本的結果中,真正是正樣本所占的百分比。召回率又稱為查全率,是針對原始樣本而言的一個評價指標,在實際為正樣本中,被預測為正樣本所占的百分比。針對精準率和召回率都有其自己的缺點:如果閾值較高,那么精準率會高,但是會漏掉很多數據;如果閾值較低,召回率高,但是預測的會很不準確。所以最后采用調和平均數F1值來綜合考慮精準率和召回率兩項指標:

2 實驗結果分析

根據以上實驗方法,本文分別構建了基于BERT的問句分類模型和SVM分類模型,使用經過預處理的同一數據集進行基于兩種方法的分類實驗。

2.1基于BERT問句分類模型的實驗

使用BERT-Base-Chinese進行分類實驗,經過不斷對訓練輪數(num_train_epochs)、學習率(learning_rate)、最大序列長度(max_seq_length)、批量大小(atch_size)等參數調整,本文參數選擇如下:

num_train_epochs=6;learning_rate=2e-5;max_seq_length=512;train_batch_size=16;dev_batch_size=8;test_batch_size=8,實驗結果如表2所示。

2.2基于SVM問句分類模型的實驗

為了分析分詞方法、特征提取等因素對SVM模型分類效果的影響,本實驗采取控制變量的方法進行對比分析。經過對比發現,當選用jieba分詞進行語料預處理,設置一元詞、二元詞,通過TF-IDF方法進行詞頻加權,參數C的值設置為0.4時效果最好,實驗結果如表3所示。

2.3分類效果分析

為方便分析兩種方法在問句分類效果上差異的原因,將每組實驗中分類結果的平均精準率、平均召回率和平均值整理在一起,如表4所示。

從表4可以得出,基于BERT的問句分類模型的分類效果均優于SVM方法,平均F1值比SVM方法高出25.5%。

對于基于BERT的問句分類方法,整體分類效果較好,原因可能在于BERT相較于原來的語言模型可以做到并發執行。提取詞在句子中的關系特征的同時,能夠在多個不同層次提取關系特征,進而更全面反映句子語義。因此即便在有大量數據的多類別分類任務中BERT也可以取得很好的效果。

原因可能在于SVM方法最初是為解決二分類問題而提出的,而面對本文中多分類問題,使用OVR方法構建多類分類器時,一方面會出現樣本不對稱的情況,導致分類結果出現偏差。另一方面SVM在求解二次規劃問題時,訓練速度與m階矩陣的大小有關(m為樣本數),當m越大時,機器計算該矩陣的時間就越久。因此面對大量數據的多類別分類任務SVM方法難以有較好的表現。

綜上,本文提出的基于BERT的分類模型表現出了良好的分類效果,證明了該模型的有效性并能夠很好的應用到面向民事領域的問答問句分類問題。

3 結論

本文針對民事問句數據集不完全以及法律問句存在語義信息復雜的問題,構建了基于BERT的民事問答問句分類模型。對比分析了BERT和SVM兩種模型對民事問句分類效果的差異原因,由實驗結果可知,基于BERT的問句分類模型的精準率、召回率和F1值均高于SVM方法,表明基于BERT的問句分類模型能夠更高效提取文本的語義特征,對后續的分類效果有很大的提升。

本文的局限性在于僅對法律領域下的民事類別進行了分類實驗,并沒有將法律全部領域納入。在下一步工作中嘗試將其拓展到法律全領域當中,更好地滿足人們對于法律問題類別識別的需求。

參考文獻:

[1] 朱頌華.常年法律顧問業務的現狀與對策[J].法制博覽,2020(7):170-171.

[2] Nakata N.Recent technical development of artificial intelligence for diagnostic medical imaging[J].JapaneseJournalofRadiology,2019,37(2):103-108.

[3] TimmermanA.Neural networks in finance and investing.Using artificial intelligence to improve realworldperformance[J].InternationalJournalofForecasting,1997,13(1):144-146.

[4] 周銘. 大數據時代的人工智能發展的法律思考[C]. 世界人工智能大會組委會.《上海法學研究》集刊(2019年第9卷 總第9卷).世界人工智能大會組委會:上海市法學會,2019:223-233.

[5] Prager J.Open-domain question:answering[J].Foundations and Trends in Information Retrieval,2006,1(2):905-912.

[6] 鄭實福,劉挺,秦兵,等.自動問答綜述[J].中文信息學報,2002,16(6):46-52.

[7] 張寧,朱禮軍.中文問答系統問句分析研究綜述[J].情報工程,2016,2(1):32-42.

[8] El Hindi K,AlSalmanH,QasemS,et al.Building an ensemble of fine-tuned naive Bayesian classifiers for text classification[J].Entropy,2018,20(11):857.

[9] Ou W,Huynh VN,Sriboonchitta S.Training attractive attribute classifiers based on opinion features extracted from review data[J].Electronic Commerce Research and Applications,2018,32:13-22.

[10] Jafari A , Hosseinejad M , Amiri A . Improvement in automatic classification of Persian documents by means of Na?ve Bayes and Representative Vector[C]// International Econference on Computer & Knowledge Engineering. IEEE, 2011.

[11] 蘇金樹,張博鋒,徐昕.基于機器學習的文本分類技術研究進展[J].軟件學報,2006,17(9):1848-1859.

[12] 李榮陸.文本分類及其相關技術研究[D].上海:復旦大學,2005.

[13] Zhang S,Chen Y,HuangXL,et al.Text classification of public feedbacks using convolutional neural network based on differential evolution algorithm[J].International Journal of Computers Communications &Control,2019,14(1):124-134.

[14]Lai S, Xu L, Liu K, et al. Recurrent convolutional neural networks for text classification[C]. national conference on artificial intelligence, 2015: 2267-2273.

[15]Le T, Kim J, Kim H, et al. Classification performance using gated recurrent unit recurrent neural network on energy disaggregation[C]. international conference on machine learning and cybernetics, 2016: 105-110.

[16] Devlin J,Chang M W,Lee K,et al.BERT:pre-training of deep bidirectional transformers for language understanding[EB/OL].2018:arXiv:1810.04805[cs.CL].https://arxiv.org/abs/1810.04805

[17] 盧新玉.淺談我國目前作為法律人工智能基礎的司法大數據存在的問題[J].法制博覽,2020(21):202-203.

[18] 莫濟謙.基于深度學習的法律問題層疊分類研究[D].長沙:湖南大學,2018.

[19] 劉葛泓,李金澤,李卞婷,等.基于Text-CNN聯合分類與匹配的合同法律智能問答系統研究[J].軟件工程,2020,23(6):8-12,4.

[20] Peters M E,Neumann M,Iyyer M,et al.Deepcontextualizedwordrepresentations[EB/OL].2018:arXiv:1802.05365[cs.CL].https://arxiv.org/abs/1802.05365

[21] 蕭嶸,王繼成,張福炎.支持向量機理論綜述[J].計算機科學,2000,27(3):1-3.

[22] 白小明,邱桃榮.基于SVM和KNN算法的科技文獻自動分類研究[J].微計算機信息,2006,22(36):275-276,65.

【通聯編輯:唐一東】

主站蜘蛛池模板: 久久综合色天堂av| 亚洲第七页| 2048国产精品原创综合在线| 亚洲黄色片免费看| 精品无码人妻一区二区| 粉嫩国产白浆在线观看| 欧美.成人.综合在线| 97视频精品全国在线观看| 九九热这里只有国产精品| 青青草原国产一区二区| 久久精品欧美一区二区| 欧美一区二区三区不卡免费| 欧美日本二区| 久久亚洲美女精品国产精品| 国产精品无码久久久久AV| 久草国产在线观看| 成人字幕网视频在线观看| 国产极品美女在线观看| 国产女人爽到高潮的免费视频| 青青操视频免费观看| 日本高清有码人妻| 亚洲另类第一页| aa级毛片毛片免费观看久| 亚洲天堂777| 亚洲男人的天堂视频| 99久久国产精品无码| 狠狠色香婷婷久久亚洲精品| 91精品视频在线播放| 亚洲欧美另类专区| 国产成人免费手机在线观看视频 | 四虎影视国产精品| 亚洲综合经典在线一区二区| 国产免费怡红院视频| 国产一级裸网站| AV无码一区二区三区四区| 欧美另类精品一区二区三区| 中文无码影院| 中文无码日韩精品| 国产天天射| 久久久无码人妻精品无码| 激情六月丁香婷婷四房播| 日本成人精品视频| 久久精品国产亚洲麻豆| 国产又爽又黄无遮挡免费观看| 狠狠色狠狠综合久久| 欧美亚洲网| 一区二区三区国产精品视频| 欧美精品黑人粗大| 亚洲精品自在线拍| 亚洲中文字幕无码mv| 国产性爱网站| 激情综合五月网| 欧美一区中文字幕| 亚洲精品成人福利在线电影| 中字无码精油按摩中出视频| 成人亚洲国产| 国产第一福利影院| 一级爆乳无码av| 国产成熟女人性满足视频| 久久人体视频| 日韩国产亚洲一区二区在线观看| 毛片手机在线看| 国产av无码日韩av无码网站| 囯产av无码片毛片一级| 亚洲人成网站在线观看播放不卡| 影音先锋亚洲无码| 凹凸国产分类在线观看| 伊人五月丁香综合AⅤ| 91成人在线免费观看| 波多野结衣中文字幕一区| 久久精品国产电影| 亚洲av无码久久无遮挡| 亚洲人成网站在线播放2019| 亚洲精品色AV无码看| 2018日日摸夜夜添狠狠躁| 综合色亚洲| 久热中文字幕在线观看| 欧美在线网| 色婷婷综合在线| 国内99精品激情视频精品| 免费a级毛片18以上观看精品| 久夜色精品国产噜噜|