999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于SimHash算法的案件輔助判決系統研究

2017-11-03 08:33:36游景揚陳建峽
湖北工業大學學報 2017年5期
關鍵詞:文本系統

李 銳, 游景揚, 劉 穩, 王 錦, 陳建峽

(湖北工業大學計算機學院, 湖北 武漢 430068)

基于SimHash算法的案件輔助判決系統研究

李 銳, 游景揚, 劉 穩, 王 錦, 陳建峽

(湖北工業大學計算機學院, 湖北 武漢 430068)

為提高法院工作效率和判案的公正性,開發了案件輔助判決系統。將裁判文書分為刑事、民事、執行、賠償、行政5大案件類型,便于對判決書的處理,存儲和查詢。系統采用SimHash算法,對用戶提交的判決書提取關鍵信息,查找出數據庫中同類型判決書中相似度最高的判決書推薦給用戶。

裁判文書; SimHash算法; 輔助判決系統

法院判決書,是指法院根據案件的判決寫成的文書。判決書具有既判力、確定力和執行力。從2014年1月1日起,最高人民法院發布新規定:法院生效的判決書在互聯網全面公布,除涉及國家機密、個人隱私、未成年犯罪以及其他四類判決書外,公眾均可隨時查閱。因此,案件的審判結果越來越受關注。然而,即使對于同類型的案件,不同的法官也會有不同的衡量標準。在判決案件之前,法官往往想知道以往同類案件的判決如何,曾經引起了社會怎樣的反應,從而對當前的案件判決起到重要的參考作用。

本文研究的案件輔助判決系統,對于已有的判決書文中關鍵信息進行機器記錄學習,并為使用者提供有用的信息查詢,能夠讓法官快速得到類似案件的裁決文書。這樣不僅能夠減少法院工作人員對于新的案件的審判時間,極大地提高實際工作的效率,而且便于查看到該案件的判決引發的社會效應與輿論,避免同案不同判。

本文所研究的案件輔助判決系統,是基于文本相似度模型的中文裁判文書推薦系統。在文本相似度模型中,采用了SimHash算法實現法院輔助判決系統,該算法早期運用在Google的網頁去重技術,用以提高網頁的查詢效率。目前國內SimHash算法應用也比較廣泛,主要應用在海量文檔的反作弊系統,搜索引擎的爬蟲系統,相似指紋檢索,相似人臉檢索等方面。其中,應用SimHash算法開發出的GroupLens[1]系統通過社會信息過濾系統的使用歷史的相關信息,計算出用戶之間的相似度并對于相似信息進行推薦。這一系統早期也是國外開發的,如今國內應用也十分普遍,豆瓣網通過記錄下用戶閱讀過的文章、購買過的商品、聽過的音樂等瀏覽歷史痕跡,以協同過濾的方式猜測用戶職業類型,喜好方向及圈子,建立用戶的行為向量模型,為用戶推薦可能符合需求的網頁內容。

目前,國內沒有出現過運用SimHash算法來檢索相似度較高的裁判文書,僅有的是將裁判文書[2]做一個結構化信息的存儲,然后在數據庫中建立全文索引,給用戶提供捜索功能。比如中國裁判文書網的搜索裁判文書功能。

本系統采用了B/S架構,采用分層的設計思想,運用了SSI框架搭建整個web系統。借鑒中國裁判文書網的分類方式,本系統將裁判文書分為刑事、民事、執行、賠償、行政5大案件類型,在這5種類型的基礎上細分為幾十種小類型,便于對判決書的處理、存儲和查詢。系統對用戶提交的判決書提取關鍵信息,采用SimHash算法查找出數據庫中同類型判決書中相似度最高的判決書推薦給用戶。

1 SimHash算法

1.1SimHash算法原理

文本相似度的研究主要是從提高查準率、查找速度等方面進行,目前已有諸如布 爾模型、概率模型、向量空間模型等文本表示模型,相似度度量及距離度量等相似度計算方法,也有關于文本分詞及語義等方面的研究[3]。本系統中采用的文本相似度算法是SimHash算法,是Google工程師Charikar提出的一種計算文本相似度的算法,它將一篇文檔轉化為一個t位2進制的簽名,如需比較兩篇文檔,只需要將這兩篇文檔生成的t位2進制簽名進行比較[4]。SimHash算法對一篇文檔產生一個長度為t位的二進制簽名的偽代碼(表1)。每篇文檔產生了一個二進制簽名,比較兩篇文檔的相似度,假如現在有兩個8位二進制簽名00101101,01101001。這兩個八位簽名中有兩位不相同,則這兩篇文檔的海明距離為2。兩篇文檔的海明距離越小,則相似度越高。SimHash 算法發明人 Charikar在論文中闡述,64位簽名的SimHash算法,海明距離在 3 以內的文本都可以認為是近重復文本[5].所以采用64位簽名的SimHash算法。然后根據其相似度矩陣,得到兩篇文檔的相似度。

SimHash算法的偽代碼如下:

Begin

Class SimHash{

Input String container;

Input BigInteger intSimHash;

Input String strSimHash;

Input int Bit<-32;

SimHash(){

Input int v[];

Input ArrayList t[];

String Word;

while(t.hasNext()){

Word<-t.next();

BigInteger w<-this.hash();

for(int I<-0 To Bit){

BigInteger bitmask<-

newBigInteger("1").shiftLeft(i);

if(t.amd(bitmask).signum()!=0){

v[i]<-v[i] add 1;

}else{

v[i]<-v[i] substract 1;

}}}

StringBuffer tb;

for(int i<-0 To B it){

if(v[i]>=0){

tb.append(1);

}else{

tb.append(0);

}}}

Hash(String source){

if(source==null || source.length==0){

return new BigInteger("0");

}else{

char[] sourceArray<-source.toCharArray();

BigInteger hash<-new BigInteger(sourceArray[0])<<7;

BigInteger m <- new BigInteger("10000030");

BigInteger mask<- new BigInteger(2^(-32));

for(char item<-sourceArray[0] To sourceArray[source.length-1]){

BigInteger temp = new BigInteger(item);

hash<-((x multiply m)^temp)&mask;

}

if(hash == BigInteger("-1")){

hash<-BigInteger("-2");

}}

return hash;

}

GetDistance(String str1,String str2){

Input int distance;

if(str1.length()!=str2.length()){

distance<-(-1);

}else{

Distance <- 0;

for(int i<-0 To Bit){

distance++;

}}

return distance;

}}

End

1.2SimHash算法實驗分析

1.2.1實驗環境及配置說明測試計算機的硬件配置是第六代Inter Core i5處理器,8GB內存,1T 5400轉硬盤的PC;軟件配置采用了基于Windows10操作系統,Java Development Kit配置運行時環境,同時安裝了Myeclipse編譯器作為單個案例測試文本運行工具。Tomcat7.0作為B/S架構中的服務器,Firefox作為測試中訪問的瀏覽器。

衡量一個相似度算法的優劣是該算法是否能從海量文本中找出最有價值的文檔亦即與當前文檔相似度匹配最高的一批文檔。本文將測試分為單個案例測試和實際應用測試。

1.2.2SimHash算法單個案例實驗本文采用了四個測試文本(表1),實驗結果見表2。從表2可以看出,文本1和文本2的海明距離為2,在這四篇文本中相似度最高。文本2和文本4海明距離為11,在這四篇文本中相似度最低。

表1 測試文本

表2 SimHash算法實驗結果

從表1的文本結構分析,文本1,文本2,文本3結構大體上相似,內容上也有很多相同,理論上來說相似度最高的兩篇應該從這三篇中產生;而文本4和上面3篇文本結構并不相似,內容也相去甚遠,所以相似度最低的應該從文本4和另外3篇文本比較中產生,與代碼運行的結果一致。

1.3.3法院判決書測試結果及分析在實際測試中,本文預先標記部分文檔作為測試中的目標文檔。然后將本文的目標文檔和待測試文檔混合在一起。通過該文本相似度推薦后,得到推薦的文檔列表衡量該算法的性能[6]。

表2中第一行表示推薦的文檔排名,第二行為推薦的文檔名,第三行為推薦文本效果值。如果推薦文本屬于本文預先給出的目標文檔,則推薦效果值為該相似值,如果屬于背景噪聲文檔,則定義推薦效果值為0,如果屬于強噪聲文檔,則定義為相似度的相反數。本文使用DCGp指標衡量算法的推薦性能。

式中p表示排名,rel表示推薦效果值。因為裁判文書分為5大類型,故而本文將實驗分為5組,分別為刑事案件、民事案件、賠償案件、行政案件、執行案件;將文檔分為3種類型:目標文檔、強噪聲文檔、背景噪聲文檔。目標文檔是本文預先處理的和原文檔相似度極高的文檔;強噪聲文檔即本文在網上爬取的和本文裁判文書完全不相關的文檔;背景噪聲文檔是某法院3年的裁判文書集,總共是16 542篇,其中行政案件705篇,民事案件12 457篇,賠償案件8篇,刑事案件1493篇,執行案件1879篇(表4)。

表3 推薦結果列表

表4 測試數據信息

表5 測試結果

最后得到測試結果見表5。在5種案件類型的測試中,行政案件推薦的5篇文檔都屬于目標文檔,民事案件中前3篇文檔屬于目標文檔,后2篇屬于背景噪聲文檔,賠償案件中5篇文檔全部屬于目標文檔,刑事案件中推薦的第5篇文檔屬于背景噪聲文檔,其余是目標文檔,執行案件中推薦的第4篇文檔為背景噪聲文檔。其余4篇是目標文檔。在這5次實驗中系統沒有向本文推薦強噪聲文檔。本文通過DCGp公式,求出了這5種類型案件的DCGp的值(表6)。

表6 最終DCGp結果

從DCGp結果來看,行政案件的DCGp值最大,系統推薦的結果是最佳的;賠償案件其次,但是賠償案件的背景噪聲文檔的量相對于其他的類型嚴重偏少。可能導致此類型案件測試結果可信度低。民事案件DCGp值最小,這個和背景噪聲文檔的量太大有關系,因為在背景噪聲文檔中可能有和提交的原文檔相似度很高的文檔,所以推薦結果中出現了較多的背景噪聲文檔。本文可以看到所有的測試結果中系統沒有給本文推薦強噪聲文檔,綜上分析這個推薦結果有一定可靠性,這種情況差錯率幾乎為零。以上數據表示,根據SimHash算法設計出來的文本內容推薦系統是成功的。

2 系統設計與實現

2.1系統總體設計

該系統主要包含三個功能模塊:系統管理、案件查詢、同案同判(圖1)。前端頁面開發運用Html CSS JavaScript技術,后臺使用Java語言,為了提高開發效率且易于維護,采用了SSI框架,MVC模式使系統開發過程更加清晰。

圖 1 系統總體架構圖

2.2系統功能模塊設計

2.2.1系統總體功能模塊系統總體功能模塊見圖2。

圖 2 系統總體功能模塊圖

2.2.2系統功能子模塊設計系統管理模塊分為兩個部分,新聞中心和案件信息。新聞中心工作流程見圖3。案件查詢子模塊可以分為根據案件類型查詢根據法院層級和案件審判時間查詢。其模塊工作流程見圖4。

圖 3 系統管理子模塊流程圖

圖 4 案件查詢子模塊流程圖

圖 5 同案同判流程圖

同案同判子模塊是從數據庫中查找相同類型的案件,并從中選出三個與此案件相似程度最高的案件,然后查看三個案件的信息,根據三個案件的審判結果來裁決此案件。其模塊工作流程見圖5。

2.3系統數據庫設計

系統數據庫設計見表7~表10。

表7 案件信息表

表8 案件人員表

表9 案件人員關聯表

表10 特征值表

2.4系統實現

系統界面實現見圖6,案件查詢子模塊實現見圖7,同案同判子模塊實現見圖8。

圖 6 系統首頁

圖 7 案件查詢

圖 8 案件文本推薦

3 總結與展望

中文的文本相似度計算處理非常復雜,在具體應用中還有很多不確定性,無法統一給出解決方案。有很多難點、問題需要不斷地去發現、探討和改進。

1)對中文分詞技術的研究和實現

由于時間和條件有限,考慮到中文分詞在本文中只是文本預處理的一個步驟,本文使用了中文分詞器來完成分詞的工作。但中文分詞技術是文本挖掘、信息處理的關鍵基礎工作,它的有效計算也是非常重要的。因此,下一步可以研究建立自己的分詞系統。

2)對于相似度的考慮

在實際的應用過程中,很多地方需要用到相似度,在本文的方法中,段落數比較多的情況下,會根據預先設置的關鍵字,把較低相似度的語句舍棄,從而減少計算量。目前關鍵字的設置大多是按照經驗人工設置的,今后可以從這方面入手,研究自動設置關鍵字方法,使得系統效率得到提高。

3)文本相似度計算方法的進一步研究

本文僅對文本相似度的計算作了初步研究。未來對于文本理解的相似度計算必然成為中文文本處理的主流,因為這種方法更適合漢語語言的特點和習慣。建立一個更好的文本理解模型,并把它應用到更多的領域進行事件處理,將是進一步研究的主要目標。

[1] Sohn J S, Bae U B, Chung I J. Contents recommendation method using social network analysis[J]. Wireless Personal Communications, 2013, 73(4):1529-1546.

[2] 向李興. 基于自然語言處理的裁判文書推薦系統設計與實現[D]. 南京:南京大學,2015.

[3] 譚靜.基于向量空間模型的文本相似度研究[D]. 成都:西南石油大學,2015.

[4] 董博,鄭慶華,宋凱磊,等. 基于多 SimHash指紋的近似文本檢測[J]. 小型微型計算機系統, 2017,17(5):129-132.

[5] Scherbina A, Kuznetsov S. Clustering of Web sessions using levenshtein metric[C]//International Conference on Advances in Data Mining: Applications in Image Mining, Medicine and Biotechnology, Management and Environmental Control, and Telecommunications. Springer-Verlag, 2004:127-133.

[6] 伍盛. 基于詞義相似度的文本推薦系統的研究與實現[D]. 成都:電子科技大學,2012.

[責任編校:張巖芳]

TheLegalDecisionSupportSystemBasedonSimHashAlgorithm

LI Rui, YOU Jingyang, LIU Wen, WANG Jin, CHEN Jianxia

(SchoolofComputerScience,HubeiUniv.ofTech.,Wuhan430068,China)

The paper proposes an decision support system for the legal case judgements, in which the system divides the cases into five categories: criminal, civil, execution, compensation, and administrative ones in order to process, preserve and query the cases easily. In particular, the system, using the SimHash algorithm, extracts the key information from the judgements that users submit, and finds the similar decision in the database with the highest similarity and then recommends it to the users. The experimental results show that the system can not only greatly improve the efficiency of the actual work, but also help to improve the impartiality of judgements.

judgements; SimHash algorithm; the decision support system

2016-12-10

湖北省教育廳青年基金(Q20141420)

李 銳(1994-), 男, 湖北嘉魚人,湖北工業大學本科生,研究方向為機器學習

游景揚(1996-),男,河南信陽人,湖北工業大學本科生, 研究方向機器學習

1003-4684(2017)05-0067-06

TP391

A

猜你喜歡
文本系統
Smartflower POP 一體式光伏系統
工業設計(2022年8期)2022-09-09 07:43:20
WJ-700無人機系統
ZC系列無人機遙感系統
北京測繪(2020年12期)2020-12-29 01:33:58
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
基于PowerPC+FPGA顯示系統
在808DA上文本顯示的改善
半沸制皂系統(下)
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
連通與提升系統的最后一塊拼圖 Audiolab 傲立 M-DAC mini
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 午夜视频免费试看| 午夜一级做a爰片久久毛片| 91久久偷偷做嫩草影院免费看| 日本精品中文字幕在线不卡| 日韩精品毛片人妻AV不卡| 中文字幕免费在线视频| 国产免费久久精品99re丫丫一| 五月天香蕉视频国产亚| 亚洲国产91人成在线| 天天躁狠狠躁| 亚洲色图欧美激情| 白浆免费视频国产精品视频| 国产亚洲精品97AA片在线播放| 制服丝袜无码每日更新| 国产乱人激情H在线观看| 99re在线免费视频| 精品少妇人妻无码久久| 国产麻豆精品久久一二三| 久久久久夜色精品波多野结衣| 国产综合亚洲欧洲区精品无码| 国产成人无码久久久久毛片| 久久公开视频| 欧美色伊人| 一级一级一片免费| 亚洲色图另类| 高清无码一本到东京热| 2020国产精品视频| 国产高清免费午夜在线视频| 亚洲bt欧美bt精品| 女同国产精品一区二区| 国产99视频精品免费观看9e| 免费高清a毛片| 国产内射一区亚洲| 国产午夜一级淫片| 欧洲精品视频在线观看| 国产午夜一级淫片| 丝袜无码一区二区三区| 国产亚洲欧美日韩在线观看一区二区 | 亚洲av成人无码网站在线观看| 国产精品太粉嫩高中在线观看| 国产大片喷水在线在线视频| 一本大道视频精品人妻 | 真实国产乱子伦视频| 福利视频久久| 在线观看亚洲精品福利片| 欧美成一级| 2022国产91精品久久久久久| 欧美特级AAAAAA视频免费观看| 熟妇丰满人妻| 国产91小视频在线观看 | 老熟妇喷水一区二区三区| 国内精自线i品一区202| 中日韩一区二区三区中文免费视频 | 无码中文字幕乱码免费2| 色香蕉网站| 香蕉99国内自产自拍视频| 欧美天堂在线| 伊人福利视频| 国产精品不卡片视频免费观看| 91精品啪在线观看国产91九色| 在线色综合| 国产成人av一区二区三区| 亚洲欧美综合在线观看| 波多野结衣第一页| 欧美在线中文字幕| 精品国产自在现线看久久| 国产精品一线天| 精品人妻一区二区三区蜜桃AⅤ| 国产精品视频系列专区| 四虎永久在线| 国国产a国产片免费麻豆| 欧美a在线视频| 亚洲日本在线免费观看| 伊人久热这里只有精品视频99| 亚洲av无码专区久久蜜芽| 一级毛片免费的| 伊人久久综在合线亚洲91| 久久精品免费国产大片| 精品乱码久久久久久久| 国产精品亚洲综合久久小说| 免费无码AV片在线观看国产| 久热re国产手机在线观看|