999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

誤區(qū)與正道:法律人工智能算法問(wèn)題的困境、成因與改進(jìn)

2020-02-25 16:49:17
關(guān)鍵詞:深度人工智能法律

洪 凌 嘯

(四川大學(xué) 法學(xué)院, 成都 610207)

“法律機(jī)構(gòu)和律師們正站在十字路口,將面對(duì)未來(lái)20年間的劇烈變革,其變化程度將超越過(guò)去兩個(gè)世紀(jì)的總和。”(1)理查德·薩斯坎德《法律人的明天會(huì)怎樣?——法律職業(yè)的未來(lái)》,何廣越譯,北京大學(xué)出版社2015年版,第1頁(yè)。目前,隨著大數(shù)據(jù)與人工智能技術(shù)的不斷發(fā)展,法律體系逐漸向計(jì)算機(jī)化、流程化以及自動(dòng)化發(fā)展。在中國(guó),“智慧法院”建設(shè)如火如荼,新興的法律科技公司不斷地向法院、檢察院以及律所推銷(xiāo)研發(fā)的法律人工智能產(chǎn)品。許多法律人工智能產(chǎn)品被冠之以“深度學(xué)習(xí)”“強(qiáng)化學(xué)習(xí)”“知識(shí)圖譜”等詞匯,在法律人看來(lái),皆屬莫測(cè)高深的算法詞藻。然而,在司法實(shí)踐中,這些法律人工智能產(chǎn)品似乎并未發(fā)揮出其應(yīng)有的作用,“新瓶裝舊酒”現(xiàn)象不斷出現(xiàn),法律人工智能領(lǐng)域并未出現(xiàn)如AlphaGo這般革命性的產(chǎn)品。同時(shí),算法在司法、執(zhí)法以及社會(huì)其他領(lǐng)域引發(fā)了諸如透明性、公正性等諸多問(wèn)題。因此,有必要對(duì)法律人工智能使用中的算法問(wèn)題進(jìn)行相應(yīng)研究,區(qū)分“真”算法與“偽”算法,并反思算法在未來(lái)的改進(jìn)方向。

一 法律人工智能算法的困境

(一)算法的名實(shí)分離

人工智能進(jìn)行“學(xué)習(xí)”的燃料是數(shù)據(jù),“引擎”則是算法。一般來(lái)說(shuō),算法通過(guò)對(duì)數(shù)據(jù)的訓(xùn)練來(lái)提煉模型,進(jìn)而總結(jié)出相應(yīng)的規(guī)律并預(yù)測(cè)未來(lái)。有學(xué)者認(rèn)為,算法的派別可分為符號(hào)學(xué)派、聯(lián)結(jié)學(xué)派、進(jìn)化學(xué)派、貝葉斯學(xué)派與類(lèi)推學(xué)派。(2)佩德羅·多明戈斯《終極算法:機(jī)器學(xué)習(xí)和人工智能如何重塑世界》,黃芳萍譯,中信出版社2017年版,第66頁(yè)。從更宏觀的角度而言,算法其實(shí)可以分為兩種:一種是以邏輯推理為基礎(chǔ)的符號(hào)算法,另一種是以數(shù)據(jù)概率為基礎(chǔ)的計(jì)算算法。前者的典型代表是專(zhuān)家系統(tǒng),發(fā)展至今,在法律人工智能領(lǐng)域的代表是“知識(shí)圖譜”算法。后者的典型代表則是“深度學(xué)習(xí)”與“強(qiáng)化學(xué)習(xí)”。人工智能從其誕生至今,經(jīng)歷過(guò)數(shù)番波折,專(zhuān)家系統(tǒng)從被吹捧到被摒棄,其根本缺陷是其自身的封閉性,只能根據(jù)人類(lèi)專(zhuān)家事先設(shè)置的規(guī)則進(jìn)行推理,因此無(wú)法對(duì)紛繁復(fù)雜的現(xiàn)實(shí)社會(huì)環(huán)境的問(wèn)題進(jìn)行回應(yīng)。而最近的人工智能熱潮的出現(xiàn)需歸結(jié)于AlphaGo在圍棋上擊敗李世石,而圍棋的天量運(yùn)算量在以前普遍被公認(rèn)為是不可能被機(jī)器所取代的,因此被譽(yù)為“人類(lèi)智慧的王冠”。隨著AlphaGo擊敗李世石,并在一年后擊敗柯潔,人們?cè)谡痼@之余開(kāi)始思考AlphaGo這一谷歌Deep Mind開(kāi)發(fā)的“人工智能”強(qiáng)大的原因。谷歌團(tuán)隊(duì)指出,“深度學(xué)習(xí)”“強(qiáng)化學(xué)習(xí)”是AlphaGo成功的關(guān)鍵。這也使人們尤其是法律人想象是否可以將這種強(qiáng)大的算法移植到法律領(lǐng)域,運(yùn)用在一些簡(jiǎn)單法律事務(wù)自動(dòng)化處理的基礎(chǔ)上,實(shí)現(xiàn)法律裁判的智能化。

需要指出的是,當(dāng)下還沒(méi)有一套可以適用于各類(lèi)案件、各種司法實(shí)踐場(chǎng)景的萬(wàn)能算法,希冀于用一種全能算法、一種通用模型架構(gòu)來(lái)解決司法場(chǎng)景中的所有問(wèn)題無(wú)疑是一種神話。因此,不同場(chǎng)景下的不同法律人工智能產(chǎn)品所使用的算法各不相同,但比較公認(rèn)的主流算法是“深度學(xué)習(xí)”“強(qiáng)化學(xué)習(xí)”與“知識(shí)圖譜”。

“深度學(xué)習(xí)”算法本質(zhì)上是一種統(tǒng)計(jì)學(xué)技術(shù),其通過(guò)多層的神經(jīng)網(wǎng)絡(luò)技術(shù)對(duì)數(shù)據(jù)進(jìn)行分析,進(jìn)而建立算法模型對(duì)問(wèn)題進(jìn)行預(yù)測(cè)。神經(jīng)網(wǎng)絡(luò)技術(shù)只是因其輸入節(jié)點(diǎn)、隱藏節(jié)點(diǎn)和輸出節(jié)點(diǎn)的網(wǎng)狀結(jié)構(gòu)連接類(lèi)似生物神經(jīng)元之間的連接而得名,但實(shí)際上與生物意義上的神經(jīng)網(wǎng)絡(luò)毫無(wú)關(guān)系。神經(jīng)網(wǎng)絡(luò)技術(shù)是多層的,計(jì)算機(jī)中的數(shù)學(xué)“神經(jīng)元網(wǎng)絡(luò)”就是一系列像神經(jīng)元一樣可以接收、評(píng)估、傳遞信息的彼此相連的開(kāi)關(guān)。每個(gè)開(kāi)關(guān)就是一個(gè)數(shù)學(xué)方程,方程上攜帶著多種不同的信息投入,并給它們賦予不同的權(quán)重。網(wǎng)絡(luò)的終端是一個(gè)總開(kāi)關(guān),負(fù)責(zé)收集前面所有神經(jīng)元開(kāi)關(guān)的信息并生成預(yù)測(cè),作為神經(jīng)元網(wǎng)絡(luò)的產(chǎn)出。(3)伊恩·艾瑞斯《大數(shù)據(jù)思維與決策 》,宮相真譯,人民郵電出版社2014年版,第140頁(yè)。“深度學(xué)習(xí)”的大規(guī)模運(yùn)用改變了從前人工智能發(fā)展“專(zhuān)家系統(tǒng)”只解決能夠清晰表達(dá)的問(wèn)題,不再過(guò)分依賴(lài)先驗(yàn)知識(shí)與固化邏輯,而開(kāi)始對(duì)未來(lái)的結(jié)果進(jìn)行預(yù)測(cè)。“深度學(xué)習(xí)”并不是一個(gè)全新的算法(4)皮埃羅·斯加魯菲《智能的本質(zhì):人工智能與機(jī)器人領(lǐng)域的64個(gè)大問(wèn)題》,任莉、張建宇譯,人民郵電出版社2017年版,第114頁(yè)。,它出現(xiàn)于1980年代,是計(jì)算人工智能的一種。但由于受算力與數(shù)據(jù)量的制約,它受到的關(guān)注度要遠(yuǎn)小于其他算法。2012年,Krizhevsky、Sutskever、Hinton一系列成果的發(fā)布,以及在Image Net目標(biāo)識(shí)別挑戰(zhàn)賽上取得的成功,讓“深度學(xué)習(xí)”算法再次回到人們的視野。看到“深度學(xué)習(xí)”算法的前景后,國(guó)外學(xué)者紛紛跟進(jìn)(5)有關(guān)“深度學(xué)習(xí)”的更多資料與參考文獻(xiàn),可參見(jiàn):Alex Krizhevsky, Ilya Sutskever, Geoffrey E. Hinton, “ImageNet Classification with Deep Convolutional Neural Networks,” Communications of the ACM 60, no. 6(2017): 84-90, Doi: 10.1145/3065386; Baolin Peng, Zhengdong Lu, Hang Li, Kam-Fai Wong, “Towards Neural Network-based Reasoning,” erpint arXiv: 1508.05508, 2015, https://arxiv.org/pdf/1508.05508v1.pdf; Dan Cieran, Ueli Meier, Jürgen Schmidhuber, “Multi-column Deep Neural Networks for Image Classification,” 2012 IEEE Conference on Computer Vision and Patter Recognition (CVPR)(Washington DC: IEEE Computer Society, 2012), Doi: 10.1109/CVPR.2012.6248110.,并在AlphaGo戰(zhàn)勝李世石后名噪一時(shí)。

“強(qiáng)化學(xué)習(xí)”是一種介乎于“監(jiān)督學(xué)習(xí)”與“無(wú)監(jiān)督學(xué)習(xí)”之間的機(jī)器學(xué)習(xí)方法。監(jiān)督學(xué)習(xí)所用的數(shù)據(jù)是固定的標(biāo)簽,“強(qiáng)化學(xué)習(xí)”則更進(jìn)一步,其標(biāo)簽并不固定,但可通過(guò)固定規(guī)則對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行約束和間接標(biāo)注。通過(guò)對(duì)獎(jiǎng)勵(lì)函數(shù)的設(shè)定,使“獎(jiǎng)勵(lì)”(reward)與“行動(dòng)”(action)之間的相互關(guān)系強(qiáng)化,“強(qiáng)化學(xué)習(xí)”算法可以不斷通過(guò)激勵(lì)函數(shù)得到反饋,對(duì)特征點(diǎn)的權(quán)重進(jìn)行更新,不斷得到強(qiáng)化與修正。“強(qiáng)化學(xué)習(xí)”在計(jì)算機(jī)科學(xué)理論上可以適用于包括未知信息領(lǐng)域在內(nèi)的任何事物與環(huán)境。

“知識(shí)圖譜”是在專(zhuān)家系統(tǒng)的基礎(chǔ)上發(fā)展起來(lái)的,相比專(zhuān)家系統(tǒng),“知識(shí)圖譜”更加自動(dòng)化,可以半自動(dòng)地實(shí)現(xiàn)符號(hào)邏輯的編排。但是,“知識(shí)圖譜”的本質(zhì)依然是通過(guò)符號(hào)輔以嚴(yán)密的邏輯推理模擬人類(lèi)的思維方式。因此,“知識(shí)圖譜”算法屬于符號(hào)學(xué)派,它模擬的是人腦的推理方式,其針對(duì)的對(duì)象是規(guī)則,其比較類(lèi)似決策樹(shù)算法。“知識(shí)圖譜”使用圖作為表示知識(shí)的數(shù)據(jù)結(jié)構(gòu),以“結(jié)點(diǎn)—邊—節(jié)點(diǎn)”的形式組成知識(shí)和事實(shí)表示的陳述語(yǔ)句。“知識(shí)圖譜”最大的作用是降低了結(jié)構(gòu)化知識(shí)構(gòu)建和使用的難度。在司法領(lǐng)域,“知識(shí)圖譜”一般通過(guò)對(duì)法律知識(shí)網(wǎng)絡(luò)的構(gòu)建,幫助法律工作者在線快速檢索法律條文與知識(shí)。這種可視化的分析與信息檢索為自然語(yǔ)言識(shí)別與理解提供背景知識(shí)庫(kù),問(wèn)答系統(tǒng)基本上主要依賴(lài)“知識(shí)圖譜”算法。通過(guò)“知識(shí)圖譜”算法圖的表達(dá),大量數(shù)據(jù)可被壓縮,復(fù)雜關(guān)系與信息的查詢(xún)與表達(dá)被大量簡(jiǎn)化,查詢(xún)速度大大加快。

一般來(lái)說(shuō),數(shù)據(jù)庫(kù)是最常用的數(shù)據(jù)收集、存儲(chǔ)與分析方式,通過(guò)數(shù)據(jù)庫(kù),機(jī)器可以高效地獲取信息。數(shù)據(jù)庫(kù)的缺點(diǎn)是當(dāng)數(shù)據(jù)量過(guò)大時(shí),對(duì)復(fù)雜關(guān)系的運(yùn)算與多度、跨表查詢(xún)耗時(shí)較多,這對(duì)算力不夠、計(jì)算機(jī)硬件設(shè)備不先進(jìn)者是非常不利的。同時(shí),這些算法都有其使用的場(chǎng)景與條件。“深度學(xué)習(xí)”“強(qiáng)化學(xué)習(xí)”的前提是充分的標(biāo)簽數(shù)據(jù)。“深度學(xué)習(xí)”最適合的領(lǐng)域是對(duì)數(shù)據(jù)進(jìn)行分類(lèi),尤其是對(duì)非結(jié)構(gòu)化的大數(shù)據(jù)集進(jìn)行處理,即通過(guò)神經(jīng)網(wǎng)絡(luò)輸出結(jié)果定義的反向傳播,給定輸入數(shù)據(jù)的類(lèi)別。另外,“深度學(xué)習(xí)”算法具有一定的通用性,可以將其適用到各個(gè)領(lǐng)域上,而不需要特別豐富而專(zhuān)業(yè)的知識(shí)。從這個(gè)角度而言,“深度學(xué)習(xí)”拓展了人工智能的運(yùn)用領(lǐng)域。一般來(lái)說(shuō),當(dāng)數(shù)據(jù)量充足時(shí),可使用“深度學(xué)習(xí)”算法進(jìn)行模型構(gòu)建。“強(qiáng)化學(xué)習(xí)”也需要海量的標(biāo)簽數(shù)據(jù)與學(xué)習(xí)樣本來(lái)訓(xùn)練得出一個(gè)原先通過(guò)硬編碼即可簡(jiǎn)單學(xué)習(xí)的普遍規(guī)律。而當(dāng)數(shù)據(jù)量不足時(shí),如只有幾百或幾千個(gè)數(shù)據(jù)值時(shí),我們就需要通過(guò)人工的方式,如引入圖模型來(lái)構(gòu)建一個(gè)人類(lèi)的知識(shí)體系,而不是由機(jī)器自身形成的模型。“知識(shí)圖譜”可以幫助機(jī)器識(shí)別與使用來(lái)自不同數(shù)據(jù)源的數(shù)據(jù),主要是依靠圖表的方式將數(shù)據(jù)間復(fù)雜、交互的交叉關(guān)系表現(xiàn)出來(lái)。這在數(shù)據(jù)源愈發(fā)多元化、數(shù)據(jù)存儲(chǔ)格式也各不相同的當(dāng)下顯得格外重要。在“知識(shí)圖譜”的基礎(chǔ)上,有公司甚至開(kāi)始加入時(shí)間維度,以生成事理圖譜,可視化、智能化地展示案情的事實(shí)與證據(jù)情況。

最近幾年,法律人工智能界使用最多、宣傳最廣的算法即是“知識(shí)圖譜”。“知識(shí)圖譜”確實(shí)具有一定的優(yōu)勢(shì)。首先,具有知識(shí)性,即該算法可以累積較多的專(zhuān)家知識(shí);其次,具有邏輯性,可以通過(guò)固定的符號(hào)模擬人類(lèi)的思維方式進(jìn)行推理、判斷并做出相應(yīng)的決策;最后,具有透明性,即以符號(hào)與推理的方式展示人類(lèi)的思維過(guò)程,其所使用的符號(hào)數(shù)據(jù)與推理過(guò)程都是可視可解釋的。“知識(shí)圖譜”用計(jì)算機(jī)表示與推理的形式將專(zhuān)業(yè)領(lǐng)域中的經(jīng)驗(yàn)知識(shí)概括、轉(zhuǎn)化為機(jī)器能夠識(shí)別的符號(hào),并將測(cè)試數(shù)據(jù)與之對(duì)比、匹配,最后得出推理預(yù)測(cè)的結(jié)論。

在司法實(shí)踐中,比較常見(jiàn)的法律人工智能產(chǎn)品有法律檢索、文書(shū)自動(dòng)生成、類(lèi)案推送、語(yǔ)音文字轉(zhuǎn)換等。法律檢索系統(tǒng)、裁判文書(shū)自動(dòng)生成系統(tǒng)所使用的算法是“深度學(xué)習(xí)”、類(lèi)比推理(6)類(lèi)比推理也稱(chēng)最近鄰算法,即通過(guò)對(duì)相似度的衡量,歸納、重組、推導(dǎo)出創(chuàng)造性的預(yù)測(cè)意見(jiàn)。與支持向量機(jī)(7)支持向量機(jī)指的是算法先把每個(gè)詞語(yǔ)都轉(zhuǎn)化為一個(gè)“向量”,即多維度的“量”,再將每個(gè)詞語(yǔ)進(jìn)行向量化,即“詞嵌入”(Word Embedding)。它針對(duì)的對(duì)象是實(shí)例。。類(lèi)案識(shí)別和推送所使用的算法是“深度學(xué)習(xí)”“強(qiáng)化學(xué)習(xí)”與“知識(shí)圖譜”;語(yǔ)音文字轉(zhuǎn)換系統(tǒng)所使用的算法是“深度學(xué)習(xí)”。

由此可見(jiàn),在司法實(shí)踐中的法律人工智能產(chǎn)品首先是一種算法的集合或者混合。盡管在名稱(chēng)的選擇上,幾乎所有的法律人工智能產(chǎn)品都會(huì)強(qiáng)調(diào)自身使用了“深度學(xué)習(xí)”“強(qiáng)化學(xué)習(xí)”等先進(jìn)的算法,然而從效果上看,法律人工智能產(chǎn)品的實(shí)際效果不一。事實(shí)上,效果比較好的法律人工智能產(chǎn)品是以科大訊飛為代表的語(yǔ)音文字轉(zhuǎn)換系統(tǒng),而類(lèi)案推送、法律檢索等法律人工智能產(chǎn)品并未真正得到運(yùn)用,即使運(yùn)用也因用戶(hù)感受不佳而得不到充分運(yùn)用。例如,有學(xué)者在考察類(lèi)案推送系統(tǒng)的過(guò)程中發(fā)現(xiàn),類(lèi)案推送在司法一線并未得到廣泛的運(yùn)用與好評(píng),甚至有許多法官反映,類(lèi)案類(lèi)判系統(tǒng)對(duì)法官辦案“幫助不大”“作用很小”。(8)左衛(wèi)民《如何通過(guò)人工智能實(shí)現(xiàn)類(lèi)案類(lèi)判》,《中國(guó)法律評(píng)論》2018年第2期,第26-32頁(yè)。

更進(jìn)一層講,盡管類(lèi)案推送與法律檢索等效果不佳的法律人工智能產(chǎn)品背后的算法是“深度學(xué)習(xí)”“強(qiáng)化學(xué)習(xí)”與“知識(shí)圖譜”,但真正起作用的卻是“知識(shí)圖譜”。因此,最新的計(jì)算統(tǒng)計(jì)概率型算法技術(shù)其實(shí)并未在法律人工智能產(chǎn)品中得到運(yùn)用,我們?nèi)匀辉谑褂脗鹘y(tǒng)的符號(hào)型算法。而運(yùn)用效果較好的語(yǔ)音文字轉(zhuǎn)換系統(tǒng),雖運(yùn)用了“深度學(xué)習(xí)”算法,但需要指出的是,這一算法是專(zhuān)門(mén)針對(duì)語(yǔ)音文字轉(zhuǎn)換領(lǐng)域的算法。在該領(lǐng)域,這是一種通用技術(shù),既可以適用于法律領(lǐng)域,也可以廣泛地適用于翻譯、教學(xué)等與語(yǔ)音、文字相關(guān)的領(lǐng)域。也就是說(shuō),這種算法并不是專(zhuān)門(mén)為法律領(lǐng)域量身定做的。

總體來(lái)說(shuō),當(dāng)下法律人工智能領(lǐng)域的算法存在著嚴(yán)重的名實(shí)不符現(xiàn)象。首先,幾乎所有的法律人工智能產(chǎn)品都會(huì)強(qiáng)調(diào)自身的算法具有先進(jìn)性;其次,司法領(lǐng)域中使用效果不佳的法律人工智能產(chǎn)品背后的算法,是以傳統(tǒng)型的符號(hào)流派算法為主的,而最新的計(jì)算統(tǒng)計(jì)概率型算法并未真正被運(yùn)用;最后,運(yùn)用效果較好的算法背后是一種“通用型”的算法,目前缺少專(zhuān)門(mén)為法律領(lǐng)域?qū)iT(mén)設(shè)計(jì)的算法。

(二)算法的透明性缺陷

“深度學(xué)習(xí)”是一個(gè)“端到端”(end-to-end)的黑箱,人類(lèi)無(wú)法獲知其做出決策的過(guò)程、理由與原因。在法律領(lǐng)域,“深度學(xué)習(xí)”算法的致命缺陷在于給出一個(gè)判決結(jié)果不等于給出了判決尺度與判決規(guī)則。“深度學(xué)習(xí)”所給出的YES or NO、RIGHT or WRONG的答案無(wú)法反映判決的全部?jī)?nèi)容與法律推理過(guò)程。此外,機(jī)器如何判斷YES or NO、RIGHT or WRONG也是一個(gè)重大的謎團(tuán)。如何定義勝訴?支持了全部訴訟請(qǐng)求或者駁回全部訴訟請(qǐng)求算勝訴,那么實(shí)際損失80萬(wàn),起訴金額100萬(wàn),最后法院判決支持賠付了50萬(wàn),在訴訟上算輸還是算贏呢?在刑事案件中,在3到10年的量刑幅度間,被告人被判了5年算勝訴嗎?這些問(wèn)題都無(wú)法用YES or NO、RIGHT or WRONG來(lái)簡(jiǎn)單定義。例如威斯康星州訴盧米斯一案〔State v. Loomis, 881 N.W.2 d 749(Wis.2016)〕:2013年,埃里克·盧米斯(Eric Loomis)因偷竊被槍擊者拋棄的汽車(chē)而被警察誤當(dāng)作槍擊者予以逮捕,并受到與駕車(chē)槍擊有關(guān)的五項(xiàng)刑事指控。鑒于盧米斯存在偷盜和拒捕行為,盧米斯承認(rèn)了其中兩項(xiàng)較輕的指控。盧米斯回答了COMPAS犯罪風(fēng)險(xiǎn)評(píng)估工具所問(wèn)的一系列問(wèn)題,并被COMPAS認(rèn)定再犯可能性是“高風(fēng)險(xiǎn)”。COMPAS系統(tǒng)是威斯康星州懲戒部門(mén)一直使用的,由一家私人持股公司開(kāi)發(fā)的一款風(fēng)險(xiǎn)評(píng)估工具:一種基于證據(jù)衡量罪犯未來(lái)犯罪可能性,并為矯治署提供決策支持的軟件。風(fēng)險(xiǎn)評(píng)估算法的技術(shù)原理是,罪犯先回答一系列問(wèn)題、問(wèn)卷或采訪。例如COMPAS就有137個(gè)問(wèn)題的對(duì)話系統(tǒng),這些問(wèn)題涉及犯罪和個(gè)人歷史,包括家庭犯罪歷史,同時(shí)也涉及很多的個(gè)人觀念和看法,比如個(gè)人可信度、對(duì)場(chǎng)景善惡的判斷等等。COMPAS的問(wèn)卷將這些問(wèn)題分為15個(gè)維度:當(dāng)前指控、犯罪歷史、不遵守、家族犯罪性、同輩交往、毒品濫用、住所的穩(wěn)定性、社會(huì)環(huán)境、教育、職業(yè)、空閑與娛樂(lè)、社交孤立、犯罪人格、憤怒以及犯罪態(tài)度。之后,算法對(duì)所有數(shù)據(jù)進(jìn)行處理,判定罪犯的再犯罪風(fēng)險(xiǎn)級(jí)別。此外,還涉及需求級(jí)別,用于對(duì)犯罪人的教育和改造。級(jí)別分是在同基準(zhǔn)群體與其他罪犯比較的基礎(chǔ)上得出的,1-4為低,5-7為中,8-10為高。用于比較的基準(zhǔn)群體有男女兩類(lèi)共八組:男性監(jiān)禁/假釋、男性監(jiān)禁、男性緩刑、男性混合,女性監(jiān)禁/假釋、女性監(jiān)禁、女性緩刑、女性混合。以此來(lái)判斷罪犯的個(gè)人身份信息、成長(zhǎng)經(jīng)歷及種族狀況。(9)朱體正《人工智能輔助刑事裁判的不確定性風(fēng)險(xiǎn)及其防范——美國(guó)威斯康星州訴盧米斯案的啟示》,《浙江社會(huì)科學(xué)》2018年第6期,第76-85頁(yè)。法庭在量刑時(shí),參考了COMPAS犯罪風(fēng)險(xiǎn)評(píng)估以及其他眾多因素,將COMPAS的犯罪風(fēng)險(xiǎn)評(píng)估作為對(duì)盧米斯量刑前調(diào)查報(bào)告(PSI)的一部分,最終判處盧米斯6年監(jiān)禁和5年監(jiān)外執(zhí)行。之后,盧米斯提起上訟,主張法庭嚴(yán)重依賴(lài)COMPAS系統(tǒng)進(jìn)行判案的行為侵犯了其在美國(guó)憲法第五、十四條修正案下所享有的正當(dāng)程序權(quán)利,即量刑需要注重個(gè)案主義及量刑的準(zhǔn)確性,而COMPAS的私企性質(zhì)及商業(yè)秘密阻礙了其評(píng)估的準(zhǔn)確性;并且,COMPAS系統(tǒng)不當(dāng)?shù)乜紤]了性別因素,其評(píng)估結(jié)果的非準(zhǔn)確性使其不能作為判案依據(jù)。另一方面,法院根據(jù)COMPAS系統(tǒng)的預(yù)測(cè)結(jié)果進(jìn)行判案有程序違法之嫌,不符合個(gè)案處理的原則。因?yàn)樵谂袑徠陂g,盧米斯并沒(méi)有接觸這個(gè)算法的權(quán)限。2016年7月,美國(guó)威斯康星州最高法院支持了下級(jí)法院的裁判,駁回了盧米斯的請(qǐng)求,認(rèn)為初審法院在量刑時(shí)利用犯罪風(fēng)險(xiǎn)評(píng)估分?jǐn)?shù)不侵犯被告人的正當(dāng)程序權(quán)利,并且將性別作為參考因素反而提高了犯罪風(fēng)險(xiǎn)評(píng)估的準(zhǔn)確性。(10)Michelle Liu, “Supreme Court passes on crime assessment case,” accessed November 12, 2019, https://www.jsonline.com/story/news/crime/2017/06/26/supre-court-refuses-wisconsin-predictive-crime-assessment-case/428240001.按:本文所引外文文獻(xiàn)均為筆者自己翻譯,下同。即使背后的算法和方法沒(méi)有向法院和被告人披露,算法輸出的信息有著足夠的透明度。在準(zhǔn)確量刑方面,一方面,在評(píng)估犯罪風(fēng)險(xiǎn)時(shí)考慮性別正是為了提高準(zhǔn)確性;另一方面,COMPAS使用的公開(kāi)數(shù)據(jù)都是被告人提供的,如果有錯(cuò)誤,被告人可以“反駁、補(bǔ)充和解釋”這些信息。COMPAS系統(tǒng)的風(fēng)險(xiǎn)評(píng)估是借助獨(dú)立的子項(xiàng)和復(fù)雜的算法完成的,最終從1到10的級(jí)別評(píng)定具有中立性和客觀性。但法院同時(shí)強(qiáng)調(diào),在使用犯罪風(fēng)險(xiǎn)評(píng)估工具前,應(yīng)當(dāng)給予法官諸如算法的公開(kāi)性、有效性、歧視性的提示,提醒法官在量刑時(shí)不要過(guò)度依賴(lài)機(jī)器算法,不要過(guò)度使用算法。2017年6月,美國(guó)最高法院拒絕提審該案,這實(shí)際上間接承認(rèn)了法律人工智能在司法實(shí)踐中運(yùn)用的現(xiàn)狀,并希望維持現(xiàn)狀不變。這同時(shí)意味著美國(guó)法院在法律人工智能的使用問(wèn)題上尚未形成共識(shí),需要用時(shí)間來(lái)消化科技帶來(lái)的沖擊。

司法權(quán)作為一種中立、被動(dòng)的權(quán)力,相較立法權(quán)缺失了民意基礎(chǔ),相較行政權(quán)缺失了強(qiáng)制手段,但承擔(dān)著糾紛解決的終局權(quán)威、實(shí)現(xiàn)社會(huì)正義的最后堡壘的重任。司法權(quán)獲得正當(dāng)性的重要基礎(chǔ)在于其理性,而理性需要通過(guò)司法裁判的說(shuō)理機(jī)制予以體現(xiàn)。法律判決不斷規(guī)范、完善的過(guò)程是一個(gè)不斷增加其說(shuō)理性的過(guò)程。一個(gè)判決只有能夠被解釋?zhuān)糯嬖诒辉u(píng)估、被信賴(lài)的空間。也正基于此,我們才可對(duì)其進(jìn)行修正以增加共識(shí),減少司法判決不透明所帶來(lái)的震蕩與風(fēng)險(xiǎn),并推動(dòng)相關(guān)法律領(lǐng)域立法的進(jìn)步與完善。算法尤其是“深度學(xué)習(xí)”算法在其運(yùn)算過(guò)程中的方式往往是人類(lèi)所無(wú)法完全理解的。這種在數(shù)據(jù)輸入與輸出之間不透明的狀態(tài)被形象地稱(chēng)為“黑箱”。也正因?yàn)榇耍覀儗?duì)機(jī)器這種復(fù)雜到人類(lèi)都難以理解的自我學(xué)習(xí)、自我演進(jìn)方式,基于數(shù)據(jù)建立模型并給出答案的能力感到迷惑與擔(dān)憂。

“以前,人類(lèi)是所有重要問(wèn)題的決策者;而今,算法與人類(lèi)共同扮演這一角色。”(11)克里斯托弗·斯坦納《算法帝國(guó)》,李筱瑩譯,人民郵電出版社2014年版,第197頁(yè)。但不管人工智能有多復(fù)雜,其實(shí)質(zhì)還是統(tǒng)計(jì)科學(xué)與計(jì)算機(jī)科學(xué)的結(jié)合,依然是數(shù)據(jù)與代碼的排列組合。因此,需要算法的設(shè)計(jì)者在設(shè)計(jì)伊始便從算法內(nèi)部增強(qiáng)其解釋性。

(三)算法的公正性與中立性憂思

算法表面上并未依靠暴力來(lái)維持與推動(dòng),并且在長(zhǎng)時(shí)間的話語(yǔ)渲染下披上了一層科技化的神秘外衣,樹(shù)立起不容質(zhì)疑的隱形權(quán)威,如果沒(méi)有算法專(zhuān)家的幫助,普通群眾更是對(duì)算法難以“去魅”。但恰恰是這種對(duì)算法中立性與公正性的盲目迷信,引發(fā)了狂熱的數(shù)據(jù)與算法崇拜的思潮,“數(shù)學(xué)洗白”(math washing)現(xiàn)象也愈發(fā)嚴(yán)重,人們不斷讓渡出自己對(duì)事物的判斷權(quán)與決定權(quán),而算法則不停地在新的領(lǐng)域開(kāi)疆拓土,占據(jù)話語(yǔ)上的統(tǒng)治地位。這種通過(guò)算法所建立起來(lái)的新型支配關(guān)系,正在演變?yōu)橐环N新興的權(quán)力——算法權(quán)力(Algorithmic Power)(12)鄭戈《算法的法律與法律的算法》,《中國(guó)法律評(píng)論》2018年第2期,第66-85頁(yè)。,正在培育新的不平等空間。算法在不斷自動(dòng)化地為公眾提供現(xiàn)實(shí)的答案的同時(shí),也帶來(lái)了新的問(wèn)題。

這其中,算法的公正性與中立性問(wèn)題最為引人注目。算法或者說(shuō)技術(shù)是中立的嗎?顯然,公眾對(duì)算法中立存在重大誤解。每個(gè)人對(duì)算法都有著良好的期待,寄希望于算法能夠更加客觀而無(wú)偏見(jiàn)地給出預(yù)測(cè)與結(jié)論,而不受人類(lèi)主觀情感與情緒以及運(yùn)算能力的影響。事實(shí)上,算法也確實(shí)在某些方面與程度達(dá)到了這一期待。例如,有研究顯示,法官在假釋與保釋環(huán)節(jié)容易受罪犯外表長(zhǎng)相的影響,做出不正確的結(jié)論;而算法則不會(huì)受這些人類(lèi)個(gè)人情感因素與主觀好惡的影響,個(gè)案判決間的偏離度更小,也顯得更加公正與中立。有鑒于此,在對(duì)外宣傳上,法律科技公司一直宣揚(yáng)著自身的高效、自動(dòng)、中立與公正,但事實(shí)真的如此嗎?非常遺憾的是,我們或許正在見(jiàn)證技術(shù)的另一種偏見(jiàn)。正如威廉·布魯斯·卡梅隆所指出的——“并非所有能夠量化的東西都很重要,并非所有重要的東西都能量化”(13)安德雷斯·韋思岸《大數(shù)據(jù)和我們:如何更好地從后隱私經(jīng)濟(jì)中獲益?》,胡小銳、李凱平譯,中信出版社2016年版,第177頁(yè)。,但“個(gè)人的無(wú)意識(shí)被掌握在算法手中”(14)瑟格·阿比特博、吉爾·多維克《算法小時(shí)代:從數(shù)學(xué)到生活的歷變》,任軼譯,人民郵電出版社 2017年版,第133頁(yè)。。法律人工智能行業(yè)中的算法是作為一項(xiàng)商業(yè)秘密而存在的,外人無(wú)從知曉,只有算法的設(shè)計(jì)者才掌握具體細(xì)節(jié)。算法中夾雜了太多的商業(yè)利益、政治考量與文化偏見(jiàn)。例如卡內(nèi)基梅隆大學(xué)利用一種名為AdFisher的廣告釣魚(yú)軟件,模擬普通用戶(hù)瀏覽求職網(wǎng)站的行為。結(jié)果發(fā)現(xiàn),由谷歌推送的“年薪20萬(wàn)美元的以上職位”男性用戶(hù)組收到1852次推送,女性用戶(hù)組僅僅收到318次。研究者認(rèn)為,谷歌公司的廣告系統(tǒng)已經(jīng)學(xué)會(huì)了性別歧視。(15)Claire Cain Miller, “When Algorithms Discriminate,” New York Times, July 9, 2015.美國(guó)聯(lián)邦貿(mào)易委員會(huì)在調(diào)查中發(fā)現(xiàn)廣告商更傾向于將高息貸款信息展示給低收入群體看。(16)蘇令銀《透視人工智能背后的“算法歧視”》,《中國(guó)社會(huì)科學(xué)報(bào)》2017年10月10日,第5版。再例如“今日頭條”等個(gè)性化新聞軟件的出現(xiàn),會(huì)讓市民只接觸迎合他們狹隘偏好的新聞出版物,從而形成“我的日?qǐng)?bào)”(Daily Me)。(17)伊恩·艾瑞斯《大數(shù)據(jù)思維與決策》,第23頁(yè)。

在刑事司法領(lǐng)域,這一現(xiàn)象尤為突出。有數(shù)據(jù)表明,被警察攔截搜身的男性中,黑人或拉丁美洲裔人的比例高達(dá)85%以上。(18)國(guó)務(wù)院新聞辦公室《2010年美國(guó)的人權(quán)紀(jì)錄》,《人權(quán)報(bào)告》2011年第3期,第2-11頁(yè)。這在某種程度上加大了如未成年飲酒及公共場(chǎng)所抽煙等輕微罪的被發(fā)現(xiàn)與放大。一旦這些黑人與拉丁美洲裔人控制不住情緒與警方產(chǎn)生沖突并因此被捕的話,他們就有了犯罪前科。而這些有色人種多集中聚居在一些貧困的社區(qū)與街道,由于犯罪前科的出現(xiàn),該地的歷史犯罪率自然就會(huì)進(jìn)一步提高,算法由此會(huì)指引警察去此處進(jìn)行預(yù)防型巡邏,這就導(dǎo)致更多的黑人與拉丁美洲裔人被盤(pán)查與搜捕,被捕率進(jìn)一步提高,進(jìn)而形成了一個(gè)惡性循環(huán)。有色人種經(jīng)常居住地的犯罪率居高不下,證明了加強(qiáng)警察巡邏的必要性,警察巡邏造成更多的輕微罪的犯罪率與犯罪前科,算法由此更加傾向于對(duì)有色人種進(jìn)行巡檢與攔截搜身,這是一個(gè)失真而有害的惡性循環(huán)。紐約公民自由聯(lián)盟2013年的調(diào)查數(shù)據(jù)顯示,雖然14至24歲的黑人和拉美裔男性?xún)H占紐約人口4.7%,但警方攔截搜身的對(duì)象高達(dá)40.6%屬這一群人。(19)凱西·歐尼爾《大數(shù)據(jù)的傲慢與偏見(jiàn):一個(gè)圈內(nèi)數(shù)學(xué)家對(duì)演算法霸權(quán)的警告與揭發(fā)》,許瑞宋譯,中國(guó)臺(tái)灣大學(xué)出版社2017年版,第41頁(yè)。馬里蘭大學(xué)一項(xiàng)研究顯示,在包含休斯頓的哈里斯郡,相對(duì)于被判犯了相同罪行的白人,黑人被檢方求處死刑的幾率高三倍,西班牙語(yǔ)裔被求處死刑的幾率高四倍,而且這種形態(tài)并非德州獨(dú)有;美國(guó)公民自由聯(lián)盟指出,在聯(lián)邦系統(tǒng)中,黑人得到的刑期比犯類(lèi)似罪行的白人長(zhǎng)約20%,而黑人雖然僅占美國(guó)人口13%,但美國(guó)在囚犯人高達(dá)40%為黑人。(20)凱西·歐尼爾《大數(shù)據(jù)的傲慢與偏見(jiàn):一個(gè)圈內(nèi)數(shù)學(xué)家對(duì)演算法霸權(quán)的警告與揭發(fā)》,第40頁(yè)。而從犯罪類(lèi)型看,目前算法能夠進(jìn)行預(yù)測(cè)的犯罪類(lèi)型往往是街頭犯罪、常規(guī)犯罪及與人身相關(guān)的惡性犯罪,但金融犯罪、欺詐犯罪、白領(lǐng)犯罪與高智商犯罪卻不在其列。可以說(shuō),算法的精準(zhǔn)與高效也是針對(duì)窮人的精準(zhǔn)與高效,而富人這一群體在刑事司法領(lǐng)域被算法有意無(wú)意地忽略了。“未來(lái),富人的事務(wù)會(huì)由人打理,平民的事情則交由機(jī)器。”(21)《算法密碼之凱西·奧尼爾:盲目信仰大數(shù)據(jù)的時(shí)代必須結(jié)束》,2018年10月29日訪問(wèn),https://new.qq.com/omn/20180203/20180203A04R1Z.html.通過(guò)算法的不平等、不公正、不中立的統(tǒng)治將變得更為隱密,手段將更為精細(xì)、間接與難以察覺(jué)。犯罪概率評(píng)估系統(tǒng)工具的使用需要考慮公共利益,這其中,該工具賴(lài)以存在的算法的合法性與公開(kāi)性構(gòu)成了這類(lèi)工具的合憲性前提。美國(guó)調(diào)查性新聞機(jī)構(gòu)ProPublica最新的一項(xiàng)實(shí)證調(diào)查研究表明,COMPAS已對(duì)黑人造成了系統(tǒng)性的歧視。COMPAS系統(tǒng)將黑人錯(cuò)誤評(píng)估為高犯罪風(fēng)險(xiǎn)及罪犯潛在分子的概率幾乎是白人的兩倍。(22)Jeff Larson, Surya Mattu,Lauren Kirchner and Julia Angwin, “How We Analyzed the COMPAS Recidivism Algorithm,” accesed November 12, 2019, https://www.propublica.org/article/how-we-analyzed-the-compas-recidivism-algorithm.實(shí)證研究顯示,被COMPAS系統(tǒng)認(rèn)定犯罪風(fēng)險(xiǎn)程度相當(dāng)?shù)暮谌伺c白人,當(dāng)二者被假釋后,白人卻更有可能(far more likely)重新犯罪。這就意味著,COMPAS系統(tǒng)將白人認(rèn)定為低風(fēng)險(xiǎn)的做法是不準(zhǔn)確的。甚至有學(xué)者認(rèn)為,COMPAS系統(tǒng)在預(yù)測(cè)未來(lái)犯罪方面的準(zhǔn)確性和擲硬幣差不多。另外,Tan和Caruana根據(jù)COMPAS所描述介紹的指標(biāo)體系構(gòu)建了一個(gè)模擬COMPAS的模型,同時(shí),他們還設(shè)置了一個(gè)對(duì)照組,即基于現(xiàn)實(shí)世界的實(shí)際再犯結(jié)果創(chuàng)建了另一個(gè)模型。通過(guò)對(duì)實(shí)驗(yàn)組及對(duì)照組模型的比較,Tan和Caruana根據(jù)輸出結(jié)果與種族、性別各變量之間的關(guān)系進(jìn)行比對(duì)后發(fā)現(xiàn),COMPAS確實(shí)對(duì)黑人存在系統(tǒng)性偏見(jiàn)。(23)Sarah Tan, Rich Caruana, Giles Hooker, Yin Lou, “Distill-and-Compare: Auditing Black-Box Models Using Transparent Model Distillation,” eprint arxiv: 1710.06169, 2017. doi:10.1145/3278721.3278725.另有研究者指出,風(fēng)險(xiǎn)評(píng)估算法的具體內(nèi)容被商業(yè)公司的保密協(xié)議所保護(hù)著,要想獲得具體的分析數(shù)據(jù)、算法與結(jié)果是不可能的。(24)左衛(wèi)民《關(guān)于法律人工智能在中國(guó)運(yùn)用前景的若干思考》,《清華法學(xué)》2018年第2期,第108-124頁(yè)。此外,更驚人的是,風(fēng)險(xiǎn)評(píng)估算法已逐步向“深度學(xué)習(xí)”算法轉(zhuǎn)變,這就讓原本可評(píng)估、透明可視的算法變成“黑箱”,“深度學(xué)習(xí)”會(huì)通過(guò)運(yùn)算自己得出相關(guān)的結(jié)論,但這個(gè)過(guò)程就連開(kāi)發(fā)的人員也很難解釋原因。

歸根結(jié)底,算法的中立性與公正性取決于數(shù)據(jù)庫(kù)的覆蓋率與準(zhǔn)確度,以及設(shè)計(jì)者給定的規(guī)則的客觀性與權(quán)威性。如果數(shù)據(jù)庫(kù)中數(shù)據(jù)的代表性與準(zhǔn)確性沒(méi)有問(wèn)題,而提前設(shè)定的規(guī)則也未摻入人類(lèi)的情感偏見(jiàn),那么這套識(shí)別方法在一定程度與范圍內(nèi)是有效的。算法的不公正性有時(shí)并不是算法開(kāi)發(fā)者的故意為之。每個(gè)人都有特定的身份與社會(huì)屬性,如種族、性別、家教、學(xué)歷等,除非每個(gè)人都身處無(wú)知之幕(a Veil of Ignorance)(25)約翰·羅爾斯《正義論》,何懷宏、何包鋼、廖申白譯,中國(guó)社會(huì)科學(xué)出版社2009年版,第105-106頁(yè)。之后,否則算法所產(chǎn)生的不公正其實(shí)是社會(huì)不公正的投射。為此,首先,需要區(qū)分不公正是算法原因造成的不公正還是社會(huì)環(huán)境造成的不公正;其次,需要營(yíng)造一個(gè)開(kāi)放多樣的算法競(jìng)爭(zhēng)市場(chǎng)機(jī)制,以避免算法系統(tǒng)性的不公正,即每個(gè)人都有自由選擇算法,自由選擇法律人工智能產(chǎn)品的權(quán)利;最后,在司法領(lǐng)域,當(dāng)事人作為數(shù)據(jù)主體(Data Subject),有權(quán)不接受法律人工智能自動(dòng)得出的裁判結(jié)果,并可要求生產(chǎn)法律人工智能產(chǎn)品的公司提供詳細(xì)的數(shù)據(jù)來(lái)源、算法模型與輸出結(jié)果,并對(duì)其進(jìn)行解釋。

二 算法“困境”:緣何如此

(一)商業(yè)原因

“深度學(xué)習(xí)”算法的基礎(chǔ)是海量的標(biāo)簽數(shù)據(jù),對(duì)法律數(shù)據(jù)進(jìn)行標(biāo)簽化處理,雖然不需要特別專(zhuān)業(yè)的法律人才,但關(guān)鍵在于數(shù)據(jù)量太大,因此所需要的人力與資金的支持也是驚人的。可以說(shuō),在現(xiàn)階段,“深度學(xué)習(xí)”與“強(qiáng)化學(xué)習(xí)”算法所需的成本與投入是一般的企業(yè)無(wú)法承受的。這就造成了“強(qiáng)化學(xué)習(xí)”與“深度學(xué)習(xí)”算法的話語(yǔ)宣傳、學(xué)習(xí)與掌握與其實(shí)際可能之間產(chǎn)生巨大承受或接受鴻溝。就某種程度而言,AlphaGo在圍棋領(lǐng)域成功的宣傳意義要大于實(shí)際意義,AlphaGo的勝利是不常見(jiàn)的、偶然的勝利,可能是不具有代表意義的。

對(duì)于大公司尤其是中國(guó)的大型企業(yè)如百度、阿里巴巴、騰訊等頭部互聯(lián)網(wǎng)公司而言,它們當(dāng)然重視算法,但是它們更希望將其運(yùn)用于商業(yè)如電商領(lǐng)域。或許在法律人眼中,法律行業(yè)的經(jīng)濟(jì)體量較大,但將其放置于整個(gè)中國(guó)經(jīng)濟(jì)的大環(huán)境下,法律行業(yè)的經(jīng)濟(jì)體量其實(shí)并不大。中國(guó)頭部律所一年的創(chuàng)收額度甚至比不上淘寶、京東等電商企業(yè)“雙11”一天的創(chuàng)收數(shù)額。此外,法律畢竟是分配蛋糕,而不是制造蛋糕,并不會(huì)額外制造經(jīng)濟(jì)效應(yīng)。因此,大企業(yè)并沒(méi)有特別強(qiáng)的動(dòng)力去研究適用法律領(lǐng)域的算法,更希望將有限的資金與資源投入到能夠產(chǎn)生巨額利潤(rùn)的行業(yè)領(lǐng)域如醫(yī)療、電子商務(wù)等。

法律科技公司往往并不是大公司,而是初創(chuàng)公司,因此,法律科技公司往往會(huì)回避對(duì)深度算法的使用,但為了和人工智能的熱點(diǎn)聯(lián)系在一起,只是在宣傳話語(yǔ)上模糊地提到“深度學(xué)習(xí)”,但在實(shí)際運(yùn)用層面上,只是通過(guò)法律條文“知識(shí)圖譜”的構(gòu)建,將所有相關(guān)的法律條文串聯(lián)起來(lái)。

法律科技公司第一需要解決的是生存問(wèn)題,在面對(duì)大眾的法律人工智能技術(shù)與產(chǎn)品尚未成熟的情況下,法律科技公司既需要在短期利益與長(zhǎng)期發(fā)展中進(jìn)行選擇,也需要對(duì)產(chǎn)品的受眾進(jìn)行區(qū)分。由于自然語(yǔ)言技術(shù)的制約,法律科技公司無(wú)法對(duì)日常生活語(yǔ)言進(jìn)行準(zhǔn)確的判別,因此常常會(huì)將產(chǎn)品目標(biāo)對(duì)接法律專(zhuān)門(mén)機(jī)關(guān)。同時(shí),許多法律科技公司并不具備如生產(chǎn)出AlphaGo的谷歌Deep Mind團(tuán)隊(duì)的人工智能技術(shù)。在“深度學(xué)習(xí)”算法上,法律科技公司既缺乏大量資金與人力去完成文書(shū)標(biāo)注的基礎(chǔ)工作,又缺少GPU這種“深度學(xué)習(xí)”算法必備的硬件條件,因此選擇用較為簡(jiǎn)單的傳統(tǒng)算法進(jìn)行產(chǎn)品構(gòu)建。

易非揮了揮手,打斷了他關(guān)于所有將來(lái)的承諾,她勉強(qiáng)笑了一下,說(shuō):“別老由著李倩倩的,對(duì)媽好一點(diǎn)兒。”向南使勁點(diǎn)了點(diǎn)頭。

在法律領(lǐng)域,使用“知識(shí)圖譜”主要切合了當(dāng)下法律科技公司的實(shí)際情況,其主要雇員來(lái)自于法院的前法官、檢察院的前檢察官。在法學(xué)專(zhuān)業(yè)知識(shí)及司法審判技術(shù)知識(shí)方面,這些人力資源當(dāng)然是無(wú)可挑剔的,也契合“知識(shí)圖譜”需要對(duì)某一特別法甚至是某一特殊罪名細(xì)分領(lǐng)域內(nèi)的法律要素進(jìn)行識(shí)別、選擇與構(gòu)建的要求。這也是法律科技公司引入這些優(yōu)秀的前法官、前檢察官的初始用意。構(gòu)建“知識(shí)圖譜”的工程,雖然相較“深度學(xué)習(xí)”算法的研究要輕松許多,并且在一些簡(jiǎn)單案件中確實(shí)可以起到一定的作用,具有一定的實(shí)用性與易用性,但也明顯制約了法律人工智能的深度發(fā)展。因?yàn)楫?dāng)下最簡(jiǎn)單的道路,在未來(lái)很可能是最艱難的道路,并可能將法律人工智能置于懸崖之上。

此外,算法的不透明、不公正、不中立,也在于算法掌握在少數(shù)的科技公司與算法工程師的手中。出于商業(yè)秘密的考慮,算法以一種隱形的形式存在,并不向外公開(kāi)。而為了實(shí)現(xiàn)利益最大化,算法向某些特別人群傾斜,實(shí)踐中“大數(shù)據(jù)殺熟”現(xiàn)象的出現(xiàn),已經(jīng)昭示了這一點(diǎn)。

(二)技術(shù)原因

算法使用的悖論在于,算法模型越通用,則其雖可容納下更多的“噪聲”(26)“噪聲”指隨機(jī)出現(xiàn)而沒(méi)有相關(guān)性的數(shù)據(jù),參見(jiàn):安德雷斯·韋思岸《大數(shù)據(jù)和我們:如何更好地從后隱私經(jīng)濟(jì)中獲益?》,第36頁(yè)。,但其高擬合性自然也降低了預(yù)測(cè)的精確性。同樣的邏輯,當(dāng)算法模型越個(gè)別化,則越只能在特定的場(chǎng)景下使用,越無(wú)法容忍數(shù)據(jù)噪音,但相應(yīng)的,其精確性會(huì)大大提高。人工智能在具體的任務(wù)如圖像識(shí)別、機(jī)器翻譯上表現(xiàn)出色,可以驚人的速度與準(zhǔn)確度完成任務(wù)。但在這背后起支撐作用的是獨(dú)立的算法,即一種任務(wù)對(duì)應(yīng)一種算法,算法無(wú)法遷移與混雜。當(dāng)下并沒(méi)有一個(gè)通用的算法可以對(duì)所有的法律領(lǐng)域、所有的法律案件類(lèi)型以及所有的罪名、案由進(jìn)行概括式、打通式的計(jì)算。這就意味著,如果算法尤其是“深度學(xué)習(xí)”在法律領(lǐng)域未獲得突破的前提下,刑事領(lǐng)域?qū)⒔?70個(gè)罪名、民事領(lǐng)域?qū)⒔?67個(gè)二級(jí)案由就可能需要通過(guò)以“知識(shí)圖譜”的方式一個(gè)一個(gè)的解決。這也是法律人工智能目前只能在簡(jiǎn)單案件尤其是個(gè)別罪名、案由中運(yùn)用的原因,這些罪名與案由加起來(lái)不會(huì)超過(guò)20個(gè)。

1.“深度學(xué)習(xí)”算法的技術(shù)缺陷

“深度學(xué)習(xí)”在圍棋領(lǐng)域的大獲成功,加上商業(yè)宣傳話語(yǔ)的加持,讓人們對(duì)其實(shí)際效果產(chǎn)生了誤解。需要特別強(qiáng)調(diào)的是,人們往往將“深度學(xué)習(xí)”中的“深”理解為“深度學(xué)習(xí)”算法可以破解各種深?yuàn)W的難題,然而事實(shí)并非如此。此處的“深”僅就算法技術(shù)、架構(gòu)上的特質(zhì)而言,指“深度學(xué)習(xí)”算法具有多個(gè)隱藏層,在結(jié)構(gòu)上較“深”。20世紀(jì)80年代之后,計(jì)算機(jī)的算力有了巨大的提升,數(shù)據(jù)的存儲(chǔ)能力有了質(zhì)的飛躍,能夠存儲(chǔ)當(dāng)時(shí)看來(lái)可稱(chēng)為海量的數(shù)據(jù)。在此背景下,計(jì)算機(jī)的存儲(chǔ)能力與算力能夠支撐其對(duì)標(biāo)簽數(shù)據(jù)進(jìn)行串聯(lián),進(jìn)而通過(guò)高速計(jì)算建立模型,尋找事物之間的潛在規(guī)律。而這一過(guò)程由于與人腦活動(dòng)中神經(jīng)元的串聯(lián)活動(dòng)相似,故而被稱(chēng)作“神經(jīng)網(wǎng)絡(luò)”。

受商業(yè)宣傳話語(yǔ)的影響,我們將“深度學(xué)習(xí)”誤讀為靈丹妙藥,似乎可以解決一切難題。然而,事實(shí)并非如此。“深度學(xué)習(xí)”有其擅長(zhǎng)的領(lǐng)域,亦有其自身的缺陷。研究者需要做的是,將“深度學(xué)習(xí)”放置于適合其發(fā)揮作用的領(lǐng)域,而盡量回避可能產(chǎn)生錯(cuò)誤的環(huán)節(jié)。“深度學(xué)習(xí)”的本質(zhì)是通過(guò)大量數(shù)據(jù)擬合,試圖讓機(jī)器找到特征點(diǎn)。“深度學(xué)習(xí)”的“神經(jīng)網(wǎng)絡(luò)”只認(rèn)特征點(diǎn),然后由特征點(diǎn)推算概率。“深度學(xué)習(xí)”一般分為兩步。第一步是將大量訓(xùn)練數(shù)據(jù)輸入到機(jī)器中,同時(shí)在對(duì)應(yīng)素材上確定標(biāo)簽,之后機(jī)器就可以通過(guò)GPU掃描尋找到標(biāo)簽與數(shù)據(jù)之間的對(duì)應(yīng)關(guān)系,并通過(guò)建立模型確立機(jī)器所認(rèn)為的規(guī)律。這是機(jī)器學(xué)習(xí)的第一步訓(xùn)練(Train)。第二步則是預(yù)測(cè)(Predict),即將新的數(shù)據(jù)輸入后,根據(jù)之前機(jī)器確立的模型,給出相關(guān)的預(yù)測(cè)。

“深度學(xué)習(xí)”,從本質(zhì)而言,就是一項(xiàng)統(tǒng)計(jì)技術(shù)。它既然是統(tǒng)計(jì)技術(shù),自然有其適用的范圍與局限。首先,從數(shù)據(jù)結(jié)構(gòu)看,“深度學(xué)習(xí)”擅長(zhǎng)在封閉式的數(shù)據(jù)空間內(nèi)進(jìn)行數(shù)據(jù)分類(lèi)。特別是當(dāng)訓(xùn)練集數(shù)據(jù)的數(shù)量足夠大,并且與測(cè)試集數(shù)據(jù)在結(jié)構(gòu)與內(nèi)容上接近甚至相似時(shí),“深度學(xué)習(xí)”能夠出色地完成對(duì)數(shù)據(jù)進(jìn)行分類(lèi)的任務(wù)。但當(dāng)訓(xùn)練集數(shù)據(jù)較為有限且訓(xùn)練集數(shù)據(jù)與測(cè)試集數(shù)據(jù)大不相同或者出現(xiàn)全新數(shù)據(jù)時(shí),“深度學(xué)習(xí)”的泛化(Generalization)能力就開(kāi)始削弱,甚至無(wú)法完成對(duì)數(shù)據(jù)的分類(lèi)工作。在法律世界中,這就決定了“深度學(xué)習(xí)”的范圍與空間主要限定于案件數(shù)量多、案件要素差異不大的案件類(lèi)型,而疑難復(fù)雜的案件則是很難進(jìn)行“深度學(xué)習(xí)”的。“深度學(xué)習(xí)”發(fā)揮出色的前提假設(shè),是數(shù)據(jù)間的差異不大,環(huán)境高度穩(wěn)定。因此,圍棋世界因其穩(wěn)定的規(guī)則體系而特別適合“深度學(xué)習(xí)”的發(fā)揮。但在法律世界中,顯然不是這套邏輯。其次,從數(shù)據(jù)層次看,“深度學(xué)習(xí)”所能夠?qū)W習(xí)、歸納的模型特征還停留在平面的層次上。也就是說(shuō),“深度學(xué)習(xí)”很難學(xué)到具有層級(jí)關(guān)系的數(shù)據(jù)特征。這就意味著,當(dāng)數(shù)據(jù)越難以分類(lèi),離背景知識(shí)與常識(shí)越近時(shí),“深度學(xué)習(xí)”越無(wú)法解決上述問(wèn)題。一旦缺少大量先驗(yàn)知識(shí)的數(shù)據(jù),“深度學(xué)習(xí)”在處理開(kāi)放性問(wèn)題上往往是束手無(wú)策的。而迄今為止,“深度學(xué)習(xí)”在將先驗(yàn)知識(shí)與背景常識(shí)進(jìn)行歸入的工作一直進(jìn)展不大。再次,從數(shù)據(jù)數(shù)量看,“深度學(xué)習(xí)”“強(qiáng)化學(xué)習(xí)”的訓(xùn)練量級(jí)需達(dá)到百萬(wàn)甚至億的數(shù)量級(jí),例如Deep Mind在棋牌游戲和atari上的研究。最后,任務(wù)與領(lǐng)域是單一的。以圖像識(shí)別為例,機(jī)器在識(shí)別雞、鴨的準(zhǔn)確率上強(qiáng)于人類(lèi),但也僅限于雞、鴨。因?yàn)椤吧疃葘W(xué)習(xí)”是根據(jù)雞、鴨的標(biāo)簽數(shù)據(jù)進(jìn)行判斷的,如果換一個(gè)對(duì)象換一個(gè)領(lǐng)域,如識(shí)別貓、狗,機(jī)器則全然不是人類(lèi)的對(duì)手,盡管識(shí)別貓與狗要比識(shí)別雞與鴨簡(jiǎn)單。可以說(shuō),深度學(xué)習(xí)的應(yīng)用前提是十分嚴(yán)苛的,達(dá)不到其中的任何一項(xiàng)條件都會(huì)嚴(yán)重影響“深度學(xué)習(xí)”的效果,無(wú)法達(dá)到或超越人類(lèi)的水平。這也是“深度學(xué)習(xí)”算法一直無(wú)法遷移至其他相關(guān)領(lǐng)域的重要原因。在現(xiàn)實(shí)中,大量工作無(wú)法滿足上述這四個(gè)條件,因此,我們更多的在圍棋以及電子游戲中聽(tīng)到“深度學(xué)習(xí)”算法再獲突破的消息。盡管這些消息無(wú)疑是鼓舞人心的,但是我們必須看到,“深度學(xué)習(xí)”算法也僅僅在這些領(lǐng)域表現(xiàn)出色,而實(shí)際離我們的現(xiàn)實(shí)生活還是比較遙遠(yuǎn)的。

“深度學(xué)習(xí)”的前提是需要有大規(guī)模的標(biāo)簽數(shù)據(jù)作為支撐,而現(xiàn)實(shí)生活中除非刻意設(shè)計(jì)或?qū)iT(mén)投入資金進(jìn)行攻關(guān),否則很難有高質(zhì)量、高規(guī)模的數(shù)據(jù)樣本出現(xiàn)。“深度學(xué)習(xí)”的缺點(diǎn)是,當(dāng)數(shù)據(jù)量不夠大時(shí),有可能會(huì)陷入局部極小值的系統(tǒng)次最優(yōu)解陷阱,即“過(guò)擬合”(Overfitting)(27)Schaffer C, “Overfitting Avoidance as Bias,” Machine Learning, 10, no.2(1993):153-178.。“過(guò)擬合”意味著機(jī)器將訓(xùn)練數(shù)據(jù)樣本中的某些細(xì)節(jié)特點(diǎn)做了放大化的處理,將其視作了一般規(guī)律。這是相當(dāng)危險(xiǎn)的。特別是面對(duì)數(shù)據(jù)缺乏代表性、結(jié)構(gòu)嚴(yán)重單一、差異過(guò)小的局面時(shí),尤顯危險(xiǎn)。例如,如果訓(xùn)練數(shù)據(jù)集中無(wú)罪判決的數(shù)量過(guò)小,機(jī)器在學(xué)習(xí)之后就會(huì)將無(wú)罪判決率低甚至沒(méi)有無(wú)罪判決放大為一般特征,在模型建立完成后,未來(lái)即使案件符合無(wú)罪判決的條件,機(jī)器也會(huì)基于之前的數(shù)據(jù)特征給出有罪之裁判。可見(jiàn),“深度學(xué)習(xí)”算法還不能舉一反三。(28)伊恩·艾瑞斯《大數(shù)據(jù)思維與決策 》,第142頁(yè)。

法律人工智能的建模,需要對(duì)對(duì)話與上下文理解的大規(guī)模數(shù)據(jù)集。在標(biāo)注數(shù)據(jù)時(shí),需要注意前后文、全文甚至行業(yè)、常識(shí)的背景知識(shí),如果沒(méi)有大規(guī)模的標(biāo)注數(shù)據(jù),法律人工智能是很難取得突破的。而這正是我國(guó)法律數(shù)據(jù)面臨的巨大挑戰(zhàn)。

其次,我國(guó)的法律行業(yè)缺乏高質(zhì)量的數(shù)據(jù)。裁判文書(shū)網(wǎng)上所公開(kāi)的文書(shū)的一大弊病是,法官在裁判說(shuō)理時(shí)是以一種“打包說(shuō)理”的方式進(jìn)行的。也就是說(shuō),對(duì)于證據(jù)、事實(shí)、法律的分析是以一種較為籠統(tǒng)的方式進(jìn)行闡釋的,而不是針對(duì)每個(gè)證據(jù)、每項(xiàng)事實(shí)、每條法律進(jìn)行說(shuō)理。因此,我們的現(xiàn)有法律數(shù)據(jù)是籠統(tǒng)的、模糊的,難以進(jìn)行深度加工與解構(gòu)。此外,裁判文書(shū)的質(zhì)量以及判決說(shuō)理的詳細(xì)程度一直成為廣受學(xué)界詬病之處(29)孫海龍《如何提高裁判文書(shū)質(zhì)量》,《中國(guó)審判》2013年第8期,第26-28頁(yè)。,且不說(shuō)裁判文書(shū)的寫(xiě)作質(zhì)量,甚至一般的行文措辭都鬧出不少笑話。例如,有“裁判文書(shū)漏洞迭出”,“短短一頁(yè)裁判文書(shū)就出現(xiàn)了7處錯(cuò)誤”,甚至還有把性別“女”寫(xiě)成了“呂”的情況。(30)《人民日?qǐng)?bào)刊文評(píng)“七錯(cuò)”裁判文書(shū):公平正義需司法公開(kāi)無(wú)死角》,2019年11月12日訪問(wèn),http://news.163.com/17/1122/07/D3R442FN000187VE.html。

最后,中國(guó)現(xiàn)有法律行業(yè)的數(shù)據(jù)缺乏代表性,在結(jié)構(gòu)上存在嚴(yán)重的缺陷。(31)左衛(wèi)民《邁向大數(shù)據(jù)法律研究》,《法學(xué)研究》2018年第4期,第139-150頁(yè)。有些案件類(lèi)型如醉駕案件上網(wǎng)的數(shù)量較為充分,為分析研究提供了充足的資源;但有的案件類(lèi)型如未成年人犯罪案件、離婚案件、危害國(guó)家安全案件、職務(wù)犯罪、死刑類(lèi)案件、無(wú)罪案件以及當(dāng)時(shí)當(dāng)?shù)鼐哂兄卮笥绊懙陌讣簧喜门形臅?shū)網(wǎng)或很少上裁判文書(shū)網(wǎng),這就造成中國(guó)法律數(shù)據(jù)行業(yè)中數(shù)據(jù)的差異性過(guò)小。一旦人工智能學(xué)習(xí)這種在結(jié)構(gòu)上具有重大缺陷的數(shù)據(jù)集,很可能其歸納、提取的數(shù)據(jù)模式是局限且具有偏見(jiàn)的,會(huì)導(dǎo)致模型的“過(guò)擬合”。

2.“知識(shí)圖譜”算法的技術(shù)缺陷

“知識(shí)圖譜”算法的吊詭之處在于,正是因?yàn)椤爸R(shí)圖譜”算法在計(jì)算推理過(guò)程上的透明性與可預(yù)測(cè)性,讓人們覺(jué)得其與真正的人工智能相去甚遠(yuǎn)。因?yàn)槿藗儗?duì)智能的期待往往是“超越人類(lèi)”的,而這一判斷標(biāo)準(zhǔn)的具體化就是人們需要看不懂、摸不透機(jī)器在“想”什么。這讓最終會(huì)形成一串檢索樹(shù)形圖的專(zhuān)家系統(tǒng)讓人感覺(jué)缺少了真正人工智能的神秘感。

在司法實(shí)踐中,“知識(shí)圖譜”算法與司法改革中的要素式審判不謀而合,因此得到了廣泛的運(yùn)用,但“知識(shí)圖譜”算法的缺陷也很明顯。一是知識(shí)的獲取與表述有相當(dāng)難度。一方面,人類(lèi)的經(jīng)驗(yàn)知識(shí)在學(xué)習(xí)與傳授的過(guò)程中具有概括性與模糊性,因此難以用準(zhǔn)確的符號(hào)與規(guī)則加以描述與表達(dá),法律事務(wù)的理解在轉(zhuǎn)化為清晰的推理邏輯時(shí)往往與設(shè)想的理想狀態(tài)有較大差距;另一方面,知識(shí)的表述過(guò)程是一個(gè)浩大且艱巨的過(guò)程,要想將專(zhuān)家經(jīng)驗(yàn)表述清楚,模型的構(gòu)建需精密且嚴(yán)謹(jǐn),一旦出現(xiàn)漏洞,整個(gè)專(zhuān)家系統(tǒng)的準(zhǔn)確性將從根本上崩塌。二是對(duì)已有的經(jīng)驗(yàn)知識(shí)要求高。專(zhuān)家系統(tǒng)嚴(yán)重依賴(lài)規(guī)則推理,其推理前提是專(zhuān)業(yè)領(lǐng)域中的經(jīng)驗(yàn)知識(shí),這就要求這種經(jīng)驗(yàn)知識(shí)首先是正確的,其次是豐富的。如果專(zhuān)家的經(jīng)驗(yàn)知識(shí)在某一問(wèn)題上尚無(wú)定論或者分歧較大,那么就應(yīng)當(dāng)慎重使用“知識(shí)圖譜”算法。因?yàn)槿绻隽私?jīng)驗(yàn)知識(shí)的范圍或經(jīng)驗(yàn)意見(jiàn)不一致,就很有可能出現(xiàn)算法無(wú)法求解、輸出錯(cuò)誤,甚至“知識(shí)圖譜”因前后邏輯不一而產(chǎn)生沖突、出現(xiàn)崩潰的風(fēng)險(xiǎn)。三是運(yùn)用成本高。專(zhuān)家經(jīng)驗(yàn)的獲取需要業(yè)內(nèi)頂尖專(zhuān)家的權(quán)威意見(jiàn),而獲取這些信息的成本開(kāi)銷(xiāo)巨大。另外,“知識(shí)圖譜”算法需要程序員既對(duì)某個(gè)領(lǐng)域的專(zhuān)業(yè)知識(shí)十分熟悉,又要熟練掌握編程知識(shí),這就對(duì)用人成本提出了極高的要求。而新發(fā)展起來(lái)的“深度學(xué)習(xí)”算法則不存在這個(gè)問(wèn)題,“深度學(xué)習(xí)”算法并不要求程序員熟悉特定領(lǐng)域,只要有專(zhuān)業(yè)人員為其提供建模所需的標(biāo)簽數(shù)據(jù)即可。四是實(shí)時(shí)性差。“知識(shí)圖譜”一般適用于數(shù)據(jù)規(guī)模較小的領(lǐng)域,并受制于單一數(shù)據(jù)源。一旦數(shù)據(jù)出現(xiàn)異類(lèi),則對(duì)服務(wù)器的負(fù)載加重,難以及時(shí)給出結(jié)論。五是更新迭代能力差。“知識(shí)圖譜”的本質(zhì)是專(zhuān)家系統(tǒng),專(zhuān)家系統(tǒng)的核心是規(guī)則推理,而涉及規(guī)則推理必然涉及到推理邏輯的固化。因此,“知識(shí)圖譜”是一種靜態(tài)而非動(dòng)態(tài)的算法體系,其無(wú)法根據(jù)更新后的數(shù)據(jù)自動(dòng)學(xué)習(xí)、歸納新的規(guī)則,無(wú)法對(duì)知識(shí)庫(kù)進(jìn)行迭代,一旦出現(xiàn)新數(shù)據(jù)、新問(wèn)題,則需要算法設(shè)計(jì)師重新進(jìn)行設(shè)置,這嚴(yán)重阻礙了“知識(shí)圖譜”算法的成長(zhǎng)。“知識(shí)圖譜”這種固化了的邏輯處理專(zhuān)家系統(tǒng),在真正復(fù)雜問(wèn)題的處理上是束手無(wú)策的。實(shí)踐中的法律問(wèn)題千差萬(wàn)別、千奇百怪,不可能根據(jù)專(zhuān)家系統(tǒng)事先設(shè)計(jì)好的程序按照機(jī)器的意思來(lái)發(fā)生。盡管“知識(shí)圖譜”確實(shí)具有透明化的優(yōu)點(diǎn),但其在面對(duì)真實(shí)案情時(shí)卻難以自主學(xué)習(xí)與實(shí)時(shí)響應(yīng),難以輸出多個(gè)以上的查詢(xún)結(jié)果,難以具備強(qiáng)大的適應(yīng)能力和知識(shí)獲取能力,難以對(duì)復(fù)雜場(chǎng)景進(jìn)行智能分析,這也成為人工智能陷入低谷、普遍被認(rèn)為是輔助手段的重要原因。

(三)人才原因

目前,法律人工智能行業(yè)缺少大量法律與計(jì)算機(jī)科學(xué)交叉集合的人才儲(chǔ)備。這不僅是法學(xué)院的教育體系暫時(shí)還無(wú)法培養(yǎng)出法律與人工智能交叉學(xué)科的人才,更在于在吸引現(xiàn)有的人工智能人才方面,法律行業(yè)的吸引力也遠(yuǎn)遠(yuǎn)不及大型科技公司。大型科技公司通過(guò)對(duì)人工智能類(lèi)創(chuàng)業(yè)公司的并購(gòu),成功獲得了大量?jī)?yōu)秀的人工智能領(lǐng)域人才,而谷歌、臉書(shū)、阿里巴巴、亞馬遜更是幾乎囊括了這個(gè)行業(yè)所有的精英團(tuán)隊(duì)。可以說(shuō),人工智能領(lǐng)域真正的人才庫(kù)規(guī)模其實(shí)并不大,因此一旦科技巨頭公司完成了人才的搜羅工作之后,法律行業(yè)如果沒(méi)有極其吸引人才的薪資待遇與發(fā)展機(jī)會(huì),是很難將人工智能人才拉到法律行業(yè)里來(lái)。遺憾的是,法律行業(yè)的普遍薪酬根本無(wú)法撼動(dòng)與挑戰(zhàn)互聯(lián)網(wǎng)科技公司。一個(gè)悖論是,鑒于法律領(lǐng)域文本的復(fù)雜性,如果程序員能夠?qū)Ψ晌谋驹O(shè)計(jì)出精準(zhǔn)的算法,并達(dá)到一定法律司法文件分析要求時(shí),他完全有技術(shù)能力去其他領(lǐng)域研究與工作。因?yàn)榉扇斯ぶ悄苄袠I(yè)相較于圖像、電子商務(wù)等領(lǐng)域,后者的技術(shù)門(mén)檻更低,市場(chǎng)則更寬廣,個(gè)人收益也更高。

三 法律人工智能算法的改進(jìn)

未來(lái),需要建設(shè)一個(gè)算法實(shí)驗(yàn)平臺(tái),對(duì)算法進(jìn)行實(shí)驗(yàn)、拆分、組合,尋找出不同司法場(chǎng)景下最適合的算法體系,在這個(gè)體系中,不是一種或幾種算法,而是多種算法的靈活搭配與組合,是一整套算法的系統(tǒng)與架構(gòu)。

(一)建立符號(hào)處理和計(jì)算統(tǒng)計(jì)混合模型

單一的算法已無(wú)法滿足法律人工智能的發(fā)展需要,應(yīng)當(dāng)將以專(zhuān)家系統(tǒng)為代表的符號(hào)算法與以“深度學(xué)習(xí)”為代表的統(tǒng)計(jì)算法結(jié)合起來(lái)。以符號(hào)表征系統(tǒng)為本質(zhì)特征的專(zhuān)家系統(tǒng)已被證明在運(yùn)行時(shí)是十分脆弱的,很大原因是專(zhuān)家系統(tǒng)所處的年代數(shù)據(jù)與計(jì)算機(jī)的計(jì)算能力比今天要弱得太多。而算法模型的組合(ensemble)可以將各種算法的優(yōu)點(diǎn)集中起來(lái),從而大幅降低算法的不確定性,雖然還是會(huì)出現(xiàn)一定的偏見(jiàn)(bias)。在近年來(lái)的netflix算法比賽中,第一名及優(yōu)勝的隊(duì)伍均使用了算法模型的組合,有的甚至將100個(gè)以上的算法模型通過(guò)疊加高層的方式組合在一起。業(yè)內(nèi)的一個(gè)共識(shí)是,模型組合是未來(lái)的趨勢(shì)。

如今,一個(gè)可行且最新的人工智能科研方向是,將在感知分類(lèi)領(lǐng)域有著驚人優(yōu)勢(shì)的“深度學(xué)習(xí)”、連接主義、神經(jīng)網(wǎng)絡(luò)算法與傳統(tǒng)的推理和抽象符號(hào)邏輯系統(tǒng)的符號(hào)主義、專(zhuān)家系統(tǒng)和規(guī)則系統(tǒng)算法結(jié)合,既發(fā)揮“深度學(xué)習(xí)”算法在感知輸入領(lǐng)域的優(yōu)勢(shì),又發(fā)揮專(zhuān)家系統(tǒng)算法在抽象領(lǐng)域分析的優(yōu)點(diǎn)。目前,這一方向已經(jīng)有一些嘗試性的研究在整合兩種算法的討論上獲得了一定的突破。例如2016年Gravesetal的可微神經(jīng)計(jì)算機(jī)方法,Bo?njak、Rockt?schel、Naradowsky與Riedel的可微解釋器規(guī)劃方法,Neelakantan、Le、Abadi、McCallum和Amodei的基于離散運(yùn)算的神經(jīng)編程方法。(32)Arvind, Neelakantan, et al, “Learning a Natural Language Interface with Neural Programmer,” published as a conference paper at 1CLR 2016, arXiv:1611.08945.

另外,相較于無(wú)法確定歸納偏置即偏見(jiàn)而一直飽受質(zhì)疑的黑箱性“深度學(xué)習(xí)”算法,貝葉斯統(tǒng)計(jì)算法可以通過(guò)計(jì)算歸納偏置確定為有用的算法。貝葉斯網(wǎng)絡(luò)可以挖掘隱藏的傳播節(jié)點(diǎn)及其之間的隱含關(guān)系,并且可預(yù)測(cè)隱藏節(jié)點(diǎn)后的下一層節(jié)點(diǎn),這是“深度學(xué)習(xí)”算法所無(wú)法做到的。因?yàn)槿绻麊渭円蕾?lài)歷史數(shù)據(jù),必將會(huì)使得通過(guò)歷史數(shù)據(jù)訓(xùn)練的模型無(wú)法擺脫過(guò)去的陰影。因此,為了避免陷入歷史數(shù)據(jù)的陷阱,就需要在歷史數(shù)據(jù)之外加入隨機(jī)性,而這正是貝葉斯統(tǒng)計(jì)算法所擅長(zhǎng)的。而級(jí)聯(lián)隨機(jī)森林算法(Cascade Random Forest)可以模擬法官判案決策邏輯。

未來(lái),可以對(duì)司法實(shí)踐中裁判經(jīng)驗(yàn)較為成熟的類(lèi)型案件搭建“知識(shí)圖譜”。例如,對(duì)刑事案件,可以從定罪與量刑要素、證據(jù)標(biāo)準(zhǔn)、程序流程等方面制定“知識(shí)圖譜”,對(duì)不同類(lèi)型案件的不同要素進(jìn)行要素、標(biāo)準(zhǔn)、規(guī)則的識(shí)別與界定。與此同時(shí),在司法數(shù)據(jù)沉積累積的基礎(chǔ)上使用“深度學(xué)習(xí)”算法預(yù)測(cè)與判斷案件結(jié)果。

(二)對(duì)算法進(jìn)行可視化改進(jìn)

隨著人工智能的不斷發(fā)展與深入,人們對(duì)算法黑箱問(wèn)題的重視程度也愈發(fā)強(qiáng)烈。出于技術(shù)以及企業(yè)商業(yè)化的考量,人工智能所做出的決策的算法過(guò)程是不被公開(kāi)的。未來(lái),通過(guò)政府、行業(yè)與企業(yè)的共同努力,隨著對(duì)算法的透明性與可解釋性做出承諾的公司越來(lái)越多,那些拒絕做出承諾的公司將從市場(chǎng)上被逐步淘汰。最新的算法研究已表明,至少在累犯預(yù)測(cè)方面,由杜克大學(xué)計(jì)算機(jī)科學(xué)及電氣和計(jì)算機(jī)工程系副教授Cynthia Rudin所設(shè)計(jì)的具有可解釋性的算法模型的準(zhǔn)確性與COMPAS等黑箱算法的準(zhǔn)確性是不相上下的。

算法應(yīng)當(dāng)具有人本主義,人在算法的審核中必須起到不可替代的作用。正如凱西所指出的,想要“規(guī)管算法,馴服算法”,就要讓“算法指出可疑之處,由人類(lèi)去完成最后的核查”,“它們(算法)的運(yùn)作必須是透明的:我們必須知道它們接受哪些數(shù)據(jù)輸入,產(chǎn)生什么結(jié)果,而且它們必須接受稽查”。(33)《算法密碼之凱西·奧尼爾:盲目信仰大數(shù)據(jù)的時(shí)代必須結(jié)束》,2018年10月29日訪問(wèn),https://new.qq.com/omn/20180203/20180203A04R1Z.html。算法的透明性與可解釋性可以根據(jù)公共事務(wù)的程度進(jìn)行一定的區(qū)分。企業(yè)完全的市場(chǎng)商業(yè)行為可以采用黑箱算法,但是涉及到社會(huì)公共事務(wù)尤其是刑事司法、政務(wù)公開(kāi)以及醫(yī)療、養(yǎng)老、教育等核心高敏感的公共事務(wù)時(shí)就必須提高算法公開(kāi)性、透明性及可解釋性的等級(jí)與程度,應(yīng)使用經(jīng)過(guò)公共審計(jì)、測(cè)試與審查的算法系統(tǒng),并遵守相關(guān)的數(shù)據(jù)、算法與輸出結(jié)果的記錄與問(wèn)責(zé)程序,以避免引起嚴(yán)重的正當(dāng)程序問(wèn)題。而由市場(chǎng)企業(yè)主體提供的高度不透明、不公開(kāi)的黑箱算法、企業(yè)內(nèi)部算法以及未經(jīng)審計(jì)驗(yàn)證、審核、測(cè)試的新算法則不能適用在這些領(lǐng)域。

法律人工智能系統(tǒng)在設(shè)計(jì)時(shí)即應(yīng)當(dāng)增加可解釋的模塊。從算法的角度而言,“深度學(xué)習(xí)”雖然在預(yù)測(cè)方面有較大的優(yōu)勢(shì),但在可解釋方面卻偏弱。而“知識(shí)圖譜”算法雖然無(wú)法很好地在疑難案件的預(yù)測(cè)方面給出案件的答案,但有透明性的優(yōu)勢(shì)。因此,需要將“深度學(xué)習(xí)”算法與“知識(shí)圖譜”算法結(jié)合起來(lái)。此外,加州伯克利大學(xué)的學(xué)者認(rèn)為,可以通過(guò)交互式診斷的方式分析人工智能模塊的記錄情況,并忠實(shí)重現(xiàn)特定決策結(jié)果做出的計(jì)算過(guò)程與該過(guò)程的執(zhí)行情況,并輔助確定何種輸入特征導(dǎo)致了該特定結(jié)果。(34)Ion Stoica, etc., A Berkeley View of Systems Challenges for AI, “Technical Report No. UCB/EECS-2017-159”, Accessed November 12, 2019, https://www2.eecs.berkeley.edu/Pubs/TechRpts/2017/EECS-2017-159.html.當(dāng)然,如果這種可解釋性的模塊過(guò)多,可能會(huì)降低整體算法的運(yùn)算速度與效率,嚴(yán)重的甚至還會(huì)影響算法在運(yùn)算結(jié)果上的精確度。

從政府角度而言,如果政府能夠在經(jīng)濟(jì)支持上更傾向于幫助更具有解釋性與透明度的算法,法官在審理案件進(jìn)行判決時(shí)拒絕采用無(wú)解釋性且不透明的算法,那么無(wú)疑會(huì)起到正向的指引作用,鼓勵(lì)企業(yè)對(duì)算法的計(jì)算過(guò)程與所做出的具體決策進(jìn)行詳細(xì)釋明。社會(huì)公眾還應(yīng)當(dāng)具有對(duì)算法所做出的決策提出質(zhì)疑并獲得救濟(jì)的權(quán)利。

(三)建立算法警告、算法開(kāi)源與算法審計(jì)制度

在法律領(lǐng)域使用算法進(jìn)行相關(guān)決策性活動(dòng)時(shí),必須附隨法院對(duì)法官的警告。第一,軟件具有不透明性,其商業(yè)用途的性質(zhì)阻止了其對(duì)風(fēng)險(xiǎn)分?jǐn)?shù)計(jì)算過(guò)程的披露;第二,風(fēng)險(xiǎn)分?jǐn)?shù)不能識(shí)別特定高風(fēng)險(xiǎn)個(gè)體;第三,風(fēng)險(xiǎn)評(píng)估基于全國(guó)樣本,沒(méi)有針對(duì)特定地區(qū)的居民進(jìn)行交叉驗(yàn)證;第四,風(fēng)險(xiǎn)分?jǐn)?shù)引發(fā)了將少數(shù)種族或特定人群的犯罪人評(píng)估為高犯罪風(fēng)險(xiǎn)的問(wèn)題;第五,風(fēng)險(xiǎn)評(píng)估算法主要用于幫助監(jiān)獄部門(mén)的量刑后決定,如犯罪人教育和改造,不得將風(fēng)險(xiǎn)分?jǐn)?shù)用來(lái)“決定是否監(jiān)禁罪犯”或者“決定量刑的嚴(yán)重性”;第六,必須持續(xù)維護(hù)、監(jiān)測(cè)、調(diào)整算法以確保其準(zhǔn)確性,包括可能在法庭上對(duì)算法進(jìn)行交叉詢(xún)問(wèn)。

但僅僅通過(guò)警告的手段,在法律人工智能的使用問(wèn)題上踩剎車(chē)是遠(yuǎn)遠(yuǎn)不夠的。我們還需要算法開(kāi)源(Open Source)與算法審計(jì)(Algorithmic Audit)來(lái)懷疑以COMPAS為代表的犯罪評(píng)估算法的準(zhǔn)確性和有效性,對(duì)犯罪風(fēng)險(xiǎn)評(píng)估作出限制。算法開(kāi)源指的是,通過(guò)開(kāi)源實(shí)現(xiàn)算法透明性,包括被告人在內(nèi)的任何人可以調(diào)查、審查算法。國(guó)際社會(huì)應(yīng)當(dāng)倡議在刑事司法、醫(yī)療、福利、教育等核心公共機(jī)構(gòu)禁止使用“黑箱”人工智能與算法系統(tǒng)。算法審計(jì)指的是,需要中立的第三方在個(gè)案中或者一般地對(duì)算法進(jìn)行審查,而不是由算法的提供者對(duì)算法進(jìn)行準(zhǔn)確性和有效性的審查。第三方審查可以確保算法準(zhǔn)確性、有效性以及算法得到合理的使用,而算法提供者自身的審查出于利益相關(guān)性,顯然很難保證中立性與公正性。

但從現(xiàn)實(shí)的角度來(lái)看,算法開(kāi)源面臨著諸多困難,或許并不是當(dāng)下最優(yōu)的選擇。因?yàn)檫@首先涉及到企業(yè)的商業(yè)秘密;其次,即使是企業(yè)內(nèi)部,也無(wú)法對(duì)其算法得出結(jié)果的過(guò)程做出充分合理的解釋。法律人工智能產(chǎn)品在發(fā)布之前需經(jīng)過(guò)嚴(yán)格的檢驗(yàn)以確保其不會(huì)因?qū)嶒?yàn)數(shù)據(jù)、算法及人類(lèi)設(shè)定的訓(xùn)練規(guī)則而產(chǎn)生或放大偏見(jiàn)與錯(cuò)誤。訓(xùn)練數(shù)據(jù)應(yīng)被確保已清除了諸如性別、年齡與種族在內(nèi)的已知的偏見(jiàn)。并且,實(shí)驗(yàn)的方法、數(shù)據(jù)與最終結(jié)果以及所建立的模型、所使用的算法、所做出的決策應(yīng)被客觀記錄且能被查詢(xún)與使用,方便未來(lái)出現(xiàn)問(wèn)題時(shí)可隨時(shí)進(jìn)行審查。使用的訓(xùn)練數(shù)據(jù)的來(lái)源及內(nèi)容應(yīng)當(dāng)能夠被如實(shí)描述。在此過(guò)程中,可以建立實(shí)驗(yàn)組與對(duì)照組進(jìn)行對(duì)比,經(jīng)內(nèi)部模擬檢查新算法是否可能會(huì)有算法歧視與黑箱方面的問(wèn)題。這種嚴(yán)格的測(cè)試是必須的,一旦算法在司法實(shí)踐中實(shí)際運(yùn)行開(kāi)來(lái),無(wú)偏見(jiàn)的算法會(huì)為彌補(bǔ)社會(huì)中尤其是刑事司法、警務(wù)活動(dòng)根深蒂固的偏見(jiàn)起到重大的推動(dòng)作用,形成一個(gè)良性的循環(huán),加速社會(huì)共同體的構(gòu)建與形成。法律人工智能產(chǎn)品發(fā)布后,企業(yè)、政府與科研機(jī)構(gòu)應(yīng)當(dāng)共同對(duì)其在實(shí)踐中的運(yùn)行狀況進(jìn)行監(jiān)督與持續(xù)檢測(cè),檢測(cè)的方法、數(shù)據(jù)與結(jié)果也同樣應(yīng)被公開(kāi),供公眾查詢(xún)與了解。在此過(guò)程中,既需要對(duì)法律人工智能訓(xùn)練所使用的訓(xùn)練數(shù)據(jù)集進(jìn)行跟蹤與測(cè)評(píng),也需要定期對(duì)法律人工智能所使用的算法與規(guī)則進(jìn)行反思。在法律人工智能產(chǎn)品的整個(gè)開(kāi)發(fā)過(guò)程中,需要政府、企業(yè)與科研機(jī)構(gòu)共同制定一個(gè)能夠理解、檢測(cè)、緩解、超越算法偏見(jiàn)、歧視與狹隘的標(biāo)準(zhǔn)體系。算法的偏見(jiàn)與歧視問(wèn)題是社會(huì)、文化領(lǐng)域中偏見(jiàn)與歧視的映射,這是長(zhǎng)期且結(jié)構(gòu)性的問(wèn)題。特別是在刑事司法領(lǐng)域,歧視問(wèn)題有其自身的歷史遺留問(wèn)題。因此,妄圖一次性地解決算法歧視問(wèn)題,是不現(xiàn)實(shí)的,也過(guò)分簡(jiǎn)化了社會(huì)系統(tǒng)的復(fù)雜性。法律人工智能行業(yè)應(yīng)努力將法律學(xué)者、心理學(xué)者、社會(huì)學(xué)者以及計(jì)算機(jī)科學(xué)與工程學(xué)的專(zhuān)家整合一處,賦予他們決策權(quán),通過(guò)社會(huì)各領(lǐng)域人士的共同努力與跨學(xué)科合作研究,借鑒各領(lǐng)域的專(zhuān)業(yè)知識(shí),尋找潛在的歧視問(wèn)題。在此基礎(chǔ)上,公開(kāi)、嚴(yán)謹(jǐn)?shù)刂贫ㄋ惴ü叫詫彶闃?biāo)準(zhǔn),并定期更新修訂,確保算法檢測(cè)標(biāo)準(zhǔn)體系的規(guī)范化與持續(xù)性。此外,算法公平性的監(jiān)督與問(wèn)責(zé)機(jī)制應(yīng)是強(qiáng)有力的,即使企業(yè)無(wú)法詳細(xì)解釋算法產(chǎn)生決策的過(guò)程,其也應(yīng)當(dāng)對(duì)算法決策所產(chǎn)生的后果負(fù)責(zé)。唯有如此,方可促使企業(yè)在設(shè)計(jì)、檢測(cè)、運(yùn)用算法時(shí)更加謹(jǐn)慎與小心。政府、行業(yè)與企業(yè)均應(yīng)促成法律人工智能算法的公開(kāi)性、透明性與可解釋性,增進(jìn)算法的可信度。政府應(yīng)意識(shí)到算法黑箱性所可能帶來(lái)的偏見(jiàn)與歧視風(fēng)險(xiǎn),可從知識(shí)產(chǎn)權(quán)法律保護(hù)、法律法規(guī)硬性要求、適當(dāng)?shù)姆韶?zé)任分配以及市場(chǎng)監(jiān)管等方面鼓勵(lì)、支持企業(yè)進(jìn)行算法開(kāi)源,行業(yè)應(yīng)當(dāng)制定算法公開(kāi)性、透明性與可解釋性的相關(guān)倫理與規(guī)范。

綜上,算法問(wèn)題是法律人工智能中的核心問(wèn)題,但目前法律人工智能市場(chǎng)上存在著大量“拉虎皮作大旗”的現(xiàn)象,法律人工智能產(chǎn)品中的算法往往有名無(wú)實(shí)。而在學(xué)界,限于學(xué)科背景與學(xué)科界限,學(xué)者對(duì)算法尤其是法律領(lǐng)域可適用的算法的研究,無(wú)法從計(jì)算機(jī)科學(xué)與統(tǒng)計(jì)學(xué)等交叉學(xué)科方面進(jìn)行切入與探討。未來(lái),需要從算法本身及技術(shù)方面討論算法在使用過(guò)程中出現(xiàn)的法律問(wèn)題,并做相關(guān)改進(jìn)與發(fā)展,以期構(gòu)建一種負(fù)責(zé)任的算法(Accountable Algorithm)、理性的算法(Reasonable Algorithm)與公正的算法(Equitable Algorithm)。

猜你喜歡
深度人工智能法律
法律解釋與自然法
法律方法(2021年3期)2021-03-16 05:57:02
深度理解一元一次方程
深度觀察
深度觀察
2019:人工智能
商界(2019年12期)2019-01-03 06:59:05
人工智能與就業(yè)
深度觀察
數(shù)讀人工智能
小康(2017年16期)2017-06-07 09:00:59
下一幕,人工智能!
讓人死亡的法律
山東青年(2016年1期)2016-02-28 14:25:30
主站蜘蛛池模板: 手机在线免费不卡一区二| 久久性视频| 国产精品xxx| 亚洲成人77777| 老色鬼欧美精品| 人妻21p大胆| 99精品福利视频| 亚洲第一国产综合| 国产人免费人成免费视频| 伊人蕉久影院| 亚洲aaa视频| 国产粉嫩粉嫩的18在线播放91| 国产伦精品一区二区三区视频优播| 丝袜国产一区| 国产男女免费完整版视频| 国产成人综合日韩精品无码不卡| 亚洲伊人久久精品影院| 福利在线不卡一区| 国产综合色在线视频播放线视| 午夜欧美在线| 欧洲精品视频在线观看| 一本色道久久88| 午夜福利无码一区二区| 天天干天天色综合网| 免费激情网址| 欧美自拍另类欧美综合图区| 巨熟乳波霸若妻中文观看免费| 青草午夜精品视频在线观看| 国产精品吹潮在线观看中文| 久久久久青草线综合超碰| 国产精品蜜芽在线观看| 久草国产在线观看| 国产精品va免费视频| 一区二区日韩国产精久久| 国产精品成| 欧美日韩精品一区二区在线线 | 国产永久在线观看| 香蕉久久永久视频| 国产激爽爽爽大片在线观看| 国产亚洲精久久久久久久91| 青青草欧美| 日韩无码真实干出血视频| 日韩一区精品视频一区二区| 成人欧美在线观看| 最新国产午夜精品视频成人| 五月天综合网亚洲综合天堂网| 99久久99视频| 老司机久久99久久精品播放 | 国产精品深爱在线| 亚洲人成在线精品| 久久香蕉国产线看观看亚洲片| 国产成人精品男人的天堂| 三上悠亚一区二区| 久久77777| 国产日韩欧美精品区性色| 久久成人国产精品免费软件 | 亚洲成a人片7777| 中文字幕在线播放不卡| 亚洲欧美另类日本| 成AV人片一区二区三区久久| lhav亚洲精品| 99久视频| 国产成人精品一区二区| 狼友av永久网站免费观看| 亚洲成a人片在线观看88| 不卡色老大久久综合网| 亚洲国产高清精品线久久| 日韩无码视频专区| jijzzizz老师出水喷水喷出| 日本伊人色综合网| 久久黄色影院| 亚洲 欧美 日韩综合一区| 五月六月伊人狠狠丁香网| 香蕉蕉亚亚洲aav综合| 色亚洲激情综合精品无码视频 | 久久永久免费人妻精品| 成人字幕网视频在线观看| 热热久久狠狠偷偷色男同| 波多野结衣一区二区三区四区| 97色婷婷成人综合在线观看| 亚洲国模精品一区| 欧美一级黄色影院|