摘 要:大語言模型為智能輔助檢察機關提出量刑建議帶來了技術范式的革新。但仍存在概率生成的“天然缺陷”與司法數據安全整合難題。對此,應通過技術上模型本地化部署、“類案匹配”與“理論預測”雙向驗證來構建安全可控的智能基座,責任上完善“人機協同”司法責任閉環,明確檢察官在量刑要素提取和最終量刑建議決策中的關鍵作用,促進量刑建議的精準化和規范化,以技術賦能助力司法資源優化配置與高質效辦案。
關鍵詞:大語言模型 智能輔助 量刑建議 檢察機關司法責任
面對海量適用認罪認罰從寬制度的案件,在保障量刑建議精確性與公正性的同時,還需兼顧訴訟效率,這無疑給刑事檢察工作帶來了巨大挑戰,使得應用信息技術輔助量刑建議日益成為檢察機關的剛需。大語言模型(Large Language Model,簡稱LLM)是指經過大規模文本數據訓練的語言模型,具有自然語言理解和通過文本生成解決復雜任務的能力[1],這為改善傳統量刑建議輔助系統的不足帶來了新機遇。但大語言模型也面臨著模型概率生成、數據安全與整合等問題。本文旨在探討大語言模型輔助檢察機關量刑建議的實現路徑,分析現存問題并提出解決方案,在技術賦能與司法責任堅守的平衡中,推動量刑建議工作的規范化、智能化發展。
一、智能量刑建議輔助系統的升級迭代
在人工智能技術迭代發展的背景下,尤其是大語言模型技術的突破,為智能輔助檢察機關提出量刑建議提供了新一代的解決方案,量刑建議輔助系統正經歷從傳統規則引擎向智能模型驅動的重要轉型。
(一)傳統量刑建議輔助系統的局限性
檢察機關一直在積極探索智能量刑建議輔助系統的研發應用,諸如上海刑事案件智能輔助辦案系統(“206”系統)使用“人工標注+機器學習”的方式提出量刑參考、湖北檢察機關智能量刑輔助系統根據檢察官在審查過程中梳理出的量刑要素生成量刑建議、廣東省廣州市南沙區智能量刑建議輔助系統則通過檢索、統計類案刑期給出量刑參考。但不可忽視的是,上述量刑輔助系統存在一些短板,致使其應用范圍和效果存在一定局限性:
1.數據輸入存在不便。部分系統雖能自動抓取部分關鍵信息,但由于法律文書表述比較多樣,面對復雜情況時系統容易遺漏關鍵量刑情節。一般情況下還需要檢察官手動填錄案件相關量刑情節,這一過程較為繁瑣復雜,增加了不少工作量,極大影響檢察官的使用積極性,還容易因人為因素導致輸入錯誤或遺漏關鍵信息。
2.功能存在局限性。部分系統只能處理少數常見罪名案件,對于復雜罪名或新類型案件的支持不足。即便是同一個常見罪名,面對錯綜復雜、千變萬化的案情時,系統常常難以應對。如在一個案件中既有自首情節,又存在累犯情節,同時還涉及被害人有一定過錯等情況,系統很難精準權衡各個情節的權重,給出恰當的量刑建議。
(二)大語言模型為智能輔助量刑建議帶來新機遇
不同于傳統的人工智能僅對輸入數據進行處理和分析,大語言模型能學習并模擬人類語言的內在規律,根據用戶輸入的文本生成具有邏輯性和連貫性的新內容,其具備強大的自然語言處理能力:一是善于理解與生成文本,能夠生成連貫且符合語法規則的自然語言文本,適用于問答、寫作、輔助代碼生成等諸多場景。二是善于總結與歸納文本,能夠對長文本進行總結,提取關鍵信息,在一定程度上進行知識整合。三是可以將結構化數據轉化為文本,例如將表格、數據庫的數據轉換為報告或者其他可讀文本。這為智能輔助量刑建議帶來了新的發展機遇。
1.文本理解能力強。大語言模型能夠對法律文本中模糊、抽象的概念進行深入剖析和解讀。比如對于“情節嚴重”“嚴重后果”等難以精確界定的表述,通過學習司法解釋、司法判例等文本,大語言模型能夠結合上下文和法律實踐,給出較為準確的解釋和判斷。
2.類案檢索效率高。過去需要提前對批量案例進行標注或結構化,將案例轉化為機器可以識別的數據,才能進行檢索和分析,該過程需要大量人力,成本高昂。而大語言模型能夠快速識別案例的關鍵要素,包括犯罪事實、情節、法律適用以及判決結果等。通過對這些要素的提取和分析,它能夠高效地進行案例相似性匹配。當面臨新的案件時,大語言模型可以迅速在案例庫中找出與之相似的過往案例。
3.推理過程清晰易懂。大語言模型可以根據輸入的案件信息,自動生成詳細的量刑推理過程,不僅表達流暢,還能對各種量刑情節進行分析和闡述,分步展示量刑建議的推理過程,提高量刑決策的透明度和合理性。
二、大語言模型輔助量刑建議面臨的雙重困境
盡管大語言模型為智能輔助量刑建議帶來了技術范式的革新,但其概率生成的“天然缺陷”與司法數據治理的現實困境形成雙重制約,構成了其從技術潛力轉化為司法效能的主要障礙。
(一)模型概率生成的天然缺陷
以ChatGTP為代表的生成式大語言模型本質上是一種基于概率統計的語言模型。[2]通俗來講,就是根據前面的詞來預測下一個概率最高的候選詞作為輸出,而非依賴嚴格的邏輯推理。但高概率并不等同于正確性,所以大語言模型輸出的結果不可能是百分之百正確的,這就是模型輸出錯誤、虛假信息的主要原因。這種技術特性導致大語言模型輸出的結果存在天然的“不確定性”,體現為三個方面的應用局限:
1.數學計算與邏輯推理能力有限。大語言模型只是近似地推理數學問題,無法像數學軟件那樣執行精確計算,涉及到多步推理很容易出錯。若直接讓其按照量刑規則計算量刑,相同問題在不同時間輸入,輸出結果可能因概率計算的隨機性而不一致,難以滿足刑事司法對量刑結果確定性的要求。
2.專業領域應用存在虛構風險。面對法律等專業領域的復雜問題,大語言模型的回答僅是符合語法規則而已,未必符合客觀事實,可能虛構法條或判例。例如測試模型過程中,對幫助信息網絡犯罪活動罪案提出量刑建議,當犯罪嫌疑人提供支付結算幫助數額達上千萬元時,模型曾多次虛構《刑法》第287條之二“情節特別嚴重”的條款,進而得出判處3年以上有期徒刑的錯誤結論。
3.實時信息檢索能力不足。大語言模型的知識儲備受限于訓練數據的截止時間(如DeepSeek模型的知識截止于2024年7月),無法自動更新案件信息和法律法規。若未外掛動態知識庫,模型只能基于舊數據對新案件作出錯誤解讀,導致量刑建議與現行法律法規脫節。
(二)司法數據的安全和整合難題
1.數據安全層面。首先,大語言模型需依托海量的司法數據進行訓練和學習,其中涉及個人信息、案件細節等大量敏感信息,在該過程就可能因技術漏洞而被非法獲取。例如在準備訓練數據階段,大語言模型可能會無意中記住一些不該被公開的敏感信息。這種在毫無察覺中記錄并透露敏感數據的情況稱為“模型記憶泄露”。[3]其次,還需防范“提示注入攻擊”等新型安全隱患。這種攻擊主要針對的是大語言模型,攻擊者會巧妙地將惡意輸入偽裝成合法的提示,以此來欺騙、繞過或操控大語言模型,使其產生非預期的輸出,從而達到泄露敏感數據、散播錯誤信息的目的。[4]大語言模型能與人通過自然語言溝通,攻擊它不需要會編程懂技術,只要通過一定的話術誘導即可獲取涉密信息。這種“低技術門檻”的攻擊方式,直接威脅著司法數據的安全性。
2.數據整合層面。樣本不足、地域差異、時效性不足直接影響智能量刑建議輔助系統的準確性和可靠性。首先,司法數據尤其是法院裁判數據尚未實現共享,目前主要依賴于本地裁判文書和中國裁判文書網,存在公開不完全、采集不全面等問題,導致模型訓練數據難以準確反映司法實踐全貌。其次,我國不同地區的經濟發展和法治化程度存在差異,司法實踐受地方政策導向、司法理念變遷等因素影響,使得不同地區司法機關在處理同類罪名或量刑情節時,可能采用不同的標準,導致模型量刑建議與地方司法實踐脫節。最后,法律條文、司法解釋及社會價值觀隨時代發展不斷調整,但司法數據的更新往往滯后于法律實踐,可能導致模型輸出的量刑建議不符合現行司法政策。
三、技術賦能與司法責任的辯證統一
面對大語言模型的技術局限性與數據治理難題,單純依靠技術迭代或制度完善難以實現有效破局。需要構建技術理性與司法規律深度融合的解決方案:既要通過技術創新打造安全可控的智能基座,又要以司法責任制為核心筑牢人工審核的制度防線,形成技術賦能與專業判斷相互支撐、協同進化的良性生態。
(一)技術進路:構建安全可控的智能基座
1.模型本地化部署。本地部署大語言模型為檢察機關智能輔助量刑建議提供了安全、高效、可控的技術路徑。首先,對于大語言模型虛構風險和時效性不足問題,模型本地化部署可以搭建本地知識庫存儲并更新刑事判決書、法律法規及量刑規則,讓大模型在生成量刑建議前,先從本地知識庫中檢索比較類案、相關法規,再結合案件事實進行推理,確保量刑建議符合現行法規與實務標準。其次,本地部署多個模型并進行交叉驗證,可以顯著降低大語言模型“不確定性”風險。例如,在本地部署A、B兩種大模型,A模型負責從法律文書中提取罪名、數額、量刑情節等關鍵要素,B模型對提取結果進行校驗修正;或由A、B模型獨立完成量刑計算,通過比對結果一致性,判斷量刑計算結果的可靠性。再次,模型本地化部署可將數據完全控制在檢察機關內部服務器或內網中,避免因網絡傳輸或第三方存儲等環節導致的數據泄露風險。最后,模型本地化部署能更好地支持與檢察業務應用系統、電子卷宗系統的無縫對接與數據互通,依托各省政法一體化平臺為大語言模型提供完整、實時的本地生效刑事判決書,為有效整合司法數據進行模型微調與定向優化提供豐富的樣本。
2.類案匹配與理論預測雙向驗證。類案數據中蘊含獨一無二的“活著的”量刑經驗與規律,但長期處于待挖掘的未開發狀態。[5]大語言模型的自然語言處理能力使得批量挖掘類案中的量刑規律與經驗的可行性大大提升。以浙江檢察機關大語言模型測試為例,選取特定罪名的生效判決書,提前使用大語言模型對批量判決書文本進行總結歸納,提取罪名、犯罪數額、量刑情節、判處刑罰等特征要素,形成結構化數據匯總至一張《類案量刑要素表》中,避免大語言模型每次量刑時都要解讀一遍全庫判決書的情形,既提高了檢索效率又增加了量刑結果的穩定性。此外,出于數據安全的考慮,大語言模型不直接訪問本地判決書庫,不保存歷史對話內容,僅根據《類案量刑要素表》中的犯罪事實、量刑情節等特征要素,計算新案與歷史案例的匹配度,避免了模型對原始裁判文書中個人信息、案件細節的直接讀取,防止“提示注入攻擊”等安全風險。
在發揮類案的實踐參照價值同時,大語言模型還可以根據量刑規范化的基本原理和規則,智能輸出理論上的預測量刑建議。一般可以分為三個步驟:第一步,將“兩高”《關于常見犯罪的量刑指導意見》等規范文件中的量刑原則、方法、情節規則(如基準刑確定、情節調節幅度)轉化為算法可識別的結構化數據(如自首情節從寬10%—30%)。第二步,應用大語言模型自動識別新案件中的定罪事實與量刑情節(如犯罪數額、危害后果),并對法定和酌定情節(如未成年人、退贓退賠)進行類型化建模,設置差異化的權重系數與運算規則。第三步,讓大模型按照演繹法邏輯,按照“基準刑→情節調節→宣告刑”的量刑流程進行推演,輸出符合理論框架的量刑建議,對個案進行理論預測。
最后,大語言模型對類案匹配與理論預測的量刑結果進行對比分析,若兩者差異超過預設閾值(如刑期差距超過30%),則啟動異常排查流程,提示檢察官復核是否存在情節遺漏、規則滯后或數據偏差等問題,兩個部分通過交互驗證形成“雙保險”機制。
(二)責任進路:完善“人機協同”司法責任體系
司法責任制的核心在于“誰辦案誰負責”,技術賦能量刑建議的本質是為檢察權運行提供輔助支撐,而非替代檢察官的專業判斷。所以,需構建“人工主導—技術輔助—責任可溯”的立體化責任體系,確保技術應用與司法責任的辯證統一。
1.在大語言模型提取不同罪名量刑要素的關鍵環節,檢察官的專業判斷與經驗介入是確保要素提取精準性、適配性的核心支撐。檢察官的介入絕非簡單的數據標注,而是通過專業判斷為模型的精準運行奠定合規、合理的底層邏輯。具體而言:一是分罪名構建“量刑要素提取清單”。例如,職務犯罪領域,受賄罪中“是否索賄”“贓款贓物是否用于非法活動”等要素,直接影響量刑幅度,而模型可能因樣本數量不足,而遺漏提取法定特殊情節。故檢察官需根據法律法規,針對不同罪名逐步明確差異化的要素提取標準,明確其在不同罪名中的提取優先級和權重。二是明確酌定情節提取范圍。例如,在電信網絡詐騙犯罪高發地區,犯罪嫌疑人“參與電詐犯罪團伙時長”“非法獲利數額”等非法定情節在實務中常作為量刑的重要參考,而模型會因法律法規無明確規定,而忽略此類經驗性要素。檢察官需基于長期辦案經驗,將這些酌定情節納入模型提取要素范圍,并設置相應權重系數,確保模型能充分考量司法實踐中的復雜因素。
2.智能化量刑系統的價值在于提升量刑的規范性和效率,但最終的量刑建議仍需由檢察官結合個案特殊性作出實質判斷。一是明確檢察官在量刑建議中的最終決策權,模型建議僅作為參考依據。系統輸出的量刑建議必須經過檢察官的雙重校驗:既審查類案匹配的準確性,又校驗理論預測的合理性。二是對系統運行的關鍵數據(如《類案特征要素表》的生成過程、理論預測的算法參數、檢察官對量刑建議的修正軌跡)進行全程記錄。輸出建議同時生成“技術說理報告”(如類案匹配的相似案例清單、理論計算的公式推導過程),供檢察官作為說理依據,既提升量刑建議的公信力,也為責任認定提供清晰的邏輯鏈條。三是區分“技術缺陷引發的量刑偏差”與“司法裁量過錯”。當系統出現“類案匹配度低于60%”或者“理論預測與類案分析刑期差異超過30%”等異常信號時,自動觸發“人工強制介入”程序。此時,檢察官需根據“技術復核清單”,逐項排查數據提取是否完整(如是否遺漏“累犯”情節)、算法規則是否滯后(如是否未更新最新司法解釋),并將復核結果反饋至技術部門進行模型優化,從而形成“風險發現—責任界定—技術迭代”的閉環,落實司法責任制。