鄒 蕾,崔 斌,樊 超,孫豫峰
(北京京航計算通訊研究所信息工程事業部,北京 100074)
公益訴訟作為一種新型的權益救濟方式,與人民生活息息現關。隨著社會經濟的發展,越來越多的公益訴訟案件(如食品安全類)涌入法庭,檢察建議作為監督行政部門整改的依據,可以更大程度地保障人民權益,如何從海量文本信息中獲取關鍵信息便于檢察官完成檢察建議文本生成,成為一種急需解決的問題。目前,公益訴訟案件的檢察建議生成主要靠檢察官人工提取相關違法事實以及行政部門不作為等相關事實描述并生成檢察建議文本,存在人力資源浪費和效率不高等問題。如何有效生成檢察建議文本是一個研究熱點。
目前,檢察建議文本自動生成可采取基于文本摘要的方法來完成。基于摘要的研究主要包括抽取式摘要方法和生成式摘要兩種方法[1-4]。有學者提出將融合關鍵詞的方法用于抽取式文本摘要生成[5-11]。例如,李峰等[10]提出將關鍵詞作為指示來提高文本抽取準確率,通過關鍵詞與標題詞相結合得到關鍵詞列表,并依據此構建與當前文本相近的語料庫從中抽取出主題相關詞,最后采用算法完成摘要抽取。寧珊等[11]針對現有模型在生成摘要時會出現無關摘要詞的問題,提出將關鍵詞融入到文本摘要生成過程中。該方法利用關鍵詞信息并結合門控單元去除冗余信息,從而獲得更精準的文本信息。也有學者使用聚類的方法來完成文本摘要自動生成[12-15]。……