林蔚
[摘要]投標文件是招投標活動中重要的文本信息載體。本文通過文本挖掘?qū)ν稑宋募M行分詞、提取關(guān)鍵詞和詞頻后進行統(tǒng)計分析,從投標文件角度對圍標、串標、陪標等串通投標行為進行識別和取證。
[關(guān)鍵詞]采購? ? 招投標? ? 文本挖掘? ? 案例
招投標制度作為市場經(jīng)濟條件下的一種主要交易方式,在采購領(lǐng)域中廣泛應(yīng)用。在實際招投標活動中,圍標、串標、陪標等串通投標行為頻頻發(fā)生,成為審計工作重點關(guān)注的領(lǐng)域之一。
一、文本挖掘簡介
文本分詞是文本處理的一個基礎(chǔ)步驟。采用Jieba分詞組件,開發(fā)相應(yīng)的程序,程序具有簡單易用等特點。加載相應(yīng)的文本文件,即可對投標文件進行文本處理,輸出字數(shù)、分詞詞語量、關(guān)鍵詞和高頻詞等信息。
文本分詞主要是對文本進行預(yù)處理以及統(tǒng)一文本的基準和范圍。商務(wù)文件內(nèi)容以資質(zhì)證明等圖片為主,開標文件和報價文件等內(nèi)容單一,因此,將技術(shù)文件作為主要分析對象。應(yīng)采用程序中的精確模式對文本進行分詞,將文本內(nèi)容中影響分析結(jié)果的噪聲詞語(如“的、是、了”)過濾,并針對招投標行業(yè)特別增加招標人、投標人、標書、合同等停用詞。獲得分詞結(jié)果后,統(tǒng)計詞頻和關(guān)鍵詞(TF-IDF)等信息。
二、案例分析
案例1
某設(shè)備類招標項目共有4家投標商,分別為A、B、C、D。通過程序?qū)夹g(shù)文件進行分析,獲得了分詞量、部分高頻詞和部分關(guān)鍵詞等信息。對分詞結(jié)果分析后可得,投標商A、B、C三家文件字數(shù)均在3萬—4萬,投標商D文件字數(shù)略多,5萬字以上;分詞獲得詞語量為3000左右。對比關(guān)鍵詞表,投標商A、B、C關(guān)鍵詞基本相同,關(guān)鍵詞內(nèi)容符合本次招標采購范圍,而投標商D則明顯不同,標書質(zhì)量表現(xiàn)存疑。通過查看投標文件,投標商D投標文件質(zhì)量明顯不高,僅將招標文件技術(shù)規(guī)范書內(nèi)容復(fù)制,并注明理解并響應(yīng)。投標商D的陪標行為明顯,陪標行為的出現(xiàn),說明整個標段存在異常。對比高頻詞表,發(fā)現(xiàn)投標商A、B、C三家文件中沖洗、試驗、機器人、提供等詞語個數(shù)相近或相同,明顯涉嫌串通投標。后經(jīng)證實,本標段投標人標書由同一人編制,為典型的串通投標行為。
案例2
某服務(wù)類招標項目共有3家投標商,分別為A、B、C。通過程序?qū)夹g(shù)文件進行分析,獲得了分詞量、部分高頻詞和部分關(guān)鍵詞等信息。結(jié)果表明,投標商A和投標商C文件字數(shù)在1萬左右,而投標商B文件字數(shù)略少,在6000左右。對比高頻詞表的分詞后,投標商A、B、C關(guān)鍵詞基本相同,關(guān)鍵詞內(nèi)容符合本次招標采購范圍。對比投標商A和C高頻詞表,發(fā)現(xiàn)工作、人員、處置、領(lǐng)導(dǎo)等詞語出現(xiàn)次數(shù)相近或完全相同。對比投標商A和B高頻詞表,佩戴、書報、小說、游戲機、臨陣脫逃等詞語出現(xiàn)次數(shù)完全相同?!芭R陣脫逃”之類較少在投標文件中使用的詞語同時出現(xiàn)在了投標商A和B文件中,明顯涉嫌串通投標。后經(jīng)證實,本標段投標人標書由同一人編制,為典型的串通投標行為。
三、結(jié)論
招投標是審計工作重點關(guān)注的領(lǐng)域之一,在投標文件中引入文本挖掘,能夠從文本信息的角度進行串通投標行為的識別,更好地助推相關(guān)審計工作的取證和開展。預(yù)防和遏制串通投標行為是一項系統(tǒng)工程,需要各環(huán)節(jié)的共同努力,才能確保招投標市場規(guī)范有序。