陳 立
(1.浙江工商大學(xué) 實(shí)驗(yàn)室與設(shè)備管理處,浙江 杭州 310018;2.浙江大學(xué) 計(jì)算機(jī)與科學(xué)學(xué)院,浙江 杭州 310058)
所謂批量集中采購(gòu),是對(duì)一些通用性強(qiáng)、技術(shù)規(guī)格統(tǒng)一、便于歸集的政府采購(gòu)品目,由采購(gòu)人按規(guī)定標(biāo)準(zhǔn)歸集采購(gòu)需求后,交由集中采購(gòu)機(jī)構(gòu)統(tǒng)一組織采購(gòu)的一種采購(gòu)模式。
目前高校儀器設(shè)備批量集中采購(gòu)的過(guò)程是:主管采購(gòu)的政府部門(mén)按照“滿(mǎn)足基本辦公需要”、“市場(chǎng)成熟度高”和“競(jìng)爭(zhēng)性充分”的原則,先制定采購(gòu)目錄,如臺(tái)式計(jì)算機(jī),其采購(gòu)目錄就有10款基本配置機(jī)型;然后各行政事業(yè)單位基于上述采購(gòu)目錄,通過(guò)網(wǎng)上報(bào)送采購(gòu)計(jì)劃;在規(guī)定的報(bào)送時(shí)間截止后,采購(gòu)部門(mén)再對(duì)申請(qǐng)單位的采購(gòu)需求進(jìn)行匯總整理、分類(lèi)打包,編制具體采購(gòu)需求,進(jìn)而進(jìn)行采購(gòu)[1]。
批量集中采購(gòu)試點(diǎn)工作近年來(lái)得到財(cái)政部的大力推進(jìn)。它不僅較好地解決了傳統(tǒng)的協(xié)議采購(gòu)方式中品目協(xié)議價(jià)格高于市場(chǎng)價(jià)、采購(gòu)人在協(xié)議供貨中任意選擇高配置機(jī)型、采購(gòu)人員對(duì)供貨商選擇有明顯傾向性等問(wèn)題,更為重要的是,它能帶來(lái)顯著的規(guī)模效益[2]。與分散采購(gòu)相比,批量集中采購(gòu)更符合市場(chǎng)競(jìng)爭(zhēng)規(guī)則。批量越大,吸引的供應(yīng)商就越多;而參與競(jìng)爭(zhēng)的供應(yīng)商越多,競(jìng)爭(zhēng)就越充分,采購(gòu)方所獲得的價(jià)格優(yōu)勢(shì)、質(zhì)量?jī)?yōu)勢(shì)及得到的配套服務(wù)自然會(huì)顯著提升。所以,批量集中采購(gòu)帶來(lái)的是采購(gòu)成本、人力成本、監(jiān)督成本的下降,是商品質(zhì)量和服務(wù)質(zhì)量的提升,從而使得財(cái)政資金得到最大化節(jié)約[3-4]。
但同時(shí),批量集中采購(gòu)的推行也面臨一些難題。例如對(duì)于行政管理部門(mén)而言,其設(shè)備“滿(mǎn)足基本辦公需要”即可;而對(duì)于高校某些研究部門(mén)而言,所需采購(gòu)的設(shè)備專(zhuān)用性較強(qiáng)、技術(shù)規(guī)格也很難統(tǒng)一,所以無(wú)法出現(xiàn)在政府主管部門(mén)制定的采購(gòu)目錄中,只能分散自行采購(gòu),因而不能得到批量集中采購(gòu)的優(yōu)勢(shì)[5]。實(shí)踐中,“政府采購(gòu)目錄”尚未涵蓋的設(shè)備需求總量還是很大的,如果這些設(shè)備也能實(shí)現(xiàn)批量集中采購(gòu),將會(huì)大大拓展批量集中采購(gòu)的適用范圍。
鑒于某些大的生產(chǎn)商或代理商能夠生產(chǎn)或代理多種類(lèi)設(shè)備,高校在分散采購(gòu)中常常將不同型號(hào)及種類(lèi)的設(shè)備組合起來(lái)進(jìn)行招標(biāo)。按照這種思路,只要某些設(shè)備的組合滿(mǎn)足招標(biāo)條件并曾經(jīng)招標(biāo)成功,就可以嘗試將這種組合形成一個(gè)“類(lèi)”,由政府主管部門(mén)將各高校待采購(gòu)的設(shè)備按照這種組合進(jìn)行分類(lèi)匯總,一旦形成規(guī)模時(shí)即可進(jìn)行公開(kāi)招標(biāo)。利用貝葉斯算法及機(jī)器分類(lèi),通過(guò)計(jì)算機(jī)及網(wǎng)絡(luò),就可以實(shí)現(xiàn)上述跨部門(mén)、跨地區(qū)的設(shè)備分類(lèi)匯總。由此,批量集中采購(gòu)在擺脫了采購(gòu)目錄中品目分類(lèi)限制的情況下得以實(shí)施。
貝葉斯分類(lèi)器分為兩部分:一個(gè)是訓(xùn)練部分,包括對(duì)滿(mǎn)足招標(biāo)條件且成功招標(biāo)過(guò)的設(shè)備文本的收集和預(yù)處理,以及分類(lèi)器的構(gòu)建,其中須對(duì)文本進(jìn)行中文分詞、文本特征向量的提取;另一個(gè)是分類(lèi)部分,包括對(duì)高校待采購(gòu)設(shè)備文本的收集和預(yù)處理及分類(lèi)和輸出,同樣也必須對(duì)其進(jìn)行中文分詞、文本特征向量的提取。
使用已經(jīng)獲取的訓(xùn)練模型來(lái)對(duì)設(shè)備文本進(jìn)行分類(lèi),將待采購(gòu)的設(shè)備與訓(xùn)練集中的類(lèi)進(jìn)行匹配,通過(guò)計(jì)算申購(gòu)設(shè)備屬于哪一類(lèi)的概率,將其歸為概率最大的一類(lèi),從而用機(jī)器分類(lèi)的方法實(shí)現(xiàn)分類(lèi)匯總,進(jìn)而公開(kāi)招標(biāo)(見(jiàn)圖1)。

圖1 設(shè)備分類(lèi)流程圖
2.2.1 設(shè)備模型
采用向量空間模型[6](vector space model,VSM)作為設(shè)備文本的表示模型。該模型的基本思想是用特征詞條來(lái)表示文本的語(yǔ)義,把文本表示為以詞為單位的項(xiàng),項(xiàng)代表向量空間中的維度,每個(gè)文本被表示成一個(gè)n維向量,權(quán)重代表維度的大小,即設(shè)備文本Di可以表示為:

式中:wij表示第j個(gè)特征項(xiàng)tj在設(shè)備文本Di中出現(xiàn)的頻度(權(quán)重),n為向量空間的維數(shù)。可以看出,wij的值越大,表示tj越能反映設(shè)備Di所屬類(lèi)別;反之,該值越小,表示tj越不能反映設(shè)備Di所屬類(lèi)別。
2.2.2 設(shè)備文本分詞
由于貝葉斯文本分類(lèi)算法是以單詞為粒度,所以在特征提取前,必須對(duì)需參與分類(lèi)的文本作分詞處理。在分詞前要對(duì)設(shè)備文本做預(yù)處理,根據(jù)經(jīng)驗(yàn),只保留最能說(shuō)明設(shè)備屬性的名詞及英文字母。分詞過(guò)程則是采用開(kāi)源的ICTCLAS漢語(yǔ)分詞系統(tǒng),它是基于多層隱式馬爾科夫鏈模型的漢語(yǔ)詞法分析系統(tǒng)[7],該系統(tǒng)的主要功能有中文分詞、詞性標(biāo)注、新詞識(shí)別等,分詞精度為98.45%。
2.2.3 設(shè)備文本特征詞條的提取
設(shè)備文本內(nèi)容由大量的詞組成,大部分詞對(duì)分類(lèi)的影響很小,但若把所有詞都作為特征詞條,會(huì)使向量的維數(shù)很大,計(jì)算機(jī)處理速度變慢。因此,在表示設(shè)備內(nèi)容時(shí)要選擇有典型意義的詞作為特征詞條,以減少向量的維數(shù)。常用的降維方法是進(jìn)行特征提取[8]。
常用特征選取方法有信息增益(IG)、互信息(MI)、文檔頻度(DF)、類(lèi)別區(qū)分詞[9]等,本文采用類(lèi)別區(qū)分詞方法。類(lèi)別區(qū)分詞方法能夠從局部意義上考慮特征詞條對(duì)單個(gè)類(lèi)別的區(qū)分能力。全局意義上的詞可能存在多類(lèi)的表示意義,但有些詞的單類(lèi)類(lèi)別表示意義很明顯,比如“交換機(jī)”、“色譜儀”、“移液器”等,它們只會(huì)出現(xiàn)在某一設(shè)備文本之中,這些詞稱(chēng)之為類(lèi)別區(qū)分詞。類(lèi)別區(qū)分詞的選取有兩種方式:一種與詞條的類(lèi)間離散度[10]有關(guān),另一種與類(lèi)內(nèi)分散度有關(guān)。類(lèi)間離散度用來(lái)描述特征詞條在類(lèi)間的分布情況。本文采用類(lèi)間離散度來(lái)對(duì)設(shè)備文本的單詞進(jìn)行特征提取,特征詞條的類(lèi)間離散度為:


2.2.4 特征詞條權(quán)重的表示方法
特征詞條選取后就可以使用模型來(lái)表示設(shè)備文本。但表示設(shè)備文本之前,要先計(jì)算每個(gè)特征詞條的權(quán)重,根據(jù)特征詞條在設(shè)備文本中的重要程度來(lái)給予特征詞條不同的權(quán)重。特征詞條權(quán)重的表示方法主要有聯(lián)合權(quán)重(TF-IDF)、布爾權(quán)重、特征詞條頻度等,本文選擇特征詞條頻度作為權(quán)重的表示方法。
貝葉斯方法[11]是基于概率的一種算法,樸素貝葉斯方法是貝葉斯方法中最簡(jiǎn)單的形式,其原理是通過(guò)計(jì)算文本dx屬于某個(gè)類(lèi)別Cj的概率P(Cj/dx),把文本dx分類(lèi)到概率最大的類(lèi)別中。

式中:P(Cj)是類(lèi)的先驗(yàn)概率;P(dx/Cj)是類(lèi)條件概率。設(shè)dx表示為特征詞條集合(t1,t2,…,tn),n為特征詞條個(gè)數(shù),假設(shè)特征詞條之間相互獨(dú)立,則P(dx/Cj)、P(dx)的計(jì)算方法為:

本文中,筆者將每種類(lèi)別的所有設(shè)備匯總到一個(gè)文本中,所以P(Cj)在這里不用計(jì)算,公式可以簡(jiǎn)化為:

訓(xùn)練部分?jǐn)?shù)據(jù)是本校及其他兄弟院校采購(gòu)?fù)瓿傻?0份招標(biāo)文件,用人工的方式找出符合要求的招標(biāo)標(biāo)項(xiàng),并且按標(biāo)項(xiàng)將其中的設(shè)備文本一一提取出來(lái),每個(gè)標(biāo)項(xiàng)作為一類(lèi),這樣總共從50份招標(biāo)文件中匯總出10個(gè)類(lèi)別的訓(xùn)練文本,包含設(shè)備數(shù)157臺(tái)套。
分類(lèi)部分?jǐn)?shù)據(jù)是在本校申購(gòu)系統(tǒng)準(zhǔn)備采購(gòu)的項(xiàng)目中提取的9個(gè)項(xiàng)目,其中包含7個(gè)財(cái)政專(zhuān)項(xiàng)以及2個(gè)常規(guī)項(xiàng)目。這些申購(gòu)項(xiàng)目包括計(jì)算機(jī)、環(huán)境、食品、藝術(shù)等專(zhuān)業(yè)申購(gòu)的設(shè)備160臺(tái)套,從中挑選出用于測(cè)試的設(shè)備132臺(tái)套,設(shè)備價(jià)值共計(jì)387萬(wàn)元。因?yàn)橛行┰O(shè)備是指定品牌或是屬于非標(biāo)設(shè)備,無(wú)法用于招標(biāo)采購(gòu),所以將其剔除掉。
本文使用文本分類(lèi)的評(píng)價(jià)指標(biāo)——準(zhǔn)確率和查全率來(lái)對(duì)設(shè)備分類(lèi)進(jìn)行評(píng)估,以評(píng)價(jià)實(shí)驗(yàn)結(jié)果。準(zhǔn)確率和查全率可用公式表示如下:
準(zhǔn)確率=(機(jī)器分類(lèi)結(jié)果的設(shè)備與人工分類(lèi)結(jié)果的設(shè)備相一致的設(shè)備數(shù))/(機(jī)器分類(lèi)結(jié)果的設(shè)備數(shù));
查全率=(人工分類(lèi)結(jié)果的設(shè)備與機(jī)器分類(lèi)結(jié)果的設(shè)備相一致的設(shè)備數(shù))/(人工分類(lèi)結(jié)果的設(shè)備數(shù))。
綜合考慮準(zhǔn)確率和查全率的共同影響,采用另一種常見(jiàn)的評(píng)價(jià)指標(biāo)F-Score[12],即F-Score=準(zhǔn)確率×查全率×2/(準(zhǔn)確率+查全率)。
首先將使用部門(mén)申報(bào)的待采購(gòu)設(shè)備用人工方式分類(lèi)。為了使人工分類(lèi)的結(jié)果更準(zhǔn)確,將分類(lèi)結(jié)果匯總,并做成標(biāo)書(shū)后用郵件的方式詢(xún)問(wèn)3家以上有實(shí)力的供應(yīng)商,征求其對(duì)分類(lèi)結(jié)果的意見(jiàn)。因?yàn)榉诸?lèi)結(jié)果會(huì)直接影響到招投標(biāo)結(jié)果,所以幾乎所有供應(yīng)商都認(rèn)真、詳盡地給出了答案。另外,也通過(guò)郵件征詢(xún)了用戶(hù)對(duì)人工分類(lèi)合理性的意見(jiàn),也收到很多的意見(jiàn)反饋。最后綜合用戶(hù)和供應(yīng)商的意見(jiàn),對(duì)分類(lèi)的結(jié)果做進(jìn)一步的調(diào)整,這為后續(xù)的比較提供了準(zhǔn)確的依據(jù)。
分類(lèi)的結(jié)果如表1所示。F-Score的平均值達(dá)到70%以上,分類(lèi)器分類(lèi)結(jié)果對(duì)比人工分類(lèi)正確數(shù)共計(jì)72臺(tái)套設(shè)備,設(shè)備的預(yù)算價(jià)值接近300萬(wàn)元,這個(gè)結(jié)果是比較令人滿(mǎn)意的。就筆者所在的學(xué)校來(lái)說(shuō),用這種方式的話,一年可以有價(jià)值2 000~3 000萬(wàn)元的原本分散采購(gòu)的設(shè)備進(jìn)入到批量集中采購(gòu)。
對(duì)于F-Score比較低的類(lèi),通過(guò)對(duì)比人工分類(lèi)的結(jié)果,發(fā)現(xiàn)主要是由于待分類(lèi)設(shè)備文本對(duì)設(shè)備的描述不夠清晰、明確導(dǎo)致。還有一些設(shè)備是因?yàn)楸旧碜詭Я肆硪活?lèi)的設(shè)備(如有些色譜儀本身自帶了臺(tái)式計(jì)算機(jī)),導(dǎo)致機(jī)器分類(lèi)的錯(cuò)誤,也降低了分類(lèi)效率。
通過(guò)實(shí)驗(yàn)可以看到,改進(jìn)的貝葉斯分類(lèi)器在設(shè)備分類(lèi)時(shí)取得了較好的效果。采用這種辦法可以有效擴(kuò)大批量集中采購(gòu)的適用范圍,將原本不適用于集中采購(gòu)的設(shè)備也部分納入批量集中采購(gòu)中來(lái)。運(yùn)用計(jì)算機(jī)處理不僅加快了采購(gòu)速度,而且也體現(xiàn)出批量集中采購(gòu)的優(yōu)勢(shì)。不過(guò),機(jī)器分類(lèi)畢竟有其局限性,在實(shí)際運(yùn)用中還應(yīng)該圍繞機(jī)器分類(lèi)制定相關(guān)的制度,以確保最終分類(lèi)的準(zhǔn)確性。此外,本文的結(jié)論只是在實(shí)驗(yàn)狀態(tài)下得出的,在采購(gòu)實(shí)踐際中,設(shè)備的種類(lèi)千變?nèi)f化,因此還需建立一套反饋機(jī)制,以提高機(jī)器分類(lèi)效率,滿(mǎn)足不斷變化的采購(gòu)需求。

表1 分類(lèi)器分類(lèi)評(píng)價(jià)
(
)
[1]李麗輝,王保安.政府批量集中采購(gòu)將向全國(guó)推廣[N].人民日?qǐng)?bào),2011-10-24(003).
[2]中華人民共和國(guó)財(cái)政部.政府采購(gòu)貨物和服務(wù)招標(biāo)投標(biāo)管理辦法[J].中國(guó)政府采購(gòu),2004(9):7-15.
[3]鐘永泉,趙邦枝.高校集中采購(gòu)內(nèi)部控制制度的構(gòu)建與探索[J].實(shí)驗(yàn)技術(shù)與管理,2009,26(12):146-148.
[4]張彥志,向青春.高校規(guī)避政府集中采購(gòu)的問(wèn)題及對(duì)策[J].實(shí)驗(yàn)技術(shù)與管理,2009,26(8):172-175.
[5]鄧文,龔福忠,覃戟,等.政府采購(gòu)制度下地方高校儀器設(shè)備采購(gòu)的問(wèn)題及對(duì)策[J].實(shí)驗(yàn)技術(shù)與管理,2012,29(11):4-7.
[6]邢軍,韓敏.基于兩層向量空間模型和模糊FCA本體學(xué)習(xí)方法[J].計(jì)算機(jī)研究與發(fā)展,2009,46(3):443-451.
[7]陳功平,沈明玉,王紅,等.基于內(nèi)容的短信分類(lèi)技術(shù)[J].華東理工大學(xué)學(xué)報(bào):自然科學(xué)版,2011,37(6):770-774.
[8]黃秀麗,王蔚.一種改進(jìn)的文本分類(lèi)特征選擇方法[J].計(jì)算機(jī)工程與應(yīng)用,2009,45(36):129-130.
[9]周奇年,張振浩,徐登彩.用于中文文本分類(lèi)的基于類(lèi)別區(qū)分詞的特征選擇方法[J].計(jì)算機(jī)應(yīng)用與軟件,2013,30(3):193-195.
[10]熊忠陽(yáng),黎剛,陳小莉,等.文本分類(lèi)中詞語(yǔ)權(quán)重計(jì)算方法的改進(jìn)與應(yīng)用[J].計(jì)算機(jī)工程與應(yīng)用,2008,44(5):187-189.
[11]Ian H.Witten,Eibe Frank.數(shù)據(jù)挖掘:實(shí)用機(jī)器學(xué)習(xí)技術(shù)[M].董琳,邱泉,于曉峰,等譯.北京:機(jī)械工業(yè)出版社,2006.
[12]Sebastiani F.Machine learning in automated text categoriza-tion[J].ACM Computing Surveys,2002,34(1):1-47.