





摘" 要:有效評價高素質(zhì)農(nóng)民培育政策是不斷提升鄉(xiāng)村人才振興政策效能的前提。為保障政策評價指標的完備性,精確診斷高素質(zhì)農(nóng)民培育政策的有效性,該文參照“二元語法”新詞發(fā)現(xiàn)模型、詞頻-逆向文檔頻率(TF-IDF)模型和語義網(wǎng)絡(luò)分析法提取的政策文本主題詞聚類特征,選取PMC指數(shù)模型的評價指標,并運用AE技術(shù)進行指標權(quán)重量化與多參數(shù)融合。基于PMC-AE指數(shù)模型的高素質(zhì)農(nóng)民培育政策量化評價結(jié)果發(fā)現(xiàn),與傳統(tǒng)的政策評價方法相比,PMC-AE指數(shù)模型能在一定程度上避免政策評價指標權(quán)重設(shè)置的主觀性,也能增加公共政策評價的有效性。
關(guān)鍵詞:文本挖掘;PMC-AE指數(shù);政策評價;高素質(zhì)農(nóng)民培育;量化評價
中圖分類號:G725" " " " 文獻標志碼:A" " " " " 文章編號:2096-9902(2023)08-0030-06
Abstract: Effective evaluation of high-quality farmers' cultivation policies is a prerequisite for continuously improving the effectiveness of rural talent revitalization policies. To ensure the completeness of policy evaluation indicators and accurately diagnose the effectiveness of high-quality farmers' cultivation policies, this paper firstly refers to the \"Bigram\" new word detection model, TF-IDF model and clustering of policy text subject words extracted by semantic network analysis, and then selects evaluation indexes of the PMC index model, and finally uses the AE technology to quantify the index weight and multi-parameter fusion. The quantitative evaluation results of high-quality farmer cultivation policies based on the PMC-AE index model found that, compared with traditional policy evaluation methods, the PMC-AE index model can not only avoid the subjectivity of policy evaluation index weight setting in a certain extent, but also increase the validity of public policy evaluation.
Keywords: text mining; PMC-AE index; policy evaluation; cultivation of high-quality farmers; quantitative evaluation
培育高素質(zhì)農(nóng)民是推動農(nóng)村農(nóng)業(yè)高質(zhì)量發(fā)展和實現(xiàn)鄉(xiāng)村振興的關(guān)鍵機制。我國歷來重視高素質(zhì)農(nóng)民培育,中共中央辦公廳、國務(wù)院辦公廳印發(fā)《關(guān)于加快推進鄉(xiāng)村人才振興的意見》和農(nóng)業(yè)農(nóng)村部科技教育司印發(fā)《高素質(zhì)農(nóng)民培訓規(guī)范(試行)》等系列政策文件。從公共政策功能來看,高素質(zhì)農(nóng)民培育政策文本的印發(fā)是國家意志與個體發(fā)展有機統(tǒng)一的外在結(jié)果。因此,科學、合理評價高素質(zhì)農(nóng)民培育政策文本內(nèi)容,才能從源頭出發(fā)達成高素質(zhì)農(nóng)民培育政策文本規(guī)范性和有效性的共同提升。但隨著高素質(zhì)農(nóng)民質(zhì)量政策數(shù)量的與日俱增,其政策體系也越來越復雜。如何快速識別政策內(nèi)容的主題詞共現(xiàn)網(wǎng)絡(luò)特征、保障政策評價指標的完備性及精確診斷政策質(zhì)量,是高素質(zhì)農(nóng)民培育政策評價有效實施的前提和保證。為了系統(tǒng)全面且有針對性地對高素質(zhì)農(nóng)民培育政策進行評價,本文在Ruiz Estrada的政策評價研究基礎(chǔ)上,采用文本挖掘法提取高素質(zhì)農(nóng)民培育政策文本的主題詞聚類特征,并參照主題詞聚類特征與已有學者相關(guān)政策指標遴選、設(shè)計反映高素質(zhì)農(nóng)民培育政策效能的評價指標,最后利用PMC-AE指數(shù)模型對高素質(zhì)農(nóng)民培育政策質(zhì)量進行診斷。
1" 相關(guān)工作
1.1" 文本挖掘相關(guān)技術(shù)
文本挖掘是從大量非結(jié)構(gòu)化文本數(shù)據(jù)中提取有價值的信息和知識的過程,主要包括文本預(yù)處理、分類、聚類和關(guān)聯(lián)規(guī)則等過程[1]。在政策文本量化評價過程中,文本分詞、特征詞提取和語義網(wǎng)絡(luò)分析等文本預(yù)處理技術(shù)被廣泛使用。考慮中文分詞工具的時效性和準確性,現(xiàn)有研究主要以jieba分詞對政策文本進行分詞。同時,為了規(guī)避jieba分詞對于專業(yè)領(lǐng)域分詞效果不好等問題,二元語法模型可以在大規(guī)模語料庫中自動高效地發(fā)現(xiàn)新詞,能顯著提高jieba分詞通用詞典分詞的準確性。另外,大量沒有參考價值的分詞會影響政策文本分類的準確性和效率,通過詞向量、主題模型和統(tǒng)計等方法提取特征詞是政策文本挖掘過程中的重要環(huán)節(jié)。其中,詞頻-逆向文檔頻率(term frequency-inverse document frequency,TF-IDF)算法是一種統(tǒng)計方法,該算法以詞頻統(tǒng)計衡量詞語的重要程度,傾向于過濾掉常見的詞語,保留重要的詞語,是常用于信息檢索與文本挖掘的常用加權(quán)技術(shù)[2]。為進一步有效揭示文本主題的浮現(xiàn)機理及發(fā)展軌跡,使用wordnet語義網(wǎng)絡(luò)或conceptnet語義網(wǎng)絡(luò)識別文本主題,此種處理思路也廣泛用于政策文本分析中[3]。本文將采用wordnet語義網(wǎng)絡(luò)法,以期通過結(jié)構(gòu)化的方式呈現(xiàn)主題詞之間的關(guān)系。
1.2" 政策評價相關(guān)技術(shù)
使用科學的政策評估標準和評估方法,對政策進行綜合的、全方位的考察和分析,并給予評價,可以為未來的政策走勢提供決策參考和依據(jù)[4]。最早使用的政策評價方法主要以經(jīng)驗判斷為主,如Suchman[5]提出的五類評估法和Poland[6]提出的3E評估方法。隨后,學者們在Wollmann[7]遵循實證主義的測量思路,衍生出模糊綜合評價法[8]、CIPP評估模型[9]和灰色關(guān)聯(lián)度算法[10]等政策量化評價法。Estrada[11]認為,這些復合型量化評價法較之前有一定科學性的改進,但或多或少存在一些缺陷,如主觀性、片面性等。基于此,Estrada以O(shè)mnia Mobilis假說為指導思想,在對政策主題頻數(shù)進行統(tǒng)計分析的基礎(chǔ)上,依托變量分類、參數(shù)識別及投入產(chǎn)出表構(gòu)建等建構(gòu)流程,得出政策一致性評價指數(shù)(簡稱“PMC指數(shù)”)。但該PMC指數(shù)模型的多參數(shù)識別法是線性融合求算術(shù)平均,無法精準反映、衡量政策評價變量間的相關(guān)性。目前,已有很多學者明確指出,利用自編碼技術(shù)(auto encoder,AE)進行多參數(shù)識別,很好地彌補了傳統(tǒng)PMC指數(shù)數(shù)據(jù)融合的不足,使得政策評價結(jié)果更加客觀[12-13]。這主要是由于AE技術(shù),作為一種非監(jiān)督學習神經(jīng)網(wǎng)絡(luò),該技術(shù)不需要大量數(shù)據(jù)集進行訓練,通過對輸入的數(shù)據(jù)利用非線性方法壓縮到隱藏層的神經(jīng)元,然后將隱藏層神經(jīng)元解壓得到輸出層數(shù)據(jù),并通過多次循環(huán)[14]即可使模型自動學習到能夠使輸入與輸出數(shù)據(jù)之間差異最小的權(quán)值和常數(shù)項,最終達到高維數(shù)據(jù)降維和數(shù)據(jù)融合的目的。
2" PMC-AE模型建立
本文首先用Python語言編寫程序收集政策文本,運用“二元語法”新詞發(fā)現(xiàn)模型、TF-IDF算法及語義網(wǎng)絡(luò)對政策文本內(nèi)容的主題特征進行分析,識別、選取政策評價變量,最后聯(lián)合AE技術(shù)和PMC指數(shù)模型進行政策評價。PMC-AE指數(shù)模型的運用過程分為如下步驟:①變量分類及參數(shù)確認;②建立多投入產(chǎn)出表;③PMC-AE指數(shù)的測量;④構(gòu)建PMC-AE曲面圖,以可視化方式呈現(xiàn)政策優(yōu)劣程度。具體流程如圖1所示。
2.1" 變量分類與參數(shù)識別
2.1.1" 政策文本分詞
本文首先利用Python爬蟲技術(shù)獲取高素質(zhì)農(nóng)民培育政策,篩選可用政策文本形成政策文本語料庫,并對文本進行格式轉(zhuǎn)換、清洗等預(yù)處理。借助Python的jieba工具包進行預(yù)分詞,融合哈工大停用詞表更新停用詞表。由于政策中有很多專業(yè)性的特定詞匯,現(xiàn)有的詞庫很難全部覆蓋,也并未有針對高素質(zhì)農(nóng)民培育的權(quán)威政策詞庫,因此,本文依據(jù)“二元語法”新詞發(fā)現(xiàn)模型,進行新詞提取[15]。首先將分詞后的連續(xù)詞序表示為“w1w2w3…wn”,其次,定義“wj wj+1”(1≤j≤n-1)為序列中任意相鄰2個詞的組合,最后,統(tǒng)計2個詞同時出現(xiàn)的組合,若wi與wj相鄰,wi出現(xiàn)的詞頻記為dfi,wi與wj共現(xiàn)頻次記為dfij,則兩者組成新詞的概率為p(wj|wi)= dfij/dfi。針對每個首詞wi計算與其相鄰的詞wj(假設(shè)有n個)的頻次均值:E(dfi)=∑p(wj|wi)×dfij,當dfijgt;E(dfi)時,則選入新詞。
2.1.2" 行特征提取
通常政策文本段落之間內(nèi)容層次分明,因此在進行特征詞提取前,將政策文本以一段單獨成行呈現(xiàn)。本文將選用詞頻-逆文檔頻率(TF-IDF)算法。其中,詞頻(TF)定義為一個單詞在一段文檔中出現(xiàn)的次數(shù)TFij=;逆文檔頻率(IDF)計算公式為IDFi=lg,式中:|D|表示語料庫中的段落數(shù),|{j:ti∈dj}|表示包含該詞的段落總數(shù)。即如果一個詞在越少的段落中出現(xiàn)則其IDF越大,說明該詞具有較好的區(qū)分能力。TF-IDFij=TFij×IDFi,其核心思想為若一個詞語在一個段落中出現(xiàn)的次數(shù)越多,同時在所有段落中出現(xiàn)的次數(shù)越少,則表明其越能夠很好地代表此段內(nèi)容。
2.1.3" 語義網(wǎng)絡(luò)分析
基于上文生成的特征詞生成共現(xiàn)矩陣,運用ucinet下的可視化工具net draw進行社會網(wǎng)絡(luò)分析并進行中心性測量,最后生成可視化的網(wǎng)絡(luò)關(guān)系共現(xiàn)圖譜。進行語義網(wǎng)絡(luò)分析詞語之間的關(guān)系模式和關(guān)聯(lián)強度,通過對特征詞之間的聯(lián)系構(gòu)建網(wǎng)絡(luò)結(jié)構(gòu)圖,可以直觀地對文本內(nèi)容進行解構(gòu),并識別變量構(gòu)建政策評價模型。
2.2" 建立多投入產(chǎn)出表
多投入產(chǎn)出表可以替代數(shù)據(jù)庫分析框架,用以儲存大量數(shù)據(jù)。此表可以使用多維度變量量化單個變量,其中每個一級變量由若干個二級變量構(gòu)成,而二級變量的個數(shù)不受限制。
2.3" PMC-AE指數(shù)計算
傳統(tǒng)PMC指數(shù)模型二級變量的重要性是相同的,采取二進制形式進行賦值,并簡單對變量的得分進行加和求平均,導致政策評價指標之間關(guān)系難以衡量。而神經(jīng)網(wǎng)絡(luò)由于其具有優(yōu)秀的數(shù)學特性,可以逼近任何線性和非線性函數(shù),具有較好的擬合作用,可以更好地表征評價指標之間關(guān)系。因此本文將融合神經(jīng)網(wǎng)絡(luò)理論的自編碼技術(shù)。
自編碼技術(shù)(AE)隸屬于非監(jiān)督學習,包含輸入層、隱藏層和輸出層。和監(jiān)督學習相比,其權(quán)重項和常數(shù)項不需要前期進行大量的文檔預(yù)訓練,而是通過參數(shù)自學習的方式實現(xiàn)數(shù)據(jù)的融合。具體思路是:首先,原始數(shù)據(jù)經(jīng)過非線性編碼進入隱藏層節(jié)點;其次,對隱藏層的節(jié)點進行解碼進入輸出層;最后,以輸入層和輸出層節(jié)點相差最小為目標,多次循環(huán)學習得到最優(yōu)的權(quán)重項和常數(shù)項。
h=f(WX+b1) hiddenY=g(W′h+b2) output ,(1)
式中: f,g分別為隱藏層和輸出層的編碼函數(shù);X=(x1,x2…xn)T為政策評價指標;Y為輸出層節(jié)點,記為Y=(y1,y2…yn)T;W和b1為輸入層與隱藏層之間的權(quán)重值矩陣和常數(shù)項W′=WT,W′和b2為隱藏層到輸出層的權(quán)重值矩陣和常數(shù)項。
通常矩陣的行數(shù)即n等于上一層的神經(jīng)元結(jié)點數(shù),列數(shù)m等于下一層的神經(jīng)元結(jié)點數(shù),若需要得到的是低維度的數(shù)據(jù)或者原始數(shù)據(jù)維度較高時,可以增加神經(jīng)網(wǎng)絡(luò)的層數(shù)。因此,經(jīng)過多次循環(huán)訓練學習后,原始數(shù)據(jù)X經(jīng)過非線性運算融合得到隱藏層節(jié)點h,h又通過解碼得到輸出層Y,而X=Y,則認為h可以是X與Y之間的非線性表達,所以h是各項指標融合后的政策文本得分。
2.4" 構(gòu)建PMC-AE曲面圖
為了更直觀地觀察政策整體情況和各維度優(yōu)劣程度,需要構(gòu)建PMC-AE曲面圖。構(gòu)建曲面圖需要將政策的各項評價指標轉(zhuǎn)換為三階方陣,公式(3)即為PMC-AE曲面對應(yīng)的PMC-AE矩陣值。
Pn=X1" X2" X3X4" X5" X6X7" X8" X9" 。" " " "(3)
3" 實驗與結(jié)果
3.1" 數(shù)據(jù)來源
高素質(zhì)農(nóng)民包括“新型職業(yè)農(nóng)民”“農(nóng)村實用型人才”“新型農(nóng)業(yè)經(jīng)營主體”,依據(jù)北大法寶、知網(wǎng)政府文件庫及相關(guān)政府部門平臺,對標題中含有“高素質(zhì)農(nóng)民培訓”“高素質(zhì)農(nóng)民培育”“新型職業(yè)農(nóng)民培訓”“新型職業(yè)農(nóng)民培育”“農(nóng)村實用型人才培訓”“農(nóng)村實用型人才培育”“新型農(nóng)業(yè)經(jīng)營主體培訓”“新型農(nóng)業(yè)經(jīng)營主體培育”的政府文件進行爬蟲,初步得到160個文件,剔除轉(zhuǎn)發(fā)復印內(nèi)容相同及相關(guān)程度低的文本,最終保留145份。
3.2" 變量識別
經(jīng)過對政策文本語料庫預(yù)處理和行特征詞提取,形成的語義網(wǎng)絡(luò)圖譜如圖2所示。“培育”是新型職業(yè)農(nóng)民培育政策的熱點,處于社會網(wǎng)絡(luò)的核心位置,輻射績效考核、標準設(shè)定、體系建設(shè)和統(tǒng)籌資源等內(nèi)容;“開展”是新型職業(yè)農(nóng)民培育政策的基調(diào),輻射政策扶持、資格認定和產(chǎn)業(yè)發(fā)展等;“管理”是新型職業(yè)農(nóng)民培育政策的方向,輻射制度管理、資金管理和教學管理等方面。
在語義網(wǎng)絡(luò)分析圖譜呈現(xiàn)的關(guān)鍵詞的基礎(chǔ)上,結(jié)合高素質(zhì)農(nóng)民培育政策的特點和PMC指數(shù)模型使用特點,建立高素質(zhì)農(nóng)民培育政策評價體系,見表1,該政策評價體系由9個一級變量和40個二級變量組成。一級變量分別是政策性質(zhì)(X1)、政策目標(X2)、政策時效(X3)、政策級別(X4)、政策工具(X5)、培育對象(X6)、培育主體(X7)、保障激勵(X8)和政策評價(X9)。其中,政策性質(zhì)(X1)、政策級別(X4)和政策評價(X9)依據(jù)Estrada的設(shè)計理念設(shè)置二級變量[11];政策目標(X2)、培育對象(X6)、培育主體(X7)和保障激勵(X8)二級變量是依據(jù)語義網(wǎng)絡(luò)圖譜所反映的政策重點設(shè)置;政策時效(X3)二級變量是依據(jù)五年規(guī)劃和培育知識更新速度快的特征設(shè)置;政策工具(X5)二級變量是在王進富等[13]文章的基礎(chǔ)上修改而來的。
結(jié)合高素質(zhì)農(nóng)民評價變量設(shè)置和多投入產(chǎn)出表的特征形成多投入產(chǎn)出表,具體見表2。
3.3" 政策得分計算
根據(jù)表1,逐一對145份高素質(zhì)農(nóng)民培育政策文本賦值,若政策文本出現(xiàn)表1中的關(guān)鍵詞則在投入產(chǎn)出表中賦值為1,否則為0。選Sigmoid函數(shù)作為編碼和解碼的函數(shù),分別為公式(4)和(5)。經(jīng)過多次測試,當數(shù)據(jù)融合的第一和第二階段的神經(jīng)網(wǎng)絡(luò)為3層,隱藏節(jié)點為1時,所有網(wǎng)絡(luò)均有較好的收斂性,得到的各項政策PMC-AE指數(shù)統(tǒng)計見表3。
3.4" PMC-AE曲面構(gòu)建
為了更加直觀地展示各項政策的優(yōu)勢和不足,對各項政策繪制PMC-AE曲面圖,由于政策較多,本文僅展示得分最低的政策P37,如圖3所示。從圖3中可以看出該政策所有一級變量均低于均值,因為該政策是早期的政策文件,政策內(nèi)容還不完善。其次,黑龍江作為糧食大省,僅注重對生產(chǎn)經(jīng)營型農(nóng)民的培育,所以文本對培育對象的涉及較為片面。由于是一個長期性的綱領(lǐng)文件,政策在時效方面僅涉及長期內(nèi)容,短期和中期的目標和規(guī)劃都未提及。另外,政策內(nèi)容主要是針對公益機構(gòu)農(nóng)業(yè)廣播學校建設(shè)的實施方案,所以培育主體只有公益機構(gòu)。政策中保障激勵手段單一,僅提到培育經(jīng)費的投入,并且文本中具體的實施方案和權(quán)責分配也不清晰,僅提供了一個框架性的意見。建議優(yōu)化路徑為X6—X8—X7—X2—X1—X3—X5—X9。
3.5" 研究結(jié)果有效性分析
為驗證基于PMC-AE指數(shù)模型對政策評價的有效性,本文將采取政策評價結(jié)果與其他變量的相關(guān)性來進行驗證。
3.5.1" 基于時間分析
從PMC-AE指數(shù)的平均值變化趨勢上可以看出,在2012—2020年間PMC-AE指數(shù)整體呈現(xiàn)上升的態(tài)勢。反映出隨著鄉(xiāng)村振興和現(xiàn)代農(nóng)業(yè)發(fā)展對多元化人才的需求,政府在政策設(shè)計過程中,注重對政策合理性、完備性和可持續(xù)性等方面進行提高。符合國家政府逐年對“三農(nóng)”問題重視的現(xiàn)實情形。
3.5.2" 基于地區(qū)分析
通過計算各省(自治區(qū)、直轄市)的PMC-AE指數(shù)的均值,發(fā)現(xiàn):中部地區(qū)PMC-AE指數(shù)大于東部地區(qū)PMC-AE指數(shù)大于西部地區(qū)PMC-AE指數(shù)。此結(jié)果與《2020年全國高素質(zhì)農(nóng)民發(fā)展報告》中發(fā)布的高素質(zhì)農(nóng)民發(fā)展指數(shù)排名相符合,其中全國發(fā)展指數(shù)排名前5的省份依次為安徽省、江蘇省、河南省、山東省和上海市。
4" 結(jié)論
本文從變量設(shè)置和變量權(quán)重衡量2個角度對傳統(tǒng)的政策評價方法進行優(yōu)化。首先,通過“二元語法”新詞發(fā)現(xiàn)模型,保證了政策文本分詞的精準性;其次,通過TF-IDF模型避免了高頻但不重要的詞語對評價變量設(shè)置的干擾;最后,通過AE對政策變量得分進行數(shù)據(jù)融合,更好地表征了不同評價變量之間的關(guān)系。本文在“高素質(zhì)農(nóng)民培育政策”領(lǐng)域進行了應(yīng)用,實驗證明本文所提策略有助于公眾快速解析政策文本,并展現(xiàn)當前文本呈現(xiàn)出的形式化特征和主題性特征,以更準確地認識“高素質(zhì)農(nóng)民培育政策”制定的特點和側(cè)重點,也為政策制定者了解領(lǐng)域政策演化規(guī)律創(chuàng)造了條件。除此之外,實驗結(jié)果政策PMC-AE指數(shù)的時間序列變化特征和地域特征與現(xiàn)實情形和其他資料報道相契合,這也說明了該分析方法具有合理性和有效性。但本研究依然存在一定的局限性,這一方法十分依賴人工對政策進行賦值,存在一定的主觀性,并且需要依靠大量時間和人力,對于數(shù)量龐大的政策領(lǐng)域恐難以實現(xiàn)。所以,如何實現(xiàn)客觀并且快速評價政策將成為下一步研究工作的重點。
參考文獻:
[1] FAYYAD U M, PIATETSKY-SHAPIRO G, SMYTH P. The KDD process for extracting useful knowledge from volumes of data[J]. Communications of the ACM, 1996,39(11):27-34.
[2] 鹿鵬,莊敏,龍剛,等.文本特征提取研究現(xiàn)狀分析與展望[J].科技創(chuàng)新與品牌,2017(4):70-74.
[3] 朱木易潔,鮑秉坤,徐常勝.知識圖譜發(fā)展與構(gòu)建的研究進展[J].南京信息工程大學學報(自然科學版),2017,9(6):575-582.
[4] 趙莉曉.創(chuàng)新政策評估理論方法研究——基于公共政策評估邏輯框架的視角[J].科學學研究,2014,32(2):195-202.
[5] SUCHMAN E A.Evaluative research:principles and practice in public service amp; social action programs[M].New York: Russell Sage Foundation,1967.
[6] POLAND O F.Program Evaluation and Administrative Theory[J]. Public administration review,1974,34(4):333-338.
[7] WOLLMANN H. The development of a sustainable development model framework[J]. Energy" Policy Research, 2007,31(13):2269-2275.
[8] 王慧杰,畢粉粉,董戰(zhàn)峰.基于AHP-模糊綜合評價法的新安江流域生態(tài)補償政策績效評估[J].生態(tài)學報,2020,40(20):7493-7506.
[9] 張笑寧,趙丹,陳遇春.新型職業(yè)農(nóng)民培育政策的績效評估及改進——基于CIPP評估模型[J].職業(yè)技術(shù)教育,2018,39(16):63-67.
[10] 朱明皓,竇水海,賈冀.中國汽車產(chǎn)業(yè)技術(shù)創(chuàng)新政策效果分析[J].科研管理,2017,38(7):26-36.
[11] ESTRADA M. Policy modeling: Definition, classification and evaluation[J]. Journal of Policy Modeling, 2011,33(4):523-536.
[12] 吳衛(wèi)紅,盛麗瑩,唐方成,等.基于特征分析的制造業(yè)創(chuàng)新政策量化評價[J].科學學研究,2020,38(12):2246-2257.
[13] 王進富,楊青云,張穎穎.基于PMC-AE指數(shù)模型的軍民融合政策量化評價[J].情報雜志,2019,38(4):66-73.
[14] 田馳遠,陳德華,王梅,等.基于依存句法分析的病理報告結(jié)構(gòu)化處理方法[J].計算機研究與發(fā)展,2016,53(12):2669-2680.
[15] 賈自艷,史忠植.基于概率統(tǒng)計技術(shù)和規(guī)則方法的新詞發(fā)現(xiàn)[J].計算機工程,2004(20):19-21.