單國(guó)棟,肖彥翠,王 皓
(1.長(zhǎng)春大學(xué) 理學(xué)院,長(zhǎng)春 130022;2.東北財(cái)經(jīng)大學(xué) 統(tǒng)計(jì)學(xué)院,遼寧 大連 116025)
學(xué)術(shù)期刊是科教事業(yè)發(fā)展過(guò)程中的關(guān)注焦點(diǎn)之一,對(duì)學(xué)術(shù)期刊文獻(xiàn)進(jìn)行統(tǒng)計(jì)分析,有助于直觀地分析我國(guó)的科學(xué)創(chuàng)新和技術(shù)創(chuàng)新水平。如何從大量的期刊文本數(shù)據(jù)中發(fā)現(xiàn)有價(jià)值的信息,變得尤為重要。本文選取經(jīng)濟(jì)類(lèi)的國(guó)內(nèi)期刊《經(jīng)濟(jì)研究》和國(guó)外期刊《美國(guó)經(jīng)濟(jì)評(píng)論》為代表,對(duì)其進(jìn)行WEB文本挖掘,然后對(duì)內(nèi)容作描述性分析和詞頻趨勢(shì)分析,以及文本挖掘模型的對(duì)比化分析。通過(guò)中外期刊對(duì)比,能夠發(fā)現(xiàn)國(guó)內(nèi)和國(guó)外相應(yīng)領(lǐng)域目前的研究現(xiàn)狀及關(guān)注熱點(diǎn)的發(fā)展趨勢(shì),并且可以發(fā)現(xiàn)中文與英文分詞方法的不同,同時(shí)為經(jīng)濟(jì)學(xué)者和讀者的研究提供參考。
在進(jìn)行文本挖掘之前,需要先對(duì)文本原始數(shù)據(jù)進(jìn)行預(yù)處理。而在文本預(yù)處理過(guò)程中,分詞是最重要的一個(gè)環(huán)節(jié)。對(duì)于英文文本,通過(guò)空格和標(biāo)點(diǎn)很容易將文章拆分成詞;但對(duì)于中文文本,文本分詞的過(guò)程比較復(fù)雜,比較常用的中文分詞方法包括:詞典法[1],隱馬爾科夫過(guò)程[2]和CRF模型[3]。通常一篇文本中的冠詞、連詞和介詞等虛詞以及在整個(gè)文本集中出現(xiàn)頻率很高、但對(duì)區(qū)分類(lèi)別作用不大的詞,被稱(chēng)為停止詞[4]。去除停止詞是文本預(yù)處理中不可缺少的步驟,它們可以使分詞結(jié)果變得更準(zhǔn)確,為后續(xù)的特征表示和統(tǒng)計(jì)建模提高精度。與中文相比,英文中同一個(gè)詞有詞形的變化,而因?yàn)樵~義本身沒(méi)有變化,就不應(yīng)該作為獨(dú)立的詞來(lái)存儲(chǔ)和參與分類(lèi)計(jì)算。去除這些詞形不同但詞義相同的詞,僅保留一個(gè)副本的步驟就稱(chēng)為“詞根還原”,經(jīng)過(guò)“詞根還原”,英文文本預(yù)處理過(guò)程結(jié)束。
文本挖掘的一個(gè)基本問(wèn)題是文本的表示及其特征項(xiàng)的選取。如果直接將分詞結(jié)果作為特征項(xiàng)來(lái)表示文本,那么這個(gè)文本向量的維度將會(huì)非常大,因而,必須從文本中提取出特征詞來(lái)表示文本信息,即通過(guò)特征選擇來(lái)降低文本向量的維度。特征項(xiàng)必須具備如下的特性:(1)文本內(nèi)容需要被特征項(xiàng)所標(biāo)識(shí);(2)將目標(biāo)文本與其他文本需要被特征項(xiàng)相區(qū)分;(3)特征項(xiàng)的個(gè)數(shù)不能太多,否則起不到降維的效果;(4)特征項(xiàng)分離比較容易實(shí)現(xiàn)。
特征項(xiàng)選取的方式通常有4種:(1)通過(guò)映射或變換的方法把原始特征映射為較少的新特征;(2)從原始特征中挑選出一些最具代表性的特征;(3)根據(jù)專(zhuān)家的知識(shí)挑選最有影響的特征;(4)用數(shù)學(xué)的方法找出最具分類(lèi)信息的特征。這里的第4種方法是一種比較精確的方法,人為干擾因素較少,比較適用于文本自動(dòng)分類(lèi)挖掘系統(tǒng)。
在自然語(yǔ)言處理領(lǐng)域,主題模型越來(lái)越受到廣泛關(guān)注。主題模型是提取文檔中隱含主題的一種概率模型,是對(duì)文字隱含主題進(jìn)行建模的一種方法[5]。它打破了傳統(tǒng)空間向量文檔-詞的思維定向,將文檔映射到主題空間上,表示為文檔-主題-詞。用主題描述文檔,有效地降低了維度,即主題模型克服了空間向量模型的缺點(diǎn)。
現(xiàn)階段主要應(yīng)用的主題模型包括LDA主題模型和CTM主題模型。
LDA(Latent Dirichlet Allocation)模型是Blei等人在2003年提出的[6],他們?cè)趐LSI方法[7]的基礎(chǔ)上加入先驗(yàn)分布Dirichlet分布得到LDA模型。LDA主題模型生成文本的過(guò)程如下[8]:
(a)對(duì)于主題z,根據(jù)Dirichlet分布Dir(β)得到該主題上的一個(gè)單詞多項(xiàng)式分布向量φ;
(b)根據(jù)泊松分布P得到文本的單詞數(shù)目N;
(c)根據(jù)Dirichlet分布Dir(α)得到該文本的一個(gè)主題分布概率向量θ;
(d)對(duì)于該文本N個(gè)單詞中的每一個(gè)單詞Wn:
(d1)從θ的多項(xiàng)式分布Multinomial(θ)隨機(jī)選擇一個(gè)主題z;
(d2)從主題z的多項(xiàng)式條件概率分布Multinomial(θ)選擇一個(gè)單詞作為Wn。
其中,α和β是Dirichlet分布的參數(shù),一般都是對(duì)稱(chēng)并且是固定值,α反映了文檔集合中隱含主題間的相對(duì)強(qiáng)弱;β刻畫(huà)了所有隱含主題自身的概率分布。
CTM模型則利用Logistic正態(tài)分布中的協(xié)方差矩陣來(lái)代表主題之間的關(guān)系。CTM主題模型生成文本的過(guò)程如下[9]:
(a)給定K個(gè)主題,各個(gè)主題都是全部詞語(yǔ)的一個(gè)分布;
(b)從多維分布中,隨機(jī)選取一個(gè)主題;
(c)從多維分布中,隨機(jī)選取一個(gè)單詞;
(d)重復(fù)以上過(guò)程,直到所有文檔的所有詞被抽取。
《美國(guó)經(jīng)濟(jì)評(píng)論》(The American Economic Review,AER)是享譽(yù)經(jīng)濟(jì)學(xué)界的頂尖學(xué)術(shù)期刊,它涵蓋了經(jīng)濟(jì)的各個(gè)領(lǐng)域,反映了人們關(guān)注的經(jīng)濟(jì)焦點(diǎn),是經(jīng)濟(jì)學(xué)界的風(fēng)向標(biāo)?!督?jīng)濟(jì)研究》是全國(guó)性綜合經(jīng)濟(jì)理論期刊,是在中國(guó)影響最大的經(jīng)濟(jì)理論期刊。本文通過(guò)爬蟲(chóng)技術(shù)分別爬取了1990年到2015年間刊登在《美國(guó)經(jīng)濟(jì)評(píng)論》和《經(jīng)濟(jì)研究》的所有文章,分別共有5684和3971篇文章,爬取的信息包括:文章題目、作者、年、月、摘要、關(guān)鍵詞等。
獲取到《美國(guó)經(jīng)濟(jì)評(píng)論》和《經(jīng)濟(jì)研究》的Web文本數(shù)據(jù)后,需要對(duì)這些文本數(shù)據(jù)進(jìn)行預(yù)處理,包括:文本分詞、停用詞過(guò)濾等,這是對(duì)文本進(jìn)行初步的過(guò)濾。經(jīng)過(guò)前述的文本預(yù)處理過(guò)程后,則可以對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行對(duì)比分析。
2.2.1 科研年產(chǎn)出分析
由圖1可以發(fā)現(xiàn),《美國(guó)經(jīng)濟(jì)評(píng)論》的文章年產(chǎn)量明顯高于《經(jīng)濟(jì)研究》的文章年產(chǎn)量。
就整體來(lái)看,《美國(guó)經(jīng)濟(jì)評(píng)論》文章年產(chǎn)量波動(dòng)較大,而《經(jīng)濟(jì)研究》波動(dòng)較小。而就局部來(lái)看,《美國(guó)經(jīng)濟(jì)評(píng)論》的年產(chǎn)量比較平穩(wěn),而《經(jīng)濟(jì)研究》的年產(chǎn)量波動(dòng)較大。

圖1 文章年產(chǎn)量
2.2.2 高產(chǎn)作者分析

圖2和圖3分別展示了《美國(guó)經(jīng)濟(jì)評(píng)論》和《經(jīng)濟(jì)研究》的高產(chǎn)作者數(shù)量?!睹绹?guó)經(jīng)濟(jì)評(píng)論》期刊中,nmax=24,得m=3.6,即發(fā)表文章在4篇及以上的作者為高產(chǎn)作者,有532位作者?!督?jīng)濟(jì)研究》期刊中,nmax=39,得m=4.7,即發(fā)表文章在5篇及以上的作者為高產(chǎn)作者,有240位作者。通過(guò)對(duì)比發(fā)現(xiàn),《美國(guó)經(jīng)濟(jì)評(píng)論》的高產(chǎn)作者人數(shù)多于《經(jīng)濟(jì)研究》。就最高產(chǎn)作者發(fā)表文章數(shù)來(lái)看,《經(jīng)濟(jì)研究》高于《美國(guó)經(jīng)濟(jì)評(píng)論》。

圖2 《美國(guó)經(jīng)濟(jì)評(píng)論》高產(chǎn)作者 圖3 《經(jīng)濟(jì)研究》高產(chǎn)作者
2.2.3 文章合著分析
《美國(guó)經(jīng)濟(jì)評(píng)論》1990-2015年間共發(fā)表5095篇文章,合著文章共3326篇,占總發(fā)表文章的65%。由圖4的年合著率可以看出,合著率整體呈上升趨勢(shì)。1990年合著率最低,占43%;2012年合著率最高,占82%?!督?jīng)濟(jì)研究》1990-2015年間共發(fā)表3971篇文章,其中合著文章共2014篇,占總發(fā)表文章的51%。年合著率整體呈上升趨勢(shì),1996年合著率最低,有13%,2014年合著率最高,有88%。

圖4 文章合著率 圖5 作者人數(shù)分布
通過(guò)對(duì)比合著率發(fā)現(xiàn),隨著時(shí)間的推移,《美國(guó)經(jīng)濟(jì)評(píng)論》與《經(jīng)濟(jì)研究》合著率的差距越來(lái)越小。1990-2005年《美國(guó)經(jīng)濟(jì)評(píng)論》的合著率均高于《經(jīng)濟(jì)研究》。2006年,《經(jīng)濟(jì)研究》的合著率超過(guò)了《美國(guó)經(jīng)濟(jì)評(píng)論》。2006-2013年之間,《美國(guó)經(jīng)濟(jì)評(píng)論》和《經(jīng)濟(jì)研究》的合著率相當(dāng)。2014年和2015年《經(jīng)濟(jì)研究》的合著率明顯高于《美國(guó)經(jīng)濟(jì)評(píng)論》。由以上數(shù)據(jù)可以得出結(jié)論:合著已經(jīng)成為了一種比較普遍的現(xiàn)象。
針對(duì)《美國(guó)經(jīng)濟(jì)評(píng)論》和《經(jīng)濟(jì)研究》,我們統(tǒng)計(jì)了合作者人數(shù)及文章數(shù),統(tǒng)計(jì)結(jié)果發(fā)現(xiàn),《美國(guó)經(jīng)濟(jì)評(píng)論》合著作者人數(shù)最多為12人。對(duì)比之下,《經(jīng)濟(jì)研究》合著作者人數(shù)最多為16人。對(duì)比《美國(guó)經(jīng)濟(jì)評(píng)論》和《經(jīng)濟(jì)研究》的合作者人數(shù)(見(jiàn)圖5),就一位作者來(lái)看,《經(jīng)濟(jì)研究》的合著占比高于《美國(guó)經(jīng)濟(jì)評(píng)論》。作者人數(shù)為2、3、4時(shí),《美國(guó)經(jīng)濟(jì)評(píng)論》的占比均高于《經(jīng)濟(jì)研究》。綜上所述,《美國(guó)經(jīng)濟(jì)評(píng)論》的作者傾向于合作,且以二人合作的形式居多;《經(jīng)濟(jì)研究》的作者更傾向于獨(dú)著。
2.2.4 關(guān)鍵詞分析
將《美國(guó)經(jīng)濟(jì)評(píng)論》的摘要分詞除去停止詞后,統(tǒng)計(jì)詞語(yǔ)的頻數(shù)。將詞語(yǔ)按出現(xiàn)的次數(shù)從高到低排序,取前100個(gè)高頻詞語(yǔ)作詞云圖(見(jiàn)圖6)。由圖6發(fā)現(xiàn),模型、影響、市場(chǎng)、價(jià)格出現(xiàn)的次數(shù)最多,即是《美國(guó)經(jīng)濟(jì)評(píng)論》的作者最關(guān)注的方面。取詞頻最高的前15個(gè)詞語(yǔ)作柱狀圖,結(jié)果如圖7所示。提取的高頻詞語(yǔ)能夠反映出《美國(guó)經(jīng)濟(jì)評(píng)論》文獻(xiàn)關(guān)注的主要內(nèi)容,主要包括經(jīng)濟(jì)市場(chǎng)情況、影響、價(jià)格、政策、消費(fèi)、變化等,其中最關(guān)注模型,說(shuō)明《美國(guó)經(jīng)濟(jì)評(píng)論》的作者更多地致力于模型的研究。

圖6 《美國(guó)經(jīng)濟(jì)評(píng)論》高頻詞詞云圖 圖7 《美國(guó)經(jīng)濟(jì)評(píng)論》高頻詞柱狀圖
按照同樣的方式對(duì)《經(jīng)濟(jì)研究》詞頻進(jìn)行統(tǒng)計(jì),繪制圖8、圖9。由圖8發(fā)現(xiàn),中國(guó)、經(jīng)濟(jì)、影響、企業(yè)出現(xiàn)的次數(shù)最多,即是《經(jīng)濟(jì)研究》的作者最關(guān)注的方面。從提取的高頻詞語(yǔ)能夠反映出《經(jīng)濟(jì)研究》文獻(xiàn)關(guān)注的主要內(nèi)容,主要包括我國(guó)經(jīng)濟(jì)情況、企業(yè)狀況、面臨問(wèn)題、理論方面、改革等,其中最關(guān)注經(jīng)濟(jì),說(shuō)明《經(jīng)濟(jì)研究》的作者更關(guān)注于我國(guó)的經(jīng)濟(jì)情況。

圖8 《經(jīng)濟(jì)研究》高頻詞詞云圖 圖9 《經(jīng)濟(jì)研究》高頻詞柱狀圖
根據(jù)《美國(guó)經(jīng)濟(jì)評(píng)論》和《經(jīng)濟(jì)研究》高頻詞的詞云圖發(fā)現(xiàn),《美國(guó)經(jīng)濟(jì)評(píng)論》和《經(jīng)濟(jì)研究》的作者均比較關(guān)注經(jīng)濟(jì)、政策、模型、理論、影響、企業(yè)、勞動(dòng)力、產(chǎn)品等。除此之內(nèi)外,《美國(guó)經(jīng)濟(jì)評(píng)論》的作者還比較關(guān)注工資、消費(fèi)等,均是站在個(gè)人的角度和作者日常生活息息相關(guān)的。而《經(jīng)濟(jì)研究》的作者還比較關(guān)注農(nóng)業(yè)、農(nóng)村、工業(yè)等。
近年來(lái),主題模型主要同文本聚類(lèi)和文本分類(lèi)相結(jié)合,應(yīng)用于文獻(xiàn)搜索和文獻(xiàn)推薦等方面,LDA模型和CTM模型為主要應(yīng)用模型。本小節(jié)針對(duì)《經(jīng)濟(jì)研究》和《美國(guó)經(jīng)濟(jì)評(píng)論》的數(shù)據(jù),對(duì)其進(jìn)行LDA主題模型和CTM主題模型分析。
2.3.1 《經(jīng)濟(jì)研究》的主題分析
根據(jù)《經(jīng)濟(jì)研究》的自身特點(diǎn)并且通過(guò)觀察高頻率詞語(yǔ)不斷調(diào)試主題個(gè)數(shù),觀察結(jié)果,最終確定《經(jīng)濟(jì)研究》主題個(gè)數(shù)為6個(gè)。
(1)LDA主題模型:得到的6個(gè)主題如表1所示,除第5個(gè)主題是理論經(jīng)濟(jì)學(xué)外,其他主題均是應(yīng)用經(jīng)濟(jì)學(xué)。

表1 《經(jīng)濟(jì)研究》LDA主題模型結(jié)果
(2)CTM主題模型:6個(gè)主題如表2所示,除第5主題和第6主題是理論經(jīng)濟(jì)學(xué)外,其他主題均是應(yīng)用經(jīng)濟(jì)學(xué)的內(nèi)容。
2.3.2 《美國(guó)經(jīng)濟(jì)評(píng)論》的主題分析
根據(jù)《美國(guó)經(jīng)濟(jì)評(píng)論》的自身特點(diǎn)并且通過(guò)觀察高頻率詞語(yǔ)不斷調(diào)試主題個(gè)數(shù),觀察結(jié)果,最終確定,將《美國(guó)經(jīng)濟(jì)評(píng)論》分為8個(gè)主題。
(1)LDA主題模型:各個(gè)主題詞根據(jù)其在文本主題出現(xiàn)的概率按照降序排列,如表3所示。

表3 《美國(guó)經(jīng)濟(jì)評(píng)論》LDA主題模型結(jié)果
(2)CTM主題模型:運(yùn)用CTM主題模型得到的8個(gè)主題如表4所示,這同LDA模型的結(jié)果(表3)有所不同。

表4 《美國(guó)經(jīng)濟(jì)評(píng)論》CTM主題模型結(jié)果
2.3.3 總結(jié)與對(duì)比
經(jīng)過(guò)上述分析,我們得到以下發(fā)現(xiàn):
(1)在《美國(guó)經(jīng)濟(jì)評(píng)論》和《經(jīng)濟(jì)研究》數(shù)據(jù)集上,LDA主題模型效果更好一些。
(2)《美國(guó)經(jīng)濟(jì)評(píng)論》的LDA模型和CTM模型的結(jié)果都共同包括社會(huì)經(jīng)濟(jì)學(xué)、財(cái)政學(xué)、國(guó)際貿(mào)易學(xué),但主題的詞語(yǔ)有所差別。除此之外,LDA模型主題還包括投資學(xué)、教育經(jīng)濟(jì)學(xué)、國(guó)際貿(mào)易學(xué)、金融學(xué)和生育率對(duì)經(jīng)濟(jì)影響。CTM模型主題還包括政治經(jīng)濟(jì)學(xué)、發(fā)展經(jīng)濟(jì)學(xué)、保險(xiǎn)學(xué)、貨幣銀行學(xué)和宏觀經(jīng)濟(jì)學(xué)。
(3)《經(jīng)濟(jì)研究》的LDA模型和CTM模型的結(jié)果都共同包含國(guó)民經(jīng)濟(jì)學(xué)、國(guó)際貿(mào)易學(xué)、貨幣銀行學(xué)、產(chǎn)業(yè)經(jīng)濟(jì)學(xué)和政治經(jīng)濟(jì)學(xué)方面的內(nèi)容,但主題的詞語(yǔ)有所差別。除此之外,LDA模型還包括投資學(xué)等內(nèi)容。CTM模型還包括宏觀經(jīng)濟(jì)學(xué)內(nèi)容。
(4)《美國(guó)經(jīng)濟(jì)評(píng)論》包括8個(gè)主題,《經(jīng)濟(jì)研究》包括6個(gè)主題。對(duì)比它們的LDA模型結(jié)果,發(fā)現(xiàn)《美國(guó)經(jīng)濟(jì)評(píng)論》和《經(jīng)濟(jì)研究》的主題均包含國(guó)民經(jīng)濟(jì)學(xué)、投資學(xué)和國(guó)際貿(mào)易學(xué)。除此之外,《美國(guó)經(jīng)濟(jì)評(píng)論》主題還包括社會(huì)經(jīng)濟(jì)學(xué)、財(cái)政學(xué)、教育經(jīng)濟(jì)學(xué)、金融學(xué)和生育率對(duì)經(jīng)濟(jì)的影響;《經(jīng)濟(jì)研究》主題還包括政治經(jīng)濟(jì)學(xué)、產(chǎn)業(yè)經(jīng)濟(jì)學(xué)、貨幣銀行學(xué)。
通過(guò)對(duì)《美國(guó)經(jīng)濟(jì)評(píng)論》和《經(jīng)濟(jì)研究》文獻(xiàn)的文本數(shù)據(jù)的提取,對(duì)結(jié)構(gòu)性數(shù)據(jù)進(jìn)行描述性分析,對(duì)摘要進(jìn)行分詞、特征表示和特征提取,進(jìn)而進(jìn)行聚類(lèi)分析和主題分析。
迄今為止,在針對(duì)期刊文本的研究中,所采用的分詞技術(shù)主要是單一的針對(duì)中文,很少將中英文分詞過(guò)程作對(duì)比。本文通過(guò)對(duì)外文期刊《美國(guó)經(jīng)濟(jì)評(píng)論》和中文期刊《經(jīng)濟(jì)研究》的摘要分詞,對(duì)比中英文分詞的相同與不同,從而為科研工作者提供便利。此外,本文深層次地挖掘中美兩國(guó)經(jīng)濟(jì)研究領(lǐng)域權(quán)威期刊的內(nèi)容,其結(jié)果對(duì)該領(lǐng)域?qū)W者的研究工作有一定的參考價(jià)值。
長(zhǎng)春大學(xué)學(xué)報(bào)2019年6期