999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于統計分析的“中國風”歌曲詞匯研究

2018-12-08 11:28:40蔣彥廷張健鋮

蔣彥廷 張健鋮

摘 要:通過計算106個歌詞文本和《唐詩三百首》《宋詞三百首》之間的余弦相似度,可以發現“中國風”歌詞更接近宋詞。再結合卡方檢驗、改進的信息增益方法選取特征詞,梳理“中國風”歌詞承續自古詩詞,且區別于5425首一般流行歌曲的詞匯類別與風格。最后進行K-最近鄰分類實驗,較高的“古典詞”比率和較低的虛詞比率能大體上將“中國風”歌詞與一般流行歌詞分開,但仍存在例外情況。由此揭示出“中國風”歌詞的基本面貌與定位,為引導“中國風”歌曲發展提供實證支持。

關鍵詞:“中國風”歌詞;唐詩宋詞;余弦相似性;特征詞選擇;K-近鄰

中圖分類號: O212.1/J614.9 文獻標志碼: A 文章編號:1672-0539(2018)05-0068-08

一、引言

“中國風”是21世紀初興起的一種音樂體式。自2003年由方文山作詞、臺灣歌手周杰倫演唱的《東風破》獲得巨大成功起,華語流行樂壇刮起了聲勢浩大的“中國風”。關于“中國風”概念的界定說法頗多,目前的主流觀點由廣東音樂人黃曉亮提出,指“三古三新(古詩文、古文化、古旋律、新唱法、新編曲、新概念)”相結合的中國特色樂種[1]。具體而言,它結合中國傳統民間樂器與現代樂器,在曲調上以民族宮調式為主,最重要的是,其歌詞以傳統詩詞為辭藻風格。

在以往的研究中,研究者們注意到“中國風”歌曲詞匯在多方面的特色。例如,楊杰[2]、張新標[3]從詞語選用、修辭技巧、意境營造、情感表露等方面,探尋了唐詩宋詞和現代歌詞的源流關系。劉芳智[4]3-10等則對某一“中國風”歌詞作者的作品進行了題材分類、風格評析,總的來看,現階段的研究主要是用傳統文學賞析的辦法,解讀個別歌曲中的具體字句,尚未運用統計方法展現“中國風”歌詞的宏觀面貌。而且,研究對象或是籠統的“中國風”歌曲,或是某位詞作者的歌詞,缺失不同作品之間的比較研究。

在前人的基礎上,我們參考“計量風格學”中的統計技術,立足于文本詞匯,對“中國風”歌詞進行全面的計量分析,比較其與唐宋詩詞、一般流行歌曲的異同。計量風格學是以定量的手段,利用文本中可以統計的語言特征項來探索文本風格的一門學科[5],具體包括“余弦相似性”等計算文本相似度的方法、“信息增益”等挖掘某一類別文本特征詞的方法,以及基于監督學習的文本分類算法等。在古詩詞語料方面,我們以清代蘅塘退士《唐詩三百首》[6]選本(實收詩320首)和朱孝臧《宋詞三百首》[7](第三版選本,實收詞285首)為唐詩宋詞的代表;在“中國風”歌曲的語料采集上,我們選取了2003年到2017年2月發行的來自62位作者的106首具有古典意味的歌曲歌詞;在一般流行歌曲方面,由于目前還沒有比較成熟、權威的中文歌詞語料庫,歌詞語料從網絡廣泛搜集得到,在排除其中屬于106首“中國風”歌曲的語料后,共得5425首歌的歌詞。

二、文本預處理

文本預處理主要包括三項主要操作,一是停用詞(Stop Words)的選取,二是利用分詞系統,三是去除標點。在計算文本相似度、選取特征詞任務中,三項均需進行;在文本分類任務中,則只進行第二、三項操作。

(一)停用詞的選取

停用詞指經常出現在文本中,卻不承載較多信息量的詞語,它們對文本主題沒有太多貢獻度,最好的辦法就是在處理文本的過程中刪除它。我們主要把“有”“無”“來”等常用的動詞,“上”“下”“中”等方位名詞,“人”“天”等常見的名詞,“和”“及”等連詞,“的”“了”等助詞,“不”等副詞選為歌詞文本、《唐詩三百首》文本和《宋詞三百首》文本的停用詞。

需說明的是,這些詞被停用后,只是不再以詞的身份單獨出現,但仍可以構詞語素的身份出現,例如“無情”“佳人”。這樣的合成詞對于文本內容仍具一定意義。

(二)利用NLPIR / ICTCLAS系統分詞并去除標點

分詞作為中文信息處理基礎工作,是后續環節的前提。一方面,唐宋詩詞正處于中古漢語到近古漢語的過渡時期,漢語主要的詞匯形式逐漸從單音節過渡到雙音節。加之每個人的語感不同,中古漢語語料庫常出現人工分詞不一致的現象[8]。這直接影響了建立在人工標記基礎上的機器分詞的準確率與認可度。因此就總體情況來看,目前還缺乏開源且公認性能較好的中古漢語分詞系統。

另外,雖然與現代漢語相比,唐詩宋詞中的單音節詞較多,一字一詞地切分文本似乎可行。但是,據胡俊峰、俞士汶[9]等學者對語料的觀察,除多音節的聯綿詞、專有名詞外,如“麗人”“寶劍”“悲傷”等偏正、并列結構的多音節詞已在唐宋詩詞中大量出現。另外,雖然“白云”“秋風”等一般被看作詞組而非凝固的詞,但由于其在古詩詞中有特定的隱喻象征義,因此也具有詞的性質。此外,古詩詞的許多詞在現代漢語書面語中也并不鮮見。

最后,由于我們著重分析古詩詞與現代歌詞在詞匯方面的關系,在同一任務下,對它們使用統一的分詞系統是十分必要的,所以應把古詩詞里處于中間狀態的組合都暫時作為詞來對待。

基于上述考慮,我們采用中科院計算所基于多層隱馬爾可夫模型(Hidden Markov Model,HMM)的NLPIR/ICTCLAS2016詞法分析系統(1)來給各文本分詞。之后,我們去除文本中不必要的空白字符、標點,對文本作了清洗。

三、“中國風”歌詞與唐詩宋詞相似度的計算分析

(一)余弦相似性方法

余弦相似性(Cosine Similarity)是衡量文本相似度的重要方法之一。它基于Salton等人提出的文本向量空間模型(Vector Space Model, VSM)[10]。在VSM模型里,文本可以表示為由各詞語構成的特征項集合,每個特征項都有一定權重。由此,一個含有n個不同詞語的文本可以轉化為一個n維向量d={t1,w1 ; t2,w2 ;…… ; ti,wi ;……; tn,wn}。其中,ti為文本中的一個特征(即詞語);而ti所對應的權重wi可以用TF-IDF(Term Frequency-Inverse Document Frequency)方法表示[11]:

wi=tf (ti,d)·idf (ti,d)

=tf (ti,d)·log(N/nt)

tf (ti,d)為詞語ti在特定文本d中出現的頻次;idf(ti,d)為詞語ti的逆文本頻率指數,公式為log(N/nt),N為文本總數,nt是包含詞語ti的文本數量。

以唐詩、宋詞中2個較長的文本與106首較短的“中國風”歌詞文本并列作為idf值的影響因素,在計算歌詞與唐詩、宋詞余弦相似度的具體任務下有其合理性:古詩詞文本數為2,對idf值影響較小;影響它的關鍵就是106首歌詞文本。如果一個詞頻繁出現在許多歌詞文本中,那么它區別歌詞異質性的能力就有所降低,對于歌詞與古詩詞之間相似度的貢獻值就應降低。而“1唐詩+1宋詞+106歌詞”的文本分割方式就恰能通過idf方法實現這樣的權重調節機制,從而減少過于常見的詞語對文本相似度的干擾。

在計算出所有詞的idf值后,我們以各詞的tf·idf值作為權重,將每個文本向量化。可通過比較向量間的夾角來反映文本間的距離。向量夾角能較好地處理文本長度不一致的情況。如果兩個向量夾角很小,就說明它們共現詞較多,用詞趨勢接近。

已知在二維平面中,若以原點為起點的向量a、b的終點坐標分別為(wa1,wa2)、(wb1,wb2),那么兩向量夾角的余弦值cosθ可表示為:

cosθ=wa1·wb1+wa2·wb2w2a1+w2a2·w2b1+w2b2

如果推廣到N維空間,向量a=(wa1 , wa2,…,wai,…,wan)和向量b=(wb1 , wb2,…,wbi,…,wbn)之間的夾角θ的余弦值cosθ=∑ni=1wai×wbi∑ni=1w2ai×∑ni=1w2bi就反映了兩個向量間的相似程度[12]。而文本向量的相似度可類似計算,每個特征語詞tf·idf值,就是該特征作為向量元素的特定值。余弦值越大,兩向量的夾角就越小,兩文本也就越相近。

(二)相似度計算結果與實例分析

我們把《唐詩三百首》《宋詞三百首》向量化后作為參照,計算每一個歌詞向量分別與這兩者的余弦相似度。試驗結果統計如下表1、2:

綜合上面表1、2及有關實驗數據,值得注意的有兩處:

一是表1出現的15首歌曲有7首仍保留在表2;表1的前5首歌曲有4首在表2中仍保持在同樣區間,說明這些“中國風”歌詞在創作中有意或無意地同時靠近唐詩、宋詞的用語。

二是歌詞普遍更接近于《宋詞三百首》。一方面,若計算余弦相似度的平均值,表1的15首歌詞與唐詩的平均相似度為0.129,而表2中15首歌詞與宋詞的平均相似度卻達到0.153;另一方面,若將樣本元素擴大到106首“中國風”歌詞,它們與《唐詩三百首》的平均相似度為0.073,與《宋詞三百首》則達到0.083;此外,與宋詞相似度超過與唐詩相似度的歌詞,在106例中達78例,占比超過73%。由于在去除停用詞、分詞環節之后,唐詩、宋詞的文本長度已較為接近(前者為17213字,后者為19299字),加之余弦相似度能較好地避免較大規模語料間在長度上細微差異的影響,由此可以認為,相較于唐詩,中國風歌詞總體更傾向學習借鑒《宋詞三百首》中的詞匯。

承續宋詞的典型,就是《長安憶》的歌詞。它在表1、2中均位居首位,在有限的篇幅里,將羈旅送別、思鄉懷人、邊塞戰爭等古詩詞經典的類型場景描繪得精致細膩。歌詞與《宋詞三百首》文本的共現單音節詞41個,雙音節詞32個,總計73個,具體如下表3所示:

歌詞用典、化用詩詞之處甚為豐富。其中的片段“落日孤城閉,燕然歸無計”“二十三弦急,落花人獨立”“長門又誤佳期,聲清凄”“知音稀,弦斷有誰來聽”明顯分別語出范仲淹《漁家傲》、晏幾道《臨江仙》、辛棄疾《摸魚兒》、岳飛《小重山》等詞作。歌詞里的“子規”即杜鵑鳥的別名,因其叫聲凄厲,在古詩詞中常作為借來抒發悲苦哀怨之情;“留意”表示“駐留的意愿”,與現代漢語中的同形動詞意義不同;除了借鑒實詞,語氣詞“兮”也帶有明顯的仿古色彩。

四、“中國風”歌曲借鑒自唐詩宋詞的特征詞匯提取

該任務試圖挖掘“中國風”歌曲承續自唐詩宋詞,且較能區別于一般流行歌曲的特色詞匯。具體步驟為,首先檢索出1936個“中國風”歌詞與《唐詩三百首》《宋詞三百首》共現的不重復詞型;其次,從中過濾掉在5425首一般流行歌曲中分布頻率更高的詞匯,保留1651個詞型;最后,在“106個中國風文本/5425個一般流行歌曲文本”兩個類別中提取包含在這些詞型中的特征詞。

在文本分類中,常用的特征選擇方法有互信息(MI)、信息增益(IG)、文檔頻率(DF)和卡方檢驗(CHI)等。Yang等[13]比較了4種方法,認為卡方檢驗(CHI)和信息增益(IG)的效果最佳。單麗莉等[14]指出信息增益的不足之處,在于它考慮了詞語不出現在某類文檔中對類別的影響。雖然某個詞語不出現可能有助于判斷文本類別,但實驗證明,這種考慮的干擾性更大。為避免單一方法的片面性,我們采用卡方檢驗和改進后的信息增益兩種方法選擇特征詞。對于卡方檢驗,設文本總數為N,某詞語wi和某類別Ci之間的關聯度可由卡方值χ2體現。首先計算四個觀察值:包含特征詞wi且屬于類別Ci的文本數,記為A;包含特征詞wi但不屬于類別Ci的文本數,記為B;不含特征詞wi但屬于類別Ci的文本數,記為C;不含特征詞wi且不屬于類別Ci的文本數,記為D。則:

其中m為文本類別數;p(Ci)為某一類別的文本出現的概率;p(wi)是文本數據集中出現詞語wi的文本數除以總文本數的值;p(Ci/wi)是類型Ci中出現詞語wi的文本數除以出現詞語wi的總文本數。如上式所示,改進后的信息增益方法不考慮詞語在文本中未出現的情況。

分別按照卡方檢驗、信息增益值,我們就得到兩份特征詞的降序排序表。其各自前20位特征詞如表4所示。對兩種方法所得的前300個特征取并集,就得到一個含有406個特征詞的集合U。

由特征值位列前20的詞語可以管窺,盡管兩種特征選取的方法對詞語的排序有所不同,但都取得了良好效果,能把在“中國風”歌詞與唐詩宋詞中共現,且在“中國風”歌曲中常見、在一般流行歌曲中不常見的詞語挖掘出來,相得益彰。綜合表4及相關數據我們可以看出,“中國風”特征詞在詞類、話題等方面呈現如下特征:

(一)雙音節詞占比較為可觀

如表4所示的40個詞中,雙音節詞達12個,占比30%。在含406個特征詞的集合U中,雙音節詞達144個,占比約35%。由于這些詞也都出現在《唐詩三百首》《宋詞三百首》中,因此也可以佐證唐宋時期漢語詞匯雙音節化的趨勢。

(二)名詞是特征詞中占比最高的詞類

如表4所示,在卡方檢驗的前20位特征詞中,名詞有18個,占比90%;在信息增益的前20位特征詞中,名詞有15個,占比75%;視野擴大到含406個特征詞的集合U,名詞有263個,占比也超過64%。具體而言,“中國風”歌詞偏好繼承古詩詞中以下幾大類名詞:

(1)自然景觀名詞。其包括兩大類,一是自然、氣候現象類,二是動植物尤其是花卉類。前者如表4中的“風月”,以及集合U中的“江”“雪”“煙”“雨”“風”“塵”“溪”“山水”“落日”“煙波”“月色”“月華”“殘雪”“風露”等。后者如表4中的“苔”“梨花”“芳草”“落花”,以及集合U中的“鶯”“鴻”“鵲”“燕”“鶴”“柳”“桑”“荷”“鷓鴣”“柳絮”“飛絮”“芙蓉”“桃花”“寒梅”“幽篁”“芭蕉”等。這些詞作為古典文學作品中的意象,大都具有清新自然之美。

(2)與時令、時間有關的詞。這一類以雙音節詞居多,如集合U中的“秋”“黃昏”“暮春”“歲歲”“時節”“三月”“今朝”“前朝”“當年”“今生”“千古”“三生”等。這些詞有的囊括較長的時間段乃至一生,以此表達感情之強烈,起到“作決絕語而妙”的表意效果;有的起到撫今追昔的功能,通過懷念過去,拓展歌詞意境的時間維度,展現情緒之綿長;而時令詞“秋”“暮春”和“黃昏”有蕭瑟的特征,易引起人的愁緒。

(3)中國傳統文化物件。如表4中的“筆”“墨”“亭”“錦”“燭”“絲竹”“琵琶”,以及未上表的特征詞“玉”“琴”“硯”“觴”“舫”“弦”“笙”“劍”“紅燭”“羽扇”“燈花”“回廊”“樓閣”“錦屏”“錦瑟”“笙歌”“檀板”等。這些物品有的涉及琴棋書畫等技藝,或屬古代建筑家居的組成部分,在現今不常見,屬于中國傳統文化物件,帶有精致、古雅的特色。

(三)表現與形容離別羈旅等哀傷的情感和事件,是動詞形容詞語義的重要側重點

例如表4中的“落”“斷”,以及集合U中的動詞“離”“泣”“嘆”“送別”“別離”“思量”“相思”“飲恨”“無眠”“落淚”“遙想”,形容詞“愁”“寒”“孤”“瘦”“悵然”“飄零”“倉皇”等。雖然哀傷的主題也常見于如今一般的流行歌曲,但它們對上述詞語的運用不及“中國風”歌曲頻繁。

(四)與美人、婚戀話題有關的詞成為特征詞的重要組成部分

許多“中國風”的歌詞均離不開美人、婚戀話題,也借鑒了古詩詞中的許多相關詞匯。具體而言包括三個方面,一是關于美人及其衣飾妝容的稱呼,如表4中及其他特征值較高的“眉”“裳”“伊”“妃”“佳人”“良人”“美人”“女子”“紅袖”“紅顏”“霓裳”;二是與女子日常起居有關的詞;三是形容女子心理、儀態、動作及其與戀人互動的詞。二、三類與前文所述的名詞、動詞、形容詞存在一定交叉,但又含獨具特色的部分。例如前者的“釵”“簾”“梳”“深閨”“畫屏”“脂粉”等。后者的“顰”“蹙(眉)”“嫣然”“心事”“脈脈”“回眸”“攜手”“多情”等。

統觀“中國風”歌詞與唐詩宋詞共現、且區別于一般流行歌曲的詞匯,“中國風”歌曲的一大傾向,是以江南閨閣為背景,以婚戀離愁為題材,意境大多溫婉清雅,部分帶有蕭瑟清凄的色彩。它們主要繼承自唐詩宋詞中善于狀物寫情的婉約流派,而對具有宏闊、豪放風格的一類詩詞承續較少。

五、“中國風”歌詞與一般流行歌詞的分類分析

文本分類(text clustering)是通過比較一組文本的相似性,將比較相似的文本歸為同一組、差異較大的文本歸為不同組的過程。已知在第二節得到了各“中國風”歌詞與唐詩宋詞的相似性,我們選取了與唐詩、宋詞相似度之和最高的前100首歌曲,以及通過隨機數抽樣的100首一般流行歌曲作為分類對象。

分類的方法為K近鄰(K-nearest-neighbor,KNN)算法。其基本原理是,給定一個已經具有分類標記的訓練數據集并向量化,對于新的輸入實例,在向量空間中計算出與該實例距離最小的K個實例。若這K個實例多數屬于某類別,就應把該實例歸入這個類中[15]38-40。

我們令K值為8,選取兩項分類指標:一是利用上一節得到的含406個特征詞的集合U,計算歌詞里出現在集合U中的詞數,占歌詞總詞數的比例;二是每個文本的助詞、連詞、介詞、語氣詞等虛詞的比例。為使對分類效果的評價更加準確,避免數據分布不均,進行五折交叉驗證(5-fold cross validation),即將200首歌曲分類對象均分為5份,輪流將其中4份作為訓練集,剩下的1份(40首)作為測試集,分別記錄5次實驗的精確率(precision)、召回率(recall)、F值(2)。歷次實驗效果及平均效果如圖1所示:

根據圖3,首先觀察5次實驗的平均性能。F平均值達到了92.49%,說明憑借虛詞和集合U中的406個詞(以下簡稱“古典詞”)的出現頻率2項指標,能夠大體上區分“中國風”與“非中國風”類別的歌詞。如前所述,“中國風”歌詞與唐詩宋詞的詞匯同質性頗為顯著。而古代文學家、評論家很早就表達了對古詩詞中使用虛詞(字)的審慎態度。唐代詩人盧延讓在《苦吟》中說詩“不同文賦易,為著者之乎”,即作詩不像文賦那樣可以相對自由地使用“者之乎”等意義較虛的字;明代謝榛也在《四溟詩話》卷一中引李西涯語:“詩用實字易,用虛字難……用之不善,則柔弱緩散,不復可振。”[16] 9傳統詩詞受到格律體式的限制,對虛詞的使用較為拘謹,“中國風”歌曲要接近傳統語體風格,亦需把虛詞維持在較低的比例。然而自新文化運動起,以胡適《嘗試集》為代表的新詩,在突破舊有詩詞體式規則的同時,也頻繁讓虛詞入詩,極大地改變了其原有詞類構成[17]。以“古典詞”為代表的詞匯,也是“中國風”富有古詩詞韻味、在紛繁的現代華語樂壇上獨樹一幟的重要計量特征。

另外也需看到,個別驗證的精確率、召回率不高。除了語料相對較少、數據較為稀疏的因素,更主要的原因,第一,“中國風”在追求仿古意境的同時,為避免晦澀不易為大眾接受,也不排斥文白夾雜的語句。即使是前文所列的與唐詩、宋詞相似度較高的《花滿樓》歌詞,其中也有“樓滿花香君知否”與“曾經牽著我的手”這樣文言白話異質語體共存的現象。

第二,誠然此類歌曲總體上多有借鑒古詩詞中的典型意象和描摹情態的謂語,但具體到不同作者、不同歌詞,仿古擬古的程度也有所差異。例如許嵩在詞作中使用的傳統意象一般就比詞作者后弦的更加密集。“中國風”歌詞作者的典型代表方文山認為,只要詞曲具備古典背景元素的用語及其他某些特征,“不論加入元素的多寡或比重為何,均可視同為所謂的‘中國風歌曲” [18]3-13。其論述是否完全合理固然有待商榷,但該觀點也從一個側面指出“中國風”并非千篇一律。

第三,在20世紀后半葉,樂曲層面上的“中國風”概念尚未被明確提出,但一些流行歌曲的歌詞卻已帶有鮮明的傳統詩詞色彩。例如本分類實驗中的歌詞《梨渦淺笑》。它由香港填詞家黎彼得于1976年創作,古典詞占比高達24.03%,虛詞占比僅為7.69%,與大部分“中國風”歌詞一樣具有較高古典詞比例和較低虛詞比例的表征,在分類測試中就被預測為“中國風”類別。相似的歌曲還包括瓊瑤于1975年作詞的《在水一方》、陳小奇1993年作詞的《濤聲依舊》等。縱然幾乎沒有人認為這些創作時間較早的作品亦屬“中國風”范疇,但它們在歌詞層面的確已具備如今“中國風”歌曲的某些突出特點。一些相關研究者曾注意到這種矛盾,提出通過添加時間、外來文化沖擊的背景等限制性條件,以更新“中國風”的定義,縮小此概念的外延[18]6-7。這些限制性條件誠為一家之言,然已不再是本文的討論范疇,還有待今后學界對其合理性、可行性的進一步探究。

六、結語

本文從詞匯角度,運用計量風格學的統計方法,探索了“中國風”歌曲對《唐詩三百首》《宋詞三百首》的承續情況,以及它們區別于一般流行歌詞的顯著特征。通過余弦相似度,得到與《唐詩三百首》《宋詞三百首》相近的歌詞文本,得出中國風歌詞更接近宋詞用語的結論;并基于古今文本詞匯的共現與進一步的特征選擇,梳理“中國風”文本承續自古詩詞的重要詞類、話題,總結此類歌詞的風格偏好;通過K-最近鄰分類實驗,發現較低的虛詞比率與較高的古典詞比率兩項指標能,大體上使“中國風”歌曲從浩如煙海的現代華語樂曲中相對獨立出來。統計方法能使原本不引人注目、捉摸不定的文本風格得以突顯,在傳統文本分析的基礎上獲得了實證數據的有力支撐,從而能更全面地反映出“中國風”歌曲詞匯的面貌,討論它們與古詩詞、一般性的現代流行歌曲之間的關系,為今后相關文藝創作提供了一定的實證支持。

不過,《唐詩三百首》《宋詞三百首》作為中國古典文學的精華,仍不能囊括古代文學的總體面貌。“中國風”歌曲對其他作品的承續狀況尚未得呈現。另外,文本之間可能存在的少數同形異義詞還有待仔細甄別。最后,“中國風”與早期(20世紀后半葉)一些具有鮮明傳統詩詞色彩的流行歌曲之間的異同還不及充分探索。這些問題有待在將來作更深入的研究與討論,從而使“中國風”歌曲的面貌與定位更全面、清晰地揭示出來。

注釋:

(1)ICTCLAS/NLPIR詞法分析系統參見:http://ictclas.nlpir.org/。

(2)精確率、召回率、F值是用于分類效果的三個指標。在二分類問題中,常以關注的類為正類;其余的為負類。

精確率(P) = 將正類預測為正類的文檔數 / 所有預測為正類的文檔數。

召回率(R) = 將正類預測為正類的文檔數 / 正類文檔的真實總數。

F值是精確率和召回率的調和均值。有:2/F=1/P+1/R

參考文獻:

[1]李文眾, 蘭龍, 郭理遠. “中國風”歌曲的界定及意義研究[J]. 文學教育(中), 2010,(1):111.

[2]楊杰. 淺析中國風歌曲的古詩詞韻味[J]. 文學界(理論版), 2010,(4):238-261.

[3]張新標. “中國風”歌曲對古典文學的接受與新變[J]. 安徽文學(下半月), 2009,(8):130-131.

[4]劉芳智. 方文山“中國風”歌詞研究[D]. 湘潭:湘潭大學, 2011:1-12.

[5]劉穎, 肖天久. 金庸與古龍小說計量風格學研究[J]. 清華大學學報(哲學社會科學版), 2014,(5):135-147.

[6]蘅塘退士編,陳婉俊補注. 唐詩三百首[M]. 北京: 中華書局, 1984:1-15.

[7]上彊村民編,唐圭璋箋注. 宋詞三百首箋注[M]. 上海: 上海古籍出版社,1979:1-9.

[8]王曉玉, 李斌. 基于CRFs和詞典信息的中古漢語自動分詞[J]. 數據分析與知識發現, 2017,(5):62-70.

[9]胡俊峰,俞士汶. 唐宋詩之計算機輔助深層研究[J]. 北京大學學報(自然科學版), 2001,(5):727-733.

[10]Salton G., Wong A., Yang C. A vector space model for automatic indexing[J]. Communications of the ACM, 1975,(18):613-620.

[11]Salton G., Buckley C. Term-weighting approaches in automatic text retrieval[J]. Information Processing & Management, 1988,(24):513-523.

[12]張振亞, 王進, 程紅梅,等. 基于余弦相似度的文本空間索引方法研究[J]. 計算機科學, 2005,(9):160-163.

[13]Yang Y., Pedersen J. A comparative study on feature selection in text categorization[C].Nashville ICML: 1997:412-420.

[14]單麗莉, 劉秉權, 孫承杰. 文本分類中特征選擇方法的比較與改進[J]. 哈爾濱工業大學學報, 2011,(S1):319-324.

[15]李航. 統計學習方法[M].北京: 清華大學出版社, 2012:38-40.

[16]謝榛. 四溟詩話[M].北京: 中華書局, 1985:9.

[17]王澤龍, 錢韌韌. 現代漢語虛詞與胡適的新詩體“嘗試”[J]. 中國現代文學研究叢刊, 2014,(3):134-147.

[18]方文山. 青花瓷——隱藏在釉色里的文字秘密[M].北京: 作家出版社, 2012:3-13.

[19]馬珺. “中國風”流行歌曲的文化研究[D]. 武漢:華中師范大學, 2009:6-7.

Abstract:We depended on calculating the cosine similarity among 300 Tang poetry, 300 Song Ci and 106 “Chinese Wind” lyrics, and found that “Chinese Wind” lyrics words were closer to Ci of Song Dynasty. Then we combined with Chi-square test and improved Information gain, selected the feature words, thus summarizing the categories and characteristics of “Chinese Wind” lyrics words which inherited from ancient poetry and distinguished from 5425 common pop songs. At last,we conducted a KNN experiment. Higher rate of “classical words” and lower rate of functional words can distinguish “Chinese Wind” from common pop lyrics roughly, but there exist some exceptions. This article reveals the basic features and location of “Chinese Wind” lyrics, offering empirical support to the development of “Chinese Wind” songs.

Key words: “Chinese Wind” lyrics; Tang and Song poetry; cosine similarity; feature selection; KNN

編輯:鄒蕊

主站蜘蛛池模板: 日韩精品一区二区三区视频免费看| 免费无码AV片在线观看中文| 久久久噜噜噜| 欧美一区二区精品久久久| 亚洲欧洲一区二区三区| 欧美亚洲激情| 2022国产无码在线| 精品少妇人妻av无码久久| 小说区 亚洲 自拍 另类| 精品超清无码视频在线观看| 国产超碰一区二区三区| 中文无码精品A∨在线观看不卡| 国模私拍一区二区| 1级黄色毛片| 国产特级毛片| 在线免费观看AV| 99一级毛片| 日本免费福利视频| 日本欧美成人免费| 国语少妇高潮| 成人字幕网视频在线观看| 亚洲精品自产拍在线观看APP| 亚洲 日韩 激情 无码 中出| 国产日韩欧美视频| 国产 日韩 欧美 第二页| 日韩人妻精品一区| 国产成人免费手机在线观看视频| 国产传媒一区二区三区四区五区| 一本二本三本不卡无码| 无码中文字幕精品推荐| 亚洲欧洲日韩久久狠狠爱| 亚洲综合天堂网| 国产jizzjizz视频| 五月天香蕉视频国产亚| 91免费在线看| 伊人激情综合| 国产欧美日韩视频一区二区三区| 国产精品久久久久久久伊一| 99精品这里只有精品高清视频| 99青青青精品视频在线| www亚洲天堂| 国产美女无遮挡免费视频网站| 午夜福利网址| 2022精品国偷自产免费观看| 午夜欧美理论2019理论| 91福利免费视频| 国产亚洲精| 成人综合在线观看| 91精品国产91欠久久久久| 国产一区二区福利| 国产精品一区在线观看你懂的| 99re热精品视频国产免费| 精品人妻一区无码视频| 久久精品无码专区免费| 国产精品无码翘臀在线看纯欲 | 国产黑丝视频在线观看| 亚洲伦理一区二区| 亚洲国产清纯| 国产性生交xxxxx免费| 国产精品女人呻吟在线观看| 69视频国产| 在线观看免费AV网| 强乱中文字幕在线播放不卡| 国产导航在线| 日韩一区二区在线电影| 亚洲色婷婷一区二区| 91精品在线视频观看| 国产又大又粗又猛又爽的视频| 日韩 欧美 小说 综合网 另类| 人妻中文字幕无码久久一区| 国产成人综合日韩精品无码不卡| 日韩无码一二三区| 亚洲AⅤ永久无码精品毛片| 丁香六月激情综合| 99久久亚洲综合精品TS| 岛国精品一区免费视频在线观看| 91久久国产热精品免费| 特级毛片免费视频| 国产一区三区二区中文在线| 国产精品流白浆在线观看| 欧美日韩中文国产va另类| 91 九色视频丝袜|