關 琳,許佃兵
《習近平談治國理政》文本計量研究
關琳,許佃兵
專題前言
“南京大學中國智庫研究與評價中心”是江蘇省委宣傳部和南京大學共建的以智庫研究和評價為主要方向的機構,掛靠南京大學信息管理學院,目前正從事“中國智庫索引(CTTI)”的開發和數據采集工作。本組文章是在項目調研材料上提煉加工而成,涉及智庫文本和智庫成果的量化分析、智庫網站影響力評價和智庫人才評價。本組文章的共同點在于:將分析建立在實證材料和實證方法的基礎上,探索新時代索引編制的理論和技術方法。CTTI希望能增強現代索引的內容分析和評價功能,以拓展現代索引理論的視野。李剛
摘要文章采用文本分析方法研究《習近平談治國理政》一書的索引和注釋,以詞頻統計為基礎,提煉該書的理論思想要點。以網絡新聞分析結果和搜索引擎的檢索熱點作為參照,對文本分析的結果加以驗證。研究發現:采用文本分析方法分析該類著作,能夠更加高效、全面地提煉思想精華;比較網絡新聞報道和集中學習兩種宣傳方式,發現集中學習對著作中思想要點的提煉更全面。
關鍵詞習近平談治國理政文本分析數據可視化思想政治學習智庫研究
引用本文格式關琳,許佃兵.《習近平談治國理政》文本計量研究[J].圖書館論壇,2016(5):9-16.
《習近平談治國理政》(以下簡稱《治國理政》)一書由北京外文出版社于2014年9月出版,該書收錄了習近平作為黨和國家領導人在2012年11月15日到2014年6月13日期間的講話、談話、演講、答問和批示等。全書圍繞“治國理政”這一主題提出了很多新論斷、新觀點、新思想,對新的歷史條件下黨和國家發展的現實問題和重大理論作了解答,是中共新一屆中央領導集體的執政方略和治國理念的集中展現。《治國理政》的出版在我國網絡媒體中產生了巨大的反響[1]。
本文采用文本計量方法[2]對《治國理政》的索引和注釋部分的詞匯和短語進行詞頻統計和計量分析。按照詞頻統計規則,區分高頻詞和低頻詞,并采用可視化方法,嘗試使用詞云[3]、高頻詞分類統計、數據地圖[4]等文本分析工具,篩選高頻詞中的代表性部分,從多個維度加以分析。
詞云由Rich Gordon提出[5],是將文本中的詞匯按照詞頻高低決定詞匯大小或色彩突出表現的圖形化工具。目前發展出多種成熟的針對中文的詞云工具,如“圖悅”。采用這種直觀的方式,可以使讀者第一時間獲取文本信息的重點;但由于以字體、顏色等圖形特征來表達數據,所以其缺點是無法表達單個詞匯的詞頻。
數據地圖是一種地理數據表達方式。當數據中普遍含有地名信息時,可以采用數據地圖工具將地名出現的情況投射到實際地圖上,使地名在數據中的統計情況與實際地域分布情況相結合,地名信息更直觀,讀者對數據中的地理信息一目了然,但這種表現方式只對地名數據有效果。
本文還使用武漢大學研發的新聞采集分析工具(ROST News Analysis Tool,ROST)[6],自動采集和分析主流網站對《治國理政》的報道和轉載的內容摘要,對該書的宣傳重點加以分析。再結合百度指數,對該書的檢索熱點加以分析。從網絡傳播的角度,評估使用文本計量方法對此類專著的索引和注釋開展分析的可行性和準確性。同時,以文本分析為出發點,檢驗《治國理政》蘊含的重要思想在網絡中的傳播情況。
書后索引是檢索書內內容、定位知識點、揭示理論和學術創新點的重要工具。雖然我國圖書有書后索引的不到4%,但領袖的經典著作往往都有書后索引。《治國理政》編制了主題索引,收錄了932個主題詞,在《治國理政》中出現共計3997次。通過對書后主題詞索引詞的出現頻次的統計,可以發現其關心的主題,出現頻次越高的主題詞,往往是該書的中心主題。經統計,《治國理政》書后主題索引詞分布規律如圖1所示。

圖1 詞頻統計
其中存在“習近平”等少量高頻索引詞和大量的低頻索引詞,整體分布基本符合齊普夫定律[7]。子圖為柱狀圖,所列為詞頻較高的部分索引詞。由于《治國理政》收錄了習近平的講話、演講等文稿,所以“習近平”作為最高頻詞匯是顯而易見的。為便于后續處理能夠更加直觀地發現書中的內容要點,于是進行簡單篩選,去掉最高頻詞“習近平”和最低頻詞即只出現一次的索引詞(共計384個),繪制詞云,如圖2所示,可直觀看到在該書中提到次數較多的詞,如“中華民族”“中國特色社會主義”“中華民族偉大復興”“改革開放”“中國夢”在詞云中突出顯示。在詞云工具中可以放大看清該圖中所有索引詞,對該書索引有全面直觀的認識。

圖2 詞云
對《治國理政》的高頻詞與低頻詞分界的臨界值,可根據Donohue提出的高頻詞、低頻詞分界公式來確定。經過計算,得到高頻詞閥值T為27,即詞頻在27以上的索引詞為《治國理政》的高頻詞,經統計只有16個。為了與圖2詞云作對比,做適當擴充,統計詞頻在20以上的詞,共計30個。
如果將詞頻以統計表的方式列出,則與圖2相比,詞頻統計列表的方式可以直觀感受到高頻詞之間的頻次差異。此外,采用詞頻統計表的方式也便于有針對性地開展專項研究。30個高頻詞大致可以分為3類:第一類包括“中華民族”(102次)、“中華民族偉大復興”(69次)、“中國夢”(59次)、“中華民族偉大復興的中國夢”(37次)、“小康社會”(36次)和“兩個一百年”(20次)等6個相關主題詞。這6個詞雖然只占索引詞總數0.6%,詞頻數卻占總頻次8%,可見其在習近平治國理政思想體系中的重要地位,揭示了習近平治國理政思想的目標和遠景。中華民族的歷史命運和民族復興大業是習近平治國理政思想的中心主題,民族命運和前途也是全球華人的最大公約數和最根本利益所在。第二類索引詞包括“中國特色社會主義”(76次)、“社會主義現代化”(38 次)、“科學發展”(31次)、“科學發展觀”(21次)、“核心價值觀”(24次)、“社會主義核心價值觀”(21次)、“馬克思”(27次)、“馬克思主義”(25次)、“鄧小平”(28次)等9個索引詞,占總頻次7%,這從側面說明堅持社會主義、馬克思主義和鄧小平理論在習近平治國理政思想體系中占據核心地位。第三類索引詞包括“中國共產黨”(26次)、“黨中央”(24次)、“中央政治局”(24次)等3個索引詞,它們在書中共出現74次,占總頻次1.8%,這反映習近平一貫堅持的加強黨的自身建設、黨要管黨的基本思想。中國共產黨是治國理政主體力量,這是習近平治國理政思想的基本原則之一。
上述三類主題詞印證了習近平治國理政思想的三個基本特征:第一,中華民族的偉大復興是中國夢,相關表述構成了習近平治國理政思想的目的論。第二,堅持中國特色社會主義道路、理論和制度構成了習近平治國理政思想的認識論和方法論。只有堅持中國特色社會主義的道路、理論和制度,才能實現中國夢,才能實現中華民族偉大復興。第三,中國共產黨是治國理政的主體力量,實現中國夢和走中國特色社會主義道路都離不開黨的領導。
《治國理政》索引中共涉及除中國外的國家和地區名51個,共出現160次。其中國家名34個,共出現76次;地區名17個,共出現84次。使用數據地圖方式得到國家和地區分布情況,如圖3所示。

圖3 國際和國內地名分布
從圖3中可以發現,《治國理政》中提及次數最多的國家是俄羅斯(14次),其次是美國(6次)。美國和俄羅斯是習近平施政過程中考量最多的國際因素。習近平提及俄羅斯的次數遠超美國,既說明中俄之間存在巨大的共同戰略利益,也說明中美關系近年來出現了一些問題。美國為阻止中國崛起,維持自己的超級大國地位,通過亞洲再平衡和推動TPP自由貿易區戰略,進一步擠壓中國的生存空間,迫使中國加強與俄羅斯的聯系。圖3還揭示,除俄、美外,在地區分布上,南、北美洲國家提及較少;大洋洲沒有提及;近年埃及、利比亞、埃塞俄比亞等非洲國家政局動蕩,非洲這一傳統友好國家聚集地在該書中提及較少,只有加納、肯尼亞、坦桑尼亞和南非四個政局穩定的非洲國家被提到。與前述關注度較低的地區相比,該書對歐洲、中亞地區和南亞地區的關注度十分高。在歷史上,由中國經中亞地區到達歐洲的陸上絲綢之路是連接亞歐大陸的橋梁,與此對應的是經由南亞抵達阿拉伯海的海上絲綢之路。對歐洲、中亞和南亞國家的大量提及,與該書中收錄2013年以來習近平提出建設“絲綢之路經濟帶”和“21世紀海上絲綢之路”(簡稱“一帶一路”)(4次)的戰略構想相吻合。無疑,涵蓋“絲綢之路”(該書提及15次)、“絲綢之路經濟帶”(6次)和“絲路精神”(5次)的“一帶一路”戰略構想是該書的重要思想之一。
《治國理政》索引中共涉及我國地名22個,共計出現111次。將地名詞頻導入數據地圖,得到分布情況,見圖3。從圖3中可以看出,除陜西和石家莊外,其余均為直轄市和沿海省市。陜西作為習近平政治道路的起點,多次提到屬于情理之中。值得注意的是,東北三省和眾多中西部省份在該書中并未提及,或許意味著西部大開發、振興東北老工業基地和中部崛起等國家戰略已走過政策密集部署階段。統計發現,所有22個省市地名中,詞頻位列第一的是臺灣(14次),其次是北京(13次),該書對“兩岸關系”(14次)的多次提及,這與近年對臺政策的轉變和兩岸關系的變化密不可分,從側面體現了國家領導人在對臺關系的處理上進入了政策靈活調整時期,掌握了臺海關系的主動權。
《治國理政》索引部分涵蓋了大量人名,共涉及除“習近平”外的人名87個,總共出現210次。按頻次排序,前十位是“鄧小平”(29 次)、“馬克思”(27次)、“毛澤東”(17次)、“胡錦濤”(9次)、“江澤民”(7次)、“列寧”(6次)、“普京”(6次)、“崔世安”(4次)、“孔子”(4次)和“梁振英”(4次)。《治國理政》中的理論建立在“馬克思主義”(25次)、“鄧小平理論”(17次)“和“毛澤東思想”(6次)基礎之上,以“馬克思主義中國化”(2次)為主要路徑。如圖4所示,按照國別對人名詞頻進行統計,發現除中國外被提及的國家中,俄羅斯以33次高居榜首,俄羅斯總統普京是出現次數最多的在任外國領導人,再次凸顯當下俄羅斯對中國的重要意義。圖4所示按照身份對人名詞頻進行統計,可以發現,該書提及的人士身份種類非常多,既包括國家和地區領導人,也包括古今中外的思想家、文學家和科學家。另外,習近平的家人也均有所介紹,描繪了生活中的習近平。在作家之中,除魯迅(1次)、莎士比亞(1次)、雨果(2次)和歌德(1次)之外,國籍均為俄羅斯,可見俄羅斯文學對習近平的影響非常突出。

圖4 人名詞頻統計
《治國理政》索引中除去人名、地名等索引詞外,還包含一些縮略語索引,即用雙引號括起來的短語。這些縮略語往往凝結了重要的戰略思想和方法策略,是對施政方略和理論成果的高度概括。按照索引次數,排在前十位的縮略語是“兩個一百年”(20次)、“三個代表”重要思想(17次)、“四風”(6次)、“三股勢力”(5次)、“和而不同”(4次)、“一帶一路”(4次)、“老虎”“蒼蠅”一起打(3次)、“兩岸一家親”(3次)、“明者因時而變,知者隨世而制”(3次)和“缺鈣”(3次)。有些縮略語多次出現、反復強調,在該書收錄的演講、講話、談話中用于闡述中心思想。比如,“兩個一百年”的奮斗目標在黨的十五大報告中首次提出,在黨的十八大報告中重申,在該書收錄的數次講話、座談中強調了20次之多。在上下文語境中,強調“兩個一百年”奮斗目標作為對“中國夢”遠景目標的鋪墊和闡釋,使得“中國夢”的理論體系更加完整明確。再如,“三個代表”重要思想,在上下文語境中,與“鄧小平理論”(17次)和“科學發展觀”(21次)多次共現,用于闡述中國特色社會主義理論體系的構成和延續性,是該書的理論基石,也是黨員與干部堅定信念、增強“三個自信”(1次)、“功崇惟志,業廣惟勤”(2次)、避免精神上“缺鈣”和“軟骨病”(2次)的思想武器。
有些縮略語是《治國理政》中提出的最新思想的高度凝練。比如,“四風”一詞首次出現于2013年4月28日習近平在同全國勞動模范代表座談時發表《實干才能夢想成真》的講話中。“四風”包括形式主義、官僚主義、享樂主義和奢靡之風。在2013年6月18日黨的群眾路線教育實踐活動工作會議上,習近平在講話中將黨內存在的矛盾和問題聚焦到“四風”上。在2014年1月14日第十八屆中央紀律檢查委員會第三次全體會議上所做的《深入推進黨風廉政建設和反腐敗斗爭》講話中,習近平將“四風”與嚴明黨紀和反腐敗結合在一起,并提出“老虎”“蒼蠅”一起打的行動策略。經過多次發展和升華,“四風”與“照鏡子、正衣冠、洗洗澡、治治病”(1次)、“三嚴三實”(1次)等共同形成了一套加強黨風建設的思想和話語體系。
此外,還有一些縮略語是引經據典和引用舶來品的結果。比如,“明者因時而變,知者隨世而制”(引自《鹽鐵論》)先后3次用于闡釋黨的宣傳工作發展、經濟發展和時代發展的語境中,極具說服力。再如,在強調區域一體化和亞太經合組織的協調作用的重要性時,引用“意大利面碗”(1次,引自《美國貿易政策》),對各種特惠貿易協議下的優惠待遇和原產地規則的剪不斷、理還亂的現象一言以蔽之。在亞太經合組織工商領導人峰會這樣的場合下,中國致力于構建的地區合作框架的重要性不言自明。
除書后索引外,《治國理政》的引文也值得分析。習近平是中共第一位擁有博士學位的總書記,理論學養深厚,文學素養極高。《治國理政》共出現引文133處,這些引文出現在講話、演講、談話中,是為闡釋思想、說明問題而引用的典故。對注釋中引文的分析,有助于加深對該書的認識和重要思想的理解領悟。在該書注釋中,引用最多的是《論語》(14次),其次是唐詩(11 次),之后是《孟子》(7次)、《禮記》(6次)、《鄧小平文選》(5次)、《毛澤東詩詞集》(4次)、《毛澤東選集》(4次)、《周易》(4次)、《史記》(3次)、《管子》(3次)、《老子》(3次)、《尚書》(3次)。
我國領導人歷來喜歡引用先賢經典,《治國理政》多次引用《論語》《孟子》,足見儒家思想對習近平的影響。《鄧小平文選》《毛澤東選集》是該書的理論源頭。值得一提的是,該書對《毛澤東詩詞集》多次引用,這與習近平對毛澤東的認可和習近平青少年時代所處的文化背景密不可分。對于注釋中引文的分析,可以在學習該書的過程中,對作者的文化背景有所了解,從而對作者所構建的理論體系形成更加深刻的認識。
前文分析表明《治國理政》中蘊含諸多重要精神和理論創新。下面針對網絡中對該書的新聞報道和檢索情況加以分析,找到該書出版一年來網絡新聞對該書的宣傳重點,與前文分析互為檢驗。
5.1網絡新聞摘要分析
網絡新聞摘要在本文中是指網絡中報道該書的新聞的摘要。通過對網絡新聞摘要的分析,可以直接把握該書在網絡中的宣傳重點。筆者采用ROST對主流網站進行自動化數據收集,關鍵詞為該書書名,即《習近平談治國理政》。信息來源設置為“百度新聞”“必應網頁”“百度網頁”“雅虎網頁”“谷歌網頁”“奇虎論壇”“搜狗網頁”。再使用該軟件集成的工具,對收集的網頁摘要提取高頻詞,過濾無意義詞,提取其特征并構建網絡,最后得到圖5所示新聞摘要高頻詞網絡。

圖5 ROST NAT新聞摘要高頻詞網絡
從圖5中可以看出,網絡媒體在宣傳該書的過程中,將“黨風廉政建設”“反腐敗斗爭”“三嚴三實”等黨風建設的重要思想作為宣傳重點。對“和平發展”“兩岸交流”和“中國夢”等主題并沒有特別側重。一方面可能的原因是該軟件具有局限性,不能覆蓋所有網頁;另一方面則可能是該書出版不到一年,作為施政綱領,尚需要時間持續發酵,在實踐中宣傳和完善。
相較于ROST這種采用自動收集和分析的大數據分析方式,本文第3節給出的基于索引和引用開展的文本計量分析方法,可以更精確和全面地得出該書的思想精華。
5.2網絡搜索熱點分析
網絡搜索熱點是指網絡中檢索《治國理政》信息時的關注熱點。對網絡搜索熱點的分析,可以有效把握網民對該書的關注焦點。筆者采用百度指數[9]作為分析工具,以“習近平談治國理政”為關鍵詞,展開分析,如圖6所示。

圖6 百度指數分析
從圖6可以發現,《治國理政》中“反腐敗斗爭”“中國夢”“依法治國”等重要思想是網民關注度較高的熱點。其中“中國夢”“依法治國”雖然沒有出現在前述網絡新聞摘要的熱詞中,但依然是廣大網民檢索的熱點。在百度指數熱門搜索的相關檢索詞中,除去對該書原文的檢索外,對于學習該書的心得體會和學習筆記等的檢索也占到相當數量。由此可見,組織針對該書的集中學習,并以輸出心得體會或學習筆記為結果,相較于網絡新聞報道,更容易使該書的思想得到充分挖掘。但也發現,就該書理論要點的宣傳覆蓋效果而言,組織集中學習在信息點的提煉方面,雖然優于網絡新聞報道,但相較于文本分析方法,依然遺漏了相當多的理論要點。為此,筆者建議在對《治國理政》這類著作的宣傳中,應首先以前文所述的文本分析法對內容加以提煉,再組織專項學習,從而實現事半功倍的效果,而重要文獻的思想精華也會得到有效保留和全面傳播。
本文提供了一種對于重要文獻的新研究思路,即以索引和注釋為切入點,以文本計量方法,通過“斷章”“取義”的方式快速抓住書中蘊含的重要思想,并采用大數據方式對網絡媒體數據批量分析,以此為參照對比,發現采用這種研究思路,可以精確、全面地掌握此類文獻的重要思想。同時,本文以《治國理政》為例,以百度搜索引擎為出發點,分析《治國理政》的檢索情況。本文發現,對于這類著作,相較于網絡新聞的宣傳,采用集中學習方式,會保留更多的思想要點。此外,本文對今后此類著作的高效和全面學習給出了建議,也為該書思想的精確提煉和快速傳播提供了新的推動力,為此類大部頭文獻的快速閱讀、高效率學習和重要思想有的放矢的宣傳推廣提供了捷徑。
參考文獻
[1]習近平.習近平談治國理政[M].北京:外文出版社,2014.
[2]胡澤文,王效岳,白如江.國內外文本分類研究計量分析與綜述[J].圖書情報工作,2011(6):78-142.
[3]圖悅[EB/OL].[2015-08-10].http://www.picdata. cn/.
[4]地圖匯[EB/OL].[2015-08-14].http://www.dituhui. com/.
[5]“詞云”——網絡內容發布新招式[EB/OL]. [2006-04-07].http://media.people.com.cn/GB/ 22100/61748/61749/4281906.html.
[6]武漢大學沈陽的博客[EB/OL].[2015-08-10].http:// blog.sciencenet.cn/home.php?mod=space&uid=239936 &do=blog&id=383137.
[7]張忠友.齊夫定律的理論基礎及其實踐意義[J].情報科學,1989(5):62-66.
[8]孫清蘭.高頻、低頻詞的界分及詞頻估計方法[J].情報科學,1992(2):28-32.
[9]百度指數[EB/OL].[2015-09-05].http://baike.baidu. com/link?url=rIQgEaOHwOK-UtoCBHc1mlEhUh D8SHR_WFFxneskS3Nc7nItxDWdjJ5zGyFejajba_9 HeK03AcgZ31hdH2eoI_.
作者簡介關琳,女,南京大學信息管理學院博士研究生;許佃兵,男,江蘇省委宣傳部副研究員。
收稿日期2016-03-28
Text Measurement on THE GOVERNANCE OF CHINA BY XI JINPING
GUANLin,XUDian-bing
AbstractIn order to get all of the key thoughts from THE GOVERNANCE OF CHINA BY XI JINPING,this paper reviews the indexes and notes of the book with text analysis methods,based on word frequency statistics.Using the analysis results of internet news and the hot access points of search engines as reference,the authors verify the text analysis of the book,and find that the key points of that kind of works could be extracted more efficiently and comprehensively using text measurement methods.In addition,key thoughts drawn from a work by massed learning may be more comprehensive than by internet news reports.
KeywordsTHEGOVERNANCEOFCHINABYXIJINPING;textanalysis;data visualization;ideological political learning;think-tank research