石豪
[摘要]信息技術驅動傳播學范式轉移,進而增加了學科研究對文字數據挖掘技術的依賴。文章嘗試梳理計算傳播學的背景和概念,分析計算傳播學的學科訴求與自然語言處理技術引入的必要性,闡述自然語言處理技術在計算傳播學中的應用與面臨的挑戰,并對未來自然語言處理技術如何應對學科問題提供有益思路。
[關鍵詞]計算傳播學;自然語言學習;研究范式
信息技術的發展推動計算社會科學的興起。2009年Lazer等學者在《科學》雜志發表文章,提出信息技術強大的數據獲取和解析能力為社會學研究范式變革和互聯網上人類社會行為的研究提供了新的機會。計算社會學通過考察網絡空間中海量的人類行為數據,來消除異質性和噪聲因素,使其可以分析復雜的社會系統,關注系統中的社會現象,豐富人們的社會認知,提高學科理論建構深度和跨學科研究的關注度[1]。
計算社會科學視角促進傳播學范式轉型。計算社會學對海量數據的利用,豐富了傳播學獲取數據和預處理數據的有效途徑。計算社會學的計算分析方法為傳播學要素的數據挖掘、分析和檢驗提供了多種方式。計算社會學中網絡科學研究為傳播學提供了方法和工具,同時拓展了傳播學研究對象的邊界。計算社會學對傳播學學科的創新引起了Cohen等學者的注意。他們于2011年提出通過信息技術發展新聞傳播學這一有價值的洞見。隨后,祝建華和王成軍等學者在2014年提出建立計算傳播學這一研究領域。2015年,第一本計算傳播學圖書《社交網絡上的計算傳播學》出版。
經過幾年的發展,有關計算傳播學在國內外期刊的學術論文數量和引用率都有顯著提高。計算傳播學研究取向逐漸受到傳播學者關注,北京師范大學、南京大學、復旦大學、中國人民大學等高校的多名學者以計算傳播學作為目前的主要研究方向,python和機器學習等計算傳播學常用知識逐漸被引入傳播學研究生課程中[2]。
結合王成軍于2014年提出的計算傳播學定義[3],計算傳播學是以信息技術和網絡科學為數據收集和分析工具,尋找人類傳播現象中的可量化基因,用于描述傳播現象、傳播結構、傳播過程和解釋傳播各要素之間的因果關系的一門傳播學新興研究取向和范式。
一、計算傳播學研究訴求與自然語言處理的引入
計算傳播學帶來的傳播學范式調整是多方面的。一方面,計算傳播學使得傳播現象的研究不拘泥于功能研究,而是對復雜多元的傳播現象和群體特征的描述,并進而提煉出新的研究主題及其背后意義。另一方面,計算傳播學可以較好地平衡研究者的主觀思想和文本研究的客觀性要求。信息技術使得學科可以關注假設之外的碎片化、小概率且大容量的事件信息,探究背后真正的傳播要素[4]。
計算傳播學研究范式對文字文本研究相關工具具有迫切需求。文字文本是新聞傳播研究的重要對象,也是在計算傳播學研究中數據獲取、挖掘和分析的主要內容。相比圖像數據,網絡空間中的文字文本具有容易獲取、數據處理所需背景知識相對較少、數據計算量小等優勢。圖像數據通常是矩陣格式的RGB像素組成的集合,對圖像數據的處理需要運用圖像處理和計算機視覺等相關學科知識,而文字文本占用空間極小,同時也不需要圖形、圖像的背景知識,符合傳統新聞傳播學者的研究習慣,增加了研究的可及性。因此,文字在計算傳播學中具有更廣泛的應用。
然而,社交網絡上的數據來源缺乏管制,使計算傳播學研究面臨巨大挑戰。網絡數據的獲取和分析是計算傳播學研究的必修課。許多學者傾向于直接獲取網絡提供的數據和依賴數據來源已經提供的數據框架,如國家統計局、twitter數據接口、Gdelt新聞地圖[1]和WOS索引中的SCI/SSCI論文分析等。網絡對數據的管制涉及隱私問題和商業機密,所以社交媒體平臺通常不會公開數據API。尤其是劍橋丑聞后[5],網絡隱私研究持續受到公眾輿論壓力,各大網絡平臺開始收緊數據開源接口。
綜上,計算傳播學中需要一套行之有效的機器文字語義識別方法作為網絡空間的語義文本分析工具,用來提升數據獲取能力、處理效率和分析能力,進而滿足個性化、定制化的數據獲取、組織和處理需求。這時,自然語言處理技術開始進入計算傳播學者的視野,成為計算傳播學文本研究的得力工具。
自然語言處理(natural language processing,簡稱NLP)技術是實現機器與人進行語言互動的各種理論和方法。它主要處理的是語言和音頻等非結構化的數據,它可以幫助機器理解、解釋人類語言,使得機器與人進行語言互動。NPL有自然語言理解和自然語言生成兩大核心功能。前者幫助機器理解人類語言,后者讓機器可以與人溝通。自然語言處理的原理是通過預處理過程將非結構內容標準化,被標準化的內容可以被機器正確解析,并實現特定功能。其中,對語言的預處理需要經過分詞(Tokenization)、詞干提取(Stemming)、詞形還原(Lemmatization)、詞性標注(Parts of Speech)、命名實體識別 (NER)、分塊 (Chunking)六個步驟。標準化過程可以通過機器學習和深度學習兩種方法實現。機器學習包括語料預處理、特征工程和選擇分類器三個步驟;深度學習包括語料預處理、設計模型和訓練模型三個過程。
在計算傳播學研究中,基于機器學習的自然語言處理方法較為常用,它包括四種分析方法。一是文本分類。文本分類通常包括監督學習,即在訓練集中同時給出特征向量和標簽,完善模型分類方法。二是文本聚類。文本聚類是無監督學習方法,在模型訓練中僅僅給出特征向量和分類數目,機器通過分析樣本特征向量相似性,對其進行聚類,最終達到分類的目的。三是關聯分析。關聯分析主要是找出特征向量和結果之間的簡單關聯性、時序關聯性和因果關聯性。四是趨勢預測。趨勢預測是通過已有數據得到時間序列分布,找到變化趨勢,以達到數據預測的目的[6]。
二、自然語言處理在計算傳播學中的應用
自然語言學習目前在計算傳播學中應用較廣的功能是詞頻分析、情感分析和語義建模。
第一是詞頻分析。詞頻分析是計算傳播學者經常使用的功能之一。百度指數、微博熱度、抖音熱榜等網站熱詞排名原理是根據分布式大數據系統流處理方法,對經過自然語言學習“分詞”技術預處理后的詞語信息進行數量統計。而大多數學者研究時通常利用第三方分詞庫對特定爬取文本數據進行詞頻分析。
在傳播者研究中,Wu等人(2011)通過對Twitter用戶進行隨機抽樣、設定關鍵詞找到了54萬關鍵用戶,通過關注度和發帖量鎖定了意見領袖和普通用戶;Himelboim等學者發現話題注意力分布在服從冥率分布,論證了公眾輿論傳播的不平等性[7]。在受眾研究中,祝建華和Fu等學者都通過社交網絡上的發帖和接收頻率來尋找受眾,發現了社交網絡用戶的動態流動性,并將受眾區分為“圍觀者”“潛水員”“單篇作者”[6]。在內容研究中,有學者根據網絡搜索詞對公眾注意力進行追蹤,如流行詞、熱詞、幸福指數等測量效度[2]。哈佛大學利用掃描500多萬種出版物關鍵詞的詞頻來分析語言與社會變遷。在傳播渠道研究中[7],Petrovic等學者通過統計70多天中新聞對各種事件報道的數量,發現社交媒介與傳統媒體在新聞時效性上相似。在效果研究中,Zhao等學者通過分析強國論壇中的帖子數、媒體報道數和公眾采納數,分析公眾輿論的宏觀效果[7]。
第二是情感分析。情感分析的本質是利用算法依照特定的情感類型對文本進行分類處理,如積極與消極、高興與悲傷等類型。情感分析任務包括情感分類、主觀性判斷、意見總結、字典分析和評論有效性分析等[6]。通過情感分析算法,學者可以對網絡空間的文字信息的評價對象和被評價主體、傳播話題內容和情感傾向、意見傳播的時間進行態度分析。
一些學者將情感分析用在電商消費者口碑傳播分析中,他們把評分的高低作為消費者積極或消極的指標;或者通過人工標注、詞典匹配和共生詞網絡來分析消費者主觀評價的情感傾向[6]。情感分析還可以用于虛假信息的判定。如Jindal和Cupia等學者通過分析同一用戶對存在競爭關系的商家評價的差異度,來分析信息的真實度和水軍散布流言的方式。情感分析還被學者用來分析社交媒介人群的情感傾向[7],研究幸福感、孤獨感、抑郁感,以及情緒傳染網絡傳播結構和趨同性。如Dodds等學者通過對Twitter用戶分析發現人的情緒與節日有關;Zhao等學者通過情緒分析微博用戶對新聞事件的看法;Fowler等學者發現了社交媒介的群體情緒傳染現象[6]。
第三是語義建模。人類的語言非常復雜,每個詞語在不同的環境下具有不同的含義,而語義建模就是通過算法結合語境對詞語背后隱含的意義進行解讀。這一技術在計算傳播學中應用較為成熟的技術是主題解析,即找到所述內容所屬的主題類型。
基于此,計算傳播學可以研究網絡社交媒介場景下的傳播者。如祝建華等人探討了媒體、政黨和專業博客在不同主題傳播中的議程設置策略。在對社交媒介中的受眾進行分類和描述中,Benevenuto 等人找到了社交媒介內容生產者和消費者之間的比例關系。在媒介生態研究中,對于“內容為王”還是“渠道為王”之間的爭論是學者熱議的話題[8]。Zhao 等人通過內容建模對《紐約時報》和Twitter中的新聞內容主題進行分類,不但找到了不同場景下內容闡述最多的主題,而且區分了以事件為導向的話題、以人物及組織為導向的話題和持續性話題。Qin等學者結合語義挖掘工具找到了“棱鏡門”媒體呈現的框架[9]。網絡空間的數字痕跡給傳播結構和渠道的研究帶來了便利,如數字信息的擴散網絡和數字媒體與傳統媒體信息擴散的差異性[10]。Kwak 等人發現社交媒介中的信息主題擴散傾向于廣度; Kim 等人發現新聞擴散與新聞主題類型的關系;Digg等學者發現社交媒體中的協同過濾與集體把關現象[7]。在效果研究中,主題識別被用于研究新聞傳播對受眾的影響,如研究通過提取論壇網絡用戶的語義,對比用戶知識框架和闡述的異同。還有一些學者通過主題識別找到社交網絡人類行為傳播特征,如惡性行為、合作行為、導致肥胖行為、吸煙行為、飲酒行為、睡眠行為等[7]。
三、自然語言處理在計算傳播學研究中面臨的挑戰
(一)自然語言處理技術的局限性導致了計算傳播學研究的局限性
自然語言處理算法一種是依賴人工的監督學習算法,還有一種是非監督學習的聚類算法。這兩種算法都難以滿足人們對海量數據進行精確處理的需求。由于算法無法直接找到最精確的文字語義,傳播學者只能退而求其次,選擇詞頻分析、情感分析和主題分析作為研究的主要方式[4]。
(二)自然語言處理技術的局限性導致了技術工具的適用性問題
自然語言處理算法直接影響了數據處理結果。然而,大多數傳播學者不具有很強的算法研究能力。因此,傳播學者在運用自然語言處理作為工具的時候,往往利用別人已經封裝完成的NLP框架,無法根據特定應用場景需求制作定制化框架,進而無法滿足各類個性化研究的需求。這樣一方面會導致同一組數據結果出現偏差和雷同,另一方面會導數據無法被充分有效利用。由于不了解算法構造,因此自然語言處理算法對傳播學者來說就是一個無法解釋的黑箱。他們無法證明支撐整個研究邏輯的關鍵變量是否可控,也無法證明通過算法得出的數據結論是否有效。
(三)自然語言處理技術的局限性導致了研究方法的僵化和同質化
自然語言處理方法為傳播學者提供了有力的文字文本分析工具,使其得以分析網絡空間中的海量文字數據,但自然語言處理技術的局限性和傳播學者對技術了解不夠深入導致技術框架被重復、不科學的利用,一定程度上也帶來了研究方式的僵化[11]。
(四)研究方法的同質性導致了理論研究難以突破
計算傳播學的研究大多是傳統社會學經驗研究的延續,研究過程逐漸演變成對原有理論更加精細化的論證和描述,難以開發出新的理論。許多文章是對已知理論和常識的解釋和論證,而不是對未知問題的求解。
四、未來自然語言處理帶給計算傳播學的機遇
自然語言處理技術不斷發展為計算傳播學帶來了新的可能,也為應對計算傳播學研究中的諸多問題提供了新的思路。
第一,2017年谷歌團隊提出的Transformer自然語言模型利用attention結構代替了lstm機制,其不但可以有效地分析全局信息,而且在計算復雜度和準確度上也全面超越了RNN和CNN。基于transformer模型的相關研究成果有可能衍生出新的更加精細化、可及性和定制化的文本挖掘技術,進而為未來自然語言處理在計算傳播學中的應用提供新方法[12]。
第二,自然語言閱讀理解技術的快速迭代為計算傳播學文本的精細化、定制化研究帶來了曙光。自然語言閱讀理解(MRC)算法使機器可以根據語境理解語言含義,總結歸納提煉要點,著力解決語言的多樣性、歧義性、魯棒性和知識依賴,經過MRC到KBMRC(知識依賴的機器閱讀理解,Knowledge-Based Machine Reading Comprehension)技術有著顯著提高,但在“檢測無法回答的問題”和“合理答案的區分”等方面仍面臨許多難題[13]。
第三,在計算傳播學的研究中,人們通常是先提出模型,再通過統計學等學科進行關聯性驗證。然而,文字文本數據中通常包含許多難以察覺的隱含變量。這些變量具有小樣本、離散和高維等特點,無形中增加了模型設計的難度。而基于無監督學習的自然語言處理技術可以在先不給出具體模型的情況下,直接挖掘數據的特征向量[14],因此,能夠察覺到這些隱含變量,進而彌補假設模型的先天性不足。
第四,自然語言處理將進一步推動計算傳播學研究的客觀性。為了縮短計算傳播學與客觀的“科學”之間的距離,計算傳播學者一直在致力于用更加客觀的方式研究傳播對象,隨著自然語言處理技術不斷進步,其準確性和客觀性將大大提高。比如,計算傳播學者將調查問卷和訪談替換成了信息技術挖掘下的數據集和驗證集,通過海量數據弱化個體間的異質性等。
第五,自然語言處理催生的傳播模式和倫理探討。除了語言理解,自然語言處理的另一個重要功能是自然語言生成,其應用場景為數據新聞,如機器文字寫作、社交機器人和AI論文等。隨著自然語言處理技術的發展,網絡空間將出現更多機器生成的文字文本,同時也為計算傳播學的研究對象、模式和倫理提供了新的議題。
[參考文獻]
[1]王成軍.計算傳播學的起源、概念和應用[J].編輯學刊,2016(03):59-64.
[2]王成軍.計算社會科學視野下的新聞學研究:挑戰與機遇[J].新聞大學,2017(04):26-32,146.
[3]王成軍.計算傳播學:作為計算社會科學的傳播學[J].中國網絡傳播研究,2014(00):193-206.
[4]谷羽.語義網絡分析方法在傳播學中的應用及批判[J].現代傳播(中國傳媒大學學報),2019(04):155-159.
[5]李曉靜,付思琪.智能時代傳播學受眾與效果研究:理論、方法與展望—與香港城市大學祝建華教授,斯坦福大學杰佛瑞·漢考克教授對談[J].國際新聞界,2020(03):108-128.
[6]張倫,王成軍,許小可.計算傳播學導論[M].北京:北京師范大學出版社,2018.
[7]許小可,胡海波,張倫,王成軍.社交網絡上的計算傳播學[M].北京:高等教育出版社,2015.
[8]張倫.計算傳播學范式對傳播效果研究的機遇與挑戰[J].新聞與寫作,2020(05):19-25.
[9]張倫,鐘智錦.社會化媒體公共事件話語框架比較分析[J].新聞記者,2017(02):69-77.
[10]張倫,胥琳佳,易妍.在線社交媒體信息傳播效果的結構性擴散度[J].現代傳播(中國傳媒大學學報),2016(08):130-135.
[11]塔娜.“計算傳播學”的發展路徑:概念、數據及研究領域[J].新聞與寫作,2020(05):5-12.
[12]Vaswani A,Shazeer N,Parmar N,et al. Attention Is All You Need[J]. arXiv,2017.
[13]Liu S,Zhang X,Zhang S,et al. Neural Machine Reading Comprehension:Methods and Trends[J]. Applied Sciences,2019.
[14]李航.統計學習方法[M].北京:清華大學出版社,2012.