畢崇武 葉光輝 胡婧嵐 李明倩



摘?要:[目的/意義]旨在識別某段時間內公眾高度關注的熱點城市特征,便于分析公眾對城市的整體印象及其動態變化。[方法/過程]首先分析了熱點城市特征的評價指標及其數據來源和計算方法;然后利用min-max標準化方法將評價指標歸一化處理,進而采用線性加權和法構造綜合指標評價模型;最后基于“知乎”平臺中的用戶問答數據,識別出不同時期我國中部六省省會城市的熱點城市特征。[結果/結論]文中方法能夠從海量用戶問答數據中獲取不同城市在不同時間內的熱點城市特征,具有實際的可操作性。
關鍵詞:城市畫像;城市特征;輿情熱點;特征識別; 知乎;武漢;長沙;鄭州;南昌;太原;合肥
DOI:10.3969/j.issn.1008-0821.2020.04.002
〔中圖分類號〕G254.91?〔文獻標識碼〕A?〔文章編號〕1008-0821(2020)04-0013-10
Research on Discovery of the Focus of City Identity from the
Perspective of City Profile
Bi Chongwu?Ye Guanghui*?Hu Jinglan?Li Mingqian
(School of Information Management,Central China Normal University,Wuhan 430079,China)
Abstract:[Purpose/Significance]The research aimed to discover the focus of city identity in a period of time,and to analyze the publics overall impression of city and its dynamic changes.[Method/Process]Firstly,this paper proposed evaluation index,data source and calculation method for discovery of the focus of city identity.Secondly,it normalized the evaluation index by min-max normalization,and established evaluation model to calculate different cities identities by linear weighted sum method.Finally,it discovered the focus of city identity of the six central China provincial capitals in different periods,based on the Q&A data from“Zhihu”platform.[Result/Conclusion]It was operable to use the method in this paper to discover the focus of city identity in a period of time from the massive Q&A data.
Key words:city profile;city identity;public opinion hotspots;feature recognition;Zhihu platform;Wuhan;Changsha;Zhengzhou;Nanchang;Taiyuan;Hefei
智慧城市建設中的網絡輿情監測一直受到社會各界關注。充分發揮現代信息技術的優勢,感測、分析、整合城市的各項關鍵信息,真實、客觀、完整、及時地獲取城市網絡輿情是政府部門做出合理決策的基礎。城市畫像是公眾對城市特征的認知、評價和情感的綜合體現。早在20世紀60年代,Lynch K就依據市民的心理形象衡量城市的視覺質量,并由此引出了城市畫像的概念[1]。這種由公眾依據自我認知形成的共同記憶,就像城市的一張名片,能夠在一定程度上反映城市的個性與特征,展現城市形象與內涵,對城市規劃管理、城市特色塑造、城市文化傳承等方面具有重要意義。隨著數據科學的發展,學者們逐步意識到網絡數據為實現洞見城市運行情況的目標提供了可行途徑,并圍繞以數據為中心的城市畫像研究展開了多層次、多視角、多方位的理論與技術探索[2-4]。而社交網絡中的用戶問答數據作為新媒體時代孕育的載體,承載了公眾心中最直觀且感性的城市畫像,蘊含了公眾視角下某段時期內城市發展的主要特征,體現了公眾對城市特征的綜合印象。由此,本文從城市畫像視角出發,借鑒突發主題識別技術中的爆發詞檢測方法,定義標簽關注度、標簽新穎度和標簽創新度3個指標構建綜合指標評價模型,以求從社交網絡中的用戶問答數據中識別某段時間內被社會各界廣泛關注、具有較大影響力且近期未被重點關注的熱點城市特征。文中方法的實施有利于提高城市全面感知、分析和利用城市畫像的能力,診斷城市當前面臨的突出問題和主要矛盾,輔助政府部門智能響應公共安全、城市服務和商業活動等各方面的社會需求。
1?研究現狀
城市作為一個相對獨立的社會系統,包含成千上萬個變量。城市的政治、經濟、文化和生態等因素均會對城市特征產生影響。目前城市特征研究側重于關注城市空間特征,重視空間結構對城市特征造成的影響,通常構建研究體系探索熱點空間特征的內在形成機理及其與居民活動間的互動關系;并在理論性闡述熱點空間特征起源和延續原因的同時,通過實證研究分析政治、經濟和文化等非物質因素對城市特征造成的影響[5]。在數據獲取方面,現有研究大多采用主觀性較強的問卷調查[6]、深度訪談[7]和意向草圖[8-9]等社會學調查方法;在數據分析方面,現有研究也多沿襲數理統計、認知地圖[10-11]和空間分析[12]等旅游學研究方法。事實上在收集、處理和分析主觀性數據的過程中,傳統旅游學研究方法的不足和局限逐漸顯現。難以回收大量有效數據、收集數據包含大量噪聲(調查對象理解偏差或填寫虛假信息)、處理非線性數據困難等諸多問題均會給實證分析結果帶來偏差甚至錯誤,并最終影響實證研究所獲結論的可靠性[13]。
社交網絡中描述城市特征的用戶問答數據蘊含著公眾的態度和認知。它們不僅相對客觀,能夠在一定程度上避免上述問題;而且可以利用突發主題識別技術直接獲取不同城市的熱點城市特征。事實上,突發主題識別在眾多基于文本挖掘的社交網絡研究中具有重要應用。學術界對突發主題識別研究起源于熱點話題的檢測與追蹤(Topic Detection and Tracking,TDT)技術。該技術與數據挖掘、信息檢索等自然語言處理技術間有很多共性,最初應用于監控具有突發和延續性規律的新聞語料,后來逐漸成為信息處理領域的研究熱點。目前主要研究方法包括:1)在語義相似度計算和聚類分析的基礎上,通過自動分類話題文本發現熱點話題的向量空間方法[14-15];2)在詞頻統計和權重計算的基礎上,挖掘熱點話題的統計語言模型[16-18];3)在構建網絡鏈接及分析的基礎上,通過轉移概率和轉移矩陣探究話題演變的圖論方法[19-20];4)混合使用以上方法,通過歸納、總結熱點話題的主要特征,實現組織處理這些特征的突發檢測方法[21-23]。
在眾多研究之中,正確識別并處理文本中的爆發詞是所有關于突發主題識別研究的基礎性工作,對突發主題探測及其趨勢監測具有重大影響。目前關于爆發詞識別的相關研究主要是基于詞語的科技監測方法,可將其總結、歸納為基于數理統計的詞頻分析方法、基于詞組網絡關系的共詞分析方法、基于詞頻變化率的突發監測方法和基于語義相似度的內容分析方法[24]。其中,在詞語集合中區分爆發詞與非爆發詞的研究重點并非僅僅停留在統計層面的詞語聚類和分類技術上,而是逐漸向詞語間的語義關系和上下文語境延伸。此外,隨著通用本體與領域本體的日漸成熟,文本語義相似度研究也日臻完善,由此產生了一系列比較有代表性的理論、技術和方法,其研究成果集中在概念、語句和文檔3種不同文本粒度的語義相似度計算上。與此同時,諸多學者將語義相似度研究應用于信息提取、詞義消歧、語義計算、文本聚類和文本分類等自然語言處理領域,并進一步將其引入到爆發詞的特征識別、時段識別、語義合并和關聯映射等方面研究,從而使關于爆發詞識別的相關研究更加成熟和完善[25]。
2?熱點城市特征識別方法
2.1?熱點城市特征特點分析
本文經過梳理現有爆發詞檢測方法后,對描述熱點城市特征的載體——標簽的特點歸納、總結為:在標注頻次上具有較高的關注度、在標注時間上具有一定的新穎性、在標注內容上具有潛在的創新性。具體而言,本文認為城市畫像視角下的熱點城市特征應該同時滿足如下條件:
1)描述某座城市熱點城市特征的標簽是公眾廣泛認可的,具有較高的標注頻次,即公眾對標簽描述的城市特征具有較高的社會關注度;
2)描述某座城市熱點城市特征的標簽出現時間較晚,在當前或某段時間內受到公眾廣泛關注,即標簽描述的城市特征具有一定的時間新穎性;
3)描述某座城市熱點城市特征的標簽與描述該座城市已有標簽在內容層面上有所差異,現有標簽和已有標簽間的文本語義相似程度較小,即現有標簽描述的城市特征具有潛在的語義創新性。
基于以上分析,本文從標簽的標注熱度、標注時間和標注內容3個維度刻畫城市畫像視角下的熱點城市特征。其中,標注熱度和標注時間分別對應熱點評價指標中的標簽關注度和標簽新穎度,可以看作是從數理統計層面刻畫的熱點城市特征;而標注內容對應評價指標中的標簽創新度,可以看作是從文本語義層面刻畫的熱點城市特征。由此,本文依據熱點城市特征這3個主要特點定義熱點城市特征的評價指標,并采用線性加權和法構造綜合指標評價模型,以此獲取不同段時間內不同城市的熱點城市特征。
2.2?熱點城市特征評價指標
本文根據熱點城市特征評價指標的數據來源范圍,將其劃分為外部屬性評價指標和內部屬性評價指標。外部屬性評價指標是指可以直接采用數理統計方法獲取實證數據的標簽關注度和標簽新穎度,其實證數據從標簽的標注頻次、標注時間等數據中獲得。內部屬性評價指標是指需要通過挖掘標簽文本內容獲取實證數據的標簽創新度,其實證數據從標簽間文本語義相似度的計算結果中獲得。由此,本文在考慮城市畫像的刻畫方式其現實意義的基礎上,將熱點城市特征評價指標的特征屬性、數據來源及其計算方法總結如表1所示。
2.2.1?標簽關注度
標簽的標注頻次蘊含了公眾對其描述城市特征的認可程度。熱點城市特征具有較高公眾關注度這一特點可以通過描述該城市特征的標簽的標注頻次反映出來。由于不同標簽解釋城市特征的能力有所差異,因此衡量某一城市特征是否具有較高公眾關注度時,若僅對描述該城市特征的標簽進行簡單的詞頻統計,會導致大量標注頻次較高但解釋城市特征能力較弱的標簽獲得較高的標簽關注度。本文在依據標簽標注頻次的基礎上,融入TF-IDF算法衡量不同標簽對城市特征的解釋能力,將TF理解為標簽對某座城市的標注次數,將IDF理解為標簽對不同城市的區別程度,其計算步驟如下:
首先,采用中文分詞技術將每個標簽Ta切分為n個相互獨立的詞組,并對這些詞組進行數據預處理,以Ta=(t1,t2,…,tn)表示;
然后,采用空間向量模型將Ta表示為:VTa=(t1·wt1,t2·wt2,…,tn·wtn),并依據TF-IDF算法計算詞組ti在不同向量空間VTa中的權重wti;
最后,將權重wti作為衡量標簽Ta在解釋城市特征能力方面的重要指標,并定義標簽關注度TATa,Citya的計算方法為:
TATa,Citya=1n∑ni=1wti=1n∑ni=1logfti·log(N/nti+1)(1)
其中,fti表示詞組ti標注城市Citya的頻率;N表示標簽集合中所有詞組的總數;n表示標簽Ta中詞組ti的數量;nti表示詞組在標簽集合中出現的次數。由此可見,城市Citya中某城市特征的關注程度既和標簽Ta標注城市Citya的次數成正比,又和標簽Ta解釋城市Citya的能力成正比。若描述某城市特征的標簽Ta具有較高的標注頻次,并且能夠較好地區分不同城市間的城市特征,則說明這個城市特征具有較高的關注程度,即TATa,Citya值較高。
2.2.2?標簽新穎度
熱點城市特征會隨著時間推移發生變化。公眾會逐漸遺忘城市過去的歷史特征,反復記憶城市持續的核心特征,不斷注入城市突發的實時特征。事實上,描述城市特征的標簽既可將其看作是網絡信息資源的一種索引或元數據,又可將其看作是一種特殊的網絡信息資源。從網絡信息資源老化的角度來說,公眾會逐漸減少對以往標簽的標注行為,并逐漸增加對新興標簽的標注行為。因此,標簽的標注時間應作為判斷其描述的城市特征是否是熱點城市特征的一項重要依據。
本文通過定義標簽新穎度來揭示熱點城市特征在時間維度上的重要特性。由于標簽由若干個相互獨立的詞組組成,因此標簽的新穎程度可以依據它包含詞組的平均標引時間來衡量。在某段時間內,平均標引時間越晚的標簽其新穎程度值越大,說明這些標簽描述的城市特征出現時間較晚,比較可能成為其描述城市在這段時間內的熱點城市特征。反之,說明這些標簽描述的城市特征不太可能成為其描述城市在這段時間內的熱點城市特征。由此,本文定義標簽新穎度TNTa,Citya的計算方法為:
TNTa,Citya=DTan=1n∑ni=1Dtinti(2)
其中,DTa表示標簽Ta中所有詞組的總標引時間;Dti表示標簽Ta中詞組ti在標簽集合中的總標引時間;n表示標簽Ta中所有詞組的數量;nti表示詞組ti在標簽集合中的出現次數。
2.2.3?標簽創新度
從城市畫像視角看,熱點城市特征是公眾在某段時間內對城市當前擁有的某些特征標注了大量標簽的結果,即這段時間內描述城市特征的社會化標注系統中出現了一些新興的標簽主題。本團隊在以往的研究中發現:社會化標注系統中形成新主題的標簽可能是新標簽,也可能是舊標簽[26]。因此,描述熱點城市特征的標簽既可以是被公眾高頻次標注的舊標簽,即標簽關注度較高;又可以是與舊標簽相比在文本內容和語義層面上有所差異的新標簽,即標簽創新度較高。舊標簽揭示了以往出現過,但在過去一段時間內未成為公眾關注熱點的城市特征;新標簽揭示了僅在近期出現,且短時間內迅速被公眾廣泛關注的新興城市特征。由此可見,熱點城市特征識別不僅需要考慮標簽標注頻次,還需要依據文本語義相似度計算方法,測算當前標簽與已有城市特征間的語義相似度,以此補充并完善熱點城市特征測度方法。
本文利用文本語義相似度計算方法計算標簽的創新程度。首先,運用分詞技術提取標簽中包含的概念詞,并采用空間向量模型表示其描述的城市特征。若標簽Ta中包含XTa個概念詞,則用Ta∈{Sa1,Sa2,…,Sax}表示;若城市Citya的城市特征Cb中包含YCb個概念詞,則用Cb∈{Sb1,Sb2,…,Sby}表示。然后,通過計算空間向量間的余弦相似度cos(Ta,Cb)獲得每個標簽Ta和M個城市特征Cb間的文本語義相似度Sim(Ta,Cb),并定義標簽創新度HITa,Citya的計算方法為:
TITa,Citya=1M∑Mb=1Sim(Ta,Cb)=1M∑Mb=1cos(Ta,Cb)(3)
由此,如果某座城市當前被標記的標簽與以往城市特征間的文本語義相似度較小,則說明該城市當前擁有的城市特征與先前擁有的城市特征在語義含義方面差距較大,從而揭示出當前城市特征與以往城市特征相比在文本內容和語義層面上具有創新性。
2.3?熱點城市特征識別過程
本文首先采用min-max標準化(Min-max Normalization)方法,將具有不同量級和不同方向的評價指標進行數據標準化處理;然后根據上文所述的熱點城市特征評價指標,采用線性加權和法(Linear Weighted Sum Method)構造綜合指標評價模型;最后依次計算各個城市特征的綜合評價指數,以獲取不同城市在某段時間內的熱點城市特征。
2.3.1?指標數據標準化
標簽關注度和新穎度是正向指標,其計算值越大表示標簽所描述的城市特征越有可能成為熱點特征;然而標簽創新度是逆向指標,其計算值越小表示標簽所描述的城市特征越有可能成為熱點特征。因此,本文需要采用不同的數據標準化處理方法使這兩種指標在因變量方向上保持一致。
2.3.2?綜合指標評價模型構建
本文通過對標簽關注度、標簽新穎度和標簽創新度3個評價指標進行線性加權求和,構造出識別熱點城市特征的綜合指標評價模型,如式(4)所示,依據其計算結果可以判別各標簽描述的城市特征是否是對應城市的熱點城市特征。
WTa,Citya=aTATa,Citya+bTNTa,Citya+cTITa,Citya(4)
其中,TATa,Citya、TNTa,Citya和TITa,Citya分別表示描述城市Citya的標簽Ta在標簽關注度、標簽新穎度和標簽創新度的計算結果;WTa,Citya表示標簽Ta描述的城市特征的綜合指標評價數值;a、b和c均表示指標權重,且a+b+c=1。
2.3.3?評價指標權重計算
為確保綜合指標評價模型的可推廣性,本文選取不同指標權重對上述模型進行多次計算,依據計算結果確定各評價指標的最終權重,其具體步驟如下:
首先,平均賦予標簽關注度、標簽新穎度和標簽創新度這3個評價指標初始權重,即將每個評價指標的初始權重均設定為1/3;
然后,不斷改變各評價指標的計算權重,以人工遴選出的最優計算結果為目標,通過對比實際計算結果進行調整與驗證,以此確定各指標最終權重,達到最優的熱點城市特征識別效果。
2.3.4?熱點城市特征獲取
熱點城市特征識別過程實際上是從描述城市特征的標簽中挖掘不同城市在某段時間內的主要特征,并進一步判斷這些城市特征是否是在該段時間內被公眾廣泛關注。本文依據綜合指標評價模型可以計算某段時間內城市Citya擁有的所有標簽Ta對應的綜合指標評價數值WTa,Citya,進而采用降序排列和設置閾值區間等數據處理、分析步驟篩選出獲得較高數WTa,Citya值的標簽。這些標簽描述的城市Citya特征就是城市在這段時間內擁有的熱點城市特征。
3?實證研究
本文利用網絡爬蟲技術抓取“知乎”平臺中關于我國中部六省省會城市(武漢、長沙、鄭州、南昌、太原、合肥)主要特征的用戶問答數據,具體包括“××是一個怎樣的城市?”、“關于××,你印象最深的是什么?”、“××有什么好玩的地方?”等問題。原始數據中包括了用戶回答內容、用戶昵稱、評論內容、創立時間、點贊數、評論數、所屬問題等字段,共計21 247條記錄,時間范圍為2011年6月10日至2019年1月4日。本團隊選取5名碩士研究生從原始數據中人工抽取用戶描述城市畫像的標簽,為規范標簽標注格式及質量,滿足熱點城市特征識別過程中的數據處理要求,將標簽結構定義為“屬性詞+特征詞”。在人工抽取標簽前,本團隊以“武漢”數據為例,對5名同學進行培訓,確保其可以按照相關流程,以相對規范的操作流程從城市描述文本中抽取結構化標簽。此外,本團隊為排除個人因素,將所有城市的用戶問答數據匯總并隨機分配給每位同學,以此確保每座城市的城市畫像均被5名同學標記。
3.1?數據準備
3.1.1?數據預處理
人工抽取標簽依然具有模糊性(如同義詞、多義詞等)、多樣性(縮寫、簡寫、詞形多樣等)等問題。本文通過定義標簽清洗規則清洗標簽,獲得具有更高數據質量的標簽集合,具體包括:1)刪除與目標城市特征無關的標簽數據;2)刪除重復評論產生的標簽,只存取其中一條標簽數據;3)改正標簽中的錯別字,將相同標簽數據進行匯總。
此外,為滿足熱點城市特征識別過程中的數據處理要求,本文將數據清洗后的標簽按時間先后順序排序,并設置“序號”字段作為主鍵,使之成為標簽的唯一標識字段;定義“時間軸”字段簡化時間方面的相關計算,以2011年6月10日作為起始時間,將其取值設置為0,并按時間天數遞增獲得所有標簽在“時間軸”字段下的數值。為獲取不同城市在各時間段內熱點城市特征的變化情況,本文最終將所有數據分割為8個時間段,詳見表2。
3.1.2?分詞詞庫獲取
在搜狗細胞詞庫(https://pinyin.sogou.com/dict/)——“××市城市信息精選”詞庫中獲取搜狗官方網站推薦的我國中部六省省會城市的細分化詞庫。這些詞庫包含了我國中部六省省會城市關于地名、公交、購物、餐飲等各種信息,有助于提升標簽的自動分詞效果。
3.1.3?停用詞表創建
根據分詞詞庫對標簽進行分詞,并統計分詞結果中各詞組詞頻,通過對比標簽記錄表與詞頻統計表更新常用停用詞表,以此獲得自建停用詞表。
3.2?評價指標計算
3.2.1?標簽關注度計算
首先,利用分詞詞庫和自建停用詞表對標簽進行自動分詞,并刪除去停用詞后為空的記錄。然后,依據自動分詞結果統計各詞組詞頻,獲得詞頻表,詞頻合計為N。針對某時間段下的標簽Ta,可按詞組ti查詢詞頻表獲得nti;nti除以該時間段下的標簽總數可得該詞組的fti。最后,依據公式計算TATa,Citya,詳見表3。
3.2.2?標簽新穎度計算
首先,依據“時間軸”字段和自動分詞結果抽取每個詞組的所有出現時間,并計算詞組平均標記時間。然后,針對某時間段下的標簽Ta,按詞組ti查詢平均標記時間表計算標簽Ta的平均標記時間獲得Dti/nti;最后,從自動分詞后獲得的數據表中抽取標簽Ta含有詞組ti的數量n,按公式計算TATa,Citya,詳見表4。
3.2.3?標簽創新度計算
計算標簽創新度時需要比較兩個相鄰時間段的標簽,即某時間段下標簽Ta與前一時間段下標簽Cb間的文本語義相似度。因此,TIME1時間段下所有標簽的創新度均無法計算(設置為0)。獲得標簽Ta與前一時間段下所有標簽的文本語義相似度后,通過求和并除以前一時間段下標簽總數的方式,可求得各時間段下標簽的標簽創新度,詳見表5。
3.3?熱點城市特征識別
3.3.1?指標數據標準化
本文采用min-max標準化方法將具有不同量級和不同方向的評價指標歸一化處理。正向指標的數據處理方法為Y=(X-X_min)/(X_max-X_min),逆向指標的數據處理方法為Y=(X_max-X)/(X_max-X_min)。其中,Y表示指標的標準化值,X表示指標的原始值,X_max與X_min分別表示指標原始值中的最大值和最小值,詳見表6。
3.3.2?評價指標權重確定
本文以不同時間段內網絡用戶對不同城市的整體評價為參照對象,通過對比分析確定綜合指標評價模型是否獲得了符合實際情況的熱點城市特征。在實證研究過程中,標簽關注度指標和標簽新穎度指標對識別熱點城市特征的作用程度更為突出,因此在綜合指標評價模型中可以設定較大權重。其中,標簽新穎度指標由于受標簽集合所處的時間階段影響,其作用程度次于標簽關注度指標。標簽創新度指標雖然對識別熱點城市特征具有一定作用,但不是最重要的考慮因素,且實際操作過程中受標簽的自然語言處理結果(人工標記結果和自動分詞結果)影響較大,因此在綜合指標評價模型中可以適當調低權重。本文最終將評價指標權重設定為標簽關注度權重0.45,標簽新穎度權重0.35,標簽創新度權重0.2,并由此獲得完整的綜合指標評價模型:
WTa,Citya=0.45TATa,Citya+0.35TNTa,Citya+0.2TITa,Citya(5)
3.3.3?結果分析與解讀
本文依據式(5)計算武漢各時間段下所有標簽的WTa,Citya,并按WTa,Citya值降序排列選出其在各時間段下的熱點城市特征Top5,詳見表7。重復上述流程,本文得到我國中部六省省會城市在各時間段下的熱點城市特征,詳見表8。
以武漢熱點城市特征為例,在8個時間段內主要分布著“城市文化”、“城市交通”、“城市發展”、“城市環境”4個方面的城市特征描述。其中,公眾對城市交通和城市環境的描述在所有時間段內基本沒有太大變化,“司機脾氣急躁”、“交通擁堵”、“暈車”等描述反映了公眾對城市交通的整體印象;“九省通衢”、“便利”等描述也反映武漢重要的交通樞紐地位,以及城市內多元化的交通工具給公眾出行帶來的便利。在TIME 6時間段內(2015.07-2015.12)首次出現了“光谷特別擁堵”的城市交通描述,這可能與光谷地區開始大力修建地鐵線路引起的交通擁堵有關;在2014-2015年間,公眾對城市環境的描述主要集中在“冬冷夏熱”,尤其是“熱”、“火爐”成為武漢氣候的代表性描述。自2016年起,武漢熱點城市特征中出現了“霧霾”、“暴雨”、“潮濕”等新描述,究其原因是霧霾導致空氣質量變差,天空呈現灰蒙蒙現象,而潮濕環境和炎熱天氣組合成“濕熱”氣候使得整個城市環境變得更加復雜。
此外,公眾對武漢城市文化和城市發展的描述也隨著時間推進呈現出一定變化。例如在城市文化方面,2014-2015年間公眾對武漢城市文化的描述主要體現在“黃鶴樓”、“戶部巷”等歷史文化,“涂鴉”、“VOX LiveHouse”等朋克文化,“熱干面”、“小龍蝦”等美食文化;但2017-2018年間則更傾向于旅游文化,“東湖”、“櫻花”、“輪渡”、“夜景”、“長江大橋”等城市特征也均成為新晉熱點城市特征。在城市發展方面,“滿城挖”和“修路”一直是公眾對武漢城市發展的主要描述,但武漢也在教育和經濟方面出現了較為嚴重的人才流失問題。自2016年起,“武漢每天不一樣”成為武漢新的城市宣傳語,并由此帶來了“經濟改善”、“人口增多”、“商圈擴大”、“大學生留漢”等積極的社會影響。通過以上分析可知,盡管一座城市在不同時期內的熱點城市特征具有部分相似性,但會隨著時代背景變化而呈現出一定差異。這些差異會在文中方法的計算結果中展現出來,這也在一定程度上說明了本文爆發詞檢測方法的必要性。
4?結?語
本文在考慮城市畫像刻畫方式其現實意義的基礎上,首先詳細分析了熱點城市特征的主要特點,并依據這些特點設計了熱點城市特征的評價指標及其數據來源和計算方法;然后對不同量級、不同方向的評價指標進行標準化處理,并采用線性加權和法構造綜合指標評價模型,計算不同時間內城市的熱點城市特征;最后利用爬蟲技術采集知乎平臺中描述中部六省省會城市特征的用戶問答數據,并以此為原始數據展開實證研究。然而本文使用城市標簽數據的并不是傳統意義上的標簽,而是從用戶問答數據中人工抽取的。雖然該方法能夠從海量網絡數據中獲取城市在不同時間段內的熱點城市特征,但標簽標注質量和自動分詞結果將直接影響著熱點城市特征的識別效果。因此,如何結構化處理用戶原始評論提高標簽抽取質量,以及如何選用最優的分詞技術提升分詞效果將會是本項目團隊今后的研究方向。
參考文獻
[1]Lynch K.The Image of the City[M].Cambridge,Massachusetts:The MIT Press,1960.
[2]馬亞雪,李綱,謝輝,等.數字空間視角下的城市數據畫像理論思考[J].情報學報,2019,38(1):62-71.
[3]馬超,李綱.基于城市大數據的城市數據畫像構建[J].現代情報,2019,39(8):3-9.
[4]杜智濤,李綱.面向精細化治理的城市畫像:構成要素與應用體系[J].圖書情報知識,2019,(4):43-51.
[5]田逢軍,汪忠列.城市空間意象研究述評與展望[J].世界地理研究,2014,(1):84-92.
[6]王德,張昀,崔昆侖.基于SD法的城市感知研究——以浙江臺州地區為例[J].地理研究,2009,28(6):1528-1536.
[7]張夢琦.北京市城市意象調查及解析[D].保定:河北農業大學,2013.
[8]田逢軍,沙潤.城市旅游地意象空間分析——以南昌市為例[J].旅游學刊,2008,23(7):67-71.
[9]宋偉軒,呂陳,徐旳.城市社區微觀空間意象研究——基于南京居民250份手繪草圖的比較[J].地理研究,2011,30(4):709-722.
[10]張新紅,蘇建寧,魏書威.蘭州城市居民意象空間及其結構研究[J].人文地理,2010,(2):54-60.
[11]宋偉軒,呂陳,徐旳.城市社區微觀空間意象研究——基于南京居民250份手繪草圖的比較[J].地理研究,2011,30(4):709-722.
[12]蔣志杰,吳國清,白光潤.旅游地意象空間分析——以江南水鄉古鎮為例[J].旅游學刊,2004,19(2):32-36.
[13]陳夢遠,徐建剛.城市意象熱點空間特征分析——以南京為例[J].地理研究,2014,33(12):2286-2298.
[14]Kumaran G,Allan J.Text Classification and Named Entities for New Event Detection[J].2004,20(17):297-304.
[15]Nallapati R,Feng A,Peng F,et al.Event Threading Within News Topics[C]//Thirteenth ACM International Conference on Information and Knowledge Management.ACM,2004:446-453.
[16]Blei D M,Lafferty J D.Dynamic Topic Models[C]//Proc.International Conference on Machine Learning.2006:113-120.
[17]Li Z,Wang B,Li M,et al.A Probabilistic Model for Retrospective News Event Detection[J].2005:106-113.
[18]Mei Q,Liu C,Su H,et al.A Probabilistic Approach to Spatiotemporal Theme Pattern Mining on Weblogs[C]//International Conference on World Wide Web.ACM,2006:533-542.
[19]Kumar R,Mahadevan U,Sivakumar D.A Graph-theoretic Approach to Extract Storylines from Search Results[C]//Tenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,Seattle,Washington,Usa,August.DBLP,2004:216-225.
[20]Zhao Q,Liu T Y,Bhowmick S S,et al.Event Detection from Evolution of Click-through Data[C]//ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.ACM,2006:484-493.
[21]Fung G P C,Yu J X,Yu P S,et al.Parameter Free Bursty Events Detection in Text Streams[C]//International Conference on Very Large Data Bases.2005:181-192.
[22]He Q,Chang K,Lim E P.Analyzing Feature Trajectories for Event Detection[C]//International ACM SIGIR Conference on Research and Development in Information Retrieval.ACM,2007:207-214.
[23]Lappas T,Arai B,Platakis M,et al.On Burstiness-aware Search for Document Sequences[C]//ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,Paris,France,June 28-July.DBLP,2009:477-486.
[24]逯萬輝,馬建霞,趙迎光.爆發詞識別與主題探測技術研究綜述[J].情報理論與實踐,2012,35(6):125-128.
[25]劉宏哲,須德.基于本體的語義相似度和相關度計算研究綜述[J].計算機科學,2012,39(2):8-13.
[26]葉光輝,胡婧嵐,徐健,等.社交博客標簽增長態勢與連接模式分析[J].數據分析與知識發現,2018,2(6):74-82.
(責任編輯:郭沫含)