999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于文本挖掘的南京交通輿情研究

2022-06-12 05:22:46甄云竹閆琦若李英帥
物流科技 2022年6期
關鍵詞:分析

郭 宇,甄云竹,閆琦若,李 晨,李英帥

(南京工業大學 交通運輸工程學院,江蘇 南京 211816)

0 引 言

新時代我國互聯網建設發展迅捷,信息技術一方面推動社會進步發展,造福人類社會,另一方面也會產生網絡輿情,給社會帶來不安定因素。網絡輿情是一種群體性意見,具有實時性及一定的傾向性和影響力。隨著網民規模逐年擴大,互聯網覆蓋率的提高,來源廣泛、發帖門檻低的網絡輿情在與社會轉型期敏感問題結合時可能產生負面內容。對2014年我國網絡輿情進行研究時,謝耕耘等發現互聯網領域多年來存在頂層設計不足、多頭管理、標準模糊等問題。來源廣泛、發帖門檻低的網絡輿情對社會公共治理、輿論引導等工作影響逐步加強,應重點關注并加以引導。

國外網絡輿情研究始于1936年,發展時間較長,Pawel Sobkowicz等提出將來自多個數據源的在線意見與傳統調查進行校準,開發了社會網絡輿情系統模型,加強了公共政策、營銷、金融等領域的決策。Rade開發了Simmons系統,并應用于自然災害領域。

國內輿情研究起步較為遲緩,目前主要研究方面包括文本檢索、信息提取、情感分析、語義分類等。肖麗妍等從輿情影響力的廣度、強度、速度三個層面建立體系,并給出各個指標具體計算方法,衡量評價基于微博的網絡輿情社會影響力,為企業管理者提供決策層面的支持;劉毅利用MATLAB軟件,基于三角模糊數的模糊菲爾德法和模糊層次分析法,得到了關于具體某一熱點話題的網絡輿情預警指標體系;滕婕等運用Agent關系網絡,提出信任識別模型,識別惡意信息主體。

交通輿情主要以文本形式存在于新浪微博、相關論壇、微信、文章的回復、跟帖中,可利用交通輿情提煉交通信息,對交通工作加以完善。張恒才提出一種從微博文本中快速提煉獲得交通信息的技術,獲取各條路徑的運行狀況描述,得到交通流運行水平;崔健開發了基于微博的交通突發事件提取系統,能夠迅速采集交通相關信息,評估參與人的情感狀態;趙陽以故障文本信息為依據,運用貝葉斯網絡作為故障分類方法,提出了高鐵信號系統車載設備的故障診斷方法;潘美瑜利用網絡爬蟲技術實時獲取與城市交通相關的文本數據,提取交通事件特征并分析成因,研究數據背后的情感特點;鄭治豪等以新浪微博為主要數據來源,利用條件隨機場算法等,完成了微博數據的提取、識別和分類,開發了交通感知分析與可視化系統;熊佳茜使用Python為主要開發語言,以條件隨機場算法與正則表達式相結合,達到了83%的提取準確率,為獲取交通大數據提供一種可行有效途徑。

當前研究大多針對交通大數據獲取、分析后對社會帶來的影響及應對措施,但結合區域發展特點,針對某一特定地區的交通輿情分析研究較少。何夢嬌獲取蘇州論壇“寒山聞鐘”、微信語音、電話投訴三種方式的投訴輿情,分析姑蘇區和高新區的交通現狀及早晚高峰擁堵規律,了解市民關心的熱點話題,對本文具有較高借鑒意義。

綜上,本文從南京市交通輿情角度出發。一方面了解2019年南京市交通秩序、交通事故輿情現狀,根據所得數據分析出相關事件發生地點及原因,另一方面按照時間劃分,統計不同季度南京市微博輿情焦點,貫徹落實“以人為本”交通理念。研究結果可在宏觀層面了解市民關注焦點、掌握南京市道路交通發展變化,改善現有交通現狀、制定群眾認可度高的交通政策。

1 研究過程

本文采用文本挖掘技術進行交通輿情分析,利用爬蟲技術獲取微博交通輿情數據,關鍵詞分別設置為:交通秩序、交通事故、標志標線。其中,交通秩序下分“堵車”、“繞行”、“禁左”、“修路”、“改建”;交通事故下分“追尾”、“刮擦”、“撞車”、“側翻”、“打滑”;標志標線下分“標志”、“標線”。得到用戶的微博原文、發布時間、用戶ID、定位地點、轉贊評數據等信息。

而后對獲得的文本進行數據處理,判斷出有效微博與無效微博。有效微博即含關鍵詞,且與交通有關,內容屬實的微博,無效微博為含關鍵詞,但與交通無關的微博。對獲取數據進行分詞,去除文本中與交通無關的語氣詞等,進行詞頻分析,了解市民關注度最高的話題。最后計算詞語間關聯度,獲得兩兩詞語的共現矩陣,完成交通事件與發生地點之間的匹配。數據處理流程如圖1所示。

圖1 數據處理流程圖

數據處理結束后,進行多層次評估及可視化展示。按交通事件與時間分類,進行輿情分析、季度輿情分析與微觀輿情分析,獲取2019年南京市民關注度較高話題與重點區域。最后結合地理位置、地域社會經濟發展狀況與輿情發布時間,分析輿情產生原因并提出對策。

2 數據處理

經網絡爬蟲技術獲得的數據包含大量干擾內容,須對海量內容進行篩查和處理。先對獲得的微博數據進行分類,得到對本研究有用的文本信息,再對篩選出的內容進行分詞、共現分析等操作。

2.1 微博分類。本研究對于海量數據篩查和處理采用了半技術半人工的方法,即數據的獲取過程借助專業軟件幫助,數據預處理采用了人工篩查。面對大量數據,在篩選過程中應注意以下方面:(1)合理保留有用數據。初始數據包含信息量巨大,對本研究無效的內容需予以刪除;(2)提前設定有效微博定義,并嚴格遵循。了解南京市內街道名稱,若描述的時間地點超出南京范圍需予以剔除;(3)對于同樣信息出現多次的情況,由于客觀事件的出現頻率并不代表民眾輿論,在考慮樣本精確性的前提下,應只保留一條。

經篩查后,對于本研究有用的微博數據共1 170條。其中標志標線類中,含大量高速公路的施工信息,對于交通輿情監測意義較小。去除此類信息后,標志標線類數據樣本量僅有27條,代表性差,后續研究中不予考慮。

2.2 分詞與詞頻統計。文本分詞需將每個用戶發布的內容看作獨立的信息,把每條輿情處理為多個詞匯的組合,本文分詞借助GooSeeker分詞打標技術,詞頻代表輿情信息中單個詞語出現的次數,詞頻越高代表在所有用戶的發布內容中,該詞的關注度越高。由于單條輿情信息包含的無關內容較多,分詞結束后刪除與交通無關和詞頻低于5的詞語。

2.3 關聯度計算。社會網絡圖在文本挖掘分析中可以顯示出詞匯間的關聯度,分析詞匯是否處于核心位置,其中共詞匹配用于計算兩兩詞語在原文中的共現次數。將事件發生地點與事件類型相匹配后,可定位到2019年南京市民所關注的交通現象。

共詞匹配完成后可生成匹配矩陣表,在表格中兩個詞語的共現次數由水平、豎直相交的單元格中的數字表示,值為正數就是有共現關系,值為零就是無共現關系;詞語的關聯度可以通過計算共現值為正數的單元格數量來表示,如表1所示。

表1 共現矩陣表

共詞匹配也可生成社會關系網絡圖,其默認展示共詞矩陣表里的所有詞語關系。在系統中輸入要展現的連線個數,根據上述統計出的詞語之間的共現度,按由大到小的順序進行排列,位于核心地位的詞語會率先獲得連線,核心詞語與其余詞語之間的關聯度可以直觀表現出來。

在社會網絡關系圖里,用圓點大小代表詞語之間的共現度大小,即與該詞有關系的詞語個數。網絡圖使用的是無向箭頭,此處的共現度也能表示詞語的重要性,即是否處于核心地位。因此詞語的共現度越大,圓點就越大,詞語也越重要,如圖2所示。

圖2 交通秩序關系圖

從圖2中可以明顯看出核心詞語為“堵車”,由核心詞所輻射出的關聯詞語包括地點名詞、交通工具等,其中“玄武湖”、“秦淮(區)”、“南京南站”等詞均與核心詞關聯密切,表明這些地區在2019年處于南京市內的秩序輿情重點地區,而處于網絡關系外圍的“六合”、“浦口”、“安德門”等地的輿情反饋較少。

3 輿情分析

基于數據的處理整合,對2019年南京市微博交通輿情進行三方面分析:(1)南京市交通秩序與交通事故的評價;(2)按時間將全年劃分為四季度,評價每一季度輿情,挖掘出不同時間段的突出問題、重點地區并進行比較;(3)對季度輿情中突出地區進行微觀層次分析,進一步了解輿情背后的發生原因。

3.1 類別分析

3.1.1 交通秩序輿情分析。從交通秩序詞云圖(如圖3所示)中可以明顯看出,南京市在交通秩序方面的突出問題為擁堵。其646次的出現頻率顯著高于其余關鍵詞,繞行、修路、施工等詞仍較顯眼。在出現的地點名詞中,揚子江、秦淮河、長江大橋和長江二橋等地所受到的輿論關注較高。

圖3 交通秩序詞云圖

在對應的交通秩序匹配矩陣表中,共出現15處地點名詞,8處出現擁堵,4處出現繞行,各有1處進行修路和施工。出現頻率較高的地物名詞所對應的交通事件以擁堵、繞行為主。與長江大橋對應的“擁堵”詞條共有14條信息,長江二橋的“擁堵”共有19條信息,揚子江(隧道)的“繞行”共有9條信息,處于較高的頻率。說明市區內多地的擁堵現象較為嚴重,道路的改建修繕造成了市民的出行不便。

大橋、二橋均位于南京市東北部地區,揚子江(隧道)位于西北部地區,北部及中部區域包括鼓樓區等南京中心市區開發較早的一批地區,以及以浦口區、六合區、棲霞區為主的發展迅速的江北新區,土地利用更加綜合、多元化,開發密度高,產生了大量集中分布的交通需求,由其衍生出的擁堵現象也因此較為明顯。在此種背景下,應大力發展運載能力強的公共交通與之相適應,集聚帶來地價上升,相關部門也應當適當上調停車、通行費用,對私家車的運行進行限制,緩解交通壓力。

3.1.2 交通事故輿情分析。由于交通事故所含樣本數較少,其形成的詞云圖所含信息也較少,其中相撞、側翻等事故名詞出現頻率顯著高于其他名詞,發生事故的交通工具以貨車為主,說明南京市交通事故大多是由貨車產生,地點名詞中的二橋、三橋、應天(大街)出現頻率相似。

在對應的交通秩序匹配矩陣表中,貨車一詞共出現66次,匹配矩陣表中與貨車具有共現關系詞中聯系度較大的詞分別為“相撞”與“側翻”,前者共現16次,后者共現34次,并且“貨車”與“江北”共現14次,與三橋共現8次。三橋用于連接浦口區綠水灣南端與雨花臺區大勝關,雨花臺區在地理位置上緊鄰江北新區,由此可見,2019年江北新區附近由貨車所造成的交通事故不容小覷,應得到交通運輸部門高度重視。

交通秩序匹配矩陣表中地點名詞共出現8處,按匹配矩陣中共現度觀察,5處發生相撞事件,3處發生側翻,1處發生肇事逃逸。其中雨花臺區較為嚴重,共統計到10條相撞信息與8條肇事逃逸信息,江北新區次之,統計到14條側翻信息,其中浦口區內文德西路統計有6條側翻信息。觀察上述交通事故發生區域的地理位置可知,大多數事件集中在南京市內的中部,以江北新區和雨花臺區最為嚴重。

南京中上部與中西部相連接關鍵在于江北新區,其同樣作為輻射帶動長江中上游地區發展的重要節點,擁有便捷的公路、水路、鐵路及航空樞紐,吸引帶動的大批交通量是該地交通事故頻發的重要原因。長江大橋、二橋、三橋、四橋均連接或位于該區域內,在跨江大橋上行駛易受天氣和橋面影響,車輛應嚴格限速、遵守交通法規。雨花臺區是南京市主城八區之一,以軟件和信息服務為主導的中國軟件名城示范區,且依托南京南站發展樞紐型經濟,推動南站與全市周邊區域的發展融合,同樣具有較大流量,在制定區域發展規劃中,應當著重考慮該區域內交通安全問題。

3.2 季度輿情分析。季度輿情用于分析交通輿情的事件類型與時間的關系。以時間為自變量將不同類型交通事件進行整合,尋求隨時間推移,市民關注熱點與南京交通問題的變化;季度輿情也可用于尋求不同季度間交通輿情相互關系。通過分析比較季度間存在的異同,為制定微觀交通戰略、城市交通規劃等提供參考。

結合輿情關注度較高的地區,制成如表2所示的地點事件對應表(表格標黃地區為江北新區)。從表中信息可以看出,交通事件“擁堵”與“側翻”在南京市處于輿論焦點,而多數事件的發生地點集聚在中北部地區,其中江北新區和鼓樓區出現頻率較高,長江二橋位于江北新區內,它的建成使得南京“城內成網,城外成環”的交通大格局基本形成,拉動了南京東北部地區經濟發展,加強省會與蘇北地區之間的聯系。由于二橋作為寧洛高速的重要組成部分,其所吸引交通量至少涵蓋兩個省份,在促進沿岸經濟快速發展的同時也隱含交通事故發生的可能,一方面橋面行車應嚴格遵守法律規定,另一方面雨雪天氣造成的路面濕滑也應當引起足夠重視。尤其在春運等特殊時段,進出城交通量大幅增長時期要做好預告和防范工作,提醒駕駛員繞行,減少造成的行程時間損失和避免交通事故的發生。

表2 地點事件對應表

江北新區作為南京都市圈、寧鎮揚同城化的核心區域之一,占到全市面積的37%,承接多數市民的日常工作出行需要,處于高密度開發狀態,人口密集,交通發生量集中,交通流的自我調節能力與其他地區相比較弱,因此外在力量對交通流運行的影響較為明顯,這也是新區內頻繁發生擁堵,以及由于施工帶來的繞行現象的原因。

3.3 微觀輿情分析。以表2為依據,觀測到一季度長江二橋頻發繞行現象,四季度長江二橋頻發擁堵現象以及玄武湖頻發擁堵現象,本節將針對以上交通現象進行微觀層次分析,經過查找匹配,共統計到32條有效文本,其中一季度7條,四季度25條,事件發生地點為長江二橋和玄武湖兩處。

對于一季度的7條小樣本數據,其中5條微博指向寧杭高速(二橋方向),由于繞城車多,建議繞行,2條指向寧洛高速(二橋方向)交通管制,建議繞行。長江二橋處于南京出城交通要塞,連接江蘇省與其他省份之間的交通往來,其吸引的多數交通量都是市域出行,為使交通網絡處于平衡狀態,盡量減少出行者的時間成本,除了在對橋上交通量進行及時疏導管控,通過改建來擴大交通容量,增加可達性外,對其周邊地區也應改善使其足夠承擔二橋的分流,使平均或總的出行成本最小,達到網絡的系統平衡。

四季度收集到樣本數據相較于一季度具有一定的多樣性,長江二橋共統計到12條相關數據,其中9條指向國慶期間,出城擁堵,排隊數量較長,引發多數市民的不滿,2條敘述二橋至三橋方向的平良大街處發生交通事故追尾,導致較為嚴重的擁堵現象,1條敘述二橋至三橋方向的玉蘭路隧道發生廂式貨車與渣土車相撞,產生擁堵。四季度微觀數據再次指向二橋所處地理位置的重要性,承擔的市內外流量對其提出了更高的運載需求,不僅要保證市民出行的迅速、準時,更應該保證參與人的安全。作為連接市區間的道路,不可避免會吸引到各式交通工具。此時,車種全為小轎車的理想狀態下計算出的通行能力等已與實際狀況出現較大偏差,應將這部分考慮在城市交通規劃發展戰略內,對于危險系數較高的交通流要做好防范措施與突發事件應急措施,最大限度保障出行人的安全與時效。

玄武湖在四季度共統計到13條數據,但該13條微博共同指向同一交通事件:國慶玄武湖煙火表演,該事件具有偶然性,但由于事件影響范圍廣,吸引大量非南京市內出行需求,其造成的市內道路交通負荷也不容小覷。

4 結論

在大數據逐漸滲入各個行業的背景下,利用網絡爬蟲技術獲取微博交通輿情,通過分析高頻關鍵詞和共現矩陣,得到南京市2019年輿情熱點與問題地區。研究發現:(1)多數用戶未形成在微博發布交通觀點的意愿。選取2019年整年的時間跨度所統計出的微博數據較少,對研究的進行不利。(2)不同地區市民關注輿情熱點不同。本文所采集出的數據中,多數輿情分布在南京市中北部,以江北新區和位于市中心的鼓樓區為主。(3)不同季度輿情關注度與重點地區不同。第一季度存在春運,長江二橋交通壓力大,關于“二橋”與“江北新區”相關詞條內容較多,第二季度二橋施工,大量交通流被迫繞行,第三、四季度交通逐漸趨于平穩狀態,市中心區域仍承擔大量交通負荷,因此鼓樓區相關地點名詞與“擁堵”出現頻率相對較高。(4)本文所使用的交通輿情來源單一。微博輿情數據樣本較少,進行輿情分析缺乏代表性,輿情的來源應當多樣化,分析比較不同來源的數據是否存在差異。后續可成立專業輿情發布平臺,方便注冊用戶完成實名認證,對于市民的投訴可以做到分類、分時、精準定位,且官方對于市民的輿情信息應做到及時反饋,及時監測,鼓勵群眾發表個人意愿,促進市內交通平衡和相關政策的落實。

猜你喜歡
分析
禽大腸桿菌病的分析、診斷和防治
隱蔽失效適航要求符合性驗證分析
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
電力系統及其自動化發展趨勢分析
經濟危機下的均衡與非均衡分析
對計劃生育必要性以及其貫徹實施的分析
現代農業(2016年5期)2016-02-28 18:42:46
GB/T 7714-2015 與GB/T 7714-2005對比分析
出版與印刷(2016年3期)2016-02-02 01:20:11
中西醫結合治療抑郁癥100例分析
偽造有價證券罪立法比較分析
在線教育與MOOC的比較分析
主站蜘蛛池模板: 91精品国产麻豆国产自产在线| 亚洲精品午夜无码电影网| 午夜人性色福利无码视频在线观看| 国产成人精品免费视频大全五级| 欧美在线国产| 国产人成在线视频| 538国产视频| 婷婷五月在线视频| 国产成在线观看免费视频 | 国产一区二区网站| 国产精品久久久久久久久kt| 亚洲精品视频网| 无码高潮喷水在线观看| a级毛片一区二区免费视频| 国产精品亚洲一区二区在线观看| 91福利免费视频| 免费黄色国产视频| 亚洲欧美人成人让影院| 国产网站免费观看| 重口调教一区二区视频| 91蜜芽尤物福利在线观看| 成人午夜亚洲影视在线观看| 色哟哟国产精品一区二区| 色网在线视频| 亚洲国产第一区二区香蕉| 国产国产人在线成免费视频狼人色| 亚洲综合天堂网| 亚洲精品视频在线观看视频| 爱爱影院18禁免费| 亚洲欧洲日韩久久狠狠爱| 成AV人片一区二区三区久久| 91精品国产丝袜| 黄色在线网| 女人18毛片水真多国产| 欧美国产日产一区二区| 美女无遮挡被啪啪到高潮免费| 国产精品护士| 国产成人一二三| 狠狠色成人综合首页| 国产青青操| 国产一级毛片在线| 国内嫩模私拍精品视频| 欧美精品成人一区二区在线观看| 日韩毛片在线视频| 日韩在线中文| 片在线无码观看| 亚洲爱婷婷色69堂| 国产成人91精品免费网址在线| 久久综合九色综合97婷婷| 国产精品内射视频| 夜夜操国产| 精品三级网站| 日韩在线成年视频人网站观看| 国产凹凸一区在线观看视频| 亚洲欧美极品| 色亚洲成人| 国产日韩精品欧美一区喷| 亚洲国产成人自拍| 久久久久亚洲精品成人网| 欧美在线中文字幕| 国产青青草视频| 大香伊人久久| 在线国产三级| 精品人妻系列无码专区久久| 欧美色视频日本| 香蕉视频在线观看www| 久久亚洲美女精品国产精品| 中文字幕在线观看日本| a级毛片毛片免费观看久潮| 99精品高清在线播放| 99re在线观看视频| 91青青草视频在线观看的| 色综合中文综合网| 国产精品对白刺激| 18禁黄无遮挡网站| 国内精品伊人久久久久7777人| 国产精品熟女亚洲AV麻豆| 国产午夜无码片在线观看网站| 久草视频一区| 99久久精彩视频| 欧洲熟妇精品视频| 亚洲首页国产精品丝袜|