鄭治豪 吳文兵 陳鑫 胡榮鑫 柳鑫 王璞
進入新世紀,我國交通信息化建設快速推進,公交車或出租車上的GPS軌跡數據[1?2]、磁感線圈數據[3]、視頻監控數據[4?5]大量涌現,基于這些數據的交通狀態感知與預測技術發展迅速.翁劍成等[1]基于浮動車GPS數據,獲取了路段區間運行速度與行程時間信息,改善了傳統交通檢測方式高投入、精度低的缺點.董均宇[2]通過融合多類型車輛GPS軌跡數據與道路交通信息,估計了城市路段的平均速度.陶漢卿等[3]基于分段序列相似度的分析方法對轉彎車輛和直行車輛的感應數據進行聯合分析,獲取了車輛的轉彎信息,提高了交通調查和交通信息采集的效率和準確性.張佐等[4]指出先進的視頻技術將成為視頻和無線傳感器“按需”布設和多參數交通信息采集的基礎,利用視頻處理技術可以發現混合交通流的新特性.王川童[5]運用視頻檢測技術獲取的交通數據,結合卡爾曼濾波跟蹤與虛擬檢測線法提取交通特征參數,提高了車輛識別的精度.Li等[6]利用實測交通流數據,提出了一種基于模糊集理論的交通流預測方法,該方法還可以準確預測交通流變化的范圍.
基于車輛GPS軌跡、磁感線圈、視頻監控等數據的交通分析方法在智能交通系統的建設和發展中發揮了重要作用,然而這些數據自身結構和特點也使它們在某些應用方面存在不足.Shang等[7]指出:某些時刻很多路段上并沒有出租車行駛,浮動車數據一定程度上缺乏完整性;感應線圈的埋置深度、性能和壽命、線圈與導線接頭的可靠性和防潮絕緣性能等均有待進一步完善和改進;而視頻檢測設備在氣象惡劣的情況和低光照強度下,很難得到清晰可靠的圖像.陸鋒[8]指出基于移動目標速度感知方式的交通信息采集手段在運營成本和時空覆蓋范圍上仍然存在較大的局限性.Zhang等[9]發現節假日交通出行由于受到天氣、旅游商業等特殊活動以及服務價格、交通事故等多種偶發、可變因素影響,難以通過歷史數據作出有效預測,常常導致交通突發事件預報失當、應對失當.
進入“互聯網+”時代,社交媒體已經成為人們生活的重要組成部分和人類語言的重要發布平臺.社交媒體中蘊含了大量與交通相關的語言描述,在某些應用方面甚至比在物理空間中采集的交通信息更有優勢.復雜系統管理與控制國家重點實驗室主任王飛躍教授認為社會信號是復雜系統平行管理與控制的重要一環[10],并首次提出“社會交通”研究方向[11].
社交媒體是社會交通研究的重要數據來源,基于社交媒體大數據的交通研究與應用方興未艾.Qiao等[12]指出微博消息可以作為線圈、視頻等交通檢測傳感器的有效補充,可以用于及時定位交通擁堵.Zeng等[13]指出社交媒體信息可以提供交通預警信號與路況信息預報.Wanichayapong等[14]開發了一個基于Twitter數據的交通信息采集與歸類系統.Endarnoto等[15]開發了一個Twitter交通信息采集系統,并設計了一款安卓手機軟件用于顯示交通信息.Balagapo等[16]開發了一款安卓手機軟件,采用信息眾包的方式采集使用者記錄,分享公共交通出行數據.D′Andrea等[17]開發了一個基于Twitter信息流的交通信息實時監測系統,該系統可以在新聞網站發布相同資訊之前監測到相關的交通信息.張恒才等[18]提出了一種從微博消息中快速獲取和融合交通信息的技術方法,他們首先對獲取的微博進行分詞和路網匹配,然后用模糊C聚類方法對微博進行定量化結果分析,從而獲取各個路段置信度最高的交通狀態描述.張恒才等[19]還提出了一種基于D-S證據理論的微博交通信息獲取方法,構建了微博文本中交通狀態信息的評價體系,作者定義了微博消息源的基本概率分布函數,通過證據合成與證據決策,實現微博消息中實時交通信息的甄別與融合.崔健等[20]開發出一套基于微博的節假日突發交通事件感知與分析系統,旨在分析節假日交通狀況,評估個體出行者的情感狀態等.熊佳茜[21]運用條件隨機場模型對微博進行時間與地點詞語的識別,用于感知交通事件.Hasan等[22]利用社交媒體數據分析出行者活動模式.Gkiotsalitis等利用社交媒體數據分析用戶參加各類活動的出行意愿[23],并針對休閑活動的出行隨機特性進行分析[24].Gu等[25]開發了一套基于社交媒體的交通事件探測系統,并在兩個城市得到應用.Ku flik等[26]提出了一個從社交媒體信息中抽取交通相關信息的框架.Rashidi等[27]探討了社交媒體數據在挖掘人類出行行為方面的機遇與挑戰.Cottrill等[28]討論了社交媒體信息在大型事件發生時的交通信息傳播策略.Xiong等[29]提出了一個基于信息–物理–社會系統的智能交通系統框架,文中詳細介紹了社會交通系統的運行機制.
車輛GPS軌跡數據、磁感線圈數據、視頻監控數據等由物理空間的傳感器采集,具有量化、精確、客觀的特點.蘊涵交通信息的微博文本由社交媒體采集,雖然在描述上存在一定模糊性、主觀性,但包含了人類的分析、推理和智慧.物理空間與社會空間交通數據在交通分析、預測與應用中具有各自的優勢.目前物理空間交通數據的采集、處理方法比較成熟完善,但社會空間交通數據方面的研究還較少,尚缺乏系統性好、應用性強的社交媒體交通感知系統.
本文的結構組織如下:第1節總述本文所構建系統的構架與要解決的重難點;第2節闡述數據來源與數據處理;第3節和第4節闡述兩個難點的解決方案;第5節展示數據可視化;第6節討論系統特色;第7節是結論及下一步工作.
基于社交媒體大數據的交通感知分析系統由以下幾個模塊組成:1)微博數據采集與預處理模塊;2)微博分類模塊;3)微博命名實體識別模塊;4)交通事件歸類與可視化模塊.系統構架圖如圖1所示.

圖1 系統構架圖Fig.1 Architecture of the system
建立基于社交媒體大數據的交通感知分析系統需解決的難點如下:
1)微博內容語義消歧與交通話題篩選.中文具有一詞多義的特點,帶有關鍵詞的微博可能與交通無關,且與交通相關的微博也不一定帶有實際的交通信息,如何進行語義消歧和交通話題篩選,減少對無效微博的后續處理,提高系統效率,是本論文解決的第一個難點.
2)微博數據中交通信息的有效識別與提取.微博中包含的交通事件發生地點往往比普通的地點實體更復雜,如何準確界定微博中的交通相關信息,并選擇相應的算法提取這些信息是本論文解決的第二個難點.
針對上述研究重點與難點問題,我們使用數據挖掘、機器學習、自然語言處理的方法對社交媒體數據進行了大量的實驗與測試,最終選擇出可靠有效、性能優良的方法,建立了一個基于社交媒體大數據的交通感知分析系統.該系統體現了“社會交通”的信息眾包機制[30?31],發揮了群體智慧的優勢,在突發事件的檢測,交通事件的原因分析、規模判斷,輿情采集等方面是現有交通檢測方式的有力補充,并且為未來“社會交通”研究提供基礎數據與分析平臺.
首先運行網絡爬蟲,通過設置好的關鍵詞(表1)隨機收集4萬條相關的原始微博數據.

表1 關鍵詞表Table 1 Keywords list
原始微博數據的每一條信息包含:微博發布時間、官方標記(是否源于認證的官方微博)、微博正文、微博定位地點.原始微博正文中可能含有一些特定符號,包括表情符號、話題標簽(##)、鏈接、轉義字符、用戶引用(@符號)以及多余的空格等,這些內容沒有實際含義與信息,剔除后不影響全文語義表達.
文中使用Python的正則表達式模塊對這些符號匹配剔除.同時,為了減小微博不準確信息和不真實信息經大量轉發后的擴散影響,在抓取微博時僅對原創微博進行抓取,不使用轉發微博.數據預處理后,得到了標準化的微博數據,如表2所示.
本文采用機器學習的方法進行微博分類,解決微博內容語義消歧與交通話題篩選問題.首先,制定了有效微博交通信息的評判標準,并以此為依據劃分微博信息,構建訓練集;其次,利用不同的文本分類算法進行測試;最后,綜合考慮各種因素選出最適合本系統的分類算法.
根據微博內容是否與交通信息有關進行評判,本文將抽取到的微博分為有效微博與無效微博,其定義如下:
定義1.有效微博
有效微博包含表1關鍵詞,所討論的話題屬于交通話題,且描述實際交通情況.例如:
“大鵬片區南西路沙坑農莊路段發生小車追尾事故,民警正在現場處理事故,疏導交通.”
定義2.無效微博
無效微博包含表1關鍵詞,但其描述的話題與交通無關,或者其雖然屬于交通話題,但并不描述實際交通情況.例如:
“黃山再美都被人擠人的人群給淹沒了還好下山不堵.”
“交通管理部門要求:1.小汽車的司機和前排乘客必須系好安全帶—這樣可以防止慣性的危害;2.嚴禁車輛超載—不僅僅減小車輛對路面的破壞,還有減小摩擦、慣性等;3.嚴禁車輛超速—防止急剎車時,因反應距離和制動距離過長而造成車禍”.
本文通過人工瀏覽標準化微博數據庫中的4萬條微博,從中人工分類出5000條有效微博與5000條無效微博,去除停止詞后,分別存入兩個文檔中,其分類標簽分別為1和0.
在微博分類之前,需要將文本向量化,本文所構建的文本分類器使用隱性語義分析(Latent semantic analysis,LSA)進行向量化,流程如圖2所示.

表2 標準化微博數據Table 2 Standardized Weibo data

圖2 文本向量化流程圖Fig.2 Flowchart of document vectorization
本文使用LTP[32]提供的中文停止詞表去除微博正文中的停止詞,使用Gensim[33]工具包進行微博正文的向量化.
文本分類算法則主要基于樸素貝葉斯(Naive Bayes,NB)、k最近鄰(k-nearest neighbor,KNN)、支持向量機(Support vector machine,SVM)、決策樹(Decision tree,DT)等算法.Scikit-learn[34]是Python中的一個機器學習包,提供了多種分類器算法.其中,SVM形參kernel的值代表其分類時所采用的核函數,本測試取linear、rbf、sigmoid、poly四種核函數;KNN方法中,k表示分類決策時選取的最相似數據的個數,測試選取1NN、3NN、5NN;NB方法中,可以選擇不同的模型訓練,本文選取高斯模型(Gaussian NB)和多項式模型(Multinomial NB);DT方法中,形參criterion表示構造決策樹時節點測試屬性選取的標準,測試選取信息熵(Entropy)和基尼不純度(Gini).
研究中使用第3.2節中得到的微博分類訓練集訓練分類模型.在訓練分類模型時,采用十折交叉驗證法,對十次訓練得到的模型評估參數取平均值作為最終評估模型的參數.
文中選擇MUC會議制定的評估體系.其評價模型性能的指標有準確率(Precision)、召回率(Recall)和F-score.其中,準確率是預測結果為有效微博中預測正確的比例,召回率是預測結果為有效微博中預測正確的數量占全部人工標注的有效微博數量的比例,F-score的計算公式如下:

其中,λ是召回率相對于準確率的權重,當λ取值小于1時,結果偏向準確率;大于1時,結果偏向召回率.在本次分類中,準確率和召回率同等重要,λ取值為1.
在利用訓練集對所有算法進行測試之后,測試結果如表3所示.

表3 不同分類算法的測試結果Table 3 Test results of different algorithms
由表3結果可以看出,SVM 算法總體表現優異,采用的各種核函數中,線性核表現最優,表明文本向量化得到的數據是線性可分的;KNN算法整體的表現不佳,這與KNN算法的歸納偏置密切相關:一個新數據的分類標簽總是與其在歐氏空間中若干個臨近數據的多數標簽相同.在算法應用的過程中,數據間的距離是根據數據的所有屬性計算的,近鄰間的距離往往會被大量的不相關屬性所主導,從而降低KNN算法的分類性能.對比不同k值的KNN算法可以看出,當k增大時,分類性能有所提升,說明在一定范圍內k值增大能夠更好地排除錯誤數據與噪聲的影響,提高分類性能;樸素貝葉斯分類器采用不同的模型時,分類性能差異較大.高斯分布的樸素貝葉斯分類器的性能明顯低于多項式分布的樸素貝葉斯分類器.其原因在于,Gaussian NB假定訓練集中的各樣本特征值服從高斯分布,而這一假定并不一定符合微博語料的實際情況.Multinomial NB以文檔中的單詞作為特征,對應的特征值是單詞在文檔中出現的次數,是典型的詞袋模型,適用于文本分類;決策樹算法在測試中表現較差.構造決策樹時節點測試屬性選取標準的不同,并不會對最終的分類性能產生明顯的影響.
綜上,在本系統中選擇性能最優的SVM 算法進行微博分類,為解決有效、無效微博分類提供了一個可行的方案,解決了第1節所述難點1.
本文同樣采用機器學習的方法進行微博命名實體識別,解決微博內容中交通信息的有效識別與提取問題.首先,我們對微博蘊含交通信息的實體名詞進行定義;其次,我們討論了不同實體名詞標注方案的優劣,建立了微博交通信息實體的界定方法;最后,我們討論并確定了最適合本系統的實體識別算法.
在對微博分類后,我們使用命名實體識別(Named entity recognition,NER)對有效標準微博數據進行時間實體和地點實體的識別(如圖3所示).

圖3 時間實體與地點實體示例Fig.3 An example of time entity and location entity
最常見的兩種命名實體識別方法為基于語法規則的方法和基于機器學習的方法.前者在所制定的規則適應于相對應文本情景的情況下具有良好的表現,但在面對陌生隨機文本時表現不佳[35].后者的優點在于它可以利用標記文本反復訓練,適應性強,維護成本遠小于基于語法規則的方法[36].基于機器學習的方法又分為有監督、半監督和無監督方法.由于后者無需太多的語言學知識,且有監督的機器學習方法只需通過訓練模板設定待考察的特征,并用算法對人工標注真值的訓練集進行訓練,便可得出相應的模型文件用于實體識別,簡單易用,對隨機文本適應性強.所以,文中選擇基于有監督的機器學習算法完成微博命名實體識別的工作.
由于命名實體識別需要基于詞序列進行建模,文中使用LTP[32]分詞工具將每一條微博文本切分為詞序列并標注詞性后進行序列標注,如表4所示.
文中選取分類階段中篩選出的5000條未過濾停止詞的有效微博進行分詞序列化處理及詞性標注,并采用文獻[21]提出的方法進行人工命名實體標注,作為訓練真值.標注規則與示例如表5所示.

表4 微博的詞序列示例Table 4 An example of a sequence of Weibo word
在標注命名實體的過程中,我們發現,較長的交通地點實體常常占據5~7個窗口,且由多個短地點實體組成,導致不同的人對同一個地點實體的標注會有不同的結果(如圖4(a)和4(b)所示).

圖4 命名實體標注示例Fig.4 Examples of NER labels
從圖4可以看出,“G30連霍高速寶天段觀音山隧道”描述的是一個具體交通事件發生的位置,在這個位置中包含了多個可以作為命名實體的地點,例如“連霍高速”、“觀音山隧道”.
從詞義角度分析,描述一個交通事件發生地點通常是由高級地名向低級地名遞減.示例二將這種地理描述完整的標記出來,作為一個地點實體.而示例一則將一個地理描述中的多個地名作為單獨的地點實體.
從應用角度分析,如果利用示例一的標注方法,多個地點實體之間的從屬性較難判斷,造成定位困難.而示例二則避免了這個問題,降低了定位難度.

表5 命名實體標注方案Table 5 Method of NER labelling
綜上,文中采用示例二所示的標注方法對微博命名實體訓練集進行標注,該方法為:在連續的地理位置描述中,以兩個相同等級的地名為地點實體分隔點,每個地點實體由最高等級地名開始至最低等級地名結束.例如“G30連霍高速寶天段觀音山隧道”這一描述中,“G30”是“連霍高速”的代號,故二者屬于平行關系,我們將“G30”作為單獨的地點實體.“連霍高速”和“觀音山隧道”分別是該描述中最高級和最低級的地名,故我們將“連霍高速寶天段觀音山隧道”標注為一個地點實體.“附近”一詞不具有定位意義,不作標注.該方法能夠清晰地標定微博文本中的交通地點實體,減少判定尺度不一致帶來的誤差,為解決微博交通信息提取提供了可行方案,解決了第1節所述難點2.
文獻[37]指出,較常用的用于命名實體識別的序列標注算法有:最大熵馬爾科夫模型(Maximumentropy markov model,MEMM)、隱性馬爾科夫模型(Hidden markov model,HMM)、條件隨機場模型(Conditional random field,CRF)以及支持向量機模型(Support vector machine,SVM).對于序列標注問題,隱性馬爾科夫模型的識別速度快[38],但對觀察序列的多個非獨立特征建模存在困難[39].支持向量機模型則需要進行兩步操作,先對各行獨立分配標簽,再進行調整,這種方式忽略了狀態轉移和觀察之間的緊密關系[39].最大熵馬爾科夫模型雖然克服了HMM模型輸出獨立性假設的缺點,但只在局部統計歸一化概率,且會產生標注偏置的問題.條件隨機場模型汲取了HMM 和SVM的優點,特征設計靈活,可以容納任意的上下文信息,被廣泛運用于諸如命名實體識別等多種自然語言處理任務中[39].而CRF與MEMM相比,CRF模型計算的是全局最優輸出節點的條件概率,也克服了標注偏置的問題.雖然CRF復雜度高,訓練代價大,但在使用時速度滿足本系統的使用要求.所以,我們擬運用CRF++[40]工具包對CRF[41]算法的性能進行測試.
在測試CRF算法時,為了得到最準確的模板,我們采用了6套適合我們數據結構的模板進行實驗,以期得到一個準確率和召回率最高的模板.在此過程中,同樣采用第3.3節中使用的評價體系.模板的設定方式和性能如表6所示,表中用a代表分詞結果,b代表詞性.

表6 CRF不同模板的設置方案與測試結果Table 6 Settings of different CRF templates and test results
根據測試結果,方案三的F1值最高,在準確率和召回率上都有良好的表現,故本文采用方案三作為訓練模板.
系統運用訓練好的CRF模型對詞序列進行標注,逐行遍歷標注結果并提取出相關的詞語并將其組合起來,如圖5所示.
系統通過標簽尾部的Ns和Nm標識判斷該詞是一個交通地點實體,還是一個交通時間實體的組成部分,再通過標簽前部的B、I、E、S標識判斷該詞屬于該實體的哪一部分.若是S標簽,該詞即為一個完整的實體;若是B標簽,則讀取至下一個E標簽處,將這兩個標簽之間對應的詞組合起來作為一個實體.
在獲取了微博中的交通時間實體和交通地點實體后,我們不能直接將其作為交通事件的發生時間和地點.因為我們在采集微博時獲得了微博的發布時間,所以我們通過系統將交通時間實體數字化后,選取兩個時間中較早的時間作為事件發生時間.同時,在微博定位地點不缺省時,文中優先選擇微博定位地點作為事件發生地點.最后,使用百度地址解析API[42]將其轉化為GPS坐標供可視化模塊調用.

圖5 微博命名實體標注結果Fig.5 Weibo NER labelling results
在這個部分我們用關鍵詞對采集的微博交通事件作簡要歸類,實現可視化模塊中信息分類瀏覽的功能.交通事件類別如表7所示.
我們人工將第3節中的有效微博歸為表7所示6類,統計每一類中出現頻率最高的詞,從高頻率詞表中選取具有代表性的且與交通相關的詞語作為該類別對應的關鍵詞庫.在進行微博事件歸類的過程中,我們用每一個關鍵詞庫中的詞語對微博進行匹配,若微博中含有該詞語,則我們將該微博貼上相應類別標簽.例如涉及車輛相撞等事故的的微博中,可能出現”撞”、”追尾”、”剮蹭”等詞語,我們將這些詞語作為車輛相撞類別的關鍵詞庫.由于交通事件之間常具有一些因果關聯,如事故可能導致路段擁堵,所以每一條微博可能同時具有多個類別標簽.值得注意的是,由于本環節處理的微博已是有效微博,所以不需考慮一詞多義等問題.

表7 交通事件歸類Table 7 Classi fication of traffic events
本系統的可視化模塊桌面端基于Web平臺構建,采用PHP語言編寫.可視化模塊移動端基于安卓平臺構建,采用Java語言編寫.系統對獲取到的原始微博信息進行處理后,獲得了交通事件發生的時間、地理坐標以及事件類型等信息,可視化模塊讀取上述格式的數據后,根據不同的事件類型用不同顏色的圖標在地圖上進行可視化標記,點擊該圖標,會彈出具體的事件信息.對于含有多個類別標簽的數據,我們以封路、施工、車輛相撞、路況擁堵、路況正常、其他的優先級順序顯示標記的顏色.(如圖6(a)和圖6(b)所示).

圖6 可視化模塊Fig.6 Visualization module
由于實時數據量巨大,系統在實際運用中采取少量高頻采集、采集與處理同時進行的方式采集和處理數據,以保證系統的實時性與高效性.
在進行性能與可靠性測試期間,系統于2016年4月2日下午全程跟蹤監測到了滬蓉高速常州段兩輛大貨車相撞翻車,事故發生后幾分鐘內,車輛連續追尾,造成重大交通事故.
根據央視等官方權威媒體事后的報道,該事件發生于4月2日下午13時20分左右,最終導致約56輛汽車追尾,本系統于事故發生前就監測到多條微博信息反應該路段擁堵,而在事故發生14分鐘之后,本系統即監測到該路段交通中斷,而事故發生35分鐘之后,系統即報告了該事故的嚴重程度.圖7顯示的是13:55分系統在該路段監測到的數據量.

圖7 13:55系統在相關路段的監測截圖Fig.7 A system screenshot at 13:55
官方新聞最早播報這起事故是中國廣播網于15:00發出了一條新聞,這比本系統首次監測到該路段交通中斷延遲了1小時26分鐘.分析其原因在于,本系統利用信息眾包的思想,信息來源更加廣泛,而傳統的新聞媒體由于其工作性質,需要對信息反復溝通確認后才會發布信息,這使得社交媒體在突發情況的信息傳播方面通常比傳統媒體更加快速,也更能反映普通民眾針對該事件的輿情導向.除此之外,相較于車輛GPS軌跡、感應線圈、微波等常用的交通檢測手段,社交媒體數據中蘊含著因果關聯與對事件的文字描述,能夠直接反應出事件的原因、規模、影響程度等信息,與視頻監控等方式相比又具有成本低廉的特點,是一種行之有效的交通檢測輔助手段.
當然,社交媒體數據也有不足之處.首先,社交媒體數據的置信度有待進一步考量.雖然我們在采集信息時已排除轉發信息的影響,但系統采集到的信息中仍含有部分不準確的信息,這一定程度上是人們在主觀上對同一事件的不同程度的判斷所導致的.如圖8所示數據,系統在采集信息的過程中也采集到一些過分夸張的信息,這些信息并不是真實的,圖中微博顯示該路段有百車相撞,但實際上這只是微博用戶對于現場情況的夸大估計.此外,在少數情況下,微博中也存在部分虛假信息.

圖8 偏差數據示例Fig.8 An example of bias
其次,社交媒體數據具有一定的地理模糊性.我們從社交媒體數據中獲得的地理位置信息來源于原文或發布者的地理定位,部分位置信息在進行地理坐標解析時,難以在地圖上找到準確的位置,仍需進一步研究解決.
本文開發了一個基于社交媒體大數據的交通感知分析系統.該系統能夠自動采集、分類、提取微博中的有效交通信息并在地圖上進行可視化標注.系統充分利用了社交媒體上人們對于交通事件的最新信息分享、原因分析和程度描述,相比與傳統交通檢測設備所采集的數據,本系統所采用的數據包含了更多角度的信息,且空間分布不受限制,不需要布設、維護地面傳感設備,具有明顯的經濟優勢,可以為交通數據的采集提供有力支持.
我們將當前最有效的軟件工具和自然語言處理技術引入到社會交通領域,并對比、分析了多種算法在微博交通信息處理方面的技術性能,將其中表現最優異的算法整合到整個系統中.
隨著社交媒體交通信息數據庫的逐步完善,數據的實時性、準確性逐步提升,數據量不斷擴大,可以為從事社會交通研究的學者提供必要的數據資源和可視化平臺.
本文工作也存在一些值得進一步研究的問題.由于社交媒體數據中人們對于同一個交通事件的描述是不同的,其中也可能包含有一些不真實的信息,如何將這些類似的信息融合,是我們今后需要繼續研究的問題.此外,社交媒體交通數據與傳統交通數據的交叉驗證與多元信息融合也可能成為剔除不真實社交媒體數據的重要手段,值得進一步研究與探索.
References
1 Weng Jian-Cheng,Rong Jian,Yu Quan,Ren Fu-Tian.Optimization on estimation algorithms of travel speed based on the real-time floating car data.Journal of Beijing University of Technology,2007,33(5):459?464(翁劍成,榮建,于泉,任福田.基于浮動車數據的行程速度估計算法及優化.北京工業大學學報,2007,33(5):459?464)
2 Dong Jun-Yu.Study on Link Speed Estimation in Urban Arteries Based on GPS Equipped Floating Vehicle[Master thesis],Chongqing University,China,2006.(董均宇.基于GPS浮動車的城市路段平均速度估計技術研究[碩士學位論文],重慶大學,中國,2006.)
3 Tao Han-Qing,Li Wen-Yong.Acquisition of turning vehicles information based on induction loop detector.Journal of Guilin University of Electronic Technology,2008,28(5):387?391(陶漢卿,李文勇.基于感應線圈車輛檢測器的車輛轉彎信息獲取.桂林電子科技大學學報,2008,28(5):387?391)
4 Zhang Z,Yao D Y,Zhang Y,Hu J M.Mixed urban traffic data collection and processing with advanced information technologies.In:Proceedings of the 3rd China Annual Conference on ITS.Nanjing,China:Southeast University Press,2007.474?479
5 Wang Chuan-Tong.Study on Video-based Traffic Congestion Identi fication Technology of City Road[Master thesis],Chongqing University,China,2010.(王川童.基于視頻處理的城市道路交通擁堵判別技術研究[碩士學位論文],重慶大學,中國,2010.)
6 Li R M,Jiang C Y,Zhu F H,Chen X L.Traffic flow data forecasting based on interval type-2 fuzzy sets theory.IEEE/CAA Journal of Automatica Sinica,2016,3(2):141?148)
7 Shang J B,Zheng Y,Tong W Z,Chang E,Yu Y.Inferring gas consumption and pollution emission of vehicles throughout a city.In:Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York,USA:ACM,2014.1027?1036
8 Lu Feng,Zheng Nian-Bo,Duan Ying-Ying,Zhang Jian-Qin.Travel information services:state of the art and discussion on crucial technologies.Journal of Image and Graphics,2009,14(7):1219?1229(陸鋒,鄭年波,段瀅瀅,張健欽.出行信息服務關鍵技術研究進展與問題探討.中國圖像圖形學報,2009,14(7):1219?1229)
9 Zhang J P,Wang F Y,Wang K F,Lin W H,Xu X,Chen C.Data-driven intelligent transportation systems:a survey.IEEE Transactions on Intelligent Transportation Systems,2011,12(4):1624?1639
10 Wang F Y,Zhang J J,Zheng X H,Wang X,Yuan Y,Dai X X,Zhang J,Yang L Q.Where does AlphaGo go:from church-turing thesis to AlphaGo thesis and beyond.IEEE/CAA Journal of Automatica Sinica,2016,3(2):113?120
11 Wang F Y.Scanning the issue and beyond:crowdsourcing for field transportation studies and services.IEEE Transactions on Intelligent Transportation Systems,2015,16(1):1?8
12 Qiao F X,Zhu Q,Yu L.Social media applications to publish dynamic transportation information on campus.In:Proceedings of the 11th International Conference of Chinese Transportation Professionals.Nanjing,China:Southeast University Press,2011.4318?4329
13 Zeng K,Liu W L,Wang X,Chen S H.Traffic congestion and social media in China.IEEE Intelligent Systems,2013,28(1):72?77
14 Wanichayapong N,Pruthipunyaskul W,Pattara-Atikom W,Chaovalit P.Social-based traffic information extraction and classi fication.In:Proceedings of the 11th International Conference on ITS Telecommunications.St.Petersburg,Russia:IEEE,2011.107?112
15 Endarnoto S K,Pradipta S,Nugroho A S,Purnama J.Traffic condition information extraction&visualization from social media Twitter for Android mobile application.In:Proceedings of the 2011 International Conference on Electrical Engineering and Informatics.Bandung,Indonesia:IEEE,2011.1?4
16 Balagapo J,Sabidong J,Caro J.Data crowdsourcing and traffic sensitive routing for a mixed mode public transit system.In:Proceedings of the 5th International Conference on Information,Intelligence,Systems and Applications.Chania,Crete,Greece:IEEE,2014.1?6
17 D’Andrea E,Ducange P,Lazzerini B,Marcelloni F.Realtime detection of traffic from twitter stream analysis.IEEE Transactions on Intelligent Transportation Systems,2015,16(4):2269?2283
18 Zhang Heng-Cai,Lu Feng,Chen Jie.Extracting traffic information from massive micro-blog messages.Journal of Image and Graphics,2013,18(1):123?129(張恒才,陸鋒,陳潔.微博客蘊含交通信息的提取.中國圖象圖形學報,2013,18(1):123?129)
19 Zhang Heng-Cai,Lu Feng,Qiu Pei-Yuan.Extracting traffic information from micro-blog based on D-S evidence theory.Journal of Chinese Information Processing,2015,29(2):170?178(張恒才,陸鋒,仇培元.基于D-S證據理論的微博客蘊含交通信息提取方法.中文信息學報,2015,29(2):170?178)
20 Cui Jian,Feng Xuan,Zhang Zuo.Extraction and analysis system of traffic incident based on microblog.Journal of Transport Information and Safety,2013,31(6):132?135(崔健,馮璇,張佐.基于微博的交通事件提取與文本分析系統.交通信息與安全,2013,31(6):132?135)
21 Xiong Jia-Xi.Civil Transportation Event Extraction from Chinese Microblogs Based on CRF[Master thesis],Shanghai Jiao Tong University,China,2014.(熊佳茜.基于CRF的中文微博交通信息事件抽取[碩士學位論文],上海交通大學,中國,2014.)
22 Hasan S,Ukkusuri S V.Urban activity pattern classi fication using topic models from online geo-location data.Transportation Research Part C:Emerging Technologies,2014,44:363?381
23 Gkiotsalitis K,Stathopoulos A.A utility-maximization model for retrieving users0willingness to travel for participating in activities from big-data.Transportation Research Part C:Emerging Technologies,2015,58:265?277
24 Gkiotsalitis K,Stathopoulos A.Joint leisure travel optimization with user-generated data via perceived utility maximization.Transportation Research Part C:Emerging Technologies,2016,68:532?548
25 Gu Y M,Qian Z,Chen F.From Twitter to detector:real-time traffic incident detection using social media data.Transportation Research Part C:Emerging Technologies,2016,67:321?342
26 Ku flik T,Minkov E,Nocera S,Grant-Muller S,Gal-Tzur A,Shoor I.Automating a framework to extract and analyse transport related social media content:the potential and the challenges.Transportation Research Part C:Emerging Technologies,2017,77:275?291
27 Rashidi T H,Abbasi A,Maghrebi M,Hasan S,Waller T S.Exploring the capacity of social media data for modelling travel behaviour:opportunities and challenges.Transportation Research Part C:Emerging Technologies,2017,75:197?211
28 Cottrill C,Gault P,Yeboah G,Nelson J D,Anable J,Budd T.Tweeting Transit:an examination of social media strategies for transport information management during a large event.Transportation Research Part C:Emerging Technologies,2017,77:421?432
29 Xiong G,Zhu F H,Liu X W,Dong X S,Huang W L,Chen S H,Zhao K.Cyber-physical-social system in intelligent transportation.IEEE/CAA Journal of Automatica Sinica,2015,2(3):320?333
30 Wang F Y.Scanning the issue and beyond:real-time social transportation with online social signals.IEEE Transactions on Intelligent Transportation Systems,2014,15(3):909?914
31 Wang X,Zheng X H,Zhang Q P,Wang T,Shen D Y.Crowdsourcing in ITS:the state of the work and the networking.IEEE Transactions on Intelligent Transportation Systems,2016,17(6):1596?1605
32 HIT-SCIR.LTP[Online],available:http://ltp.readthedocs.io/zh_CN/latest/,July 12,2016.
33huek R,Sojka P.Software framework for topic modelling with large corpora.In:Proceedings of LREC 2010 Workshop New Challenges for NLP Frameworks.Valletta,Malta:University of Malta,2010.45?50
34 Pedregosa F,Varoquaux G,Gramfort A,Michel V,Thirion B,Grisel O,Blondel M,Prettenhofer P,Weiss R,Dubourg V,Vanderplas J,Passos A,Cournapeau D,Brucher M,Perrot M,Duchesnay E.Scikit-learn:machine learning in Python.The Journal of Machine Learning Research,2011,12:2825?2830
35 Pan S J,Toh Z Q,Su J.Transfer joint embedding for crossdomain named entity recognition.ACM Transactions on Information Systems,2013,31(2):Article No.7
36 Zhou G D,Su J.Named entity recognition using an HMM-based chunk tagger.In: Proceedings of the 40th Annual Meeting on Association for Computational Linguistics.Philadelphia,Pennsylvania,USA:Association for Computational Linguistics,2002.473?480
37 Morwal S,Jahan N,Chopra D.Named entity recognition using hidden Markov model(HMM).International Journal on Natural Language Computing,2012,1(4):15?23
38 Wang Dan,Fan Xing-Hua.Named entity recognition for short text.Journal of Computer Applications,2009,29(1):143?145(王丹,樊興華.面向短文本的命名實體識別.計算機應用,2009,29(1):143?145)
39 Peng F C,McCallum A.Information extraction from research papers using conditional random fields.Information Processing&Management,2006,42(4):963?79
40 Taku-ku.CRF++[Online],available:http://sourceforge.net/projects/crfpp/ files/,July 12,2016.
41 Lafferty J D,McCallum A,Pereira F C N.Conditional random fields:probabilistic models for segmenting and labeling sequence data.In:Proceedings of the Eighteenth International Conference on Machine Learning.San Francisco,CA,USA:Morgan Kaufmann Publishers Inc,2001.282?289
42 Baidu.Baidu map API[Online],available:http://lbsyun.baidu.com,October 12,2016.