999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于網絡搜索量的世園會客流量預測

2013-04-29 00:44:03姜東民崔麗敏管田超
中國管理信息化 2013年8期

姜東民 崔麗敏 管田超

[摘要]信息技術的飛速發展,網絡已經深入到人們生活中的每個角落,各大搜索引擎記錄了數以億計的搜索關注和需求,隱含了大量的有價值的信息和數據。本文以世園會為例,充分挖掘網絡搜索數據,揭示了網絡搜索和世園會客流量之間存在的關系。以西安世園會為實例,建立回歸模型,運用Eviews軟件檢驗網絡搜索數據和世園會客流量之間的相關性、協整性、因果關系等,驗證模型的可用性,并用之進行青島世園會客流量的預測。

[關鍵詞]預測;網絡搜索量;客流量;世園會;回歸模型

doi:10.3969/j.issn.1673-0194.2013.08.023

[中圖分類號]F201[文獻標識碼]A[文章編號]1673-0194(2013)08-0044-04

0 引 言

世園會是建設國際化大都市的重要突破口,展示了國家經濟、科學技術、農業園林藝術等方面的成就。世園會是世界各國展示花卉園林園藝精品、開展科技文化交流的盛會,也是各國人民相聚、相知、相互交流、增進友誼的平臺。同時,我們也力求以世園會為契機,傳遞好中國政府推進科學發展、建設生態文明的執政理念,充分展示我國加強生態建設、再造秀美山川的巨大成就。對世園會客流量的準確預測有助于更好地為盛會召開做好準備服務實現此次盛會的價值,促進我國社會、經濟、文化等各方面的全面發展。

對于客流量的預測,許多學者都提出了自己的模型,預測方法已有300多種,歸納起來大致分為定性預測和定量預測2類。常用的定性預測方法有頭腦風暴法、專家調查法、主觀概率法、相互影響分析法等;定量預測方法有指數平滑法、回歸分析法、馬爾可夫分析法、客流調查法、灰色系統法、神經網絡法等。當然有時也會把多種方法結合起來運用以提高擬合度和準確度。然而,這些傳統的預測方法需要依托于傳統的數據,這些數據是由官方統計、定期發布的,雖然具有很高的可信度和一定的權威性,但是時效性差、難以查詢、獲取的成本太高。因此,本文采用了一種新的方法來獲取數據:網絡數據,同時運用最基本的方法進行分析,建立新的預測模型。

1 數據處理

隨著信息技術的發展,互聯網已經深入到人們的生活中,成為必不可少的一部分。人們早已習慣了出行或者購物之前上網查詢相關的信息,這些查詢信息所用的關鍵詞可以被搜索引擎記錄下來,并形成了系統的數據,為各個方面的應用提供數據支持。

1.1 網絡數據的獲取及關鍵詞的選擇

1.1.1 網絡數據的獲取方法

目前提供這種關鍵詞搜索指數的主要有百度和谷歌,即百度指數(http://index.baidu.com)和谷歌趨勢(http://www.google.com/trends/)。百度指數是用以反映關鍵詞在過去30天內的網絡曝光率及用戶關注度,它能形象地反映該關鍵詞每天的變化趨勢。谷歌趨勢(又名:Google Trends )有2個功能:①查看關鍵詞在Google的搜索次數及變化趨勢,②查看網站流量(Google trends for websites)。

1.1.2 關鍵詞的選取

對于關鍵詞的選取,搜索引擎優化(SEO)會提供關鍵詞優化工具得到相關聯的關鍵詞,另外還有一些是專門的關鍵詞挖掘工具,比如百度推廣、谷歌關鍵詞工具(Google AdWords)、站長工具(http://www.7c.com/keyword/)、愛站網(http://www.aizhan.com/)。本文采用一種動態選擇的方法:先根據經驗找到一些基準關鍵詞,然后運用上述工具找到相關聯的關鍵詞,去掉搜索量少的;以上一步剩余的關鍵詞為基準關鍵詞,用相關工具找到關聯關鍵詞,并進行篩選,如此進行循環,直到相關聯的關鍵詞出現大量重復。

1.2 網絡數據的處理方法

互聯網提供海量的數據,從這些數據中找到有用的信息需要經過數據挖掘和處理。本文運用最簡單的數學模型得出良好的效果。本文需要進行協整性檢驗、因果關系檢驗,所以選擇計量經濟學觀察(Eviews)來分析處理關鍵詞的搜索量指數。

1.2.1 Eviews簡介

Eviews是Econometrics Views的縮寫,主要應用在經濟學領域,可用于回歸分析與預測(regression and forecasting)、時間序列(Time series)以及橫截面數據(cross-sectional data )分析。EViews提供單元根檢驗(用于單個序列的ADF,Phillips-Perron,KPSS,DFGLS,ERS 和 Ng-Perron,及用于面板數據(panel data)的Levin-Lin-Chu,Breitung, Im-Pesaran-Shin,Fisher和 Hadri),協整檢驗(帶有MacKinnon-Haug-Michelis關鍵值和p值),因果關系檢驗,自相關和部分自相關函數,Q統計和互相關函數。與其他統計軟件(如Excel、SAS、SPSS)相比,Eviews功能優勢是回歸分析與預測。

1.2.2 關鍵詞搜索數據處理的具體步驟

1.2.2.1 相關性檢驗

把世園會的客流量叫做因變量,用Y來表示;各個關鍵詞的搜索量叫做自變量,用Xi來表示。變量之間存在的不確定的數量關系稱為相關關系,研究這種相關關系是統計分析中一項重要內容。相關系數是兩個變量之間相關關系密切程度的一個指標,能夠較為客觀、準確地測量變量之間的這種相關關系,在本模型中把相關系數大的關鍵詞列入到模型中。

1.2.2.2 平穩性檢驗

如果一個隨機過程的均值和方差在時間過程上都是常數,并且在任何兩時期的協方差值僅依賴于該兩時期間的距離或滯后,而不依賴于計算這個協方差的實際時間,就稱它為平穩的。將一個隨機游走變量(即非平穩數據)對另一個隨機游走變量進行回歸可能導致荒謬的結果,證明兩者之間的關系是不存在的。

有時候時間序列的高度相關僅僅是因為二者同時隨時間有向上或向下變動的趨勢,并沒有真正的聯系,這種情況就稱為“偽回歸”(Spurious Regression)。

1.2.2.3 建立回歸方程并進行協整性檢驗

有時雖然兩個變量都是隨機游走的,但它們的某個線形組合卻可能是平穩的,稱這兩個變量是協整的。

由于很多時間序列數據都是不平穩的,可能受某些共同因素的影響,從而在時間上表現出共同的趨勢,即變量之間存在一種穩定的關系,因此某種線性組合可能是平穩的,即存在協整關系。

檢驗的方法:對于檢驗時間序列Xi和Y之間是否存在協整關系,首先用OLS建立回歸方程并進行估計。然后,檢驗殘差是否是平穩的,因為如果Xi和Y沒有協整關系,任一線性組合都是非平穩的,殘差也將是非平穩的。

1.2.2.4 模型的預測

進行完一系列的準備工作后,要做的是運用建好的模型進行預測,把預測的客流量和真實的客流量進行分析,比較其誤差,最后進行模型的修正,取得較好的擬合度。

2 實證分析

2.1 數據來源

本文以西安世園會為研究對象,西安世園會是A2+B1級別,2011年4月28日開始到2011年10月22日結束,在開園期間設有專門人員統計每天的客流量發布在官方指定的媒介上,本文以此數據作為回歸模型y=c+■βixi+ei中的因變量y,其中c為常數項,ei為回歸方程的殘差。自變量xi(各個關鍵詞的搜索量)來源于谷歌趨勢,以周為單位進行處理,并與因變量y在時間上一一對應。

2.2 關鍵詞的選取

首先是按照經驗找到一些基準關鍵詞,然后以此為基礎,運用前面介紹的關鍵詞查找工具找到一系列的關鍵詞。比如,有經驗得到的基準關鍵詞為西安,運用愛站網可以得到相關關鍵詞西安天氣、西安公交、西安旅游、西安吧、西安辦證、西安事變、西安地鐵等等。之后用谷歌趨勢找出每個關鍵詞的搜索量指數,去掉因為搜索量太少而無法形成搜索指數的關鍵詞,進行初步的篩選,如表1所示。

關鍵詞確定后畫出各個關鍵詞和客流量之間的關系圖,初步判定關鍵詞和客流量之間的相關關系,去掉相關性差的關鍵詞,關鍵詞和客流量的相關關系圖如圖1所示。

然后用Eviews計算出關鍵詞和客流量之間的相關系數,結果如表2所示。

2.3 關鍵詞序列的平穩性檢驗

為確保各關鍵詞和客流量之間存在著回歸關系,提高模型的準確度,需要對序列進行平穩性檢驗,運用Augmented Dickey-Fuller test(增項DF單位根檢驗)進行檢驗,判斷是否平穩的標準是檢驗統計量大于臨界值則拒絕原假設,即序列式不平穩;反之,序列式平穩。通過平穩性檢驗,得出各關鍵詞組成的時間序列二階差分在各個顯著性水平下都是平穩的,結果如表3所示。

2.4 回歸模型的建立和協整檢驗

根據以上分析,確定出可以用于模型建立的關鍵詞,運用Eviews用最小二乘法建立回歸模型,得出因變量系數、殘差以及殘差和真實數據之間的關系圖,由于自變量較多、各自變量的系數也較大,具體的回歸模型用圖2顯示;圖3為所建模型與世園會真實客流量之間的擬合關系圖。

由上可知,所建模型的擬合度是88%,具有較高的準確度,可以用于預測。

為了使模型更具有說服力,驗證因變量和自變量之間具有長期穩定性,即協整性檢驗,具體方法是檢驗回歸方程的殘差是否平穩序列,如果是平穩序列則說明是具有長期穩定性;反之則沒有,結果如表4所示。

由表4分析可知殘差是平穩序列,所以存在協整關系。

2.5 模型預測

青島世園會與西安世園會的相似之處:

(1)級別都是A2+B1。

(2)在第六次人口普查時,青島常住人口871.51萬,西安常住人口846.78萬,常住人口數量基本持平。

(3)西安的景點共有20處,青島的景點共有16處,在總數上接近。

(4)2011年西安GDP3 864.21億元人民幣 ,常住人口846萬 ,人均GDP:45 676.24元人民幣;青島GDP5 666億元,常住人口872萬,人均GDP:64 977元人民幣。

綜上所述,西安和青島都是旅游城市,人口數量,經濟發展總量基本相當,世園會級別相同。因此,可以把上面建立的模型用于青島世園會的客流量預測。具體的方法是:找到與西安世園會相類似的關鍵詞,比如用青島代替西安、棧橋代替兵馬俑、青島天氣代替西安天氣等,把這些與青島有關的關鍵詞的搜索量作為模型中相對應的自變量的數值,代入模型求值即可得出搜索量一定時青島世園會的客流量。

3 結 論

本文提出了一種基于網絡搜索數據進行青島世園會客流量預測模型,根據西安和青島兩個城市的諸多相似之處,通過使用西安世園會的數據進行實例驗證,把建立好的模型用于青島世園會的預測。該模型采用網絡數據作為分析的依據,避免了傳統數據的弊端,同時使用簡單的回歸模型,避免了灰色理論、神經網絡等方法的繁瑣的計算,取得了較高的擬合度和準確度。另外,該方法具有較高的時效性,能夠更早地被相關的人員利用,提早為各項工作做好準備。

主要參考文獻

[1]J Ginsberg,M H Mohebbi,R S Patel,etc. Detecting Influenza Epidemics Using Search Engine Query Data[J]. Nature,2009,457:1012-1014.

[2]劉穎,呂本富,彭賡.網絡搜索數據對股票市場的預測能力:理論分析與實證檢驗[J].經濟管理,2011(1).

[3]袁慶玉,彭賡,劉穎,等.基于網絡關鍵詞搜索數據的汽車銷售預測研究[J].管理學家:學術版,2011(1).

[4]周子健.基于網絡搜索量的上海世博會國際影響力研究[J].藝海,2011(5).

[5]王小平,孫彩賢.基于多元回歸模型的2010年上海世博會客流量預測分析[J].江漢大學學報,2010(2).

主站蜘蛛池模板: 波多野结衣国产精品| 四虎精品免费久久| 2020国产免费久久精品99| 99热这里只有精品在线观看| 亚洲一区毛片| 国产成人啪视频一区二区三区| 色九九视频| 国产第八页| 免费亚洲成人| 国产国产人成免费视频77777 | 国产91高清视频| 成人国产精品2021| 国产成人精品一区二区三在线观看| 国产精品第一区在线观看| 国产清纯在线一区二区WWW| 97视频精品全国免费观看| 在线视频97| 久久久久无码精品| 天堂在线www网亚洲| 人妻丰满熟妇αv无码| 丁香六月综合网| 香蕉久久国产超碰青草| 18禁高潮出水呻吟娇喘蜜芽| 亚洲人成网站18禁动漫无码| 成人在线不卡视频| 福利在线一区| 日韩成人午夜| 国产一级做美女做受视频| 国产精品香蕉| jizz国产视频| 伊人成人在线视频| 人人91人人澡人人妻人人爽| 国产精品夜夜嗨视频免费视频| 黄色污网站在线观看| 中文字幕 欧美日韩| 国内精自视频品线一二区| 99视频在线免费观看| 88av在线播放| 欧美激情伊人| 片在线无码观看| 国内丰满少妇猛烈精品播| 国产精品视频第一专区| 亚洲永久免费网站| 亚洲精品无码AⅤ片青青在线观看| 国产色婷婷| 1级黄色毛片| 人妻丰满熟妇av五码区| 色婷婷丁香| 日韩欧美色综合| 欧美另类图片视频无弹跳第一页| 四虎综合网| 国产浮力第一页永久地址| 青青青国产视频| 久久女人网| 中文字幕久久亚洲一区| 欧美日韩精品一区二区视频| 超碰色了色| 91国内外精品自在线播放| 午夜日韩久久影院| 中文字幕无线码一区| 狠狠色丁香婷婷| 91香蕉国产亚洲一二三区 | 国产女人18毛片水真多1| 日本午夜三级| 国产真实乱子伦精品视手机观看| av色爱 天堂网| 日本人妻一区二区三区不卡影院| 午夜精品区| 免费一级毛片不卡在线播放| 国产精品视频观看裸模| 欧美三級片黃色三級片黃色1| 日韩免费毛片| 九九久久精品国产av片囯产区| 国产精品无码AV片在线观看播放| 久久国产亚洲欧美日韩精品| 在线观看的黄网| 久久久噜噜噜| 亚洲国产精品无码AV| 国产三级精品三级在线观看| 国产精品第一区| 午夜小视频在线| 国产三级精品三级在线观看|