蔣朝敏,李秋然,葛巖峰,吳宇航
(1. 華北理工大學理學院,河北 唐山 063210;2. 華北理工大學冶金與能源學院,河北 唐山 063210; 3. 華北理工大學材料與工程學院,河北 唐山 063210;4. 華北理工大學數(shù)學建模創(chuàng)新實驗室,河北 唐山 063210; 5 .河北省數(shù)據(jù)科學與應(yīng)用重點實驗室,河北 唐山 063210;6. 唐山市數(shù)據(jù)科學重點實驗室,河北 唐山 063210)
隨著“互聯(lián)網(wǎng)”時代的到來,一些公司推出打車軟件和補貼方案,市民的打車熱情空前高漲,出租車資源“供求匹配”問題成了研究熱點。以上海市為研究對象,運用層次分析、熵值、三次樣條插值等方法,綜合分析影響出租車資源供求匹配程度的相關(guān)指標,構(gòu)建AHP-熵值賦權(quán)模型[1-2],闡述了上海市出租車資源在不同時空的供求匹配程度[2]。針對"打車難"這個社會問題,運用主成分分析的方法選取了合理的指標,建立了供給需求綜合評估模型,并以天津市為例分析了其供求匹配程度[3]。運用層次分析模型對上海市出租車資源配置情況進行研究[4]等。以上研究均為在宏觀上定義指標,對供求匹配進行研究,然而,由數(shù)據(jù)可知,數(shù)量指標在宏觀上總是供大于求的,在此,本文以距離為研究中心,在微觀上對成都的供求匹配程度進行研究。
出租車實時動態(tài)行車數(shù)據(jù)是運用GPS 定位設(shè)備,記錄某一時間某一地點出租車經(jīng)度、緯度、需求量或者供給量[5]。在全國范圍中看來,許多城市都面臨出租車供需矛盾突出問題,以成都為例,研究出租車的“供求匹配”程度。通過查閱資料,找到了成都市2016 年3 月10 日到3 月16 日的成都地區(qū)地區(qū)的出租車數(shù)據(jù)。

表1 出租車實時動態(tài)樣例表 Tab.1 Taxi real-time dynamic sample table
成都市中每個地點分別用不同的序號來表示;以每天24 個小時為節(jié)點,將一天劃分為24 個時間段;每個地點對出租車的供給需求量以出租車的數(shù)量表示。
1.2.1 去除異常值
由于數(shù)據(jù)中的數(shù)據(jù)存在偏離點,會使后期聚類時存在誤差,使用Python 的Sklearn 庫中的K-mean聚類,聚類后的圖像如圖1 所示。

圖1 聚類誤差圖 Fig.1 Clustering error map
在圖1 中可以看出,右下角存在一個偏離點,若將數(shù)據(jù)集聚類的數(shù)量設(shè)為4,實際上只能有效將數(shù)據(jù)聚成3 類,與原意不符。因此,采用拉依達準則中的3σ 準則,使用python 編程,對數(shù)據(jù)整體進行清洗工作。
1.2.2 經(jīng)緯度-距離轉(zhuǎn)換
由于我們所得到的數(shù)據(jù)只是成都市部分地區(qū)的出租車數(shù)據(jù),所以為了更直觀的表達,我們對經(jīng)緯度進行轉(zhuǎn)換,將出租車經(jīng)緯度坐標轉(zhuǎn)換為坐標系坐標。
地球上任意一點地理坐標都可以用有序數(shù)對表示為(u,v),以地心o 為坐標原點,赤道平面為xoy平面,0°經(jīng)線圈所在的平面為xOz 平面建立三維直角坐標系,如下:

其中:u——經(jīng)度;v——表示緯度;R=6370 km—地球半徑。
根據(jù)解析幾何知識,任意兩點A(uA,vA),B(uB,vB)間實際距離為:

將上式經(jīng)緯度轉(zhuǎn)換公式代入,化簡得任意兩點之間的為:

由此則可將我們所得到的經(jīng)緯度坐標數(shù)據(jù)轉(zhuǎn)換為直角坐標系坐標。
1.2.3 獲得實際供給量
由數(shù)據(jù)可知,供給量遠遠大于需求量,這顯然是不合理,考慮到安裝滴滴打車軟件的司機可能是巡游出租車司機或還安裝了其他打車軟件,為了獲得實際供給量,本文搜取了嘀嘀打車在出租車市場的市場占額作為權(quán)重,求得實際供給量。
建立合理的指標,分析不同時空出租車資源的“供求匹配”程度。不同時空即是時間與空間的關(guān)系,所以可將不同時空分為以下四種情況:不同時間相同地點、不同時間不同地點、相同時間不同地點、相同時間相同地點。
在時間節(jié)點上,先以一天為周期,再以一周為周期。在空間節(jié)點上,首先以相同城市不同位置為空間位置,再以不同城市為空間位置。結(jié)合以上判斷出租車的“供求匹配”程度。
首先對數(shù)據(jù)進行統(tǒng)計描述。對于所找到的關(guān)于出租車需求量和供應(yīng)量的數(shù)據(jù)進行總體上的統(tǒng)計,以每天的24 個小時為節(jié)點,統(tǒng)計出每個小時出租車的需求量與供應(yīng)量的大致數(shù)量關(guān)系:
其中:藍色曲線表示出租車供應(yīng)量;紅色曲線表示出租車需求量。
從上圖可以看出:
1)在總體上,出租車的供應(yīng)量大于出租車的需求量;
2)市民對出租車的需求量在每天中的早上8 點、中午1 點、晚上9 點最大;

圖2 研究思路導圖 Fig.2 Research ideas map

圖3 出租車需求量與供應(yīng)量總數(shù)量 Fig.3 Total demand and supply of taxis
3)出租車供應(yīng)量在每天的凌晨五點供應(yīng)率最低,且在出租車需求量最高的時候,供應(yīng)量也相對較高。 再以每周七天為周期,對一個周期內(nèi)每天出租車總的需求量和供應(yīng)量進行統(tǒng)計,如4 圖所示。

圖4 七天出租車總的需求量與供應(yīng)量 Fig.4 Total demand and supply of taxis for seven days
從圖4 可以看出,以一個星期為周,每天出租車總的需求量變化情況相差不大,但由于星期一與星期二為一周工作日的開始,道路擁擠程度較大,市民選擇出租車出行的人數(shù)減少,導致對出租車的需求量降低。而對于出租車的供應(yīng)量,由于出租車一定會有空車率,所以在每天中,出租車的供應(yīng)量都應(yīng)大于需求量,且在圖4 中,工作日出租車的供應(yīng)量遠大于休息日的供應(yīng)量。
再對數(shù)據(jù)以經(jīng)緯度為坐標進行聚類[6],根據(jù)出租車的供應(yīng)量與需求量總數(shù),將該區(qū)域大致分為四部分,如圖5 所示。

圖5 以經(jīng)緯度為坐標對區(qū)域劃分 Fig.5 Is divided into regions by coordinates of latitude and longitude
將聚類結(jié)果投影到地圖上,對地圖按投影結(jié)果按經(jīng)緯度進行劃分,劃分為四個城區(qū),分別與上圖6相互對應(yīng):

圖6 結(jié)合地圖對區(qū)域進行劃分 Fig.6 Combining the area with the map
由上圖6 可以看出,1 號地區(qū)為偏遠地區(qū),該地區(qū)的經(jīng)濟比較落后,所以該地區(qū)出租車的需求量和供應(yīng)量相對最少;3 號地區(qū)為成都市中心城區(qū),經(jīng)濟明顯發(fā)達,該地區(qū)出租車供應(yīng)量和需求量明顯大于其他三個區(qū)域;2、4 號地區(qū)為成都市中心以外較發(fā)達地區(qū),該區(qū)域的人口較密集,所以這兩個地區(qū)出租車供應(yīng)量和需求量較大。

圖7 出租車供求匹配示意圖 Fig.7 Schematic diagram of taxi supply and demand matching
選取城市眾多坐標中的某一地點,以這一地點出租車的供給與市民對出租車的需求情況為例,分析出租車供求匹配程度,畫出出租車的供求匹配,如圖7 所示。
如圖7 所示,以地點A 為例,B、C、D、E 為該區(qū)域中的另外的幾個點。
其中:lAB<lAC<rij,lAB<DB,lAE> rij
同A 地點一樣,對于每個地點的可行域都有如下三種情況:
1. 假如C 地點有乘客發(fā)出訂單,由于C 地點與A 地點司機的距離小于rij,所以A 地點的司機會進行搶單;
2. 假如E 地點有乘客發(fā)出訂單,由于E 地點與A 地點司機的距離大于rij,所以A 地點的司機不會接單;
3. 假如B 地點有乘客發(fā)出訂單,由于B 地點位于多個地點的可行域范圍之內(nèi),所以會有多個司機對該乘客進行搶單
在A 地點中,該地點市民對出租車的需求 aij和出租車的供給ijb 有如下三種關(guān)系:

其中:aij——A 地點市民對出租車的需求量;bij——A 地點出租車的供求量。
當 aijbij時,則表示A 地點的供小于求,需除A 地點以外的其他地點的出租車趕往A 地點,才能使得該地點出租車的供需達到平衡。
當 aij=bij時,則表示A 地點的供等于求,不做后續(xù)考慮。
當 aij<bij時,則表示A 地點出租車得供大于求,因此該地點的出租車可以去往其他地點。
r表示出租車在該地點接單不會虧本的范圍的半徑,一般情況下,出租車司機會選擇起步價距離以內(nèi)的需求,所以我們以出租車起步價距離作為r 。
當r小于起步價距離時,司機接該單才不會虧本,因此可認為此時司機才會接單。當出租車在A點時,市民發(fā)單地點與出租車接單半徑的關(guān)系如下:

其中:d——市民發(fā)單地點與A 地點的距離;當d r> 時,此時A 地點司機接單會虧本,所以司機可能不會接單。
當dr=時,此時A 地點四級階段是你不會虧本也不會賺錢,且該市民發(fā)單的地點可能位于其他地點司機的接單范圍,此時司機接單的幾率是隨機的。
當dr<時,此時A 地點的司機接單會賺錢,所以此時A 地點的司機會對該乘客進行搶單。
同A 地點一樣,對于每個地點的可行域都有如下三種情況:
1. 假如C 地點有乘客發(fā)出訂單,由于C 地點與A地點司機的距離小于r,所以A 地點的司機會進行搶單;
2. 假如E 地點有乘客發(fā)出訂單,由于E 地點與A地點司機的距離大于r,所以A 地點的司機不會接單;
3. 假如B 地點有乘客發(fā)出訂單,由于B 地點位于多個地點的可行域范圍之內(nèi),所以會有多個司機對該乘客進行搶單。
且對于任一地點的可行區(qū)域中,每個司機都滿足以下兩個原則:
1. 可行區(qū)域內(nèi)中心地點的出租車司機都會采用就近原則進行接單;
2. 當乘客發(fā)單的地點位于多個可行區(qū)域內(nèi)時,每個區(qū)域內(nèi)的中心地點搶單成功的機率時一樣的,以Unix 時間戳為種子,對數(shù)據(jù)進行隨機取數(shù),取得隨機數(shù)最大的,則該地點中的司機搶得該單的成功率更大。
如上所述,選取A 地點的可行區(qū)域,以這一區(qū)域為例,選取反應(yīng)出租車供求匹配程度的指標。以一天中的24 小時為節(jié)點,將一天分為24 段,每一個時間段中乘客與出租車供求匹配程度都不一樣[7]。
指標一:在一天中的某些時間段,可能會出現(xiàn)乘客有需求,但出租車無供應(yīng)現(xiàn)象“無供給需求”——未成單率,如每天的上下班高峰期。

其中:at′——一個時間段乘客有需求但出租車無供應(yīng)人的數(shù);at——一個時間段該區(qū)域所有乘客對出租車的需求量。a′——該區(qū)域在以乘客為前提下的出租車供求匹配程度指標。
由上式可以看出,當a′= 0時,則表示該區(qū)域的市民對出租車的需求與出租車的供應(yīng)完全匹配;當a′= 1時,則表示該區(qū)域的市民對出租車的需求與出租車的供應(yīng)完全不匹配。
指標二:同理,在一天中的某一時間段中也可能出現(xiàn)出租車有供應(yīng),但乘客無需求的現(xiàn)象“無需求供給”——空車率,如一天中上午或者下午時間段。
某些時間段也可能出現(xiàn)出租車有供應(yīng),但乘客無需求現(xiàn)象,如每天上午和下午時間段。

其中:b′——一個時間段出租車有供應(yīng)但乘客無需求的量;tb ——一個時間段該區(qū)域出租車供應(yīng)的總數(shù);b′——表示該區(qū)域在以出租車為前提下的出租車供求匹配程度指標。
由上式可以看出,當0b′= 時,則表示該區(qū)域的出租車對乘客的供應(yīng)與市民對出租車的需求完全匹配;當1b′= 時,則表示該區(qū)域出租車對乘客的供應(yīng)與市民對出租車的需求完全不匹配。
通過對數(shù)據(jù)進行分析,得到四個城區(qū)中的兩個指標:未成單率a′、空車率b′大小,并畫出柱狀圖如8 所示。

圖8 四個城區(qū)中兩指標的供求匹配程度 Fig.8 Matching supply and demand of two indicators in four urban districts
供求匹配即為成單率和空車率兩個指標都達到較低的水平。根據(jù)上圖,可以得出在1 號城區(qū)未成單率和空車率均較高;2 號城區(qū)空車率達到最高,為成單率達到最低,可認為此城區(qū)出租車數(shù)量較多但匹配度不高;3 號城區(qū)為成單率和空車率都較低;4 號城區(qū)未成單率達到最高,空車率也較高。綜上,可也得出四個城區(qū)的綜合指標分別為0.3867,0.3162,0.2158,0.4069,供求匹配程度排序為3 號城區(qū),2 號城區(qū),4 號城區(qū),1 號城區(qū)。
對以上指標進行分析,由聚類結(jié)果可知,3 號城區(qū)為成都市區(qū)中心,經(jīng)濟繁華,人口密集,雖然需求量大,但出租車數(shù)量也較多,且需求密集,容易得到匹配;1 號城區(qū)距市中心偏遠,經(jīng)濟不發(fā)達,需求較少,但是需求間較分散,供求不易得到滿足;2 號城區(qū)和3 號城區(qū)距市中心較近,需求較少,分布較分散,根據(jù)二者的不同,會出現(xiàn)不同的差異。
以1 號城區(qū)為例做指標大小關(guān)于時間的柱狀圖,如圖9 所示。

圖9 兩個指標在每個時間段指標的供求匹配程度 Fig.9 The matching of supply and demand of the indicators of the two indicators in each time period
首先對未成單率進行分析,未成單率會在五點達到最高點,說明此時需要乘坐出租車的人的需求最難滿足;為成單率會在7 點達到較低水平,在17 點達到最低點,這兩個時刻達到了早,晚高峰,此時的人們需要上學,上班,需求達到最大,而供給量也會隨之增加,這兩個時刻的需求最容易得到滿足。
對空車率進行分析,空車率在0 點達到最高,此時的需求很低,分布分散,供給有較大的剩余;空車率在5 點達到最低,此時接近早高峰,需求量得到增加,空車率降低。
對綜合指標分析可得,在7 點,14 點,17 點綜合指標處于最低狀態(tài),此時分別對應(yīng)早,午,晚高峰,雖然需求量大,但分布密集,較為容易得到滿足,供求匹配程度高,而在0 點到5 點,18 點到21點,綜合指標均較高,供求匹配程度低。
隨著“互聯(lián)網(wǎng)+”時代的到來,有多家公司依托互聯(lián)網(wǎng)建立了打車服務(wù)平臺,實現(xiàn)了乘客與出租車司機之間的信息互通[8]。與此同時,各平臺為了吸引出租車司機與乘客,推出了多種出租車的補貼方案[9]。
在打出服務(wù)平臺行業(yè),嘀嘀打車和快的打車的市場占有率大約為80%,占有絕大多數(shù)的市場。通過查閱數(shù)據(jù),找到了嘀嘀打車與快的打車兩個打車服務(wù)平臺近年的補貼方式和補貼金額,如各打車服務(wù)平臺主要針對兩個對象推出的補貼方案,分別是:出租車司機和乘客[10]。

表2 嘀嘀打車服務(wù)平臺補貼 Tab.2 Taxi service platform subsidies

表3 快的打車服務(wù)平臺補貼 Tab.3 Fast taxi service platform subsidies
對于出租車司機,各打車服務(wù)平臺會對其進行價格補貼,使得出租車司機利益增大,以此來吸引更多的出租車司機采用打車軟件接單,從而滿足了市民對出租車的需求,又吸引更多的市民使用打車平臺進行打車,使得出租車司機持續(xù)增加,以此形成良性循環(huán)。同時,當各打車服務(wù)平臺對出租車司機進行補貼之后,出租車接單不會虧損的可行域半徑變大,在一定程度上也滿足了乘客對出租車的需求。

圖10 平臺對出租車司機進行補貼 Fig.10 Platform subsidies for taxi drivers
對于乘客,各打車服務(wù)平臺會對其打車價格進行補貼,使得乘客使用出租車出行的費用降低,從而增加使用出租車出行的人數(shù),間接增加了出租車的利益,使出租車數(shù)量變多,乘客的需求得到滿足。

圖11 平臺對乘客進行價格補貼 Fig.11 Platform subsidies for passengers
商業(yè)的目的是取得持續(xù)收益最大化[11],補貼是一種手段,方式是通過補貼來調(diào)節(jié)需求數(shù)量,供應(yīng)數(shù)量和攻擊匹配程度。
對于上述所分析的現(xiàn)有打車服務(wù)平臺的補貼方案,發(fā)現(xiàn)現(xiàn)有打車服務(wù)平臺對乘客以及出租車只有打車價格方面的補貼,在其他方面并沒有補貼。如果要創(chuàng)建一個新的打車軟件服務(wù)平臺,除了打車價格方面的補貼之外,在其他方面也應(yīng)該有相對應(yīng)的補貼,以此來吸引更多的用戶使用打車服務(wù)平臺打車。
采用打車服務(wù)平臺進行打車,所涉及的對象有三個:乘客、出租車司機、打車服務(wù)平臺,且三者的利益相關(guān)聯(lián)。出租車司機會向乘客收取一部份的費用,費用的多少會影響乘客的花銷,并通過影響成單率來影響出租車與打車服務(wù)平臺的收入;平臺會對出租車司機進行抽成,抽成的高低會影響出租車司機的收入,如果抽成太高,出租車司機收益會降低,數(shù)量將減少,進而影響打車服務(wù)平臺收入和乘客花銷;服務(wù)會做出相應(yīng)的補貼,目標是使自身的利益達到最大化。