張 靜
(吉林建筑大學城建學院,吉林長春 130011)
隨著電子商務的發展,眾包平臺成為了一種新的發展趨勢,“拍照賺錢”軟件便是眾包平臺中的一大核心。它通過此平臺造就個性化用戶數據,并顯著地降低成本和縮短市場調查周期。當任務的完成成本較高時,定價卻較低,以致用戶沒有動力接受任務。當任務的參與者過多時,單個用戶的期望收益便會降低,從而導致任務完成率下降。因此,如何在降低勞務成本并節省時間的同時保證任務的完成率是一個急需解決的問題。
劉曉鋼[1]通過實證的方法研究眾包網站上任務發布者制定的任務最終懸賞金額與任務屬性及市場競爭的關系,從而得出成功的出價策略。吳俊[2]從創新程度和技術含量兩個維度對眾包任務進行分類,通過選取任務特征觀測指標建立眾包任務類別與交易方式匹配分析框架。吳瑞杰[3]設計了一個分布式的協作框架,用來實現任務計劃的動態調整,內部模塊包括一個N-best算法和一個反饋策略。
經過資料分析,之前的研究主要針對任務計劃調整方面,對交易數據的任務定價研究很少。任務定價是此APP的核心要素,如果定價不合理,任務就會無人去完成,導致任務失敗。本文針對此背景下存在的任務和用戶資源“供需匹配”問題,利用JAVA和SPSS軟件,通過對深圳市、廣州市、佛山市和東菀市四個區域的已結束項目任務數據和會員信息數據,建立多元線性回歸模型來衡量各區域不同時間段的“供需匹配”程度,同時應用JAVA軟件設計算法,計算四區域定價容錯閾值內的正確率確定合理的任務定價方案。
任務定價模型需建立一定的指標來反映任務定價“供需匹配”的程度。首先將所得數據中每個任務的定價、GPS經度、緯度和完成情況四個數據提取出來,結合空間數據得到地點分布圖;其次通過智能交互地圖和聚類算法,得到深圳市、廣州市、佛山市和東菀市四個區域及區域中心;然后在某個區域內,求解每個任務位置和中心的距離[4],通過MATLAB編程得到距離與任務定價的規律,即可對某個區域衡量任務定價的對應指標進行分析;應用Excel和SPSS輔助完成數據處理,分析任務未完成的原因。
利用MATLAB編程得到四個區域的任務位置空間分布圖如圖1所示,橫坐標為任務經度,縱坐標為任務緯度。在圖1中,圓圈顯示835個任務位置分布,未完成拍照任務的位置集中在左上方和右下方區域,完成拍照任務的位置集中在中間區域。從圖1可直觀看出任務主要集中在四個區域,未完成的任務區域分布也比較集中,可能有地理因素,這些區域均為山脈地形,任務完成難度可能較大。

圖1 四個區域的任務位置空間分布圖
本文針對原始數據集,對四個區域任務分布情況進行聚類分析,確定廣州市、佛山市、深圳市、東莞市四個區域的中心位置。聚類算法[5]可簡要描述如下:
(1)T可以認為是一個閾值,A為數值屬性。
(2)給定區域的任務位置集合S,所選擇的閾值需要使劃分得到的基尼系數最小,基尼系數的度量為:

(3)對每個劃分的閾值過程進行遞歸,直到滿足用戶給定的某個終止條件。
聚類結果:四個區域的中心位置為廣州市(22.6° N,114.1° E)、佛山市(23.05° N,113.7° E)、深圳市(23.1° N,113.3° E)、東莞市(23.05° N,113.1° E)。
在四個區域內,求出每個任務位置和中心的距離表,通過MATLAB編程擬合得到距離與任務定價的關系曲線。
Step1:由于不同變量常常具有不同的單位和不同的變異程度。為了消除量綱影響,以及變量自身變異大小和數值大小的影響,分別把四個區域的每個任務位置到區域中心的距離數據標準單位化,把任務定價標準單位化;Step2:猜想在四個區域中,每個任務離到最近的任務密集點的距離與任務定價之間存在著一定的線性關系,利用SPSS22.0軟件進行相關性分析。結果顯示,廣州市任務位置到中心距離與任務定價的相關性為0.478,但是在任務位置空間分布圖中,廣州市未完成拍照任務的情況比較多;深圳市任務位置到中心距離與任務定價的相關性為0.280,但是在任務位置空間分布圖中,廣州市完成拍照任務的情況卻非常好。所以假設每個區域任務位置到中心距離與任務定價存在如下關系:
Y=a×x3+b×x2+c×x+d.
其中,Y是任務定價,x是任務位置到中心距離。
算法思想如下:(1)運用MATLAB,調用for循環,對任務坐標的數組進行遍歷;(2)如果x(i) 廣州市:y=0.0044x3-0.0209x2-0.6148x-0.0335, 佛山市:y=0.0513x3-0.3520x2+0.3991x+0.2474, 深圳市:y=0.1250x3-0.0364x2-0.1397x-0.0967, 東莞市:y=-0.0652x3-0.2281x2+0.2991x+0.1598. 原始數據中距離單位為千米,定價單位為人民幣元,將原始數據標準化,得到圖2。在圖2的四個區域的擬合結果中,發現每個區域都有小部分經緯度范圍內散點距離函數曲線較分散,且比較雜亂,可能存在以下原因:(1)可能與價格有關,部分價格不合理。假設函數的容錯范圍下限價格為3元,如果價格在距離對應的函數價格容錯范圍外,可能難度較大。(2)部分區域顯示地理位置偏僻,人數稀少,地勢險峻。山脈、湖泊可能就無人問津。廣州市的小部分范圍內,顯示有大面積的高爾夫球場和山林公園。高爾夫球場占地面積較大,人煙稀少,且大多為高消費的娛樂場所,可能執行任務的概率很低。山林公園為山地環境,地勢較險,導致無法完成。(3)中間東莞市和佛山市的經濟條件相比另外兩個區域不太發達,地圖顯示農村占領的區域較大,交通不便利導致任務無法完成。 圖2 四個區域的擬合結果 結合所分析出的任務未完成原因進行研究,設計新的定價方案,以達到任務定價的最優化。準確合理的任務定價,依賴于完善高效的定價輔助分析模型。任務定價的影響因素如下:(1)任務發布位置。優良的任務發布位置需具備交通便利、人流密集等條件。此條件可以讓用戶更好地完成任務以提高任務完成率,對任務定價起到積極的作用。(2)任務執行情況。任務執行情況的優良決定了未來在此地點進行任務投放量的大小,執行情況越好,未來的任務量投放越大,對任務的定價也會越合理。(3)會員位置。會員位置的選取位于同一區域時,就要考慮會員之間的競爭關系,判斷該區域內的會員競爭的激烈程度,避免惡性競爭。同時考慮會員所處位置和任務發布位置之間的距離長遠,以將會員的時間成本與經濟成本降到最低,以達到任務定價的合理性。(4)預定任務開始時間。任務開始時間的預定應把“會員所處的位置距任務發放位置的長遠”和“會員的信譽值”這兩方面進行綜合考慮后設定,設定出任務完成的最優任務期限,任務期限設定得越長,任務定價就越高。(5)信譽值。用戶信譽值越高則可以越早開始預訂任務且任務預定量越大,可采取量大價低的方式進行定價。 會員表屬性有預定任務限額、預定任務開始時間、信譽度。以被完成的任務為中心,運用JAVA軟件求離最近距離的會員與任務之間的距離。嵌套for循環,輸入:外層循環為任務地點的坐標(經緯度),內層循環為所有會員的所在位置,定義一個變量為min的函數,輸出:每個任務到會員的最短距離。Java程序控制臺部分生成的數據截圖樣式如圖3所示。 圖3 每個任務到會員的最短距離 圖3顯示了Java程序運行的835個任務到會員的最短距離和會員編號。然后將已完成項目的任務表和會員信息表進行鏈接,來處理數據。運用數據庫可視化,建立主鍵為會員編號,對任務表與會員表進行自然連接。 信譽度大約與開始預定時間、配額存在正相關的關系。配額是某一會員在一天當中能完成的任務數量,可以作為影響任務的能力值。距離被認為是會員是否愿意接任務的一個指標。當距離過遠時,會員的對接收這個任務的期望可能會大大減小,是一個負相關。假設期望值為信譽度與距離的比值,然后以任務定價為因變量,以期望值和配額度為自變量,先對數據進行標準化處理,然后運用SPSS 22.0做線性回歸,得到線性關系式: Y=-0.055m+0.067n+71.445. 其中,m為期望值,n為預訂任務限額。 描述性統計量反映數據的定價集中在70元左右,標準偏差較小,說明離散程度小。系數相關圖反映出預定任務限額和信譽度的相關性較大。由模型匯總與Anova圖分析得出,決定系數r2為35%,說明在因變量y的全部變異中,能夠通過回歸關系被自變量解釋的比例為35%。統計量F=平均回歸平方和/平均殘差平方和。若F值過小說明自變量對因變量的解釋力度很差,擬合的回歸直線沒有意義,相反若概率值(SPSS中以sig表示)越小越好,在這里F=0.063說明擬合較好。綜上分析得出該模型較良好。 應用JAVA軟件,分別計算四區域定價與所求得的定價容錯閾值內的正確率,當每個區域的閾值正確率高于70%后,則認為任務定價方案較合理。算法思想如下: (1)輸入:期望值、預訂任務額、最小距離、任務定價、擬合任務定價、開始預訂時間; (2)循環條件:abs(擬合任務定價—任務定價)≤3; (3)輸出:若滿足循環條件,輸出結果為1;若不滿足循環條件,輸出結果為0。 本文設置任務定價的容錯率(閾值)為3。擬合任務定價采用下面的四個區域的擬合方程。檢驗容錯率的部分Java代碼如圖4所示。 圖4 檢驗容錯率的部分代碼 改進的任務定價模型統計結果為:廣州市、佛山市、深圳市和東莞市四個區域的任務定價模型正確的概率值分別為67.21%、72.59%、79.04%和74.35%。決定系數r2=0.9243,顯著性檢驗值P≈0,高度顯著。 本文首先建立了搜索范圍內的任務定價模型,通過MATLAB編程得到每個區域的任務位置與中心的距離,分析任務位置與定價的關系得到項目的任務定價規律。其次,在此基礎上,結合會員信息數據,選取任務與會員的最小距離、預定任務限額和信譽值三個指標建立多元線性回歸模型來衡量各區域不同時間段的“供需匹配”程度。應用JAVA軟件,分別計算四區域各時間段的定價與所求得的定價容錯閾值內的正確率,當每個區域的閾值正確率高于70%后,則認為任務定價方案較合理,可進一步參考最小距離、預定任務限額和信譽值等指標設計合理的任務定價方案。
3 建立改進的任務定價模型

4 任務定價模型檢驗

5 總結