倪 淵, 李思遠, 徐 磊, 張 健, 房津玉
(1.北京信息科技大學 經濟管理學院,北京 100192; 2.綠色發展大數據決策北京市重點實驗室,北京 100192)
數據資源作為數字經濟時代的產物,蘊含巨大商業價值和社會價值,是一種新型生產要素[1]。然而,伴隨數據規模指數型增長,數據質量問題引發了廣泛關注[2,3]。大量低質量數據充斥于各類數據資源交易平臺,它們價格低、規模大、且不乏熱點領域數據;但實際上有效信息載量低,權屬模糊、開發易用性和適用性并不高。低質量數據資源無法幫助企業實現科學決策,還可能帶來災難性后果[4]。而且,長期利用低價值數據吸引用戶也難以增加平臺價值,會導致“劣幣驅逐良幣”的反效果。因此,在國家積極倡導平臺經濟高質量發展的大背景下,如何讓高質量數據從交易平臺的海量資源中脫穎而出,提升數據要素市場配置效率,成為各界關注的焦點。
回顧已有文獻,平臺環境下高質量數據識別問題源于數據質量的相關研究,包括數據質量的概念、數據質量影響因素以及數據質量評價三方面內容。第一,關于數據質量定義,最早可追溯到上世紀70年代計算機領域的研究。WANG等將“數據使用的適用性”作為衡量數據質量的標準[5]。REDMAN認為高質量數據是能夠滿足數據使用者經營決策需求的數據[6]。AEBI和PERROCHON從信息系統視角定義高質量數據特征,即一致性、完整性、原子性和正確性[7]。曹建軍和刁興春則將數據質量定義為數據內在特性對需求的滿足程度[8]。第二,關于數據質量的影響因素探索,涉及三個研究視角。一是生產周期的視角,該視角認為數據質量受到數據生產整體過程的影響。比如,WANG和STOREY將數據視為一種特殊商品,參考商品生產過程提出了數據質量分析框架[9];江洪和王春曉調研了15家數據中心,提出了共性的科學數據質量評價體系[10]。二是特征視角,該觀點認為高數據質量特征與用戶需求滿足具有一致性。比如,林平等構建了數據開放度、可利用性、可持續性和數據數量的四維評估體系[11];張曉娟和唐長樂提出了包括一致性、存在性與開放性在內的數據質量判別指標[12]。三是平臺服務視角,該視角認為平臺服務是決定數據質量的關鍵。比如,PEER等對比了多個平臺,發現平臺數據質量包括注意力、理解力、誠實性和可靠性[13]。第三,關于數據質量評估方法,包括經驗驅動和數據驅動兩大類。經驗驅動方法借助專家經驗、領域知識、用戶反饋對數據質量進行評價。比如,CARO等通過用戶反饋統計對門戶網站數據質量進行評價[14];孫嘉睿和安小米通過層次分析法評價政府開放平臺數據質量[15]。數據驅動方法采用綜合評價思想,構建量化模型識別高質量數據。比如,HEINRICH和KLIER提出了基于概率的數據質量PBCM模型[16];林娟娟等采用 KNN分類機器學習算法對城市空氣質量數據集評價[17]。
綜上所述,已有研究為平臺交易情境下高質量數據識別提供了基礎,但是仍存在兩方面不足:一是,現有識別方法的人工參與成分較多,自動化程度不足,僅適用于小規模、同質化數據資源質量評價,難以應對平臺交易情境下大規模數據資源的質量識別需求。二是,現有識別方法忽略了不同質量數據資源分布不均衡的問題,容易引發分類結果偏誤,難以滿足平臺交易情境下異質化樣本分類的魯棒性要求。對此,本文提出K-medoids-NCA-SMOTE-BSVM高質量數據資源識別模型,該模型具有兩方面優點:第一,基于高質量數據的多維特征,結合K-medoids算法與輪廓系數,確定最優分類標簽數量,減少數據樣本的孤立點及離群點對分類標簽的影響,實現大規模數據資源質量分類標簽的自動生成;第二,通過近鄰成分分析(NCA)與少數類過采樣技術(SMOTE)優化貝葉斯支持向量機模型(BSVM),減少冗余特征與樣本不平衡性對分類結果的干擾,提升異質化數據資源質量分類識別的準確性。本研究構建的模型不僅有助于數據交易平臺依據數據質量差異開展定價機制優化,提升數據資源配置效率,最大限度賦能平臺服務價值;同時,對于完善多層次、多元化數據高質量供給體系的也有積極意義。
高質量數據是能夠較好滿足需求者訴求的一種區別性數據商品,具有高信息性、高適用性、高經濟性的特點。平臺經濟下數據流轉是一個多主體參與的開放市場,政府、企業、高校及個人等社會主體是數據資源需求者,也是提供者。作為需求者,不同主體針對業務場景從外部購買并獲取數據資源,支撐業務延續與創新;作為提供者,主體通過數字化編碼和物理存儲,將活動記錄轉化為數據,匯集成龐大的、待開發的原始數據資源池。數據服務平臺鏈接供需雙方,負責數據資源的市場化配置,包括數據交易平臺與數據綜合服務平臺。數據交易平臺面向社會主體,登記數據需求,發送訂單給數據綜合服務供應商。接受訂單的數據服務商從提供者處獲得授權,進行原始數據的采集、整合、分析,加工后的數據商品經過交易平臺篩選,被劃分成不同質量等級。高質量數據交付于需求者,而低質量數據返還給數據服務商,進行二次加工。
在整個數據流通循環鏈中,高質量數據是最大程度滿足主體需求的數據商品,其形成需要兩次前置加工:一是“行為記錄-原始數據”的加工,二是“原始數據-數據商品”的加工。第一次加工由社會主體單獨完成,決定著原始數據資源的固有品質,比如原始數據記錄是否完整、格式是否符合標準等,它是高質量數據形成的基礎;第二次加工由數據綜合服務平臺完成,決定著數據資源的商品化表征,比如多源數據格式統一、字段對齊、數據商品描述等,它旨在提升數據資源對場景應用的可感知性、可理解性,是高質量數據形成的核心。兩個環節相輔相成,共同影響平臺交易情境下數據質量。
將固有品質和商品表征作為高質量數據識別的特征維度,結合數據交易平臺調研,按照系統性、可量化性、可更新性以及高場景適用性原則,得到9個識別指標,整個指標體系如表1所示。

表1 高質量數據資源指標體系
以高質量數據識別指標體系為基礎,提出一種融合K-medoids聚類-近鄰成分分析-過采樣技術-貝葉斯優化支持向量機(K-medoids-NCA-SMOTE-BSVM)的高質量數據識別模型。模型構建基本思路是將高質量數據識別作為一個模式識別問題對待,采用有監督機器學習方法加以實現,模型主要包括四個部分,整體流程如圖1所示。

圖1 K-medoids-NCA-SMOTE-BSVM模型流程圖
針對高質量數據特點,本文綜合數據資源的瀏覽量、收藏量和下載量作為判別依據,確定數據質量分類標簽。平臺交易背景下,數據商品參差不齊,樣本中存在較多極端值和離群點,對此選擇K-medoids法對數據資源進行聚類。K-mediods是K-means的一種改進方法,改善了K-means方法對噪聲點過于敏感的問題,受離群點的影響較小,可以產生緊湊明顯的分類結果[18]。
初始條件設置會導致K-mediods聚類結果差異,本文借助輪廓系數來判斷最優K值。輪廓系數取值為-1到1之間,分值越高說明分類效果越好。選取輪廓系數最大的值對應的K作為最終的集群數目。
本文分別求出K為2,3,4,5,6,7,8,9的輪廓系數,取輪廓系數最大值對應的K值,將數據資源依據不同質量分為K類。
鑒于所選指標中或存在與高質量數據資源特征關系較小的因素,因此采用NCA方法進行特征選擇,NCA通過搜索線性變換矩陣,得到的低秩矩陣,將高維訓練數據嵌入低維空間[19],具體步驟如下:
(1)求出數據集中兩個樣本間的馬氏距離。設dw(xj,xz)為樣本j和樣本z馬氏距離,s為指標個數,wi為第i個指標的權重,那么:
(1)
(2)計算樣本相似的概率。設pjz(w)為樣本j和樣本z相似的概率,則:
(2)
(3)計算樣本分類正確的概率。設pj(w)為樣本j被分類正確的概率,那么:
(3)
(4)構建目標函數。算法的目標為最大化分類正確概率,設F(w)為可調節參數,則:
(4)

鑒于聚類劃分后不同類別樣本數量差別較大,會影響模型的識別準確率,因此,使用SMOTE過采樣技術平衡數據分布。它是基于隨機過采樣算法的一種改進方案,通過在局部區域采用K-鄰近生成新數據,獲得平衡數據集,解決了隨機過采樣的過擬合的問題,且對噪音的抵抗力更強。算法基本過程如下:
第一,對于少數類中每一個樣本X,以歐氏距離為標準計算它到少數類樣本集中所有樣本的距離,得到其k近鄰。
第二,對于每一個樣本X,從其k近鄰中隨機選擇若干個樣本,假設選擇的近鄰為Xn。
第三,對于每一個隨機選出的近鄰Xn,分別與原樣本按照公式(5)構建新的樣本。
Xnew=X+rand(0,1)×|X-Xn|
(5)
將特征降維后的數據資源識別指標作為輸入,將聚類后的數據資源貼上類別標簽,并平衡數據集后作為模型的輸出。按照上述規則,構建基于貝葉斯優化支持向量機的高質量數據資源識別模型,該模型使用貝葉斯優化支持向量機參數,使得模型分類準確率有較大提升。
本文選取“京東萬象”數據交易平臺開展實證研究,選擇該平臺上成交的API數據資源作為研究對象。使用Python爬取數據,經過數據清洗,最終獲取有效數據945條,樣本數據數據集信息如表2所示。

表2 樣本數據特征及處理
3.2.1 數據資源的分類標簽結果
根據K-mediods聚類算法進行數據資源分類并計算輪廓系數值,分類數K=3時,輪廓系數值最大,此時數據資源可以分為三個集群。其次,通過對聚類結果中三個聚類中心的分析,確定了數據資源質量的三個層次,分別將其定義為高質量數據資源、低質量數據資源以及中質量數據資源,并將其后續輸入模型的標簽定義為1,2,3,如表3所示。

表3 K-mediods聚類結果
3.2.2 特征指標有效性篩選
根據NCA算法特征降維,數據資源特征指標的最優權重和排序如表4所示。根據結果將數據可溯性剔除,保留剩余的8個指標。

表4 特征最優權重和排序結果
3.2.3 BSVM模型訓練及結果對比
通過SMOTE過采樣技術,本文將C1—高質量數據資源集和C2—低質量數據資源集分別擴展到462條,匯總形成的平衡數據集共有1386條,以此為基礎進行BSVM的訓練。初始參數設置如下:懲罰參數C和徑向基核函數寬度參數g設置為1,觀測點個數設置為10,目標函數為識別錯誤率函數,參數優化最大迭代次數設置為30,將數據集中的90%作為訓練樣本,其余作為測試樣本。
為了驗證模型的效果,本研究將所構建的BSVM模型與SVM模型、鯨魚算法優化支持向量機(WOA-SVM)、粒子群算法優化支持向量機(PSO-SVM)以及多層感知機(MLP)和卷積神經網絡(CNN)進行比較。此外,以未擴展的非平衡數據集為基礎,作為對照組。本文選用準確率評價指標進行分類模型效果評價。
準確率指標算法如下:
(6)
其中m代表測試樣本總數,a代表測試樣本分類正確的總數。
本文基于兩組數據集對六種模型的分類效果進行對比分析,實驗結果如表5所示。通過橫向對比可知,SMOTE過采樣技術對優化后的SVM模型有明顯改善作用,平衡處理顯著提高了分類準確率;對于單一預測模型,未達到明顯性能提升。通過縱向對比可知,無論是基于非平衡數據集還是平衡數據集,BSVM模型總能有更好的表現,預測準確率均高于其他五種模型。特別地,對于平衡數據集,測試數據在SVM,WOA-SVM,PSO-SVM,BSVM,MLP和CNN模型中的準確率分別為49.72%,66.19%,59.71%,82.01%,47.10%和44.93%,BSVM識別效果最好,說明本文提出的識別模型分類效果最優,能夠更準確地對不同數據資源進行分類。此外,比較訓練時長可見,經過算法優化后的模型訓練時長會增加。與其他優化算法相比,BSVM訓練時長最短,說明BSVM在參數調優時具有較高的算法效能。

表5 不同模型分類效果對比
在貝葉斯優化參數過程中,最小化識別錯誤率函數作為貝葉斯優化的目標函數,參數優化和目標函數模型訓練結果如圖2所示。參數優化共30次,隨著迭代次數增加,觀測點越來越多。當運行次數小于10時,估計的函數最小目標值存在較大波動,運行次數超過20后,最小目標函數值雖有輕微波動,但整體趨于穩定,表明此時懲罰參數C和核函數參數g對SVM模型來說已有較好的效果。最終觀測到的最優懲罰參數C=99.502,最優核函數參數g=35.191,此時觀測到的目標函數值為0.24611,估計的目標函數值為0.24669。

圖2 貝葉斯優化過程
信息時代背景下,高質量數據資源己成為關系企業生存發展的重要因素,對企業數字化轉型、新機遇挖掘具有革新性影響。如何在海量資源中識別出高質量數據資源,是促進平臺交易情境下數據經濟新動能的關鍵問題。本文針對現有方法對平臺情境下大規模、非均衡數據資源質量識別適應性弱的缺陷,構建了一套相對完整、客觀的高質量數據識別指標體系,提出了多方法集成的數據資源質量分類識別模型,具體結論如下:
第一,明確了高質量數據資源的內涵,將其定義為處于交易階段的數據資源能夠與購買者需求契合,且進行貨幣變現后滿足購買者期望的數據商品,可以借助網絡平臺下數據資源交易的瀏覽量、收藏量和下載量加以衡量。
第二,基于平臺環境下數據資源流轉與高質量數據形成過程,構建了“固有品質-商品表征”二維高質量數據資源識別指標體系,并借助“京東萬象”交易平臺數據充分驗證了指標體系有效性,對數據資源質量評估理論進行了創新性嘗試和重要補充。
第三,基于非平衡數據集和平衡數據集對比實驗表明,針對優化后的SVM模型,SMOTE平衡處理能夠明顯提升標簽生成準確度,改善數據資源質量識別效果;平衡數據集下的多模型對比可以看出,BSVM方法表現更優,具有更高的算法效能。綜合結果表明,K-medoids-NCA-SMOTE-BSVM高質量數據資源識別模型可以高效率生成海量數據資源的質量標簽,提高對異質化數據資源的識別準度,對推動數據資源的活躍交易具有較強的指導意義。