黃遠明,鄭 偉,王宣定,梁志遠,龔昭宇,陳雨果
(1. 廣東電力交易中心有限責任公司,廣東省廣州市510080;2. 北京清能互聯科技有限公司,北京市100084)
隨著新一輪電力體制改革的推進,國內電力現貨市場試點均已開展試運行工作,市場主體將根據自身機組特性,結合市場邊界條件和其對博弈格局的預判申報多段報價[1-2]。因此,現貨報價往往高度復雜,各機組現貨報價不再高度差異化,而是呈現出局部差異化和默契報價的特點,這給報價行為分析和串謀識別帶來了極大挑戰。
根據市場主體之間是否進行商定,可將廣義的串謀分為兩大類:一類是在商談和約定的條件下達成的串謀,其中根據申報價格是否相似,分為報價相似的串謀報價(共同抬高價格以獲利)和報價不同的配合報價(一方通過減少自身收益的報價為另一方創造高收益,事后再分配利潤以規避監管);另一類為默契串謀(tacit collusion),屬于非合作性串謀,無需商談和約定,僅以共同利益為基礎來形成和維持,不存在事實證據[3]。串謀報價的行為通常有以下4 個特征:①報價相似;②交易結果呈現出串謀的預期效益,即中標集中度和申報集中度相關,且中標集中度大于申報集中度;③在疑似串謀行為后,集體利益(現貨收益,包括中標量和價格)有較大提升;④具備事實證據,如串謀的郵件溝通、通信記錄等能證明事前約定報價的證據。
單獨一個串謀行為特征并不能說明市場主體串謀,如報價相似可能是串謀導致的報價相似,也可能是巧合。上述4 個串謀行為特征也僅為常見的特征,并不能代表所有的串謀情況。在一般性監管或弱監管環境下,是在前2 個串謀行為特征的基礎上,確定嫌疑市場主體,再有針對性地獲取利益提升的證據和事實性證據,才能認為嫌疑市場主體有較大可能串謀報價。可見,前2 個串謀行為特征是串謀報價判定的基礎,而其中對報價相似的判定,則需要多角度分析現貨市場報價模式,提取現貨申報數據中容量和價格的多段特征,對報價展開分類識別。
在市場風險監管方面,文獻[4]指出了電力市場監管包括數據收集、數據分析和市場控制等;文獻[5]根據上一輪電力體制改革時浙江電力市場試運行期間的市場供給和競價數據展開了分析,得出關于當時浙江電力市場競爭格局的結論。目前,針對現貨報價分析的研究多數是研究發電商的串謀行為或在市場監管設計中有多方面的考慮,文獻[6]直接計算報價數據間的關聯度矩陣,但未考慮報價數據在容量和價格上的雙重特征;文獻[7]則針對市場主體報價提出了多個分析指標和判定標準;文獻[8]利用排序多元Logit 模型進行串謀競價識別,但僅對市場份額高的卡特爾類機組進行識別,忽略了電網位置對機組串謀的優勢;文獻[9]利用歐氏距離作為聚類特征,但多段報價的歐氏距離并不能體現各報價段容量的分布,從而無法真實描述報價曲線的相似性;文獻[10-11]通過電價差值積分表征報價曲線特性,采用離差平方和對機組報價分類,取得了較好的效果。本文采用的馬氏距離(Mahalanobis distance)在電力行業中則多用于電氣物理量的特征分析等,文獻[12]采用馬氏距離對短時電能質量符合的擾動特征進行分類,能夠突出不同樣本的差異性。文獻[13-14]則將馬氏距離應用于識別電壓暫降特征的分類中。
當前研究未探索如何同時表征報價的容量和價格特征,也未深入挖掘報價模式分類在市場監管中的應用。本文將基于馬氏距離和密度聚類,提出同時表征報價容量和價格特性的報價模式分類方法。
國內外絕大多數電力現貨市場均采取多段階梯式上升報價曲線,機組從最小技術出力到可用容量被分為N段,則構建的現貨報價模式特征向量的維數最小也是N維。其次,申報數據包括N段容量和對應的該段價格,因此在判斷其報價相似性并進行分類時,必須在量化價格的同時保留段容量的特征。文獻[11]直接采用歐氏距離進行報價的聚類分析,但難以完全揭示不同序列之間的相關性。而馬氏距離在計算時以數據間的協方差作為系數,可以更靈敏地發掘報價相似性。文獻[10-11]采用電價差值積分來構建報價曲線的特征向量并開展聚類分析,但需要把N段報價分割成顆粒度更小的報價段,對計算能力要求較高。本文在馬氏距離的基礎上提出3 維現貨報價對比向量,其能從價格申報、容量申報和量價申報3 個角度進行報價模式的識別。
歐氏距離常用來衡量歐幾里得空間中兩點間的直線距離,多維變量的歐氏距離DO(X,Y)可表示為:

式中:X和Y為2 個多維變量;xk和yk分別為X和Y的第k維元素;W為多維變量的維數。
歐氏距離的缺陷在于無法區分樣品不同屬性的差別。若用于分析報價,歐氏距離表示的是各段價格相似性之和,其未考慮各段容量分配的影響,難以有效反映報價序列的整體相似性。
馬氏距離是一種有效計算2 個未知樣本集相似度的方法,其考慮特性間的聯系(如相似性),并且獨立于測量尺度,可消除量綱的影響,其計算如下。
單個多維變量X的馬氏距離DM(X)為:

式中:Cov(·)為協方差函數;xˉ為變量xk的均值;yˉ為變量yk的均值。
結合式(3)和式(4)可知,如果協方差矩陣為單位矩陣,即各維度獨立同分布,則馬氏距離成為歐氏距離,但并不能認為所有機組每段報價的分布均相同,這也變相證明采用歐氏距離分析串謀報價不夠合理。而馬氏距離不僅考慮多維向量間的直接距離,還借助協方差表明二者的相似性[15],更符合現貨報價分析要求。此外,對單段報價而言,馬氏距離與歐氏距離并無區別,但目前國內外電力現貨市場通常采取多段報價的形式[16],馬氏距離比歐氏距離更具有實用意義。
對現貨報價模式展開分析應先將數據標幺化處理。將市場主體在統計期內的現貨報價按段容量百分比進行加權得到平均報價Pweight為:

式中:i為機組編號;j為報價段編號;T為報價時段總 數;n為 報 價 總 段 數;m為 機 組 總 數;pi,j,t為t時 段機 組i的 第j段 報 價;qi,j,t為t時 段 機 組i的 第j段 申 報容 量;Qi,t為t時 段 機 組i的 可 用 容 量。
價格的標幺值為:

式 中:Pi,j,t為 機 組i的 第j段 報 價 的 標 幺 值;Pbench為 報價標幺化的基準值,可以取Pweight。
定義t時段機組i的現貨價格申報向量P′i,t為:

根據現貨報價段容量百分比,定義t時段機組i的現貨容量申報向量Q′i,t為:

采用容量百分比是因為容量的申報策略通常是把機組裝機容量按比例地在各段報價中進行分配[11],各段申報容量的占比與容量的絕對值相比,更能體現市場主體的申報策略,可消除不同裝機容量的影響。
定義t時段機組i的現貨量價申報向量Si,t為:

現 貨 量 價 申 報 向 量Si,t包 括2n個 元 素,前n個 為各段價格標幺值,后n個為各段容量占總申報容量的百分比。

式中:Xi,t為機組i在t時段 的 現 貨價格申報向量P′i,t、現 貨 容 量 申 報 向 量Q′i,t或 現 貨 量 價 申 報 向 量Si,t;Xbench為對應的基準向量。
馬氏距離的大小直接反映了機組與其基準報價的差距,3 維現貨報價對比向量D的第1、第2、第3 維分別表示了機組報價與其基準報價中價格、容量與量價的相似性,值越小,相似度越高。
在實際分析中,通過3 維現貨報價對比向量D可以橫向對比機組報價差異,如機組之間報價的差異具體是由價格、容量還是量價申報造成的。
其次,可統計機組現貨報價的3 維現貨報價對比向量D并進行縱向對比,根據其在時間上的波動性設計市場主體異常報價行為篩選指標,3 維現貨報價對比向量D的模大于一定值時,則篩選為異常報價,意味著報價和歷史報價習慣相差較多,其市場行為可重點關注。
直接對比3 維現貨報價對比向量D可反映多個主體間的相似程度,但其主要是以基準報價作為標桿。在分析市場主體的報價模式時,這種間接的數據處理方式會損失部分有效信息,直接計算對比目標機組間的馬氏距離更適用于報價模式的識別。
馬氏距離可消除量綱的影響,有效挖掘數據相似性,因此,分析現貨報價向量相似性時可將價格和容量均納入同一組數據,對比結果也反映機組在各段價格水平和容量分配上的相似程度。本文采用現貨量價申報向量Si,t進行聚類。
最常見的聚類分析方法有K-means 聚類、層次聚類和密度聚類。K-means 聚類簡單快速,但其對孤立數據點和初值過于敏感,并且必須提前給定K值(生成簇數目),因此其不適合應用于分析報價模式。而層次聚類計算復雜,孤立點也可能會對其產生較大影響[17-18]。另外,層級聚類結果可能呈鏈狀,對串謀分析的適用性一般。密度聚類的本質是根據一定鄰域內的樣本密度來劃分簇類,不需要事先設定簇類個數,并且其可發現任意形狀的簇類,對噪點不會過度敏感[19-20]。密度聚類適用于發現報價聯盟、精準區分異常報價和仍具備部分相似性的報價。
結合馬氏距離進行密度聚類分析的步驟如下。
步驟1:按3.1 節所述構建用于聚類的高維現貨報價向量空間,維度為2N(N為現貨報價段數)。由于現貨中價格博弈主要集中在后幾段報價,前幾段報價主要用于保障基本發電量,因此可只分析后幾段報價以排除不必要的干擾。
步驟2:密度聚類方法設置。
1)設置鄰域ε的半徑。定義核心報價點:當某報價點的ε鄰域內至少包括Min個報價點時,則該報價點為核心點。
2)定義直接密度可達。若報價點X在某核心點Y的ε鄰域內(也包括邊界點),則認為X和Y是直接密度可達。
3)定義密度可達。若有報價點X、Y、Z,其中X和Y直接密度可達,Y和Z直接密度可達,但Z并不在X的ε鄰域內。這種情況下,X與Z不能直接密度可達,但通過其ε鄰域內的點Y可對點Z直接密度可達,則定義X和Z為密度可達。
4)定義密度相連。若有報價點W,其不能通過核心點X直接密度可達和密度可達,但在其密度可達的報價點的ε鄰域內,定義X和W密度相連。
5)定義非分類點。非分類點是無法通過任何核心點直接密度可達、密度可達和密度相連的報價點,未分類點即為異常報價點。
密度聚類分析流程見圖1。

圖1 密度聚類分析流程圖Fig.1 Flow chart of density clustering analysis
從報價集中任取一點,根據其鄰域內的報價點數目判斷是否為核心點,若屬于核心點,則找出從該點出發的所有密度相關聯的點(包括上述的直接密度可達、密度可達、密度相連3 類),形成一個簇,簇內的所有點均視為已處理;若不屬于核心點,則跳出本次循環,尋找下一點,最后不屬于任何簇類的點則為非分類點。待所有點均被處理,則輸出結果。
密度聚類在分類過程中,通過密度連接的方式盡可能尋到相似點并歸為同一簇類,最后可得到各種形狀的簇類,能避免將部分具備相似性但稍微離散的點排除在簇類外或增生出新簇類。按照上述方式篩選出的相似報價模式可認為具備串謀報價的嫌疑,但并不能完全排除巧合、默契串謀等情況。要判斷是否真正串謀報價,還應分析上述主體的歷史合作情況、企業的對稱性、串謀動機、局部供需關系、阻塞情況等,只有在確定對方具備串謀的動機和條件時,才可根據聚類結果判定其為串謀報價。
借助馬氏距離和密度聚類對現貨報價展開串謀報價分析,根據3.2 節內容可篩選出現貨報價高度相似的機組集群,在此基礎上,設計串謀行為特征甄別指標如下。
計算串謀嫌疑機組集群S在現貨時段t的申報集中度hS,t如式(15)所示。

式 中:Ci,t為t時 段 機 組i的 申 報 容 量;Ct為t時 段 市場中所有機組申報容量。
根據式(15)可得機組集群S在現貨各時段的申報集中度序列HS=[hS,1,hS,2,…,hS,24]。
計算機組集群S在現貨時段t的中標容量集中度gS,t為:

式 中:Ri,t為t時 段 機 組i的 中 標 出 力;Rt為t時 段 市場中的總中標出力。
同理可得機組集群S在現貨各時段的中標集中度序列GS=[gS,1,gS,2,…,gS,24]。
對上述申報集中度和中標集中度進行關聯分析,可采用相關系數r(HS,GS)衡量其相關性,計算方法如式(17)所示。

式中:Var(·)為方差函數。
若二者強相關,且中標集中度大于申報集中度,則認為該嫌疑機組群達成潛在聯盟的預期效果,滿足串謀行為特征中的交易結果,呈現出串謀的預期效益(但仍不代表具備串謀事實),認為其相似的報價方式影響市場的結果。此時,r(HS,GS)可視為串謀行為特征的判定指標之一。
在確定申報集中度和中標集中度強相關后,還可結合現貨模擬出清分析機組集群中的個體對整體中標情況的影響。依次替換串謀嫌疑機組的報價,重復上述關聯分析步驟,通過模擬現貨出清確定中標容量集中度。若某機組被剔除后,存在相關系數或中標集中度顯著變小的情況,則說明該機組對發電聯盟的市場效益影響最大,應重點關注。
本文按照5 段報價形成50 組現貨報價數據,價格上限設為720元/(MW·h),分別采用馬氏距離和歐氏距離,基于密度聚類方法對這50 組現貨數據展開對比分析。如3.1 節所示,每組數據前5 個依次為機組5 段報價的各段價格,后5 個依次為各段報價的段容量占總申報容量的百分比。
前8 臺機組報價數據見表1,全部機組報價數據見附錄A 表A1。

表1 前8 臺機組現貨報價數據Table 1 Spot quotation data of the first eight units
密度聚類參數設置,將核心簇類中最少類似報價點數目Min設置為4,鄰域篩選半徑為d,即在報價點半徑為d的鄰域內若有4 個及以上的相似報價,則可視為核心點并形成一個簇類。在不同鄰域半徑d的場景下對比歐氏距離和馬氏距離的應用表現。
1)采用歐氏距離分析
所有機組間歐氏距離的平均值為14 661.8,取平均值的5%即733 作為鄰域篩選半徑d。通過密度聚類分析可知,機組1 為核心點,機組2 至機組8均為該簇類所包含的機組。
由上述結果的報價數據可知,歐氏距離在同時評估段價格和段容量2 個不同量綱的數據時存在較大偏差。比如機組5 和機組6 的報價,雖然二者在各段報價上具備一定相似性,尤其最后一段均頂上限報價,但二者在容量分配上截然相反。機組5 前2段報價容量占了接近可用容量的70%,而最后一段以上限價申報了21%的容量。機組6 前2 段報價僅占28%的容量,最后一段僅以上限價申報了容量的6%。二者現貨報價實質差異較大,機組5 抬高了自身尾部報價,存在典型的經濟持留特征;而機組6 報價集中在第3 和第4 段,頂上限報價的容量較少,相對合理。
其次,機組1 和機組3 的報價也存在價格水平接近,但容量分配策略相差較大的問題,這也和容量部分的數值小而對總體結果影響較小有關。為減小數值量級帶來的影響,將所有機組標幺值向量的后5 個數值(容量部分)均乘以10 再展開聚類分析,發現聚類結果仍和機組1 為核心點的結果一致,仍存在不能同時反映機組在價格和容量上申報特征的問題。然后,又進一步放大容量向量對應的數值。結果表明,聚類分析結果又向容量特征靠攏,價格間的相似性難以準確描述。
2)采用馬氏距離分析
采取同樣的方式,以所有機組間馬氏距離的平均值的5%作為鄰域篩選半徑d,根據計算取d為5 053。通過密度聚類分析所得結果見表2。

表2 基于馬氏距離的密度聚類結果(d=5 053)Table 2 Density clustering results based on Mahalanobis distance(d=5 053)
以上結果說明以機組12 和機組20 為核心點可形成2 個報價簇類,其各自包含了不同的報價點。對應機組報價數據如表3 所示。

表3 對應機組的現貨報價數據Table 3 Spot quotation data of corresponding units
以上結果說明以機組12 和機組20 為核心點可形成2 個報價簇類,其各自包含了不同的報價點。對比機組12 和機組22,其各段價格水平接近,容量分配策略也集中在中間的幾段,更符合對相似報價的判斷標準。對比機組48 和機組50,雖然第1 段價格申報二者相差較大,但中間段價格水平接近且容量分配策略均集中在前幾段,因此也被歸為同一簇類。
經過以上對比可知,馬氏距離和歐氏距離在報價的聚類分析中,前者能同時表征價格和容量特征,而后者易受數值大小影響,且前者可發現更多潛在的數據聯系,具備更好的整體性。
1)采用歐氏距離分析
共有50 臺機組,相互之間的距離共有1 255 個。排除和自身報價點的距離數據后共有1 205 個。選取從低到高的第101 位的距離作為鄰域篩選半徑,即d=2 448。結果發現以機組1 為核心點時,其余所有機組和機組1 的歐氏距離均小于篩選距離,即均被劃為同一簇類。這說明排除機組1 之外的其他機組間的歐氏距離都較大,這種情況說明機組1 的報價相對均衡,和其余49 臺機組間的距離較近,但無法進一步分類,即均值點很容易成為核心點并嚴重影響聚類效果。對比上一種設置d的場景,d由733 變為2 448時,聚類結果有巨大差異,說明歐氏距離下鄰域篩選半徑參數的靈敏度過高。
2)采用馬氏距離分析
選取由低到高排序在第101 位的馬氏距離作為鄰域半徑,即d=6 133,密度聚類分析結果見表4。
對比表4 和表2,可知在增大d的取值后,聚類分析結果呈現出較好的一致性,相較于表2,以機組12 為核心的簇類多出一臺報價相似機組38。其次,由于鄰域半徑被放大,機組33 被選取為新的核心點,并形成新的簇類。進一步增大d為10 000,篩選得到5 個簇類,如表5 所示。相較于d取值為6 133時,核心點雖然發生變化,但簇類內的大部分報價點仍和之前一致。

表4 基于馬氏距離的密度聚類結果(d=6 133)Table 4 Density clustering results based on Mahalanobis distance (d=6 133)

表5 基于馬氏距離的密度聚類結果(d=10 000)Table 5 Density clustering results based on Mahalanobis distance (d=10 000)
對比表5 和表6 可知,相較于歐氏距離,馬氏距離在d增大時雖然也有核心點變動,但無較大結果畸變,如機組12、15、22、37 仍在同一簇類,在d增大時仍有一定的簇類一致性,說明此方法魯棒性較強。不過由于d過大,此結果更適用于報價模式分類,不宜作為串謀報價的判定依據。
本文分析了采用馬氏距離和密度聚類分析報價模式分類和串謀報價的優點,并針對串謀行為特征中價格相似和交易結果呈現串謀的預期效益設計了分析方法,包括構建3 維現貨報價對比向量,運用密度聚類發現相似報價集群,得出以下結論。
1)聚類分析仍是分析電力現貨市場中報價模式分析的有效量化方法,而馬氏距離對同時表征申報數據在價格和容量上的相似性有較好的效果。同時,密度聚類能夠降低對部分離散點的過度分類,且無須事先設置簇類數目。結合二者可在報價模式分析中有效發現機組報價的相似性。
2)在3 維現貨報價對比向量的設計中,馬氏距離能直觀反映市場主體報價策略在價格申報、容量申報、量價申報3 個維度的相似性,但由于基準向量的引入,直接用于聚類會導致信息的損失。
3)在基于密度聚類的串謀競價行為分析中,歐氏距離相較于馬氏距離存在明顯的缺陷。一是無法消除量綱的影響,不能同時反映價格和容量的特征;二是將其運用于密度聚類時,采用歐氏距離計算的結果會向均值報價靠近,未必能有效發現相似報價,而馬氏距離具備更好的魯棒性和分類一致性。
本文的主要工作為提出對電力現貨報價模式的識別方法,并對串謀行為特征的價格相似和交易結果呈現串謀的預期效益進行識別,但在一般性的監管環境下還需結合其他的串謀行為特征才能判定市場主體的串謀報價行為,而配合報價和默契串謀的串謀行為更加隱蔽,本文并未進行深入探討。另外,本文提出的方法還需結合未來現貨市場中的真實運營數據進行實證,進一步完善報價向量的設計方法,分析參數設置對聚類結果的影響,以期能真正落地支撐現貨報價行為分析。
本文受到廣東電力交易中心科技項目(電力市場風險監測預警與防控機制研究及功能開發,034500KK52180002/GDKJXM2 0185365)資助,特此感謝!
附錄見本刊網絡版(http://www.aeps-info.com/aeps/ch/index.aspx),掃英文摘要后二維碼可以閱讀網絡全文。