◆王娟
安全模型、算法與編程
C2C電子商務網站反作弊系統的設計與實現
◆王娟
(桂林理工大學商學院 廣西 541006)
隨著人們網購頻率日益增加,并且由于互聯網時代的到來,物流支付鏈接變得更加完善,在線購物者的數量也大大增加。越來越多的在線購物平臺,如淘寶、天貓、京東商城,對在線營銷反作弊系統的需求也越來越大。現如今購物平臺需要一個防欺詐系統,以過濾出欺詐性商家,為用戶提供干凈公平的在線購物平臺,創建更好的消費通道。本文在對業務場景、常用作弊方法和作弊渠道進行詳細分析后,提出了解決方案。該系統的總體設計主要分為四個模塊:日志收集,前端實時防控、后端離線過濾和處罰中心。使用Groovy作為用于收集日志的Flume,用于存儲和計算日志量的Hadoop平臺,用于實時反作弊計算的Esper復雜事件流處理引擎以及處罰規則引擎,分別描述了每個模塊的技術實現。我們通過應用相關知識(例如云計算技術,Hadoop Map/Reduce編程框架、數據挖掘、在線分析和數據倉庫處理)提供C2C電子商務網站反作弊系統的示例。
C2C電子商務網站;反作弊系統;設計;實現
在過去的十年中,互聯網發展非常迅速,有關互聯網的信息也以爆炸性的速度增長。截至2013年6月,中國的互聯網用戶數量達到5.9億,僅上半年便新增了2.66億互聯網用戶。互聯網普及率為44.1%,比2012年底提高了2.0個百分點。互聯網已經成為人們獲取信息的最重要渠道。此外,隨著人們網購頻率的發展和互聯網時代的到來,物流支付鏈接也變得越發完善,在線購物者的數量也大幅度增加。淘寶、天貓、逸迅和京東商城等越來越多的在線購物平臺也已經出現。由于互聯網基礎結構的這些改進,越來越多的人正在使用互聯網進行商業活動,其中對在線商品銷售的需求最高。同時,為方便網上開店的用戶和在網上購物的用戶,專業便捷的C2C電子商務網站正在中國逐步出現。成千上萬的人在互聯網上購物,同時也有數以萬計的商家在網絡上進行銷售,如何從成千上萬的買家那里獲得可觀的流量交易已成為賣家的主要問題。一般運行時間較長的商家可以提高店鋪等級來逐漸增加流量,但是激烈的市場競爭和巨額利潤經常使交易者承擔風險,這種環境對店鋪的營銷帶來很大挑戰。
本章主要介紹了系統開發中使用的主要技術,包括用于構建云平臺的HDFS,分布式計算編程框架MAP/REDUCE,數據倉庫HIVE和事件流處理框架ESPER。
HDFS是Apache Fund的分布式基礎架構,具有高容錯性,主要設計并應用于許多低成本硬件,以處理軟件層的各種錯誤。現在,由于HDFS的高可用性已使其作為HDFS文件系統和Map/Reduce編程框架,被廣泛用于處理大量數據的各種應用程序中。
1.1.1HDFS架構
首先,管理網絡上多臺計算機的存儲的文件系統稱為分布式文件系統。HDFS(Hadoop分布式文件系統)就是其中之一,并且是專門為諸如MapReduce之類的分布式編程框架開發的文件系統,用于執行大規模數據處理。HDFS使用服務器/客戶端架構,每個HDFS群集主要由兩部分組成,一個是NameNode,另一個是DataNode。“名稱”節點主要控制HDFS文件系統的名稱空間,并維護存儲在整個集群中的文件系統樹。與元數據有關的所有服務也由名稱節點進程提供,因此它們也稱為元數據節點。“名稱”節點記錄文件名和拆分文件的塊列表之間的映射關系,以及塊和實際系統之間的對應關系。“名稱”節點以快照的形式在本地文件系統中存儲映射關系,并在每次系統重新啟動時在本地加載映像,并獲取文件的存儲地址。在大多數情況下,名稱節點僅被動地接受來自數據節點的請求,執行其任務并更新。數據節點是實際存儲文件的節點,通常一個物理系統對應一個數據節點。通常,不執行數據節點的磁盤陣列備份,因為文件被設計為備份到多個數據節點,而不是一個數據節點上的多個文件。
HDFS數據塊備份和分發策略存儲一系列數據塊,每個文件都在其中劃分。除最后一個分段數據塊外,分段成文件的所有其他數據塊大小相同。為了提高容錯能力,通常以多份副本備份數據塊,同時用戶也可以自行配置數據塊的大小和備份副本的數量。
基于HDFS的應用程序可以通過配置文件更改參數,創建數據備份時,用戶可以指定塊備份的數量或稍后對其進行修改,但是在HDFS中,每個文件一次寫入。
名稱節點會定期在每個數據節點上執行心跳檢查和數據庫快速狀態報告,以確定哪些數據節點當前可用以及哪些數據文件已存儲。通常,如果很長時間未收到數據節點的心跳,則系統會使它無效并重新啟動該節點以恢復數據從而重新加入系統。
1.1.2如何恢復可用空間
與傳統的文件系統刪除方法不同,在HDFS中刪除文件時,需要重命名文件而不是直接刪除文件,然后將文件首先移至回收站。用戶可以隨時從回收站中檢索文件,但是這并不意味著文件始終存在。系統會將文件保留一段時間,當保留時間超過配置時間時,“名稱”節點將從名稱空間中刪除文件,并釋放與文件數據塊相對應的空間,同時,這些數據塊可以在導入期間覆蓋。此外,修改文件備份的數量還會釋放其他數據塊,并且名稱節點在下一次檢測信號時將修改后的配置信息發送到數據節點,并在數據節點接收到它們后刪除其他本地文件。
構建反作弊系統,首先需要對業務背景和反作弊系統進行分析,并從業務反作弊需求開始描述整個系統的體系結構和過程。該系統的核心部分是兩個主要模塊,即快速實時處理和離線處理大量數據,該系統中的大部分內容都是圍繞這兩個模塊展開的。系統處理數據的來源,主要是用戶的行為日志,系統具有用于收集和存儲WEB日志的模塊,同時需要預處理WEB日志并預先計算一些常用數據以進行脫機工作。最后,系統需要處罰捕獲的作弊行為,此時需要一個可配置的靈活的處罰中心,該中心可以實時和脫機處理捕獲的作弊行為。
簡而言之,反作弊系統的重點是識別、預防和監控C2C電子商務平臺中的作弊行為,提高平臺的整體完整性,改善買家在網上的購物體驗。
2.1.1C2C平臺反作弊的重要性
C2C代表個人與個人之間的電子商務,隨著電子商務的飛速發展,C2C扮演著越來越重要的角色。C2C平臺為買賣雙方提供了一個在線交易平臺,賣方在該平臺上展示和出售他們的產品,而買方則通過該平臺找到和購買他們需要的產品。而決定C2C平臺成功的關鍵則是為用戶提供在線購物體驗,用戶訪問網站購物時,該平臺必須盡力推薦與客戶需求相關的產品。
2.1.2在C2C平臺上作弊的常見類型和原因
為實現有效識別,系統會對商家作弊的動機進行分析,縮小作弊分析范圍。隨著搜索應用程序的增加,搜索已成為許多C2C平臺用戶找到所需產品的最重要手段。用戶在搜索欄中輸入所需商品的關鍵詞以查找要購買的商品,在平臺返回到搜索關鍵詞的排名頁面,關鍵詞搜索結果頁面匯總排名靠前的商家的產品并展示給用戶。通常,作弊類型有以下幾個方面:
(1)在平臺站內搜索:通過短期技巧來改善搜索結果排名的常用方法是提高賣家商品與搜索關鍵詞的相關性。
(2)賣家評分:賣家評分也對搜索結果有很大的影響,通過大流量模擬真實用戶在線購物操作購買物品,增加交易量和評分。
(3)惡意攻擊競爭對手的方法:1)惡意評價,從而導致賣家降低搜索排名;2)惡意點擊競爭對手的廣告寶貝。
2.1.3作弊的方法
C2C電子商務平臺上目前存在兩種主要的作弊方法:機器作弊和人工作弊。機器作弊屬于低成本,可以多次生成大量事務,使用此方法,能夠模擬很多地理位置及購物賬號。當然,引起虛假點擊的網絡機器人也是爬蟲,我們在不模擬交易的情況下爬網,某些機器人會這樣創建病毒并將其分發到各個計算機,然后竊取真實用戶的賬戶并進行點擊,但此類交易都是模擬點擊,且由于它們是機器人,因此其份額非常有規律且可檢測。人工作弊是真實用戶手動模擬購買記錄,僅查看交易數據沒什么問題,且行為正常,因此這類作弊給反作弊系統的識別帶來了巨大的挑戰。
2.1.4檢測作弊的方式
檢測作弊通常分為兩種方法:實時檢測和離線檢測。通過查找和分析操作日志中的異常數據,可以確定實時和離線檢測。實時檢測系統主要針對某些欺詐者作弊方式比較粗糙,作弊量較高,很容易在短時間內引發大量異常。
離線反作弊系統通常針對更復雜的場景。例如,每天都有幾次作弊點擊,并且僅在特定日期沒有數據,需要分析和處理所有過去的流量日志以發現問題,在大多數情況下,需要在許多日志上進行數據挖掘。為了檢測欺詐,離線系統主要提供算法代表,算法人員專注于提供算法優秀的數據和工具收集,可訪問和處理數據。
除了剛才提到的搜索排名之外,商家還需要真實的交易及買家評論來提高自己的店鋪等級,這是一個非常重要的因素。用戶更關心與購物經驗良好的賣家交易,以避免不必要的風險。同時店鋪等級也對搜索結果產生巨大影響。
互聯網用戶的隱私問題:互聯網服務都是通過分析用戶行為來執行的。收集網站的用戶訪問日志,并分析用戶行為以更好地為他們提供服務。目前,有多種技術可以監視用戶的行為,例如IP地址,注冊信息,cookie,瀏覽器行為,服務器日志,互聯網使用記錄等。隨著“棱鏡門”事件在美國的曝光,個人的隱私和安全也被推到了互聯網發展的最前沿。現如今,隨著《互聯網隱私法》的不斷完善,可用資源越來越少,反作弊工作也將面臨新的挑戰。
[1]許青. C2C電子商務中消費者信任的影響因素研究 [D].長沙:湖南大學,2010.
[2]張釗.消費者對C2C 網上店鋪初始信任影響因素研究[D].哈爾濱:哈爾濱工業大學,2010
[3]吳明楊. 淘寶網營銷策略研究[D].長春:吉林大學,2013.