■鄒 玲,程德巧
2011年全球著名智庫Mckinsey Company首次提出“大數據”的概念。隨著經濟技術的發展,信息流與數據流都對傳統的數據處理技術提出了挑戰,大數據技術作為一項新興的現代技術應運而生,并廣泛應用于航天、制造、醫學、商業、金融等領域。由另一家全球知名的智庫IDC公司發布的《數字宇宙研究報告》指出,全球信息總量每增長一倍僅需兩年時間,以此推算,2011~2020年,全球信息數據總量將從1.8澤字節增長至35澤字節。通常認為,大數據主要特征包括體量大(Volume)、速度快(Velocity)、類型雜(Variety)、價值大(Value)和復雜性高(Veracity)等(俞立平,2013)。在此背景下,從2012年開始,中國人民銀行提出在全國開展人民幣冠字號碼查詢系統推廣工作,目前流通中現金總量已達萬億級別。因此,科學記錄每一張流通中人民幣的冠字號碼,實現數據與圖像在中央銀行發行庫、商業銀行業務庫、網點柜臺、現金清分中心之間有效傳輸,為存儲與分析創造有利條件,這些都對數據處理技術提出了更高要求,大數據技術有望在這一領域取得新應用。
目前冠字號碼查詢系統建設的基本技術尚處于摸索階段。國內著名金融技術支持提供商紛紛涉足上述技術,但業內尚未形成統一觀點。總體而言,現有冠字號碼查詢系統技術包括三種:一是物理方式,即借助物理存儲設備實現冠字號碼信息在點鈔機、清分機等金融設備之間實現傳輸;二是直連方式,即借助金融機構內部網絡實現冠字號碼信息在設備之間的傳輸;三是中轉方式,即將各臺設備的冠字號碼信息先匯總至網點匯聚機,并同時上傳至總服務器。現有三種冠字號碼查詢系統技術方式存在的主要問題表現在以下幾個方面。
傳統的冠字號碼識別技術主要有模板匹配法與特征識別法。本質上看,兩者原理的基本一致,只是在實際運行過程中稍有不同。但是前者對原始數據質量要求較高,特別是需要對冠字號碼進行歸一化處理,需要耗費一定時間,誤辨率不高。而特征識別法雖然能更好地適應查詢系統的需要,且對于不同票面質量的鈔票的冠字號碼識別性較好,運用范圍較前者更廣,但是在大量識別樣本的情況下,部分特征無法嚴格遵循特定的數學描述,容易導致誤判率偏高。此外,冠字號碼識別的準確程度既依賴圖像識別技術,也受原始材料的質量和其它資料的可用性等因素影響,由于查詢系統的封閉或存儲信息的缺乏,使有助于冠字號碼正確識別的其它參考信息而不可得,圖像識別技術無法結合其它統計推斷的綜合識別技術來降低誤識率。
傳統的冠字號碼存儲技術將冠字號碼的圖像信息與數據信息存儲在一起并進行統一處理,這一做法雖然有利于滿足冠字號碼的持續性查詢及人工輔助識別需求,但當數據過于龐大時對于存儲硬件設備的要求較高。不斷增加的冠字號碼原始圖像與號碼文字信息基礎數據,以及人民幣市面流通產生的新數據使存儲空間的耗費變大,這要求配備的服務器數量急劇增加,使企業成本成倍上升。此外,由于冠字號碼信息數據的保存采用的是回滾寫入方式,這種頻繁寫入的方式導致磁盤碎片大量產生,從而影響了讀寫性能。
數據挖掘與分析理應成為查詢系統的關鍵,而現有的冠字號碼查詢系統是各銀行業金融機構為達到人民銀行要求而創建,推廣使用是為本機構涉及的假幣糾紛舉證,以及獲取責任劃分的支撐資料來保障自身利益,所以查詢系統一般只提供基本的存儲、傳輸與查詢功能,在數據挖掘方面卻不具備較好功能,故而數據挖掘手段的缺失是限制冠字號碼查詢系統長遠發展的瓶頸。
構建基于大數據技術的人民幣冠字號碼查詢系統主要出于以下幾個方面考慮。
數據采集(DAQ)是指從傳感器和其他待測設備等模擬和數字被測單元中自動采集信息的過程。鑒于鈔票冠字號碼兼具圖像采集與數據提取兩方面的特征,故而科學開展對冠字號碼的準確記錄關鍵在于對冠字號碼識別的準確度。目前,作為一項大數據技術,通過優化粒子群優化算法的BP網絡識別算法在圖像識別領域得到了廣泛運用,且實驗證明,通過粒子群算法來優化BP神經網絡的權值和閾值,能使識別準確率提升10%以上(許興培等,2016)。因此,將通過粒子群算法優化的BP網絡識別技術用于冠字號碼數據收集,可獲得更加可靠的冠字號碼數據。
冠字號碼存儲需要滿足數據隨時錄入、生成、讀取的需要,并能夠盡可能壓縮存儲空間,以適應多網點采集和大容量運行的需要。因此,應該采用MPP架構的新型數據庫集群,運用Shared Nothing架構,通過列存儲、粗粒度索引等多項大數據處理技術,以及結合MPP架構高效的分布式計算模式來完成對分析類應用的支撐。由于冠字號碼信息包括圖像、數據、色彩等諸多元素,故而本文認為采取Hadoop的技術擴展技術如基于HBase的OpenTSDB進行實現大數據存儲是比較合適的。OpenTSDB的主要特點包括讀寫性能好,能實時、連續和多指標地存儲大數據,以及橫向擴展存儲能力簡單等(陳吉榮和樂嘉錦,2013)。因此,采用該技術能夠最大限度地實現對冠字號碼的綜合存儲,并能實現數據及時應用,具有存儲量大、應用性強、用途廣等優點。
冠字號碼查詢系統除了需要滿足基本的記錄、存儲與查詢功能,更重要地是需要滿足對鈔票流通與使用的分析,通過有關系統實現的數據挖掘技術主要有遺傳算法、決策樹法、粗集方法、統計分析法、模糊集法等。但傳統的數據發掘技術具有“黑箱”特性,難以理解其分析和決策過程,從而不能從根本上保證分析結論的客觀性,并且當面對符號與數值并行的冠字號碼時,傳統的數據挖掘技術經常無能為力。而采用大數據技術則可很好地克服上述不足,例如用于大數據挖掘的多模態數據的KMeans算法,適用于混合數字特征和分類特征(如數值型和符號型并存)的數據(Ahmad&Dey,2007),能最大限度地發揮數據挖掘算法的數據分析優勢,實現對冠字號碼大數據的分析與應用。
傳統的數據展示技術一般基于瀏覽器操作,用戶通過瀏覽器訪問系統時,在發出數據請求后,WEB服務器根據用戶請求來訪問數據庫,得到相應數據后發送給瀏覽器,最后瀏覽器處理并將數據結果展示出來。上述過程對于瀏覽器依賴程度較高,靈活性不足,并且短期內難以處理大規模數據。因此,若能采用基于Hadoop和Mahout框架的大數據文本化圖像處理方法,顯然具有優勢。文本可視化的意義在于,能夠將圖像中蘊含的語義特征(如重要度、邏輯結構、主題聚類、動態演化規律等)直觀地展示出來,非常適用于冠字號碼這一類包含大小、色彩、磁性的圖像展現。
基于大數據技術的人民幣冠字號碼查詢信息系統應該遵循如下設計思想。(1)確保總體架構的合理規劃,全面實現過程、人員和信息的實質集成、高度協調,實現更高的互操作性與協同、更敏捷的業務流程、更全面的信息可見性。(2)降低集成成本和風險,降低維護成本。(3)支持業務流程管理,用戶可以實現對企業業務流程的可視化動態建模、定義、擴展,以及透明的跟蹤與控制,支持企業流程的改進和業務的創新。(4)豐富、強大的報表支持技術和相關工具,可以利用任意數據源,創建簡潔、直觀、實時的用戶報表。(5)支持企業搜索,為用戶提供企業級業務信息搜索能力,實現類似互聯網搜索的操作體驗。
人民幣冠字號碼查詢系統正常運轉包括數據采集、數據管理和數據應用。其中:數據采集是基礎,大數據采集技術體現在數據采集前置模塊;數據管理包括數據的添加、修改、刪除等一般操作,數據維護以及網絡數據的收發,數據存儲等,存儲技術的運用體現在數據中心模塊;數據應用包括數據的檢索、統計分析及數據的展示,數據挖掘技術和數據展示技術分別體現在數據高級應用模塊和Web服務器模塊。查詢系統的主要模塊見圖1。
如圖1所示,冠字號碼采集前置機模塊安裝部署在冠字號碼采集前置機上,服務程序包括:參數管理、指令請求、冠字號碼文件獲取、冠字號碼文件合并、冠字號碼上傳文件、冠字號碼提供的正確性審查、ATM加鈔文件獲取、ATM加鈔文件上傳等。冠字號碼網點采集模塊部署在網點數據采集PC上,直接連接A類點鈔機、清分機等設備實時采集冠字號碼信息,且冠字號碼數據采集、數據上傳的整個過程自動完成,不需人工干預。冠字號碼黑名單管理模塊實現了可疑批次冠字號碼信息錄入黑名單,客戶交易時向設備發送拒絕交易信息,對追蹤幣進行預警,該功能有助于協助公安機關進行案件偵破。冠字號碼采集監控模塊實時監控冠字號碼數據采集PC終端的運行狀態與網絡狀態,提供網絡異常報警和機器故障報警等功能。現金管理模塊包括中央銀行出庫功能、支行下解上繳功能,通過自動打印帶有二維碼或RFID電子標簽實現捆封簽。接口模塊系統可以兼容市面上主流金融機具,實現方式為數據接口和網口兩種。數據中心模塊采用Oracle數據庫進行數據存儲、處理,對于冠字號碼大數據量,可通過對表進行分區及合理創建索引來解決,且通過采用全分布式大數據處理架構,平臺能夠隨著冠字號碼數據的增長和業務的擴張而不斷增長,同時能夠保持極高的線性度,從而解決了傳統架構在擴展范圍和擴展效率方面的難題,有助于實現海量冠字號碼的快速查詢、分析。系統綜合管理模塊包括銀行信息管理、網點信息管理、機具管理、用戶管理、權限管理、報表管理、日志管理、參數設置等功能。冠字號碼Web服務器模塊提供Web服務,即提供冠字號碼Web查詢,接受客戶端通過瀏覽器訪問,處理冠字號碼查詢,生成并返回文字圖像查詢結果。高級應用模塊提供數據的統計分析、信息元素間的相關性分析、冠字號碼異常查詢檢測以及數據的導出等功能。

圖1 基于大數據技術的人民幣冠字號碼查詢系統主要模塊
中國人民銀行推廣冠字號碼查詢系統工作的初衷是建立涉假糾紛舉證機制,協助處理存在于金融機構之間以及金融機構與客戶之間的涉假糾紛問題,杜絕金融機構對外誤付假幣等問題。然而,當各銀行業金融機構的冠字號碼查詢系統實現全國聯網時,冠字號碼信息采集同步記錄了現鈔實物流轉和客戶業務信息,整個系統得到廣泛使用后將產生龐大數據,若能持“大數據”的思維來開發并加以應用,冠字號碼查詢系統價值遠不止能有效防治假幣流通等方面。首先,功能完善的冠字號碼系統能夠提高金融機構柜臺工作人員以及其它與人民幣清分相關人員的工作效率,并有助于實現對相關工作的監督與測評。而最能體現冠字號碼查詢系統價值的是留存在系統內部的龐大數據,對這些數據進行科學整合、梳理和數據挖掘,不僅能夠為打擊洗錢、懲治腐敗提供線索,還可以為未來貨幣需求提供預測,為貨幣投回計劃編制提供支撐,推動貨幣流通管理向科學化的更高水平邁進(劉偉林和殷俊,2016)。只有當相關部門充分認識冠字查詢系統的價值時,才能積極主動地加入到系統建設工作。
目前,冠字號碼查詢工作已基本實現了金融機構在涉假糾紛中提供舉證的階段性目標,而要拓展建設功能完善的人民幣冠字號碼查詢系統,則需要多個部門共同努力,進行更多的溝通、交流與協作。目前,冠字號碼查詢系統數據采集內容單一,信息含量少;各銀行業機構的查詢系統自成一家,都僅限于給機構本身的查詢提供服務且功能簡單。因此,要在此基礎上組建功能強大、互聯統一的查詢系統,需要完成系統功能需求分析、重新構建數據結構、重組和升級軟件硬件等工作,這將涉及包括人民銀行、商業銀行、地方政府、設備生產廠家以及軟件服務企業在內的多家機構。因此,有效建設與推廣冠字號碼查詢系統,需要積極促進各部門的業務協調,并建立有效的協調機制,進而促進業務的整體推進。
首先,要強調基礎的硬件建設,優化通信網絡,積極推進金融機具的優化升級。人民銀行應及時跟進,了解金融機構在冠字號碼查詢建設工作方面的實際進展情況,并依據掌握的信息制定相關政策,引導和督促金融機構與生產廠家合作,促使機具生產廠家在生產環節利用大數據原理改造原有機具,加裝冠字號碼查詢模塊,逐步實現金融機構對機具設備的改造升級。在實現淘汰一批陳舊落后的發行設備基礎上,逐步過度到各類現鈔終端貼上藍色標簽和黃色標簽,最終實現全部升格到藍標標識標準的冠字標識設備。
其次,在查詢系統軟件的更新升級上,堅持統一要求與客觀實際相結合的原則,給予銀行金融機構升級到統一接口查詢系統一定的過渡期,在過渡期間允許金融機構根據自身實際情況繼續使用原有系統或直接升級到新系統。在金融機構系統升級改造中,要出臺統一標準的信息采集要求和數據傳遞的接口規范。在信息記錄方面,逐步實現跨行調款時同步記錄冠字號碼信息與實物流轉信息,逐步實現銀行業金融機構提供的現鈔收付業務服務時同步記錄冠字號碼信息和客戶業務信息。
現有的關于人民幣流通管理的有關制度條例已經推行多年,在人民幣冠字號碼系統全面推廣之際,建議通過修訂《人民幣管理條例》《現金管理條例》等法律法規,為全面推進人民幣冠字號碼查詢系統建設提供必要的法律支撐。