999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學習和時空關聯的大數據分析系統研究*

2021-12-23 03:04:22
通信技術 2021年10期
關鍵詞:關聯系統

李 威

(1.北京銳安科技有限公司,北京 100192;2.北京市網絡空間數據分析與應用工程技術研究中心,北京 100192)

0 引言

隨著深度學習技術的發展,人臉識別、聲紋識別、命名實體識別技術得到了廣泛應用[1-2],但是傳統方法采集的人臉、聲紋、實體和其他結構化數據存在數據孤立的問題。例如,雖然采集到了人臉,但是人臉的身份難以確定。因此,充分發掘數據的關聯關系,利用關聯關系對實體進行多維度刻畫,是提升數據價值的重要手段。文章提出一種基于深度學習進行實體識別,并利用同一時空獲取關聯關系,通過大數據分析獲取多時空中關聯強度的方法。智能采集設備具有豐富的采集能力,廣泛采集聲光電信息,一類形成視頻、圖像、聲音以及話語等非結構化數據,一類形成如經緯度、射頻識別ID、電子設備ID 以及操作信息等結構化數據。基于深度學習的數據處理特點,非結構化數據經過預處理后形成特定大小數據作為深度神經網絡的輸入,統一視同圖片,利用深度學習進行圖像的實體識別和特征歸一,基于同一時空,將實體與其他實體、實體與結構化數據即屬性進行關聯。隨著不同時空采集數據的積累,實體之間、實體與不同屬性之間的關聯度產生顯著差異,因而能夠揭示客觀世界的規律。系統將實體和屬性數據聚合形成檔案,提供查詢分析功能。文章介紹了基于深度學習和時空關聯的大數據分析系統的需求分析、系統架構以及系統數據流,并對數據預處理、數據存儲組織、數據分析挖掘的算法和實現等關鍵子系統展開闡述。

1 系統構建分析

1.1 系統應用需求分析

系統應用需求包括關聯查詢、數據碰撞分析、數據統計等3 個方面的功能。

查詢檢索功能圍繞著圖像實體與屬性關聯形成的檔案信息和時序日志信息,提供以圖搜檔、以屬性搜圖的功能,以及對采集數據日志搜索和時序軌跡數據查詢。日志搜索根據采集設備標識、屬性信息、時間范圍搜索日志數據。時序軌跡數據查詢,根據實體ID、屬性、時間范圍搜索歸屬于同一實體的時序日志數據,形成軌跡刻畫和地圖展示。

數據碰撞分析包括時空數據碰撞分析和混合軌跡分析。以圖像、屬性、時間為碰撞范圍,獲取命中的數據,通過地圖顯示,支持根據時間范圍、區域、采集前端進行篩選檢索。混合軌跡伴隨分析選擇特定時段、區域,可分析該時段區域內實體和屬性同時同地出現的伴隨情況。

數據統計分析包括采集量統計、檔案統計、采集點位統計研究實體屬性關聯置信度。對所有接入的采集數據分時段按照數據類別統計,包括圖數量、屬性數量、形成的檔案數量、前端采集點位數量和采集量。實體屬性關聯置信度基于實體屬性關聯次數,通過關聯率算法,依據關聯率取值區間給出關聯置信度。

1.2 系統架構設計

大數據分析系統整體分為前端的采集系統和后端的數據中心,系統架構如圖1 所示。

圖1 系統架構

采集系統是部署在各類室內外場所的前端感知設備,如道路、園區、廣場等室外場所,以及門禁、樓道、走廊等室內場所。采集系統具備視頻圖像采集及電磁信號采集能力,能夠輸出非結構化數據和結構化數據。

前端設備數量根據實際情況規模差異巨大,從幾百臺到數千臺不等。采集數據量規模隨前端設備數量增加而增長,后端的數據中心的容量能夠水平延伸,動態擴容。

后端的數據中心基于云計算平臺構建,依托云計算平臺提供的存儲、計算能力構建數據服務層和業務應用系統。數據服務層通過數據服務支撐業務應用系統開展相關業務。

數據服務層包括數據預處理、數據存儲組織、數據分析挖掘以及數據治理幾個子系統。數據預處理包括數據清洗、實體歸一、實體建檔、屬性建檔以及比對標識模塊。數據清洗模塊提供一段時間間隔(窗口)內的數據去重功能,實體歸一模塊對來自前端的圖,通過數據分析挖掘提供的能力進行實體識別,并歸一到唯一實體ID。實體建檔模塊按照唯一特征ID 建立實體檔案。屬性建檔模塊按照屬性建立檔案。比對標識模塊能夠對預設的比對條件,如圖、實體ID、屬性等及其組合規則對來源數據進行比對,按照規則對命中數據進行標識。數據存儲組織子系統包含日志存儲、檔案存儲、關聯關系存儲模塊,提供日志、檔案以及關聯關系的存儲功能。數據分析挖掘子系統包括實體聚合、實體屬性關聯和分類統計模塊。數據治理包括資源目錄和數據服務模塊。

業務應用系統對外提供功能應用,基于數據服務層的能力,提供日志查詢、檔案查詢、關聯分析、地圖展示、關系展示、采集設備管理以及運營運維等功能。

1.3 系統數據流設計

大數據分析系統的數據,在采集、數據預處理、數據存儲組織以及數據分析挖掘幾個關鍵子系統中流轉加工過程。系統數據流,如圖2 所示。

圖2 系統數據流

采集子系統。采集功能輸出的非結構化數據,原始數據按照業務需要經過系統預處理后形成特定規格的圖片(如120×120 像素)。文件名帶有采集時間戳,文件數據寫入FTP 指定目錄。結構化采集功能輸出采集到的屬性、時間戳數據,按照文本文件格式5 000 條記錄一個文件,寫入FTP 指定目錄。

數據預處理子系統。實體歸一功能從非結構化數據FTP 讀取圖片數據,將圖片通過接口送給數據分析挖掘子系統的實體聚檔獲取特征歸一ID,也就是同一實體的唯一ID。數據清洗功能的數據有兩個,一是圖片和實體ID 數據,二是屬性數據。在預設的時間窗口(如2 min)內,判斷數據是否重復,丟棄重復數據,實現數據清洗。清洗后的數據包括結構化的數據,如實體ID、時間戳,屬性、時間戳,圖片和原始非結構化數據文件。圖片和原始非結構化數據存入對象存儲庫。結構化數據經過比對標識功能,與預設的比對數據(如實體ID、屬性)進行比對,對命中數據在標識字段進行標記。比對標識后輸出數據包括實體ID 結構化數據和屬性結構化數據,統稱為日志數據,寫入數據隊列。實體ID 結構化數據進入實體建檔功能,屬性結構化數據進入屬性建檔功能,形成檔案后分別寫入實體檔案庫和屬性檔案庫。

數據分析挖掘子系統。實體聚檔功能實現圖片實體的識別和比對,給出系統唯一的ID。根據識別算法,使用特征點計算特征向量,通過特征向量的歐氏距離計算圖像實體相似度,在相似度一定范圍內歸為同一實體。實體屬性關聯功能實現圖像和屬性的關聯,從數據隊列讀取流式數據,對同一點位設備的圖像數據和屬性數據,在一個時間區間內(如2 min)形成一次數據關聯。實體ID 與屬性形成的關系稱為關聯,不同實體ID 關系稱為伴隨關系,即同時同地出現。形成的關系數據存入關聯庫。多維統計功能從數據隊列獲取數據,針對設備輸出、實體ID、屬性等維度按時間區間統計數據量,統計數據寫入統計庫。

數據存儲組織子系統。接收外部子系統數據流,提供數據隊列、實體檔案、屬性檔案、統計庫、關聯庫、對象存儲庫以及日志庫等數據存儲功能。

2 關鍵算法及實現

2.1 數據預處理算法及實現

數據預處理子系統基于開源軟件Apache Flink實現。Flink 是一個框架和分布式處理引擎,用于對無界和有界數據流進行有狀態計算。系統邏輯結構如圖3 所示。

圖3 數據預處理子系統

Flink 提供流處理和批處理API 支持,其核心引擎是分布式流式運行時系統。Flink 支持本地、云端和集群3 種部署方式,按照系統規模靈活選擇[3]。規模較小時,如支持10 臺以下前端采集設備的演示系統,單臺高性能服務器即可支撐系統搭建,可以采用本地部署模式。大規模應用,如支持1 000前端采集設備的生產系統,需要采用云端部署或集群部署模式。

通過實現一個Flink 自定義數據源讀取FTP 數據,實現非結構化數據接入和結構化數據接入。數據接入后,在流處理過程中實現設備組關聯、實體歸一、數據清洗、比對標識、實體建檔以及屬性建檔功能。設備組關聯是根據應用系統設定的前端采集設備組與設備ID 對應關系,對來源數據根據設備ID 回填設備組信息。在采集設備實際部署中,通常要在同一點位不同方向部署多臺設備形成一個設備組。實體歸一功能將圖片傳送給實體聚檔,實體聚檔返回唯一的實體ID。如果圖片質量不能達到聚檔要求,則返回空,系統丟棄此數據。

數據清洗的處理邏輯是在一個時間窗口內(如2 min)屬于一個設備組數據范圍。對于人像數據,根據實體ID 去重,相同實體ID 的保留一組數據。對于屬性數據,根據屬性值去重。計算方法為在窗口內以設備組+實體ID 或設備組+屬性構建哈希索引,并根據哈希值進行比對判斷是否重復。清洗后的數據形成實體數據集和屬性數據集兩個數據集,構成了日志數據、寫入數據隊列以及日志庫。

比對標識從業務系統的標簽管理功能獲取標簽的比對規則,根據規則進行數據匹配,匹配成功后設置標簽值。

實體檔案包括實體ID、圖片路徑、原始非機構化文件路徑、標簽、時間戳、設備組以及設備ID等字段,寫入實體檔案庫。

屬性檔案包括屬性、標簽、時間戳、設備組以及設備ID 等字段,寫入屬性檔案庫。

2.2 數據分析挖掘算法與實現

數據分析挖掘子系統包含實體聚檔、實體屬性關聯和多維統計3 個核心功能。

實體聚檔是利用深度學習技術進行實體識別和特征比對。實體識別通過特定的深度神經網絡,識別數據中的實體。根據業務需要實體,它可以是數據中的人、車、物、字符、聲紋或其他概念實體[4-6]。特征比對其本質是1:N的多分類問題,使用訓練好的神經網絡提取圖片深度特征,使用最近鄰分類器通過比較深度特征之間的距離進行身份識別。特征距離的度量常使用歐氏距離或余弦相似度。例如,圖像Xi和Xj的特定實體特征分別為F(Xi)和F(Xj),當特征之間的距離在預先設定的閾值t范圍內時,即:

則認為這兩幅圖像來自同一個實體[7]。

基于特征向量的大規模數據檢索,面臨特征數量大、特征維數高導致檢索性能低下的問題。系統通過構建高維度特征索引,加速查找[8]。實體聚檔將給定的圖片與系統已存圖像進行搜索比對,匹配成功則返回唯一ID。匹配不成功,認為是新增實體,則分配唯一ID 并存入系統。

實體屬性關聯實現同一時空的實體和屬性的關聯,通過設備組ID 判斷是否屬于同一采集空間,一定時間區間(2 min)內算作同一采集時間。本系統實際場景中,一般2 min 內一個設備組采集回來圖片小于10張,但采集的屬性數據則在數百個的量級。這些數據中圖片實體和屬性共同出現一次,則記錄為一次關聯,按照設備組統計關聯次數和屬性出現次數,關聯次數Ng={N1,N2,…,Nn},N1表示在設備組1 的關聯次數;屬性出現次數Mg={M1,M2,…,Mn},M1表示屬性在設備組1 的出現次數。

關聯率P的計算:

關聯率取值范圍[0,1]。實體屬性關聯有兩個方向的關聯率:一是由實體到屬性的關聯率,即上述計算方法;二是由屬性到實體的關聯率,按照上述方法取關聯次數與實體出現次數比值可得。

多維統計包括設備組ID 為統計維度的采集數據量統計、日志量統計、圖片量統計、設備統計以及檔案統計。統計數據在流式處理過程中計算,結果寫入關系型數據庫。

2.3 數據存儲組織算法與實現

數據存儲組織子系統實現數據的緩存和持久化存儲,包括數據隊列、對象存儲庫、關聯庫、統計庫、日志庫、實體檔案庫和屬性檔案庫。

數據隊列是數據接入后緩存的隊列,為后續數據分析挖掘提供數據通道。數據隊列基于Kafka 實現,包含,人像Topic 和識別碼Topic 這2 個Topic數據。

對象存儲庫用于存儲圖片文件和原始非結構化文件,系統需要存儲大量的非結構化文件。本系統實際場景中,一臺前端采集設備一般每天產生2 萬張圖片,系統按照1 000 臺前端設計,每天產生2 000 萬張圖片,存儲周期是3 個月,圖片存儲總量是18 億張圖片及其原始非結構化文件。為滿足海量小文件存儲的高速、高帶寬、大容量、可伸縮性要求,圖片庫基于FastDFS 構建[9]。為便于數據存儲和老化,按天建庫,超過3 個月的庫文件定期清庫并回收存儲空間。

關聯庫存儲關聯關系和伴隨關系,以及關聯次數和實體、屬性的出現次數,具備大數據量的高速寫入和讀取能力,實現實時的讀取和回寫(6 萬次/秒)。關聯庫基于內存數據庫Redis 實現,主要有實體次數表、屬性次數表、實體-屬性關聯次數表、實體-屬性關聯率表、屬性-實體關聯率表,如圖4 所示。利用Redis 的Key-Value 存儲形式,以實體次數表為例,Key 為實體ID,Value 為Set 類型,可以填充多值,里面存放此實體ID 在某一設備組ID 下出現的次數。預處理子系統在處理每個實體ID 時,從表中查出其Key 對應的Value,對其所屬設備組ID 的次數加1 后組成新的Value Set(含全部出現的設備組及次數),并回寫Value。其他表處理邏輯類似。

圖4 數據存儲子系統設計

日志庫存儲結構化日志數據。日志庫、實體檔案庫、屬性檔案庫基于ElasticSearch 實現。ElasticSearch 是一個開源的分布式搜索引擎,具備高可靠性,支持時間索引和全文檢索,對外提供豐富的接口API,用于索引、檢索和配置修改[10]。

統計庫存儲統計數據基于MySQL 實現。

3 結語

本文介紹基于深度學習和時空關聯的大數據分析系統的研究體系,從系統架構設計和數據流設計角度介紹系統的整體概貌,然后闡述了系統的關鍵算法和實現。系統研發完成后已經在多處項目中上線運行,在實體建檔、實體-屬性關聯、軌跡分析等重要功能上達到了設計意圖,滿足了項目需求。實際運行中發現以下問題需進一步改進:一是復雜場景下實體識別的成功率偏低,導致實體數據不完整以及實體歸一不完全;二是屬性的采集中無關數據量較大,大量垃圾數據占用存儲空間增加了算力消耗。

猜你喜歡
關聯系統
Smartflower POP 一體式光伏系統
工業設計(2022年8期)2022-09-09 07:43:20
不懼于新,不困于形——一道函數“關聯”題的剖析與拓展
“苦”的關聯
當代陜西(2021年17期)2021-11-06 03:21:36
WJ-700無人機系統
ZC系列無人機遙感系統
北京測繪(2020年12期)2020-12-29 01:33:58
基于PowerPC+FPGA顯示系統
“一帶一路”遞進,關聯民生更緊
當代陜西(2019年15期)2019-09-02 01:52:00
半沸制皂系統(下)
奇趣搭配
連通與提升系統的最后一塊拼圖 Audiolab 傲立 M-DAC mini
主站蜘蛛池模板: 亚洲无码精彩视频在线观看| 亚洲一区毛片| 国模视频一区二区| 欧美日韩北条麻妃一区二区| 国产在线观看高清不卡| 又爽又大又光又色的午夜视频| 美女国产在线| 色婷婷久久| 久久婷婷国产综合尤物精品| 国产H片无码不卡在线视频| 99激情网| 婷婷色狠狠干| 2024av在线无码中文最新| 九九热在线视频| 亚洲美女操| 日韩在线网址| 一级片一区| 亚洲天堂.com| 四虎影院国产| 久久免费看片| 呦女精品网站| 国产成人91精品| 一区二区理伦视频| 久久特级毛片| 国产日产欧美精品| 国产老女人精品免费视频| 久久久久久久久亚洲精品| 91免费观看视频| 亚亚洲乱码一二三四区| 真实国产乱子伦高清| 国产在线一区二区视频| 玩两个丰满老熟女久久网| 亚洲一区网站| 欧美国产日韩在线观看| 日本黄色不卡视频| 亚洲精品视频网| 呦视频在线一区二区三区| 欧美激情第一欧美在线| 亚洲日产2021三区在线| 欧美97欧美综合色伦图| 久久久久青草线综合超碰| 黄色网站不卡无码| 国产又爽又黄无遮挡免费观看| 欧美日本视频在线观看| 91在线精品免费免费播放| 原味小视频在线www国产| 一级毛片免费高清视频| 成人av手机在线观看| 9啪在线视频| a级毛片毛片免费观看久潮| 久久综合五月| 国产视频自拍一区| a欧美在线| 国产日韩欧美视频| 欧美 国产 人人视频| 在线视频一区二区三区不卡| 精品自窥自偷在线看| 亚洲精品国产首次亮相| 九色视频一区| 久久永久视频| 欧美午夜一区| 国产主播在线一区| 国产91无码福利在线| 黄色网页在线观看| 欧美日韩一区二区三区在线视频| 这里只有精品在线| 日韩东京热无码人妻| 国产成人高精品免费视频| 国产综合色在线视频播放线视| 免费人成视网站在线不卡| 国产精品久久国产精麻豆99网站| 亚洲人成网站在线播放2019| 成人欧美日韩| 97se亚洲综合在线韩国专区福利| 欧美.成人.综合在线| 美女免费黄网站| 无码人妻热线精品视频| 欧美日一级片| 国产国产人成免费视频77777| 午夜小视频在线| 免费无遮挡AV| 网友自拍视频精品区|