999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于人工智能的跨媒體感知與分析技術研究*

2020-03-25 07:34:46張正強張家亮周世杰劉建新
通信技術 2020年1期
關鍵詞:文本智能

李 斌,張正強,張家亮,周世杰,劉建新

(1.成都三零凱天通信實業有限公司,四川 成都 610041;2.電子科技大學,四川 成都 610054)

0 引 言

隨著新媒體技術的飛速發展,媒體廣泛存在于互聯網、廣播電視以及視頻監控等各個領域。跨媒體既表現為包括文本、語音、圖像以及視頻等混合介質形態,又表現為跨越不同媒介的傳播和表達方式,還表現為覆蓋網絡空間和物理空間的媒體融合的復雜關聯關系[1]。如何從形態多樣、分布廣泛、關系復雜的海量跨媒體資源中快速獲取和準確表達有價值的知識,已成為亟待解決的問題。

為搶抓人工智能發展的重大戰略機遇,加快建設創新型國家和世界科技強國,國務院在2017年發布了《新一代人工智能發展規劃》(國發〔2017〕35號)[2],其中16次提到跨媒體相關內容,包括“跨媒體協同”“跨媒體智能”“跨媒體感知計算”等,充分表明跨媒體感知與分析已經成為新一代人工智能應用的重要領域。人工智能技術為跨越文本、語音、圖像以及視頻的媒體知識表征,跨越時間和空間的媒體分析推理,為形成涵蓋數十億實體規模的多源、多學科和多數據類型的跨媒體智能應用指出了方向。

1 跨媒體智能感知與分析技術

1.1 跨媒體智能感知技術

1.1.1 并行文本數據采集與感知

文本數據源大規模并行采集技術針對全球的開放數據源,包括主流媒體與自媒體(如國內的微信、微博、知乎,國外的Twitter、Facebook等)的多語種文本數據進行分布式、實時化和增量化采集。

1.1.2 多通道視頻數據爬取與感知

多通道分布式爬取技術針對種子地址URL進行多通道建立,包括登錄驗證、DNS解析緩存、打碼、解析以及下載等,實現互聯網海量視圖像數據的分布式集群采集。大規模視頻流拉取技術對主流視頻監控廠商的終端接入方式、流媒體格式及解碼技術等進行研究,實現在線視頻碼流拉取與解碼。

1.1.3 跨媒體數據知識統一表征

深度神經網絡在大數據分析中不斷取得突破性成功,給跨媒體關聯表征帶來了新思路。針對不同的跨媒體數據表現形式,構建基于規則的知識圖譜,使用統一的結構化數據進行表征學習,通過深度神經網絡提取出高度抽象的特征,并基于此抽象特征進行跨媒體智能感知與分析任務。

1.2 跨媒體智能分析技術

1.2.1 文本語義分析

文本、語音以及音樂等時序數據通過深度神經網絡模型,利用文本數值化表達、文本關鍵詞提取、上下文關聯信息獲取、全文信息化檢索、多語種語音識別和習慣性表達等,抽象形成基于神經網絡的文本大數據,從而實現高效的語義識別。

1.2.2 視頻內容理解

在不斷累積的訓練樣本數據中抽取關鍵幀,將長視頻分割為短視頻或圖像,對深度學習目標檢測算法進行訓練,形成視圖像智能識別模型引擎,然后通過視頻內容分段、內容歸類、同主題跟蹤等技術自動識別視圖像數據,并生成視頻內容類型屬性(如色情、暴恐、政治有害等不良內容)[3]。

1.2.3 目標及場景識別

深層神經網絡模型具有強大的特征提取能力、表達能力和泛化能力,可實現非約束場景下監控視頻中的目標搜索和場景識別。以最常見的人臉識別為例,提取人臉的面部拓撲幾何關系和深層特征表達,有效應對化妝整形、俯拍角度、戴口罩以及戴墨鏡等局部遮擋和有效目標偏小、光照不足、分辨率低帶來的環境干擾。

1.2.4 融合糾錯的媒體要素標記

基于深度神經網絡的卷積層級網絡結構和回復式網絡結構,充分挖掘媒體內部、媒體之間的多級關聯關系,同時利用多任務學習框架平衡媒體內語義類別約束和媒體間成對相似性約束學習過程,發現媒體中存在的中斷、突變、跳轉以及翻轉等錯誤,對跨媒體的媒體要素標記進行融合糾錯。

2 技術體系設計

傳統的多媒體處理技術已無法應對暴恐、欺詐、虛假新聞以及政治有害等不良內容通過文本、視頻和圖像進行肆意傳播。為應對現實應用中產生的海量多媒體數據,迫切需要一種跨媒體技術體系能夠使用相同的特征感知、處理和應用不同的媒體數據,并應用于輿情分析、新聞追蹤、情報獲取、預警預報以及遠程教育等領域[3-4]。

整合文本和視圖像感知與分析、跨媒體數據知識表征、跨媒體智能描述與檢索、跨媒體知識挖掘與推理等技術,使技術體系具有跨媒體知識特征標記和關聯展示能力、多種直觀可視化呈現智能分析結果能力,核心在于跨媒體智能感知與分析平臺設計[5],如圖1所示。平臺從架構方面設計,至下而上劃分為基礎設施層、跨媒體數據感知層、跨媒體數據分析層和應用展示層4層。平臺從功能上設計,劃分為網絡空間媒體感知子系統、物理空間媒體感知子系統、跨媒體一體化智能分析子系統和跨媒體統一展示子系統4大子系統。

圖1 跨媒體智能感知與分析平臺設計

(1)網絡空間媒體感知子系統:實現對網絡空間尤其是互聯網新媒體數據的獲取和感知,包括針對不同信息源(如網站、APP、微信、微博等)的多通道建立和數據爬取,以及網絡、存儲、計算等硬件資源利用,并完成數據知識表征工作。

(2)物理空間媒體感知子系統:實現對物理空間尤其是視頻監控系統數據的獲取和感知,包括監控視頻、門禁報警、車輛定位等基礎設施數據接入,以及視頻特征提取、視頻結構化、軌跡生成等數據預處理任務。

(3)跨媒體一體化智能分析子系統:實現對網絡空間和物理空間跨媒體數據的知識圖譜構建和智能分析推理,包括多模型視圖像識別引擎、視頻指紋庫、領域知識庫、相似度計算、場景關聯分析和視頻碼流分析等任務。

(4)跨媒體統一展示子系統:直接面向用戶實現跨媒體數據的各類應用,包括態勢呈現、內容歸類、同主題跟蹤、目標搜索、視頻解碼大屏幕顯示以及人機交互界面等任務。

3 基于人工智能的技術實現

3.1 多通道網絡數據爬取與感知

基于遠程字典服務(Remote Dictionary Server,Redis)作為基礎數據的分布式應用,擴展跨媒體數據內容獲取的廣度和深度,與分布式并行爬取技術進行融合,將數據采集從單純的網頁來源擴展到網站、APP、公眾號、監控視頻以及車輛軌跡等多通道訂閱/發布。

面向頻道的信息采集與感知。Redis可以實現客戶端通過訂閱需要的頻道獲取對應信息,一旦有新的信息出現,就會自動通過該頻道發送到指定位置,適用于對實時性、完整性要求較高的媒體數據感知,如廣播電臺、有線電視以及視頻監控等領域,如圖2所示。

面向模式的信息爬取與感知。Redis可以通過模式匹配,不僅僅爬取已訂閱頻道的信息,更能夠爬取與已訂閱頻道直接或間接關聯的對應信息,還可以定制不同的爬取深度和廣度,適用于分布廣泛、信息零散的媒體數據感知,如網站、自媒體以及網購平臺等媒體數據感知,如圖3所示。

圖2 面向頻道的采集與感知

圖3 面向模式的爬取與感知

3.2 基于長短時記憶網絡的文本、語音數據分析

對于文本、語音等具有單一時間維度的多媒體數據,不僅需要提取時間維度上的特征,還要深度挖掘時序數據的上下文輸入和依賴關系。雙向長短時記憶網絡(Bidirectional Long Short Term Memory,BiLSTM)是一種變種的長短時記憶(Long Short Term Memory,LSTM)網絡模型。作為特殊的回復式神經網絡,它通過前向LSTM與后向LSTM模塊進行雙向表達,能長時間記住上下文輸入信息,實現長期記憶和后續任務預測。BiLSTM模型已在無約束手寫識別、語音識別以及機器翻譯等諸多領域取得重大成功,模型結構如圖4所示。

設t時刻時序數據的向量表達為xt,前向和后向LSTM層的輸出分別記為h_ ft,h_bt,則雙向表達層在t時刻對時序數據xt的表達為yt=[h_ ft;h_bt]。

經過T個時刻對時序數據的特征提取,BiLSTM模型挖掘這段時間范圍內上下文輸入的相互依賴關系,捕獲前后時序媒體數據的相關性特征,并從兩個方向上排除噪聲對神經網絡模型的影響,提取出對跨媒體感知與分析至關重要的高層抽象特征。

圖4 用于時序數據識別的BiLSTM模型

3.3 基于卷積神經網絡的圖像、視頻數據分析

對于圖像、視頻等具有二維/三維特征的多媒體數據,建立相應的卷積神經網絡(Convolutional Neural Network,CNN)模型,通過局部特征感知全局特征,提取圖像視頻的高層抽象表達。采用3D卷積方法提取圖像和短視頻特征,長視頻需要進行片段分割后處理,利用3D卷積網絡提取出特征向量,送入LSTM進行序列識別,循環執行直至所有的圖像、短視頻全部識別完成,最終輸出視圖像分類結果[6]。CNN模型已在機器視覺、視圖像處理領域有十分出色的表現,如圖5所示。

圖5 用于視圖像分類的卷積神經網絡模型

設x為某一張圖像或一段短視頻,wj與bj為卷積層的權值參數,f為一特定激活函數,當x經過卷積層時,將會執行卷積數學運算:

卷積數學運算提取的特征進一步執行池化操作,pooling為取最大值max()或平均average()等選擇函數,最后獲得圖片的平移不變性:

經過多輪卷積層和池化層處理后,由1~2個全連接層和Softmax函數給出最后的分類結果。

3.4 基于知識圖譜的跨媒體實體統一表征

通過跨媒體智能描述技術將語音、視頻和軌跡等多媒體數據統一成實體世界中語義一致的文本數據,在文本描述基礎上構建知識圖譜,然后進一步分析知識圖譜中的實體與屬性,從而完成跨媒體知識挖掘與推理[4]。構建知識圖譜需要把跨媒體數據從不同的數據源中抽取出來。結構化數據可以直接使用,非結構化數據需要通過自然語言處理技術進行結構化后使用。知識圖譜構建的主要流程包括命名實體識別、關系抽取、實體統一表征以及指代消解等。

實體統一表征作為其中的關鍵環節,可以有效控制實體的種類和數量,還可以降低知識圖譜的稀疏性。采用神經網絡注意力機制抽取文本描述的實體,完成命名和屬性設置,并使用BiLSTM進行編碼,再通過遞歸神經網絡視圖像分類結果,提取文本中的實體關系,計算多個實體的語義匹配度來判斷兩個實體是否表示同一個對象,并決定生成獨立實體或合并相似實體,從而實現實體統一表征。實現流程如圖6所示。

圖6 跨媒體實體統一表征流程

4 結 語

高文院士在《轉向跨媒體智能》一文中提到“跨媒體智能是新一代人工智能的重要組成部分”[7],本文基于人工智能的深度學習方法符合人類大腦對跨媒體數據的認知規律,設計出一種覆蓋物理空間和網絡空間的跨媒體感知和分析技術體系,能夠在海量多變的跨媒體數據中自動提取有價值的知識,研究成果已經在網絡大數據情報分析平臺、網絡視聽節目監測平臺、重點場所違規行為預警系統等方面得到應用。實踐證明,深度神經網絡在特征提取以及多種媒體數據感知與分析方面具有強大的能力,跨媒體智能引擎也將會在網絡空間內容安全與態勢分析、跨時空協同感知和綜合推理等領域發揮更加重要的作用。

猜你喜歡
文本智能
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
在808DA上文本顯示的改善
智能制造 反思與期望
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
智能前沿
文苑(2018年21期)2018-11-09 01:22:32
智能制造·AI未來
商周刊(2018年18期)2018-09-21 09:14:46
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 久久semm亚洲国产| 国产91丝袜在线观看| 九九视频免费在线观看| 欧美亚洲中文精品三区| 国产精品福利导航| 久久亚洲国产最新网站| 夜精品a一区二区三区| 狠狠做深爱婷婷久久一区| a级毛片免费在线观看| 国产精品视频猛进猛出| 欧美中文字幕在线视频 | 国产在线观看精品| 青草91视频免费观看| 亚洲an第二区国产精品| 欧美视频免费一区二区三区| 国内精自视频品线一二区| 天堂岛国av无码免费无禁网站| 亚洲日本www| 精品久久777| 国产一区二区三区在线精品专区| 欧美激情伊人| 国产精品嫩草影院视频| 免费毛片全部不收费的| 免费日韩在线视频| 日本人妻丰满熟妇区| 台湾AV国片精品女同性| 国产精品无码久久久久AV| 青青草原国产精品啪啪视频| 国产精品亚洲αv天堂无码| 日韩免费毛片视频| 91娇喘视频| 伊人久久青草青青综合| 免费观看亚洲人成网站| 国产成人91精品免费网址在线| 亚洲91精品视频| 国产91精品调教在线播放| 日韩在线1| 五月婷婷综合网| 国产免费羞羞视频| 国产精品成人不卡在线观看| 日韩在线播放中文字幕| 国产精品自在自线免费观看| 激情爆乳一区二区| 亚洲欧美精品一中文字幕| 亚洲首页国产精品丝袜| 国产国模一区二区三区四区| 久久99国产综合精品1| 亚洲成aⅴ人片在线影院八| 女人18毛片水真多国产| 久久a级片| 中文字幕1区2区| 亚洲欧美一区在线| 亚洲swag精品自拍一区| 九九九精品成人免费视频7| 5555国产在线观看| 亚洲国产综合自在线另类| 久久精品人人做人人爽电影蜜月 | P尤物久久99国产综合精品| 成人午夜免费视频| 亚洲男人在线| 久草视频中文| 激情无码字幕综合| 亚洲高清在线播放| 精品一区二区三区中文字幕| 欧美日韩国产在线人| 国产毛片高清一级国语 | 亚洲天堂日韩av电影| 欧美专区日韩专区| 一级一级一片免费| 欧美午夜视频在线| 欧美五月婷婷| 高清免费毛片| 久久香蕉国产线| 国产在线观看精品| 美女裸体18禁网站| 色偷偷一区| 黄色成年视频| 国产精品女同一区三区五区| 内射人妻无码色AV天堂| 亚洲香蕉久久| 日本午夜视频在线观看| 99re免费视频|