999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于CLIP 的多模態視頻文本檢索系統

2023-08-09 15:26:30葉柯陳相余麻福旦
計算機應用文摘 2023年15期
關鍵詞:處理

葉柯 陳相余 麻福旦

摘 要:計算機視覺(Computer Vision,CV)與自然語言處理(Natural Language Processing,NLP)技術已逐漸趨于成熟,結合視覺和語言的多模態領域技術將成為學界和業界的研究熱點。文章使用CLIP 預訓練模型,結合圖像與語言兩種模態信息,進一步將圖像拓展至視頻,利用 Fmpeg 處理視頻,并對視頻與文本信息進行嵌入(embedding)和余弦相似度匹配,從而實現利用純文本檢索視頻中符合該文本語義的片段。

關鍵詞:多模態;CLIP;FFmpeg 處理;文本檢索視頻

中圖法分類號:TP311文獻標識碼:A

1 引言

隨著社交媒體和視頻分享平臺的迅猛發展,人們每天都生產大量的視頻內容,這些視頻包含豐富的視覺信息。然而,要從龐大的視頻庫中檢索到與特定文本語義相關的片段卻變得愈發具有挑戰性,除了用人眼進行人工檢索這種費時費力的解決方案外,傳統的基于文本的檢索方法難以充分利用視頻中的視覺信息,而基于視覺的方法又難以理解文本語義。因此,將視覺和語言進行融合的多模態技術成為解決這一難題的關鍵。

綜上所述,高效可用的多模態視頻文本檢索具有廣泛的應用前景和重要的實際意義,可以為大規模視頻內容的管理和組織提供強有力的工具。

2 發展現狀

近年來, 深度學習和預訓練模型快速發展,Zhang[1] 總結了視頻文本定位任務的基本概念和當前的研究現狀,并對主流的解決方案進行了分類。主流視頻文本檢索方案如圖1 所示。

目前,視頻文本定位方案通常需要經過訓練,以便模型能夠學會正確地定位視頻中的文本。例如,Gao[2] 第一次提出了視頻文本定位的范式,利用滑動窗口的方式截取視頻片段并與標簽進行匹配,隨后Yuan[3] 去掉了滑動窗口算法,引入attention,Zhan 在VSLNet[4] 中引入了query?guide?highlight 機制,進一步提升了檢索精度;為了訓練這樣的模型,其采用了使用標注的start 和end 標簽來指示文本在視頻中的位置。在標注數據集時,標注人員根據視頻中出現的文本內容和時間點,手動標注出文本的起始位置和結束位置。基于此,在訓練過程中模型可以通過學習這些標簽來理解文本在視頻中的位置關系。

然而,這種訓練方式往往導致模型的泛化性較差,即在面對新的、未見過的視頻場景時,模型無法準確地進行文本定位。并且訓練過程產生的成本通常較高,故期望能夠采用無監督的方式進行視頻文本定位,不僅可以保證更好的魯棒性,而且更能節省人工標注等數據及相關的訓練成本。在多模態方面,OpenAI 通過對比學習的方式訓練得到CLIP 模型,作為預訓練模型,它可以同時理解圖片和文本的語義信息,且能夠在沒有任何特定任務標注的情況下,學習到跨模態的語義表示,這使得CLIP 在圖像分類、文本分類、圖像生成描述等[5] 多種任務上都有出色表現。本文利用CLIP 預訓練模型,將圖片拓展為視頻,實現zero?shot 的視頻文本檢索。

3 系統構建

3.1 前端設計

系統前端使用Streamlit 框架搭建。Streamlit 是一個用于構建數據科學和機器學習應用程序的開源Python 框架,其具有簡單的API 和直觀的設計,便于構建交互式應用程序,可使用少量代碼創建數據可視化和用戶界面;頁面可以即時顯示和預覽應用程序的變化,進行快速調試和實驗;同時,Streamlit 的自動化布局功能使得構建應用程序界面變得更加簡單和高效,其開源的組件化模式具有可重用性、模塊化開發、易于維護和更新、可測試性以及靈活性和可擴展性等優點。系統前端交互界面如圖2 所示。

3.2 后端設計

使用Python 進行后端開發,并使用FFmpeg 對上傳的視頻進行處理。FFmpeg 是一個開源的多媒體處理工具集,提供了多種音頻和視頻處理功能,它可以用于轉換、編輯和流式傳輸多媒體內容,支持幾乎所有常見的音頻和視頻格式。前端Streamlit 為Python框架,簡單易用,可直接與后端交互,故在后端進行模塊化功能編程時,在前端框架中通過函數接口的方式來調用后端算法和模型,在一定程度上降低了系統的耦合度,并且采用并行的策略調用后端算法,這使得系統可以實現多線程的監聽,可以有效防止函數接口堵塞等待問題。

用戶自行上傳視頻,進行預處理后,輸入目標視頻片段相關的文本即可進行檢索,如圖3、圖4 所示。

由此可見,基于CLIP 預訓練模型實現的zero?shot視頻文本檢索任務無需經過訓練,僅通過推理,便可以準確地提取視頻片段中的人物行為信息,顯示出其優秀的泛化性和用于視頻文本檢索的巨大潛力。除對行為信息的視頻檢索外,本文同樣對視頻中個體特征的識別進行了相關實驗。

對于同一個視頻,用戶可以通過文本描述想要檢索的個體特征,如“white dog”“yellow dog”,實現語義級別的視頻片段定位,如圖5、圖6 所示。

3.3 視頻文本檢索系統設計

首先,利用FFmpeg 對用戶上傳的視頻進行裁剪,離散地抽取視頻中若干幀,這可以有效地減少視頻特征中的冗余信息以及計算量。其次,利用CLIP 對抽得的幀進行特征提取和嵌入向量,用戶輸入文本信息后,再利用CLIP 將文本進行特征提取得到嵌入向量。

最后,將文本特征與視頻特征進行匹配,計算cosine?similarity,根據用戶前端控制的top?k 來決定索引返回的視頻片段數量,然后根據相似度計算得到視頻片段并與文本匹配分數進行降序反饋和顯示。視頻文本檢索系統設計如圖7 所示。

4 結束語

針對近年來視頻數據爆炸式增長的狀況,本文基于CLIP 預訓練模型,利用文本實現視頻檢索,大幅降低人工進行視頻檢索的成本。未來,隨著硬件算力的增長,該模型將會有更大的使用空間,相信在相關技術更加成熟后,這套系統可以被應用到社會更多行業中。例如,公安部門可以利用文本在海量的監控視頻中尋找關鍵片段;利用輔助剪輯的功能幫助視頻后期相關人員在若干小時的拍攝素材中尋找想要的片段等。

參考文獻:

[1] ZHANG H,SUN A,JING W,et al.The Elements of TemporalSentence Grounding in Videos: A Survey and FutureDirections[J].IEEE Xplore,2022,45(8):10443?10465.

[2] GAO J,SUN C,YANG Z,et al.tall:temporal activity locali?zation via language query (supplemental material)[J].IEEEXplore,2017,21(10):5267?5275.

[3] YUAN Y,MEI T,ZHU W.To Find Where You Talk:TemporalSentence Localization in Video with Attention Based LocationRegression [ J]. Proceedings of the AAAI Conference onArtificial Intelligenc,2018,33(1):9159?9166.

[4] ZHANG H, SUN A, JING W, et al. Span?based LocalizingNetwork for Natural Language Video Localization [ J ].Publisher:Association for Computational Linguistics,2020,21(5):6543?6554.

[5] RADFORD A,KIM J W,HALLACY C,et al.Learning Transfer?able Visual Models From Natural Language Supervision[J].International Conference on Machine Learning,2021,10(139):8748?8763.

作者簡介:

葉柯(2002—),本科,研究方向:多模態、文本生成、目標檢測。

猜你喜歡
處理
簡析事業單位涉稅業務的會計處理
同一控制下企業合并會計處理方法的探討
大經貿(2016年9期)2016-11-16 15:36:09
科學實驗數據處理與概念構建
教育(2016年38期)2016-11-15 17:52:07
一起500 kV變壓器鐵芯多點接地故障診斷與處理①
科技資訊(2016年19期)2016-11-15 08:24:00
利用核心網網絡優化系統定位用戶投訴問題
科技資訊(2016年19期)2016-11-15 08:13:38
影響油田污水處理水質因素分析
視頻后期剪輯制作中鏡頭時長的處理
戲劇之家(2016年19期)2016-10-31 18:38:40
聲樂演唱中藝術與情感的深入處理
戲劇之家(2016年19期)2016-10-31 18:04:18
東風4B型內燃機車C6級維修后冷卻風扇不動作原因及解決辦法
橋梁軟土基礎處理應用
主站蜘蛛池模板: 久久99精品国产麻豆宅宅| 伊人91视频| 色婷婷色丁香| 国产天天色| 婷婷六月综合| 久久久精品国产SM调教网站| 免费在线成人网| 毛片在线播放a| 中美日韩在线网免费毛片视频| 欧美第九页| 国产自产视频一区二区三区| 亚洲一区第一页| 国产a网站| 国产白浆一区二区三区视频在线| 欧美日韩在线成人| 播五月综合| 亚洲综合欧美在线一区在线播放| 国产精品视频白浆免费视频| 人人澡人人爽欧美一区| 欧美乱妇高清无乱码免费| 内射人妻无码色AV天堂| 欧美亚洲香蕉| 成人在线欧美| 波多野结衣中文字幕一区二区 | 色悠久久久| 亚洲第一天堂无码专区| 国产亚洲高清视频| 亚洲欧美在线综合图区| 1级黄色毛片| 久久伊人操| 欧美日韩精品一区二区在线线| 亚洲看片网| 国产成人8x视频一区二区| 亚洲国产中文精品va在线播放| 一级毛片在线免费视频| 操国产美女| 一级毛片免费观看久| 精品国产免费人成在线观看| 免费人成视网站在线不卡| 久久鸭综合久久国产| 精品一区二区久久久久网站| 日韩一区二区三免费高清| 天堂av综合网| 欧美性天天| 中美日韩在线网免费毛片视频| 久久久久青草线综合超碰| 91小视频在线观看| 国产99在线| 亚洲乱强伦| 一级毛片网| 国内精品九九久久久精品| 一区二区偷拍美女撒尿视频| 日本亚洲成高清一区二区三区| 67194亚洲无码| 中文字幕 日韩 欧美| 沈阳少妇高潮在线| 日韩AV无码免费一二三区| 看你懂的巨臀中文字幕一区二区| 114级毛片免费观看| 欧美黑人欧美精品刺激| 99久久国产综合精品2020| 亚洲无码电影| 色欲综合久久中文字幕网| 中文字幕永久在线观看| 日本高清成本人视频一区| 网友自拍视频精品区| 九九热精品在线视频| 88av在线| 91口爆吞精国产对白第三集| 国产视频 第一页| 亚洲欧美日韩天堂| 亚洲a级毛片| 丝袜高跟美脚国产1区| 亚洲国产系列| 毛片久久网站小视频| 全部免费毛片免费播放| 日本欧美一二三区色视频| 精品久久久久久久久久久| 夜夜操国产| 亚洲视频a| 国产一区二区三区精品欧美日韩| 久久精品国产国语对白|