999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

對比內(nèi)嵌字幕進(jìn)行視頻去重

2015-04-10 18:25:59蔣宗禮袁圓
計算技術(shù)與自動化 2015年1期

蔣宗禮 袁圓

摘 要:現(xiàn)有的視頻去重技術(shù)多樣,但字幕這一與視頻內(nèi)容能高度匹配的重要信息并未被考慮到其中。提出一種針對含內(nèi)嵌字幕視頻進(jìn)行去重的方法,并在三大視頻網(wǎng)頁中得到了該方法的再去重效果。首先將相應(yīng)網(wǎng)頁視頻中的字幕經(jīng)過OTC處理將其文檔化,再規(guī)范文檔,最后設(shè)定一個界值,對網(wǎng)頁進(jìn)行去重篩選。類比于網(wǎng)頁文本的去重方法,基于文本內(nèi)容的去重工作可以大大改善去重的效果,考慮到視頻中人物對話內(nèi)容的唯一性,我們可以根據(jù)視頻字幕內(nèi)容來進(jìn)行去重,從而得到更為精準(zhǔn)的視頻去重結(jié)果。

關(guān)鍵詞:網(wǎng)頁視頻;內(nèi)嵌字幕;去重;LCS

中圖分類號:TP391 文獻(xiàn)標(biāo)識碼:A

Abstract:Even there are many ways to remove duplicate web videos, the subtitleinfo which can highly matchas with the contents of video still cannot be taken into account to the removal process. This paper put forward a method by using contrast with embedded subtitles in video to delete the duplicate web videos, and presented the effect of reremove duplicates by this method in three big web video page.The subtitles in web video need documentation through OTC processing and specification document again,and set an boundary value through experiment, so that the duplicate web video can be filtrated. simihar to the duplicate removing method, in web page next this method can greatly improve the effect of duplicate removing,Considering the uniqueness of dialogue contents in the video,we can use the contents of the video subtitles to do duplicate removing,and to get more accurate video search results in search engine. The target of this study is duplicate removing work of the web video with hard subtitles, which is belong to webbased content to the duplicate removing study, used to remove the duplicate web video pages and improve the user experience.

Key words:web video; embedded subtitles; remove duplicate; LCS

1 引 言

在互聯(lián)網(wǎng)中,網(wǎng)頁內(nèi)容的大量重復(fù),對搜索引擎來說,這些重復(fù)使得用戶體驗太差,因此,需要“去重”[1]。

在以UGC(User Generated Content)業(yè)務(wù)為主的視頻網(wǎng)站中,每天都有大量的視頻被上傳[2]。用戶上傳的視頻有數(shù)量大、重復(fù)視頻多的特點,特別是一些熱點視頻會同時有多個用戶上傳。這樣 會導(dǎo)致搜索或者推薦結(jié)果中出現(xiàn)大量重復(fù)視頻。如何識別出這些相同內(nèi)容的視頻,為用戶提供更好的搜索和推薦體驗,是一個需要解決的問題。現(xiàn)在識別相同視頻的方法很多,通常的方法有:視頻文件md5值去重,每個視頻文件里都保存有一個md5值,可以認(rèn)為是這個視頻文件的基因;根據(jù)視頻的文本信息(指生成標(biāo)題、描述和標(biāo)簽等)進(jìn)行去重,用戶在上傳視頻時會生成標(biāo)題、描述和標(biāo)簽等文本信息,根據(jù)這些文本信息進(jìn)行相同視頻的去重;根據(jù)視頻時長進(jìn)行分類,在進(jìn)行相同視頻的去重的算法中可以先根據(jù)視頻時長對全量視頻進(jìn)行分類,然后根據(jù)視頻文本信息計算文本距離,在每個分類中應(yīng)用視頻文本信息距離進(jìn)行迭代就成為可能;根據(jù)圖像或者視頻內(nèi)容進(jìn)行去重(關(guān)鍵幀的圖像匹配),根據(jù)文本信息進(jìn)行去重的劣勢是過度依靠文本信息,而視頻內(nèi)容畢竟不能完全用文本來衡量。[3]如果一個視頻的文本信息過少的話,去重的結(jié)果是不可靠的,所以根本的解決問題的方法是依賴視頻內(nèi)容進(jìn)行去重,視頻本質(zhì)上是一幀一幀的圖像組成的,所以可以把這個問題簡化為關(guān)鍵幀的圖像匹配問題,著名UGC視頻網(wǎng)站Youtube就是采用了這種方法進(jìn)行視頻去重。或者干脆簡化一點,根據(jù)視頻的縮略圖進(jìn)行圖像匹配估計也會達(dá)到很好的效果[4]。

本文研究的對象是含有內(nèi)嵌字幕的視頻,具有內(nèi)嵌字幕文本信息這一重要因素,與視頻內(nèi)容具有高度匹配性,于是提出了一種基于內(nèi)嵌字幕的視頻去重途徑,屬于文本信息去重法。分別依據(jù)生成的標(biāo)題、生成的標(biāo)簽、描述,內(nèi)嵌字幕,對已有的搜索視頻結(jié)果進(jìn)行再次去重,觀察其再去重率效果。

2 去重標(biāo)準(zhǔn)設(shè)定

同一段視頻的字幕是根據(jù)視頻內(nèi)容而來,具有相同內(nèi)容視頻的內(nèi)嵌字幕,從理論上來說應(yīng)該完全一致,即去重標(biāo)準(zhǔn)應(yīng)定為100%。但是,由于提取內(nèi)嵌字幕時采用的是光學(xué)OTC的方法,在不同視頻分辨率的時候提取出來的內(nèi)嵌字幕有所偏差,即使是兩個相同內(nèi)容的視頻,提取出來的字幕也會不同,于是需要允許一定的偏差。

由圖可看出,基于內(nèi)嵌字幕的再去重明顯優(yōu)于基于文件標(biāo)題特征進(jìn)行再去重的方法,這是因為每一個視頻的內(nèi)嵌字幕都具有唯一性,而視頻的標(biāo)題、標(biāo)簽、描述是在視頻上傳時用戶可以隨意賦予的,故而并不一定與視頻內(nèi)容相符。

5 結(jié)束語

本文針對含有內(nèi)嵌字幕的視頻,提出一種基于內(nèi)嵌字幕內(nèi)容的去重算法。實驗表明,該方法去重較基于文件標(biāo)題特征的方法效果更佳。通過提取視頻網(wǎng)頁的內(nèi)嵌字幕,在去重過程中加入適用于本研究的動態(tài)LCS算法,由實驗結(jié)果可知,依據(jù)內(nèi)嵌字幕對網(wǎng)絡(luò)視頻去重確實較為精準(zhǔn),從而可大量節(jié)約結(jié)點存儲資源,采用此方法進(jìn)行視頻去重具有很大的現(xiàn)實意義。然而,本文并未對如何使大量人工標(biāo)注過程實現(xiàn)自動化進(jìn)行研究討論,可在今后的研究工作中進(jìn)一步研究實現(xiàn)。參考文獻(xiàn)

[1] 中國互聯(lián)網(wǎng)絡(luò)信息中心. 中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告[R]. 2008年1月. 39-40頁.

[2] Ming Zhao;Yagnik,J.;Adam,H.;Bau,D. Large scale learning and recognition of faces inweb videos. Automatic Face & Gesture Recognition, 2008. FG '08[J].8th IEEE International Conference on DOI:10.1109/AFGR.2008.4813381. Publication Year: 2008, Page(s): 1-7.

[3] Xiao Wu;ChongWah Ngo;Hauptmann,A.G.;HungKhoon Tan. RealTime NearDuplicate Elimination for Web VideoSearch With Content and Context. Multimedia[J].IEEE Transactions on Volume:11,Issue: 2 DOI:10.1109/TMM.2008.2009673. Publication Year: 2009, Page(s): 196-207.

[4] Chengde Zhang;Xiao Wu;MeiLing Shyu;Qiang Peng. Adaptive association rule mining for web videoevent classification. Information Reuse and Integration (IRI)[J].2013 IEEE 14th International Conference on DOI:10.1109/IRI.2013.6642526. Publication Year: 2013, Page(s): 618-625.

[5] 于海英. 字符串相似度度量中LCS和GST算法比較[J].電子科技, 2011,24(3):101-103.

[6] 盛驟,謝式千,潘承毅.概率論與數(shù)理統(tǒng)計[M].北京:高等教育出版社.2001年12月第3版:294-312.

[7] 王曉東. 計算機算法設(shè)計與分析[M]. 北京:電子工業(yè)出版社, 2001.

[8] Rubi, R.D.;Arockiam, L. Positional_LCS: A position based algorithm to find Longest Common Subsequence (LCS) in Sequence Database (SDB). Computational Intelligence & Computing Research (ICCIC)[J].2012 IEEE International Conference on DOI: 10.1109/ICCIC.2012.6510271. Publication Year: 2012, Page(s):1-4.

[9] Wei Liu, Ling Chen, Lingjun Zou. A parallel LCS algorithm for biosequences alignment. InfoScale '07: Proceedings of the 2nd international conference on Scalable information systems[J].Publisher:ICST (Institute for Computer Sciences, Social-Informatics and Telecommunications Engineering). June 2007.

[10]Heba AlShaek Salem, Maryam Nuser, Izzat Alsmadi. Similarity evaluation of DNA sequences based on nucleotides similarity[J].ICICS '12: Proceedings of the 3rd International Conference on Information and Communication Systems. Publisher: ACM. April 2012.

[11]申曉. 如何編程實現(xiàn)快速LCS算法[J].電腦編程技巧與維護(hù),2012,(11):91-92.

[12]胡婕,業(yè)寧,羅曉波,等. 多序列的近似LCS改進(jìn)算法[J].計算機工程,2011,37(2):166-168.

[13]Jeffrey E.F. 精通正則表達(dá)式,余晟,譯[M]. 北京:電子工業(yè)出版社,2007.

[14]郭牧怡,劉萍,譚健龍,等. 基于文件標(biāo)題特征的網(wǎng)絡(luò)視頻去重研究[J]. 計算機工程,2010,36(9):227-229.

主站蜘蛛池模板: 国产小视频免费| 伊人天堂网| 欧美无遮挡国产欧美另类| 人妻无码一区二区视频| 四虎在线观看视频高清无码| 亚洲欧洲天堂色AV| 亚洲国产日韩视频观看| AV在线麻免费观看网站| 久久久久国产一级毛片高清板| 国产大片黄在线观看| 午夜丁香婷婷| 蜜臀AVWWW国产天堂| 国产99视频精品免费视频7| 国产在线第二页| 在线国产91| 亚洲国产欧美自拍| 91午夜福利在线观看| 无码国产伊人| 精品国产成人a在线观看| 婷婷亚洲视频| 日韩一区二区在线电影| 国产理论最新国产精品视频| 国产亚洲精久久久久久无码AV| 四虎亚洲精品| 成人精品亚洲| 青青草欧美| 国产成人福利在线视老湿机| 五月婷婷丁香色| 国产香蕉国产精品偷在线观看| 波多野结衣一区二区三区88| 日韩精品高清自在线| 天天摸夜夜操| 国产精品国产主播在线观看| 国产在线小视频| 特级做a爰片毛片免费69| 99爱在线| 久久精品国产999大香线焦| 国产欧美高清| 日韩乱码免费一区二区三区| 日韩欧美综合在线制服| 欧美h在线观看| 亚洲综合激情另类专区| 亚洲无码高清免费视频亚洲| 东京热高清无码精品| 超碰免费91| 99激情网| 青青草一区二区免费精品| 国产精品亚洲专区一区| 曰韩免费无码AV一区二区| 国产在线观看一区精品| 亚洲国产精品日韩专区AV| 国产网站一区二区三区| 久久综合结合久久狠狠狠97色| 国产成人av大片在线播放| 久久精品国产精品青草app| 亚洲床戏一区| 欧美精品在线免费| 亚洲三级a| 亚洲欧美另类日本| 萌白酱国产一区二区| 欧美精品啪啪一区二区三区| 国产午夜一级淫片| 99青青青精品视频在线| 丁香六月激情综合| 国产又粗又猛又爽视频| 91青青视频| 精品国产免费观看一区| 亚洲第一视频网站| 亚洲精品视频免费看| 暴力调教一区二区三区| 手机在线看片不卡中文字幕| 一本一本大道香蕉久在线播放| 中文字幕人妻无码系列第三区| 97青青青国产在线播放| 亚洲IV视频免费在线光看| 精品91在线| V一区无码内射国产| 亚洲国产成人在线| 另类综合视频| 婷婷六月在线| 久热re国产手机在线观看| 成人福利一区二区视频在线|