趙楠 范書國 甄琢 孟丹
摘? 要:隨著短視頻關注度的不斷提高,抖音短視頻已經成為當前時代熱點。針對于短視頻、短文本,向量空間模型(VSM)表示方法存在高維度、同義多義問題,導致難以準確度量文本相似度,該文提出了一種基于隱含語義分析的聚類方法,利用LSA將訓練數據聚類成隱含語義主題,通過奇異值分解,將詞向量和文檔向量投射到一個低維空間,用層次聚類算法確定初始中心,然后聚類得到結果。結論表明,短視頻中的核心語義內容被成功保留下來,運用矩陣降維方法降低了計算量,冗余的相關性干擾得以解決,改變了視頻語義檢測的整體效果。
關鍵詞:隱含語義? 層次聚類? 奇異值分解? 矩陣降維
中圖分類號:TP391.4 ? ?文獻標識碼:A 文章編號:1672-3791(2020)02(a)-0009-02
隨著互聯網用戶數量的不斷增長,網絡短視頻的數量也在與日俱增。因此,迫切地需要在數以萬計的短視頻中實現高速有效的檢索。視頻數據內容包含復雜的含義,視頻數據之間也存在著內在聯系。在視頻圖像中,圖片特征與特征之間、視頻片段與片段之間,視頻語義與語義之間都存在著關聯關系。通過這些關聯關系,語義檢測的計算成本可以得到減少,提高搜索的質量。視頻語義之間的相關性有很重要的作用,視頻語義內容之間會出現同義和多義等問題,這就是由于對視頻語義的相關性忽略而引起的,會導致一系列缺陷。現在對視頻語義相關性的關注度和重視度不足,為此,需要深入學習和研究視頻語義相關性方面的知識和課題,讓相關性發揮重要作用,同時解決一系列不利的問題。該文通過LSA(隱含語義分析)方法的理論指導,改進和豐富了抖音短視頻內容檢測中視頻的主要數據特點,建立了根據視頻語義內容創造的視頻文檔矩陣,說明了短視頻的視頻結構和相關性分析內容。
1? 視頻隱含語義關聯性分析方法
1.1 LSA基本思想
LSA的基本思想是認為詞匯和詞匯之間存在著一定的關聯關系,文檔和文檔之間也存在著一定的關聯關系,它們之間存在一種隱含式的文本語義結構,奇異值分解由詞語統計頻統向量構成的文檔集合矩陣進行,再經過降維處理得到的語義結構,解決了因為視頻語義相關性而引起的同義和多義等問題,而它的核心語義信息都成功保存下來,對為未來檢測相似語義的目標文件,查詢文件之間的相似程度有著重要作用。視頻目標和視頻對象的典型特征之間的相關性關系可以用來反映該短視頻的具體語義內容,視頻典型特征和相關性關系通過聚類會得到不同類別的信息,與視頻的語義內容密不可分。相對于視頻語義數據來說,沒有明顯的文本、文檔內容,也沒有廣闊的語言內容空間,直接復制LSA的處理方法是不能實現的。所以,該文針對這個問題提出了解決視頻語義建模的一個辦法:將短視頻分成許多幀,短視頻中的每一幀圖像都可以對應短文本中的每一個文件、文檔,從而建立視頻文檔集合矩陣。對視頻語義內容中的典型特征進行細分,分類后的每一部分可以對應文件文檔以一個基礎詞匯,建立起視頻特征詞典。通過這兩點,再對短視頻進行進一步的擴展,當擴展數據庫的容量時,可以將中等大小的短視頻文件映射到文件文檔向量。
1.2 視頻特征字典的建立
當開始創建視頻特征詞典的時候,應該對過去曾經用過的典型特征,通過K-means算法生成H個聚類,H個聚類應該對應H維的向量。我們也可以將視頻特征詞典的規模大小程度用H來表示。原因是K-means算法的基本屬性就是如此,它可以對聚類結果的規模大小加以調整控制,因此,可以合理地使用這個特點,可以根據實際情況不斷地調整特征詞典的規模大小。可以根據實際需求創建一系列視頻特征字典,用來應對不同層面的、不同類別的典型特征,接下來既可以單獨運行,也可以聯合起來對這類特征詞典進行合理應用,從而滿足不同層面上的需求。
1.3 視頻文檔集合矩陣的建立
當開始創建視頻文檔集合矩陣的時候,如果將短視頻分割成一系列幀,每幀圖像分別對應著文件文檔的每一個文件,因為短視頻文件中的幀數龐大,就會導致文檔集合矩陣范圍龐大,會極大地降低計算的速率。所以,再進行建立視頻文檔集合矩陣操作前,需要對短視頻實行預處理操作,將關鍵幀從短視頻文件中分離出來,用關鍵幀充當文檔的基礎單元,目的是為了減少矩陣的范圍,從而增加可行性。短視頻被分割成一系列片段,形成一系列關鍵幀,每一個關鍵幀都擁有該片段最重要的內容,這一系列關鍵幀組合成這個視頻片段。細分到每一個關鍵幀,還要繼續將它割裂成不同片段,為了方便進行隱含語義分析操作,每個片段都應該占用相同區域大小。接下來,視頻特征詞典將要作為前提條件,提取出每個分割片段的典型特征,綜合到一起,進行頻率數字統計,然后綜合所有片段的統計結果,形成一個對應這個關鍵幀的視頻文檔,從而也可以得出短視頻的視頻文檔矩陣。
這種操作方法主要是通過分割關鍵幀來實現的,再用K-means算法進行輔助,最終綜合統計關鍵幀的視頻文檔,可以極大地體現出典型特征在視頻語義分析中的重要作用,可以方便突出視頻的結構特點,了解視頻的數據內容。
2? 基于隱含語義分析的抖音短視頻語義檢測方法
該文對抖音短視頻進行隱含語義分析建模,選取熱度較高的短視頻,選取其短文本,進行奇異值分解,檢索出該段文本的隱含語義信息。然后通過聚類算法來檢索抖音短視頻。為了解決向量空間模型對于詞項匹配不足的問題,該文采用隱含語義分析建模的方法,首先,選取熱度較高的短視頻,對它進行奇異值分解,將文件文檔對應到隱含于一空間,對其隱含語義信息進行挖掘。
抖音短視頻的獲取我們采用網絡爬蟲技術對短視頻進行抓取。采用Fiddler進行手機抖音APP的抓包,安裝Fiddler后,進行數據的配置。在手機無線連接代理中填寫電腦的IP地址和Fiddler代理的端口,安裝證書,就可以進行抖音短視頻的抓包,然后可以對爬取的用戶信息數據進行預處理,并存入數據庫。通過爬蟲獲取的數據不可以直接接收進行操作使用,需要加工處理,逐步實現數據清洗操作,減少數據中存在著錯誤或異常(偏離期望值)的數據。抖音短視頻的用戶通常是清理活躍數較低的垃圾用戶來達成數據預處理操作的,以便為接下來的聚類算法打好基礎。
首先對短文本數據進行初次聚類,應用Single-pass算法,每一條視頻文本都是唯一的,它也對應著唯一的特征向量,每個文本之間的特征向量需要進行相似度的計算,得出關聯關系較高的就會被歸類到一個簇里。這次聚類是對短視頻文件進行初次聚類,得到同一個簇。接下來就是第二次聚類,第二次聚類的目的是要將簇進行合并,最終才能得到話題集。
3? 結語
該文提出的基于隱含語義分析的語義檢測方法,在現實的視頻語義檢測應用中,需要繼續保留視頻文本結構中的典型語義特征,信息冗余帶來的困擾得以解除,視頻語義的檢測內容得到了提高,適合當前的網絡短視頻環境。采用了二級聚類算法,在一定程度上提高了發現效率和準確率,但包含的信息還有待完善。下一步重點:評估發布的視頻內容的權威性,細分用戶角色,發現語義主題檢測的準確率。
參考文獻
[1] 馬雯雯,魏文晗,鄧一貴.基于隱含語義分析的微博話題發現方法[J].計算機工程與應用,2014,50(1):96-100.
[2] 王曉巖.微博客熱點話題發現與跟蹤技術及系統[D].中國科學院大學,2013.
[3] 孫曰昕.面向微博的熱點話題發現與追蹤研究[D].西北師范大學,2014.
[4] 陳志雄,朱向莊.基于內容評價與超鏈分析的主題爬蟲策略[J].輕工科技,2011,27(3):66-67.
[5] 何躍,帥馬戀,馮韻.中文微博熱點話題挖掘[J].統計與信息論壇,2014,29(6):86-90.
[6] 鄭斐然,苗奪謙,張志飛,等.一種中文微博新聞話題檢測的方法[J].計算機科學,2012,39(1):138-141.
[7] He H,Chen B,Xu W,et a1.Short text feature extraction and clustering for web topic mining[A].Third Internationl Conference on Semantics,Knowledge and Gird(SKG 2007)[C].2007.