賀曉琳
(河南工業和信息化職業學院,河南 焦作 454000)
廣播電視節目的分類工作對于任何一種數字化的廣播電視內容管理系統而言都是一項必備的功能。而在實際的廣播電視節目分類操作中,系統往往是通過廣播電視節目的文本內容介紹進行類別的劃分。隨著廣播電視節目朝著多樣化的方向發展,針對廣播電視節目的介紹也逐漸變得復雜化和多維化。這使得采用傳統廣播電視分類模型的系統往往會出現對廣播電視內容介紹特征提取單一進而導致廣播電視內容分類精確度不理想等問題。
因此,本文針對傳統廣播電視自動分類系統存在的內容特征提取單一、內容分類精確度不理想的問題,提出了一種基于文本語義的混合多層分類模型。該改進的模型以廣播電視節目介紹的文本內容為分類依據,通過引入TextRank算法來完成對廣播電視文本介紹內容的關鍵語義特征詞提取,進而通過BM25算法對冗余的特征語義詞進行降維,最終通過FastText模型處理,完成對廣播電視節目的自動化分類工作。
TextRank算法是一種基于圖的用于文本語義關鍵詞提取和排序的算法[1]。該算法由Google公司通過對PageRank算法進行優化而來。算法的核心是通過利用目標文檔中不同詞組間的語義信息來完成對關鍵詞的提取工作,因此該算法可以對目標文本內容進行語義關鍵詞按照重要程度排序,進而完成對關鍵語義短語的抽取工作。
TextRank算法的設計思想在于將目標文檔解析為擁有大量詞的網絡結構[2],而詞與詞之間的語義聯系通過網絡中的鏈接方式進行表示。該算法的計算方式如式(1)所示:
式中:S(Vi)表示目標文檔中句子Vi的權重值,d代表阻尼系數,其默認值大小為0.85,Wji表示不同的兩個目標短語Vi與Vj的相似度,S(Vi)代表上次迭代出句子Vj的權重值,In(Vi)表示句子Vi的前驅集合,而Out(Vi)表示句子Vj的后繼節點集合,右側中的求和表示每個相鄰句子對目標句子的貢獻程度。
BM25算法是一種用于計算關鍵查詢詞相對于目標文檔或者文件相關性評分的算法,最早用于計算機信息檢索領域,其主要思想是對給定查詢的關鍵詞進行語素解析,進而生成相對應的語素詞,之后對于每個給定的目標文檔,計算不同語素詞與文檔之間的相關性的大小,最后通過將關鍵詞相對于目標文檔的相關性評分按照權重進行求和,從而獲得查詢關鍵詞與文檔的相關性得分[3]。通過對不同關鍵詞同文檔之間的相關性評分進行排序,進而獲得較為精確的、能夠代表當前文檔類型的核心語義詞。該算法的一般性公式如式(2)所示。
式中:Q表示查詢的語義關鍵詞,qi表示對Q進行解析之后所獲取到的一個語素,d表示目標的文檔集,Wi表示語素qi的權重值,R(qi,d)表示語素qi與文檔d的相關性評分值。
FastText是有美國FaceBook公司開發的一種詞向量與文本分類的工具[4]。由于該模型在表征學習和文本分類方面具備極強的高效性,因此在帶有監督的文本分類的問題場景下有著廣泛的應用。FastText的模型架構如圖1所示。從模型圖中可以看出,FastText主要由輸入層、隱含層和輸出層構成,其中輸入量為經向量表示的多個單詞,輸出的結果為一個特定的目標類別,而隱含層則是對多個詞向量的疊加平局值。

圖1 FastText模型架構
從模型圖可以看出,從輸入層到輸出層,主要是通過將目標文檔標識為一個由詞構成的集合網絡,進而疊加構成目標文檔中所有詞的向量,對疊加的值求平均值,來獲得表征文檔類型的向量,而在隱藏層輸出類型到輸出層過程中使用softmax線性分類器,用以提升分類的整體效率。
由于廣播電視分類的主要方式是通過對廣播電視內容的文本介紹進行關鍵詞提取進而以關鍵詞為基礎來對廣播電視的類型進行類別劃分,而傳統的分類方式往往只是通過提取內容介紹文本的關鍵詞來對廣播電視內容類型進行直接劃分,而未對這些關鍵詞所代表的文檔語義關聯性進行判定,因此傳統廣播電視在內容介紹的特征關鍵詞提取上顯得過于單一,進而影響廣播電視最終的分類準確性[5]。對此,本文通過借助FastText模型在文本分類上的快速準確的優勢,以TextRank算法作為語義特征關鍵詞的提取與排序的基礎,通過BM25算法進行語義特征降維,來去除冗余無用的特征向量,提升最終分類效果的準確性。本文提出的基于文本語義分類的廣播電視內容自動分類模型架構如圖2所示。

圖2 基于文本語義分類的廣播電視內容自動分類模型架構
由于廣播電視節目的分類依據是對內容文本的關鍵詞類別判定,因此準確的關鍵詞提取是類別判定正確與否的關鍵性因素。而針對關鍵詞的判定僅僅從其自身所表達的表層信息上很難對文本內容做出準確判定,因此就需要深入挖掘關鍵詞所表達的深入語義信息與目標文本之間的相關性大小。
在確定目標分類文本的前提下,使用TextRank算法對目標文本的關鍵子句進行提取。由于該算法主要應用于無監督學習狀態,因此在提取關鍵詞過程中不需要進行過多的額外訓練。通過將目標文本內容看成詞的網絡集合并且通過不斷地迭代,來計算核心關鍵字的權重值,對關鍵子句排序,最后將分值排序靠前的子句或者關鍵詞抽取出來,作為語義特征關鍵字冗余處理的輸入值進行保存。
考慮到針對廣播電視內容文本語義關鍵詞的初步提取往往會出現相關性不強的冗余特征值,因此本文通過BM25算法對輸入的關鍵詞從語義層面計算其與目標文檔的相關性,并將排序后相關性較低的關鍵詞進行去除,以提升語義特征關鍵詞的準確性[6]。
最終的分類過程使用已經提前訓練好的TextFast模型進行。通過該模型處理最終獲得語義關鍵詞所對應類型的概率,最后選擇概率最大的值所對應的類型,作為廣播電視所對應的類別,完成最終的分類工作。
本文搭建的實驗環境硬件配置為:Intel Core i5-10300H的CPU,1 TB硬盤,32 GB RAM,運行的系統環境為Windows 10 X64專業版,使用Python3.8版本作為編程語言進行實驗環境架構的構建。
由于本文針對廣播電視分類系統的改進主要是在分類準確性上進行的改善,因此本次實驗將采用分類準確率作為核心數據進行比較,分類準確率ACC的計算方式如式(3)所示:
式中:TP表示實際為正且被準確分類的樣本數量,TN表示實際為負且被正確分類的樣本數量,FP表示實際為負而被錯誤分類的樣本數量,FN表示實際為正而被錯誤分類的樣本數量。
本文采用的數據為廣播迷網站的多媒體數據集。該數據集包含了25 480條廣播電視內容介紹信息,平均每個條目的內容介紹為328個字符。數據測試的方式采用單純FastText的傳統廣播電視分類模型和改進后的混合多層分類模型,來對數據分類的準確性進行對比實驗,結果如圖3所示。從實驗結果可以看出,隨著測試數據條目的不斷增加,改進后的廣播電視分類的準確率在不斷提升,而同量級的測試數據下,改進后方式的分類準確率較改進前平均提升7.2%左右。

圖3 實驗結果
本文針對傳統廣播電視分類系統由于內容特征提取單一所導致分類準確率不理想的問題,提出構建基于文本語義分類的廣播電視分類模型,通過借助FastText模型在文本分類上的快速準確的優勢,以TextRank算法提取的語義關鍵字為基礎,結合BM25算法進行文檔語義相關性計算,最后通過實驗對提出的基于文本語義分類模型進行仿真。實驗結果表明,改進后的方式能夠有效提升廣播電視分類系統的分類準確性。