張營(yíng)軍 劉曉亮 鄭觀衛(wèi)
摘要:面對(duì)地級(jí)市媒體融合的發(fā)展戰(zhàn)略,文章簡(jiǎn)要分析淄博市融媒體中心新媒體業(yè)務(wù)的發(fā)展現(xiàn)狀,通過引入智能AI技術(shù)和大數(shù)據(jù)技術(shù)帶來創(chuàng)新發(fā)展的機(jī)遇,詳細(xì)描述采用圖像識(shí)別、語(yǔ)音識(shí)別、光學(xué)字符識(shí)別、自然語(yǔ)義處理等技術(shù)構(gòu)建的智能標(biāo)簽系統(tǒng)的設(shè)計(jì)思路、應(yīng)用場(chǎng)景及關(guān)鍵技術(shù),為地級(jí)市媒體融合的建設(shè)發(fā)展提供新思路和應(yīng)用價(jià)值。
關(guān)鍵詞:人工智能;大數(shù)據(jù);智能標(biāo)簽;應(yīng)用;設(shè)計(jì)思路;關(guān)鍵技術(shù)
中圖分類號(hào):G206 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1004-9436(2022)12-00-03
0 引言
隨著網(wǎng)絡(luò)硬件和IT技術(shù)的飛躍發(fā)展,整個(gè)社會(huì)的信息化程度迅速提高,廣電行業(yè)傳統(tǒng)的生產(chǎn)方式也逐步被新技術(shù)影響,成為發(fā)展的重要?jiǎng)恿Α?/p>
淄博市廣播電視臺(tái)在長(zhǎng)期發(fā)展過程中累積的海量資料庫(kù)將成為未來媒體融合發(fā)展中的重要戰(zhàn)略資源和核心競(jìng)爭(zhēng)力,傳統(tǒng)的媒資素材管理、人工編目工作將制約標(biāo)簽檢索、內(nèi)容制作進(jìn)而影響分發(fā)效率。淄博市廣播電視臺(tái)將利用IT技術(shù)、大數(shù)據(jù)技術(shù)、AI技術(shù),逐步升級(jí)建設(shè)一套具有智能標(biāo)簽、智能編目能力的媒資管理業(yè)務(wù)系統(tǒng),并與節(jié)目生產(chǎn)、審核及發(fā)布緊密結(jié)合,進(jìn)一步朝數(shù)字智能的方向發(fā)展,提升媒資使用效率[1]。
1 新媒體業(yè)務(wù)在淄博市融媒體中心的發(fā)展現(xiàn)狀
淄博市融媒體中心作為全國(guó)早期建設(shè)的地市級(jí)融媒體中心,率先掛牌探索發(fā)展路徑,明確自身定位,厘清發(fā)展方向,加快推進(jìn)速度,取得顯著成效。
淄博市融媒體中心建設(shè)聚焦高質(zhì)量發(fā)展要求,通過新媒體業(yè)務(wù)有效增加創(chuàng)新創(chuàng)作的積極性并有效促進(jìn)融合流程再造,成為媒體融合發(fā)展的重要抓手。同時(shí)提升了引導(dǎo)群眾服務(wù)群眾的能力,在提升媒體公信力、影響力等方面發(fā)揮了重要作用。
目前淄博市融媒體中心新媒體業(yè)務(wù)在發(fā)展中存在的人才不足與技術(shù)劣勢(shì)等問題,淄博市融媒體中心依托政策支持,通過優(yōu)化組織架構(gòu)、加強(qiáng)內(nèi)部培訓(xùn)、提升薪酬待遇等方法培養(yǎng)了一批新媒體人才,并逐步建設(shè)一個(gè)新媒體業(yè)務(wù)團(tuán)隊(duì),促進(jìn)業(yè)務(wù)長(zhǎng)期可持續(xù)發(fā)展。
作為地級(jí)市融媒體中心,淄博市融媒體中心認(rèn)識(shí)到媒體融合發(fā)展繞不開媒體技術(shù)的融合。面對(duì)新媒體技術(shù)劣勢(shì)的問題,淄博市融媒體中心技術(shù)手段依然較為傳統(tǒng),還沒有充分發(fā)揮新媒體平臺(tái)的特點(diǎn)和互動(dòng)性。為此淄博市廣播電視臺(tái)將利用5G、大數(shù)據(jù)、云計(jì)算、人工智能等信息技術(shù)革命成果,加強(qiáng)新技術(shù)在新聞傳播領(lǐng)域的應(yīng)用,讓新技術(shù)更好地為淄博當(dāng)?shù)孛襟w融合產(chǎn)品服務(wù),提升融媒體中心的影響力與競(jìng)爭(zhēng)力。
2 人工智能及大數(shù)據(jù)技術(shù)為淄博市媒體融合帶來新的發(fā)展機(jī)遇
近年來智能AI和大數(shù)據(jù)技術(shù)快速發(fā)展,已廣泛應(yīng)用于新聞采編、內(nèi)容發(fā)布、數(shù)據(jù)采集、評(píng)估反饋等環(huán)節(jié)。淄博市融媒體中心面對(duì)大量復(fù)雜、無序的非結(jié)構(gòu)化數(shù)據(jù),其來源廣泛,不僅有本地的音視頻及圖文,還包括大量互聯(lián)網(wǎng)內(nèi)容和社交媒體內(nèi)容。淄博市融媒體中心應(yīng)有效利用這些紛雜龐大的數(shù)據(jù)做好新媒體業(yè)務(wù)、做好媒體融合產(chǎn)品,實(shí)現(xiàn)服務(wù)本地群眾,滿足其精神文化需求的根本目標(biāo)。
利用人工智能和大數(shù)據(jù)技術(shù),淄博市融媒體中心未來可以通過合理的算力,在智能標(biāo)簽、智能識(shí)別、智能推薦等領(lǐng)域創(chuàng)新發(fā)展。隨著硬件性能提升和深度學(xué)習(xí)算法的突破,逐漸具備規(guī)模化服務(wù)內(nèi)容生產(chǎn)、分析評(píng)估并提升用戶體驗(yàn)、提升傳播效率的能力[2]。
3 智能標(biāo)簽系統(tǒng)在淄博市融媒體中心新媒體傳播中的應(yīng)用策略
3.1 輔助新媒體業(yè)務(wù)個(gè)性化選題的智能生產(chǎn)
傳統(tǒng)媒資系統(tǒng)大量使用人工編輯為音視頻資源提供編目信息,經(jīng)觀察發(fā)現(xiàn),無論是完整視頻或是片段視頻均無法適應(yīng)新媒體時(shí)代內(nèi)容的生產(chǎn)速度。
利用智能標(biāo)簽系統(tǒng),將為媒資系統(tǒng)提供智能化的編目能力,解決視頻結(jié)構(gòu)化長(zhǎng)期以來嚴(yán)重依賴人工編輯的問題,將優(yōu)秀的編輯人才傳送到新媒體業(yè)務(wù)中。
智能標(biāo)簽系統(tǒng)對(duì)音視頻內(nèi)容進(jìn)行結(jié)構(gòu)化預(yù)處理,自動(dòng)建立標(biāo)簽體系,實(shí)現(xiàn)對(duì)海量?jī)?nèi)容快速標(biāo)簽檢索、編目、專題搭建、內(nèi)容集納等工作。
3.2 促進(jìn)后臺(tái)數(shù)據(jù)庫(kù)的科學(xué)分析
通過智能標(biāo)簽系統(tǒng),可實(shí)現(xiàn)精準(zhǔn)推薦、智能運(yùn)營(yíng)等工作,同時(shí)在實(shí)際業(yè)務(wù)中積累多維度數(shù)據(jù),與標(biāo)簽體系關(guān)聯(lián),提供強(qiáng)大的基礎(chǔ)數(shù)據(jù)支撐,更科學(xué)地優(yōu)化運(yùn)營(yíng)機(jī)制,突破同質(zhì)化瓶頸,提升核心競(jìng)爭(zhēng)力。
3.3 提升新媒體業(yè)務(wù)的受眾體驗(yàn)
隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,保證內(nèi)容安全和開展內(nèi)容審核工作方面都面臨著全新的巨大挑戰(zhàn),如內(nèi)容數(shù)據(jù)量大、來源多樣、敏感點(diǎn)越來越多、時(shí)效要求高、主體責(zé)任重等。在傳統(tǒng)的節(jié)目審核機(jī)制之外,新媒體業(yè)務(wù)可有效通過智能標(biāo)簽系統(tǒng)為內(nèi)容安全提供高效的技術(shù)支持,用主流價(jià)值導(dǎo)向提升新媒體業(yè)務(wù)的受眾體驗(yàn),營(yíng)造風(fēng)清氣正的網(wǎng)絡(luò)空間。
3.4 提升新媒體業(yè)務(wù)的傳播效率
智能標(biāo)簽系統(tǒng)經(jīng)過動(dòng)態(tài)數(shù)據(jù)反饋,利用有效算力進(jìn)行深度學(xué)習(xí),構(gòu)建多模態(tài)的標(biāo)簽體系,為內(nèi)容生產(chǎn)提供強(qiáng)大的基礎(chǔ)能力。同時(shí)賦能知識(shí)圖譜,對(duì)新媒體傳播具有正相關(guān)的促進(jìn)作用。
4 智能標(biāo)簽系統(tǒng)的設(shè)計(jì)思路
利用深度學(xué)習(xí)的訓(xùn)練,通過智能識(shí)別基礎(chǔ)能力,構(gòu)建智能標(biāo)簽系統(tǒng)。在實(shí)踐中,標(biāo)簽被劃分為視頻圖像類標(biāo)簽、音頻類標(biāo)簽和文本類標(biāo)簽,標(biāo)簽可在視頻和圖片中提取,還可以利用語(yǔ)音識(shí)別、光學(xué)文字識(shí)別和自然語(yǔ)義處理在文本中提取。
視頻圖像類標(biāo)簽中包含四個(gè)子類:人物標(biāo)簽、地區(qū)標(biāo)簽、場(chǎng)景標(biāo)簽、事件標(biāo)簽。
音頻類標(biāo)簽中包含:人物標(biāo)簽、地區(qū)標(biāo)簽、正面/負(fù)面標(biāo)簽、場(chǎng)景標(biāo)簽。
文本標(biāo)簽中包括:人物標(biāo)簽、地標(biāo)標(biāo)簽、地區(qū)標(biāo)簽、組織機(jī)構(gòu)、正面/負(fù)面標(biāo)簽。
自動(dòng)語(yǔ)音識(shí)別(ASR):應(yīng)用語(yǔ)音識(shí)別技術(shù)將視頻中的聲音轉(zhuǎn)換成文本,并通過關(guān)鍵字、分詞技術(shù)、相關(guān)性分析對(duì)文本內(nèi)容進(jìn)行標(biāo)簽提取。
人臉識(shí)別:人臉識(shí)別技術(shù)為媒資內(nèi)容添加人物標(biāo)簽,并精確標(biāo)記視頻中人臉出現(xiàn)的具體時(shí)間和相對(duì)坐標(biāo)。人物標(biāo)簽可分為兩個(gè)子類:正面人物和負(fù)面人物。人物面部正面、側(cè)面、抬頭、低頭、近景、中遠(yuǎn)景、人物面部有少量遮擋、有年齡跨度均可識(shí)別。通過智能標(biāo)簽系統(tǒng),可實(shí)現(xiàn)根據(jù)人物姓名快速檢索,遇到負(fù)面人物可直接檢索下線。
光學(xué)字符識(shí)別(OCR):可識(shí)別字幕、以文字形式出現(xiàn)的新聞標(biāo)題等,識(shí)別結(jié)果經(jīng)過數(shù)據(jù)清洗后,將作為自然語(yǔ)義分析的輸入、輸出多種類型標(biāo)簽。
地理地標(biāo)識(shí)別:通過圖像識(shí)別技術(shù)和自然語(yǔ)義處理技術(shù)識(shí)別分析并為內(nèi)容定義地理標(biāo)簽,如媒資內(nèi)容中出現(xiàn)了“鳥巢”,那么系統(tǒng)就對(duì)該素材標(biāo)記“鳥巢”的地理標(biāo)簽。
場(chǎng)景自動(dòng)識(shí)別:通過圖像識(shí)別技術(shù)處理并識(shí)別視頻中出現(xiàn)的場(chǎng)景,如室內(nèi)、戶外、雨雪、城市風(fēng)光、夜景、旅行等。當(dāng)識(shí)別到這些場(chǎng)景時(shí)為素材自動(dòng)標(biāo)記相應(yīng)的標(biāo)簽。
經(jīng)過智能標(biāo)簽系統(tǒng)定義的所有標(biāo)簽,經(jīng)過數(shù)據(jù)預(yù)處理后,通過知識(shí)圖譜進(jìn)行關(guān)聯(lián)數(shù)據(jù)并存儲(chǔ),同時(shí)利用算法對(duì)標(biāo)簽數(shù)據(jù)進(jìn)行聚類、聯(lián)想或分析推理,進(jìn)一步強(qiáng)化基礎(chǔ)能力。
在使用智能標(biāo)簽系統(tǒng)進(jìn)行檢索時(shí),機(jī)器自動(dòng)提取的標(biāo)簽才能產(chǎn)生巨大價(jià)值,也是智能標(biāo)簽系統(tǒng)的設(shè)計(jì)目標(biāo)。
5 智能標(biāo)簽系統(tǒng)的關(guān)鍵技術(shù)
5.1 人物智能識(shí)別技術(shù)解析
通過算法自動(dòng)聚類的方式,輔以少量人工,將數(shù)據(jù)集的噪聲剔除干凈。通過GAN和眼鏡3D合成的方法彌補(bǔ)數(shù)據(jù)集關(guān)于某些特定類型數(shù)據(jù)的缺失。
采用Landmark的算法,標(biāo)定人臉上的關(guān)鍵點(diǎn),可通過標(biāo)記面部的100個(gè)特征點(diǎn),識(shí)別人臉基本屬性,如年齡、性別、標(biāo)簽、是否帶眼睛等。根據(jù)這些屬性特征匹配人物樣本庫(kù)中的政治人物、敏感人物、文體明星、社會(huì)名人等,并利用該方法進(jìn)行人臉檢測(cè),檢測(cè)一張圖像中最顯著的多張人臉,并分別標(biāo)記出其在圖像中的位置。
另外,還可以采用一種多任務(wù)深度學(xué)習(xí)方法,該算法可以聯(lián)合預(yù)測(cè)和識(shí)別單張圖像中的多種屬性信息,包括人臉數(shù)、年齡、性別、是否戴眼鏡等多重屬性,而無須提前對(duì)面部關(guān)鍵部位進(jìn)行標(biāo)記。前期的共享特征提取自然探索了多個(gè)屬性識(shí)別任務(wù)的相關(guān)性,可以更加有效地進(jìn)行特征表達(dá),后期根據(jù)特定類型的特征學(xué)習(xí)來進(jìn)行多個(gè)屬性的預(yù)測(cè),根據(jù)屬性的劃分使用各自對(duì)應(yīng)的損失函數(shù),整個(gè)特征學(xué)習(xí)的卷積網(wǎng)絡(luò)架構(gòu)更簡(jiǎn)單。相比于其他與人臉檢測(cè)結(jié)合的屬性分類方法,采用的算法框架更簡(jiǎn)潔緊湊,將多個(gè)屬性分類的復(fù)雜網(wǎng)絡(luò)在學(xué)習(xí)階段進(jìn)行共享和融合,屬性分類能有效利用特征學(xué)習(xí)階段的共享權(quán)值,使學(xué)習(xí)效率和速度更快。并且只通過一個(gè)網(wǎng)絡(luò)就可以同時(shí)考慮到屬性相關(guān)性與屬性特異性,突出屬性的劃分,有效訓(xùn)練人臉屬性分類模型[3]。
人臉檢測(cè)部分采用一種二階段的人臉檢測(cè)框架,對(duì)線束人臉檢測(cè)和位置標(biāo)記同時(shí)進(jìn)行學(xué)習(xí),主要可以完成人臉和非人臉的分離以及人臉位置的定位任務(wù)。
5.2 場(chǎng)景及實(shí)體智能識(shí)別技術(shù)解析
采用基于改進(jìn)Faster R-CNN模型來監(jiān)測(cè)視頻中形狀比較規(guī)則且位置變化較多的標(biāo)識(shí);采用基于可變形卷積的物體檢測(cè)技術(shù)來檢測(cè)視頻中具有多樣性的物體,以及具有易形變性的旗幟、標(biāo)語(yǔ)等物體;采用基于各向異性膨脹網(wǎng)絡(luò)的人物檢測(cè)技術(shù)來檢測(cè)和識(shí)別圖片中復(fù)雜場(chǎng)景下的特定人臉;采用基于殘差遷移網(wǎng)絡(luò)的不良場(chǎng)景檢測(cè)技術(shù)來識(shí)別圖片中的特定場(chǎng)景。
高質(zhì)量的數(shù)據(jù)標(biāo)注對(duì)于提高模型準(zhǔn)確率至關(guān)重要,但成本也非常高。使用半自動(dòng)的數(shù)據(jù)清洗來降低標(biāo)注成本,同時(shí)提升標(biāo)注效率。先用模型排除掉置信度高的數(shù)據(jù),然后人工標(biāo)注部分置信度低的數(shù)據(jù),重新訓(xùn)練模型,再進(jìn)行數(shù)據(jù)迭代。
無監(jiān)督訓(xùn)練方法可以在沒有標(biāo)注的數(shù)據(jù)上得到預(yù)訓(xùn)練模型。通過無監(jiān)督學(xué)習(xí),在海量的業(yè)務(wù)數(shù)據(jù)上,不斷迭代預(yù)訓(xùn)練模型,從中得出有用的特征。某些特殊的業(yè)務(wù),可以獲取的數(shù)據(jù)量非常少,就可以用半監(jiān)督學(xué)習(xí)的方式,借助少量標(biāo)注訓(xùn)練出可以滿足業(yè)務(wù)需求的模型。
采用深度多實(shí)例排序的弱監(jiān)督算法框架進(jìn)行特定事件識(shí)別;采用基于貝葉斯多核學(xué)習(xí)的多線索融合方法融合圖片與視頻的判別結(jié)果來分析視頻的內(nèi)容意義。
以特定事件識(shí)別為例詳細(xì)說明如下。
本模塊將采用基于深度多實(shí)例排序的弱監(jiān)督算法框架進(jìn)行特定事件識(shí)別。首先對(duì)視頻進(jìn)行鏡頭分割,將包含不同事件的鏡頭分割開,然后對(duì)每一片段進(jìn)行特定異常事件識(shí)別。具體而言,該算法采用了多示例學(xué)習(xí)(Multiple instance learning,MIL)方法來構(gòu)建算法框架,并提出了包括稀疏和平滑約束的MIL排序損失來進(jìn)行模型訓(xùn)練,同時(shí)使用MIL的思路構(gòu)建訓(xùn)練集合,在利用三維卷積結(jié)合全連接的網(wǎng)絡(luò)來獲取異常事件評(píng)分,最后采用提出的MIL排序損失來訓(xùn)練模型。
對(duì)特定場(chǎng)景、特定事件、特定著裝等關(guān)鍵內(nèi)容,也采用深度學(xué)習(xí)算法,根據(jù)視頻、圖像信息的特定特點(diǎn)進(jìn)行識(shí)別。
5.3 OCR識(shí)別技術(shù)解析
OCR檢測(cè)模型結(jié)合了通用的圖像分割和目標(biāo)檢測(cè)相關(guān)技術(shù),借鑒了諸多主流的文字檢測(cè)算法,包括EAST,CRAFT,TestSnake等,可以預(yù)測(cè)多角度、多種形態(tài)的文字。用弱監(jiān)督的方式訓(xùn)練文字檢測(cè)模型,結(jié)合人工標(biāo)注和合成樣本,降低標(biāo)注成本。文字識(shí)別的框架借鑒了標(biāo)準(zhǔn)的CRNN模型,也就是“CNN+RNN+CTC”。同時(shí)融合了多種最新算法,包括Attention、ASTER、FAN等,這些技術(shù)的運(yùn)用能夠提升識(shí)別的準(zhǔn)確率。文字識(shí)別模型的訓(xùn)練也采用了大量的合成數(shù)據(jù),通過多樣化的合成數(shù)據(jù),可以在不借助人工標(biāo)注的情況下,訓(xùn)練出高魯棒性的模型。
5.4 自然語(yǔ)義處理技術(shù)解析(NLP)
通過深度學(xué)習(xí)算法,利用神經(jīng)網(wǎng)絡(luò)對(duì)輸入的文本信息進(jìn)行情感分析、情緒解析和分類,衡量信息的正負(fù)面、觀點(diǎn)傾向等,自然語(yǔ)義處理可以處理復(fù)雜的、有一定理解深度的文本。
利用自然語(yǔ)義可以更精準(zhǔn)地提取標(biāo)簽,同時(shí)理解操作者查詢檢索目的,從而快速準(zhǔn)確地返回目標(biāo)數(shù)據(jù)。
按照業(yè)務(wù)方向進(jìn)行相應(yīng)的建模和算法服務(wù)如下。
實(shí)體識(shí)別模型:針對(duì)結(jié)構(gòu)、人物、地點(diǎn)等實(shí)體的自動(dòng)識(shí)別。
情感正負(fù)面模型:量化分析文本中表達(dá)的情感正負(fù)面。
文檔摘要模型:根據(jù)字?jǐn)?shù)限制,長(zhǎng)文本進(jìn)行摘要和提煉。
機(jī)器翻譯模型:針對(duì)廣播電視領(lǐng)域資訊和報(bào)告深度優(yōu)化的機(jī)器翻譯模型。
6 應(yīng)用場(chǎng)景
通過智能識(shí)別技術(shù)方法提取標(biāo)簽,并輔以人工校驗(yàn),匯總后提供給用戶檢索或作為前端功能使用。
對(duì)于人物標(biāo)簽、對(duì)象標(biāo)簽、場(chǎng)景標(biāo)簽、事件標(biāo)簽、機(jī)構(gòu)標(biāo)簽須進(jìn)行人工校驗(yàn)和修訂才能呈現(xiàn)較好的實(shí)際效果。
7 結(jié)語(yǔ)
文章綜合闡述了淄博市融媒體中心新媒體業(yè)務(wù)的發(fā)展現(xiàn)狀和人工智能大數(shù)據(jù)領(lǐng)域的探索與實(shí)踐,同時(shí)將人工智能技術(shù)應(yīng)用于智能標(biāo)簽系統(tǒng),服務(wù)于內(nèi)容的生產(chǎn)及傳播。實(shí)踐證明,人工智能大數(shù)據(jù)技術(shù)將在新媒體傳播領(lǐng)域產(chǎn)生全方位影響,面對(duì)地級(jí)市媒體融合發(fā)展的挑戰(zhàn)與機(jī)遇,淄博市廣播電視臺(tái)利用智能AI技術(shù)、大數(shù)據(jù)技術(shù)、IT技術(shù)逐步升級(jí)建設(shè)一套具有智能標(biāo)簽、智能編目能力的媒資管理業(yè)務(wù)系統(tǒng),并在全媒體智能標(biāo)簽領(lǐng)域取得了突破性進(jìn)展,為地級(jí)市媒體融合深入建設(shè)發(fā)展提供了新思路和技術(shù)保障。
參考文獻(xiàn):
[1] 羅萬麗.人工智能時(shí)代新媒體傳播趨勢(shì)探析[J].新聞采編,2018(3):57-59.
[2] 喻國(guó)明,曲慧.網(wǎng)絡(luò)新媒體導(dǎo)論[M].北京:人民郵電出版社,2021:212-216.
[3] 劉雪梅,楊晨熙.人工智能在新媒體傳播中的應(yīng)用趨勢(shì)[J].當(dāng)代傳播,2017(5):83-85.
作者簡(jiǎn)介:張營(yíng)軍(1968—),男,山東淄博人,本科,高級(jí)工程師,研究方向:廣播電視技術(shù)、計(jì)算機(jī)與網(wǎng)絡(luò)安全。
劉曉亮(1968—),男,山東淄博人,本科,高級(jí)工程師,研究方向:廣播電視技術(shù)與工程設(shè)計(jì)、計(jì)算機(jī)與網(wǎng)絡(luò)。
鄭觀衛(wèi)(1976—),男,山東淄博人,本科,工程師,研究方向:計(jì)算機(jī)與廣播電視技術(shù)。