AI智能技術(shù)在融媒體平臺中的應(yīng)用分析

2024-03-25 03:56:35張志忱

互聯(lián)網(wǎng)周刊 2024年4期

摘要：隨著互聯(lián)網(wǎng)的發(fā)展和媒體形態(tài)的多樣化，融媒體平臺已成為現(xiàn)代媒體發(fā)展的重要趨勢。AI智能技術(shù)作為一種新興的技術(shù)手段，在融媒體平臺中具有廣泛的應(yīng)用前景。為進一步促進AI智能技術(shù)與融媒體平臺的相互融合，特構(gòu)建融媒體平臺AI智能系統(tǒng)。本文對AI智能技術(shù)在融媒體平臺AI智能系統(tǒng)的應(yīng)用進行深入研究和分析，包括在字幕識別、語音識別、自然語言處理、語義理解、人臉識別及關(guān)鍵詞提取等方面的應(yīng)用，以促進AI智能技術(shù)在融媒體平臺的健康發(fā)展。

關(guān)鍵詞：AI智能技術(shù)；融媒體平臺；自然語言處理；圖像識別

引言

融媒體平臺是指集成多種媒體形式和傳播渠道的媒體平臺，可以實現(xiàn)內(nèi)容之間的交互和整合，提供全方位的媒體服務(wù)。隨著互聯(lián)網(wǎng)的普及和技術(shù)的發(fā)展，融媒體平臺在媒體行業(yè)中的地位愈發(fā)重要。同時，AI智能技術(shù)的出現(xiàn)也給融媒體平臺提供了新的可能性。本文引入融媒體平臺AI智能系統(tǒng)，以期加強AI智能技術(shù)在融媒體平臺中的應(yīng)用，并展望未來的發(fā)展方向。

1. 融媒體AI智能媒體資源處理系統(tǒng)的平臺設(shè)計概覽

1.1 融媒體AI智能媒體資源處理系統(tǒng)的技術(shù)框架

智能媒體資源處理系統(tǒng)的核心功能包括以下幾個方面：（1）語音識別（ASR）——使用語音識別技術(shù)將音頻內(nèi)容轉(zhuǎn)換為文本，實現(xiàn)對媒體資源中語音信息的識別和提取；（2）語義理解——通過對文本或語音內(nèi)容進行深度解析，從而能夠理解其含義和上下文關(guān)系，可以使系統(tǒng)更加智能化，能夠準(zhǔn)確地理解用戶意圖和提供相應(yīng)的響應(yīng)；（3）動態(tài)人臉識別——通過人臉識別技術(shù)，識別媒體資源中的人臉信息，并進行人臉特征提取和比對等操作，可以用于人臉識別、人臉驗證、人臉?biāo)阉鞯葢?yīng)用場景；（4）人流量統(tǒng)計——通過分析媒體資源中的視頻內(nèi)容，可以統(tǒng)計出人群在不同地區(qū)、不同時間段的密度和數(shù)量，這對于公共安全、市場研究等領(lǐng)域都有重要的應(yīng)用價值；（5）人臉核身——通過人臉識別技術(shù)，對用戶進行身份驗證和核實。通過比對用戶的人臉信息，可以判斷其真實身份，從而保證系統(tǒng)的安全性和可信度；（6）文本識別（OCR）——使用光學(xué)字符識別技術(shù)，將媒體資源中的圖像或文本轉(zhuǎn)換為可編輯的文本格式，可以實現(xiàn)對圖片、視頻中文字內(nèi)容的提取和分析；（7）自然語言處理（NLP）——通過自然語言處理技術(shù)，對文本內(nèi)容進行分析和處理，可以實現(xiàn)文本的語義理解、機器翻譯、文本分類等應(yīng)用。

智能媒體資源處理系統(tǒng)可以通過API、SDK等方式，與AI數(shù)據(jù)平臺進行通信和數(shù)據(jù)交換，實現(xiàn)數(shù)據(jù)的共享和傳遞。通過與AI數(shù)據(jù)平臺的集成，智能媒體資源處理系統(tǒng)可以獲取AI數(shù)據(jù)平臺的智能分析結(jié)果，如圖像識別、語音識別、文字識別等，進一步優(yōu)化并應(yīng)用于媒體資源管理過程中。例如，可以通過圖像識別技術(shù)對媒體資源素材進行自動標(biāo)注和分類，通過語音識別技術(shù)對視頻和音頻素材進行智能搜索和分析。

此外，智能媒體資源處理系統(tǒng)在架構(gòu)設(shè)計上采用了分布式多線程架構(gòu)，具有精確的任務(wù)調(diào)度能力。系統(tǒng)可以根據(jù)任務(wù)的優(yōu)先級和資源的可用性，動態(tài)地分配任務(wù)給不同的節(jié)點進行處理，以實現(xiàn)任務(wù)的快速且高效地完成。系統(tǒng)通過分布式處理和多線程技術(shù)，可以同時處理多個任務(wù)并執(zhí)行，大幅節(jié)省處理時間。在系統(tǒng)的擴展性方面，智能媒體資源處理系統(tǒng)可以通過添加和配置能力節(jié)點來靈活擴展其處理能力。能力節(jié)點是系統(tǒng)的核心處理單元，每個節(jié)點都具有獨立的計算能力和存儲資源。在極端情況下，智能媒體資產(chǎn)處理系統(tǒng)中的容量節(jié)點數(shù)量可以達到500個，是傳統(tǒng)媒體資產(chǎn)系統(tǒng)處理能力的30倍。通過增加能力節(jié)點的數(shù)量，系統(tǒng)可以有效處理更多的媒體數(shù)據(jù)，實現(xiàn)更高的并發(fā)處理能力。

需要注意的是，智能媒體資產(chǎn)處理系統(tǒng)的集成和擴展能力需要根據(jù)具體的應(yīng)用場景和需求進行配置和優(yōu)化。在對接AI數(shù)據(jù)平臺時，需要考慮數(shù)據(jù)安全性和隱私保護措施。在擴展能力時，需要確保系統(tǒng)的穩(wěn)定性和性能的可靠性。因此，在實際應(yīng)用中，需要綜合考慮系統(tǒng)的架構(gòu)設(shè)計、數(shù)據(jù)管理、資源調(diào)度等多個因素，并進行合理的配置和調(diào)優(yōu)，以實現(xiàn)媒體資源的智能化管理。

1.2 媒體資源處理系統(tǒng)的實現(xiàn)方式

視頻結(jié)構(gòu)化是指對視頻內(nèi)容進行分層和分析，以獲取關(guān)鍵信息和實現(xiàn)精細(xì)化處理。視頻結(jié)構(gòu)化的初步思路可以分為三個層次。

（1）項目層（program）：項目層是指整個視頻資源的最高層級，代表著一個完整的節(jié)目或項目。這一層級可以通過識別節(jié)目的開頭和結(jié)尾，或者通過節(jié)目的元數(shù)據(jù)信息進行標(biāo)識和提取。在這一層級上進行分析，可以獲得整個節(jié)目的基本信息和結(jié)構(gòu)。

（2）報道層（story）：報道層是相對于項目層的一個更細(xì)分的層級，代表著一個具體的報道或故事。在新聞節(jié)目中，可以通過識別不同的新聞報道段落或主題來劃分報道層。在報道層級上進行分析，可以獲得每個報道的關(guān)鍵信息和主題，以便后續(xù)處理和分類。

（3）場景層（scene）：場景層是對視頻進行更細(xì)粒度分析的層級，代表著視頻中的不同場景和鏡頭。通過分析視頻的畫面變化、鏡頭切換等視覺特征，可以將視頻拆分為多個不同的場景。在場景層級上進行分析，可以獲得每個場景的關(guān)鍵信息，如人物出現(xiàn)、重要事件發(fā)生等。

通過在視頻結(jié)構(gòu)化的不同層級上進行分析，可以實現(xiàn)對視頻資源更加細(xì)致和深入的處理。例如，在項目層級上可以對整個節(jié)目進行分類和索引，提供更好的檢索和推薦功能；在報道層級上可以進行話題和事件分析，幫助用戶快速瀏覽和理解新聞報道內(nèi)容；在場景層級上可以進行目標(biāo)檢測、行為分析等，提取更具有實際意義的視頻片段。需要注意的是，視頻結(jié)構(gòu)化處理利用嵌入式設(shè)備進行初步分析和篩選，并將有意義的圖像發(fā)送回服務(wù)器，以便在服務(wù)器端進行進一步的智能處理，這樣可以降低帶寬壓力，并提高處理效率。此外，視頻結(jié)構(gòu)化處理還可以輔以語音識別、自然語言處理和文字識別等技術(shù)，以獲取更全面的視頻信息，提升處理能力[1-2]。

在報道層面，有大量的場景，這些場景是視頻結(jié)構(gòu)化過程中的基本單元。在服務(wù)端的智能分析過程中，針對每個場景，可以進行目標(biāo)檢測、人臉識別、物體識別、情感分析等技術(shù)的應(yīng)用。通過這些分析，可以形成具有明顯標(biāo)簽和類目的素材堆放。例如，識別不同類型的場景，如主持人鏡頭、拍攝場景、主題敘事和采訪鏡頭，并對其進行相應(yīng)的標(biāo)記和分類，便于未來智能媒體資產(chǎn)管理和重用。通過結(jié)構(gòu)化視頻可以有效管理和組織材料，提高媒體資源的智能化管理能力。結(jié)構(gòu)化后的視頻素材可以按照明確的標(biāo)簽和類目進行存儲和檢索，提供更便捷的查找和使用方式。例如，可以根據(jù)類目篩選出特定類型的素材，或者根據(jù)標(biāo)簽查找到特定人物或物體出現(xiàn)的鏡頭，以滿足不同媒體應(yīng)用的需求[3]。這樣的智能媒體資源管理和媒體資源復(fù)用基礎(chǔ)，可以為后續(xù)的廣告投放、內(nèi)容推薦、信息檢索等其他應(yīng)用提供更準(zhǔn)確和高效的數(shù)據(jù)支持。同時，通過對視頻中的場景進行智能分析，還可以幫助用戶更快速地了解視頻內(nèi)容，并提供個性化的推薦和定制化的服務(wù)。

2. 智能融媒體媒體資源處理系統(tǒng)設(shè)計中的AI技術(shù)應(yīng)用分析

2.1 基于智能連續(xù)音頻流識別技術(shù)的ASR音頻識別

對于音頻部分，AI平臺服務(wù)器的主要功能是智能語音識別（ASR），可以將視頻中的人聲轉(zhuǎn)換為文本。在視頻結(jié)構(gòu)化、獲取視頻源素材和分割音頻流的過程中，WFST解碼系統(tǒng)是一種自然語言處理技術(shù)，基于聲學(xué)模型和語言模型進行解碼，找出最可能的詞序列。最終，解碼系統(tǒng)會生成對應(yīng)音頻的文本輸出。通過這個過程，音頻部分的智能語音識別可以將視頻中的人聲轉(zhuǎn)換為文本，提供方便的語音轉(zhuǎn)錄功能。該音頻處理技術(shù)可廣泛應(yīng)用于會議錄制、現(xiàn)場字幕、語音搜索、語音翻譯等場景，為用戶提供更便利的音頻內(nèi)容管理和使用體驗[4-5]。

2.2 視頻畫面處理中的AI智能分析

在視頻結(jié)構(gòu)化過程中，采集端可以通過訪問OCR（光學(xué)字符識別）技術(shù)來處理視頻中的文本內(nèi)容。OCR技術(shù)主要應(yīng)用于兩個階段：前處理階段的區(qū)域性文字識別、后處理階段的字幕識別。在前處理階段，OCR技術(shù)可以識別視頻中出現(xiàn)的區(qū)域性文字，如屏幕上的字幕或標(biāo)識。通過識別這些文字，可以對視頻內(nèi)容進行更精細(xì)的理解和分析。例如，可以識別視頻中播放的廣告字幕，從而對廣告內(nèi)容進行分析和統(tǒng)計，為廣告投放和收益評估提供數(shù)據(jù)支持。在后處理階段，OCR技術(shù)可以識別已經(jīng)制作成節(jié)目的字幕，從而實現(xiàn)自動字幕生成和字幕信息的智能管理。通過將視頻中的字幕轉(zhuǎn)換為文字，可以方便用戶對字幕內(nèi)容進行編輯、翻譯、搜索等操作，提供更好的用戶體驗和服務(wù)。另外，在視頻結(jié)構(gòu)化中，還可以使用人臉識別技術(shù)。通過收集視頻中人臉的數(shù)字特征，可以對人物數(shù)據(jù)庫進行智能匹配，以確定視頻中人臉與數(shù)據(jù)庫中人臉之間的相似性和似然性。這樣的人臉識別技術(shù)可以應(yīng)用于視頻中人物的標(biāo)記、人員的追蹤和分析等場景，提供更準(zhǔn)確和高效的人臉信息管理。

3. AI技術(shù)的智能媒體資源管理系統(tǒng)的引入

3.1 引入自然語言處理技術(shù)（NLP）的智能媒體資源入庫

在媒體資產(chǎn)的智能存儲部分，還可以結(jié)合自然語言處理（NLP）引擎來處理和分析文本：（1）針對通過語音識別和視頻內(nèi)容識別技術(shù)獲得的文本資源，可以利用預(yù)置的NLP引擎進行快速轉(zhuǎn)譯。NLP引擎可以將識別出的文本進行處理和解析，對文本中的語言性質(zhì)進行識別和理解，例如，可以識別文本的主要語種、情感色彩、語調(diào)高低等特性，進一步提取文本的重點信息。（2）NLP引擎可以對文本進行關(guān)鍵詞提取。通過識讀和分析文本，可以自動提取出文本中的關(guān)鍵詞，并將這些關(guān)鍵詞根據(jù)新聞領(lǐng)域使用的特征標(biāo)簽進行分類。（3）對于具有不同標(biāo)簽的文本，NLP引擎可以智能地生成摘要。通過對文本內(nèi)容的分析和總結(jié)，可以提取文本的核心點和主題，并生成簡潔明了的摘要信息，便于檢索。

3.2 結(jié)合大數(shù)據(jù)分析的智能媒體資源檢索

在媒體資源管理系統(tǒng)中，除了多元化的標(biāo)簽和文本檢索功能，還提供媒體百科全書和知識圖譜，以進一步優(yōu)化媒體搜索的效率。當(dāng)用戶進行本地媒體資產(chǎn)檢索時，系統(tǒng)會快速生成相關(guān)的檢索結(jié)果，其中包括使用標(biāo)簽和文本進行檢索。同時，系統(tǒng)會將檢索到的內(nèi)容和結(jié)果上傳到服務(wù)器，交由AI進行分析和處理。AI會通過大數(shù)據(jù)分析展示標(biāo)簽之間的關(guān)聯(lián)性，并實時提供更多可選的搜索標(biāo)簽建議。這樣，用戶在進行媒體資源檢索時，系統(tǒng)可以根據(jù)AI分析的結(jié)果，提供更多與檢索內(nèi)容相關(guān)的標(biāo)簽，使用戶能夠更準(zhǔn)確地選擇適合的標(biāo)簽進行檢索。此外，AI分析還可以提供在線版權(quán)媒體資源供用戶使用。通過分析檢索的內(nèi)容和結(jié)果，系統(tǒng)可以根據(jù)版權(quán)媒體資源庫中的數(shù)據(jù)，向用戶提供在線可用的媒體資源。這樣用戶就可以方便地在媒體資源管理系統(tǒng)中獲取到符合自己需求的媒體資源內(nèi)容，提高工作效率。

當(dāng)智能媒體資源處理系統(tǒng)與AI數(shù)據(jù)平臺進行集成時，能夠以更智能化的方式管理媒體資源。通過學(xué)習(xí)用戶的檢索習(xí)慣和行為，智能媒體資源處理系統(tǒng)可以根據(jù)用戶的具體需求和偏好提供個性化的媒體資源檢索結(jié)果。該系統(tǒng)可以利用AI算法分析用戶的檢索關(guān)鍵詞，并根據(jù)這些關(guān)鍵詞提供相關(guān)的搜索建議和糾錯建議。通過與人工智能數(shù)據(jù)平臺集成，智能媒體資產(chǎn)處理系統(tǒng)可以從在線版權(quán)媒體資產(chǎn)庫中獲取材料。這意味著，用戶可以直接在系統(tǒng)中查找并使用具有版權(quán)的音頻、視頻、圖像等媒體資源素材。用戶可以通過系統(tǒng)的界面訪問這些在線媒體資源，無須離開媒體資源管理系統(tǒng)，從而提高使用效率，并且確保所使用的媒體資源具備合法的版權(quán)。

通過以上功能的應(yīng)用，智能媒體資源處理系統(tǒng)能夠更好地滿足用戶的需求，并提高媒體資源檢索的工作效率。用戶可以更智能和準(zhǔn)確地搜索媒體資源文件，并得到相關(guān)的搜索建議和糾錯，為媒體資源管理帶來更加便捷的體驗。同時，系統(tǒng)還能提供在線版權(quán)媒體資源，用戶無須額外搜索和使用流程即可訪問高質(zhì)量的媒體資源素材，顯著提升了媒體資源的可用性和管理效率。

結(jié)語

本文對人工智能技術(shù)在綜合媒體平臺中的應(yīng)用進行了研究和分析，實現(xiàn)了音頻、視頻和文本識別功能的人工智能。通過引入NLP技術(shù)，創(chuàng)新了現(xiàn)有的媒體資產(chǎn)管理方法。由此可見，人工智能技術(shù)在綜合媒體平臺上具有廣闊的應(yīng)用前景，可以提高生產(chǎn)效率、優(yōu)化用戶體驗和提供個性化服務(wù)。然而，AI智能技術(shù)的應(yīng)用還應(yīng)該注意風(fēng)險把控，規(guī)避技術(shù)風(fēng)險，合理控制成本，不斷深化AI智能技術(shù)與融媒體平臺的結(jié)合，以推進大數(shù)據(jù)時代的數(shù)字化轉(zhuǎn)型。同時，未來需要加強相關(guān)研究和技術(shù)創(chuàng)新，促進AI智能技術(shù)在綜合媒體平臺的健康發(fā)展。

參考文獻：

[1]傅高強.AI智能技術(shù)在融媒體平臺中的應(yīng)用[J].電視技術(shù)，2022，46（7）：169-171，196.

[2]沈錦昌，于國民.AI技術(shù)在縣域融媒體平臺的實踐應(yīng)用[J].電視技術(shù)，2023， 47（3）：188-191.

[3]劉慧君.AI虛擬主播應(yīng)用面臨的質(zhì)疑與困境研究[J].新聞研究導(dǎo)刊，2023， 14（8）：4-6.

[4]任書成.人工智能技術(shù)對新媒體傳播的影響及應(yīng)用分析[J].新聞研究導(dǎo)刊，2023，14（16）：76-78.

[5]王相飛，王真真，延怡冉.人工智能應(yīng)用與體育傳播變革[J].上海體育學(xué)院學(xué)報，2021，45（2）：57-64.

作者簡介：張志忱，本科，研究方向：智能科學(xué)技術(shù)。