王雅懿 王志海
(中央宣傳部電影數字節目管理中心,北京 100866)
隨著互聯網技術的普及和發展,觀眾對電影的消費方式也不再局限于從影院或者電視上觀看影片,通過互聯網視頻平臺觀看影片已經成為百姓日常觀影的主要模式。另外,互聯網線上觀影用戶有更多的選擇空間,剛從影院下檔的熱片、經典老片都可以隨意選擇。為了方便用戶選片、做好影片的精準投放,平臺需要對影片的內容提取特征和分類,以便根據用戶畫像,向用戶推薦感興趣的影片。根據國家電影局公布的數據顯示,2019 年全年生產影片1037部,2020年受疫情影響全年生產影片也有650部。如果靠人工將如此多的影片分類,需要耗費大量的人力和時間,由于每個人的評判標準不同,也會造成結果的差異性,降低分類質量和可用性。如果在影片分類的過程中引入機器學習的方法,就可以統一評判標準,提高效率。本次實驗利用詞向量、多標簽分類等機器學習技術,實現根據影片簡介對影片類型的預測。
詞向量模型(Word2vec)是一種利用神經網絡技術對上下文及目標詞的關系進行建模,從而實現將詞語向量化表示的方法。與獨熱算法(One-Hot)相比,詞向量模型能夠實現將詞語轉化為稠密的向量,并且近義詞有相似的向量,有助于挖掘文字中詞語和句子之間的特征。多標簽分類 (Multi-label Classification)是一種改進的分類模型,可實現單個樣本多標簽多類別的分類,符合單部影片屬于多個影片類型的應用場景。……