殷復蓮 徐榮閣 劉志心 冀美琪



摘 要:針對影視節目標簽手動采集費時費力,以及傳統樹狀標簽體系信息冗余且不全面等問題,提出一種標簽自動獲取技術。通過數據爬取技術采集與節目相關的互聯網原始數據,然后通過文本分析、同義匹配、數據庫匹配等技術進行數據分析與挖掘,最終實現對扁平化節目標簽的獲取。實驗結果表明,在選取8~10個標簽時,該算法準確率為84.3%~ 92.4%,召回率為53.4%~ 63.1%,說明該算法獲取的標簽能夠很好地對影視節目進行描述。
關鍵詞:扁平化標簽;標簽自動獲取;Web自動信息采集;標簽庫匹配
DOI:10. 11907/rjdk. 182739 開放科學(資源服務)標識碼(OSID):
中圖分類號:TP319文獻標識碼:A 文章編號:1672-7800(2019)007-0150-04
Research on the Acquisition Technology of Film and Television Program Flat Tags
YIN Fu-lian,XU Ronge-ge,LIU Zhi-xin,JI Mei-qi
(School of Information and Communication Engineering, Communication University of China, Beijing 100024, China)
Abstract: This paper proposes an automatic tag acquisition technology for the which is time-consuming and labor-intensive manual collection of film and television program tags and the information redundancy and incompleteness of the traditional tree tag system. Our research collects the original Internet data related to the program through data crawling technology, and then analyzes and mines the data through text analysis, synonym matching, database matching and other technologies. Finally we achieve the acquisition of flat program tags. The experimental results show that the accuracy of this algorithm is 84.3%~92.4% when 8-10 labels are selected, and the recall rate is 53.4%~63.1%. This proves that the label obtained by the algorithm in this paper can describe a program well.
Key Words: flattened tag; automatic tag acquisition; Web automatic information collection; tag library matching
基金項目:國家自然科學基金項目(61801441);國家級大學生創新創業訓練計劃項目(JG18110205)
作者簡介:殷復蓮(1982-),女,博士,中國傳媒大學信息與通信工程學院副教授、碩士生導師,研究方向為大數據、數據分析與挖掘技術;徐榮閣(1996-),男,中國傳媒大學信息與通信工程學院學生,研究方向為數字媒體技術;劉志心(1996-),女,中國傳媒大學信息與通信工程學院學生,研究方向為數字媒體技術;冀美琪(1998-),女,中國傳媒大學信息與通信工程學院學生,研究方向為數字媒體技術。
0 引言
如今隨著大眾審美觀的不斷變化,涌現出大量新類型與題材的影視節目。與此同時,人們的需求也變得越來越個性化,因此很多節目類型不能再被簡單歸為某一類,而往往是多種形式的雜糅和變異。對節目進行全方位的信息采集與分析才能夠更加準確、完整地描述一個節目,使觀眾可以更直觀地進行選擇,同時也能讓節目發布方對節目有更加全面的認識,從而方便管理與運營。
近年來,互聯網的迅速發展致使數據規模不斷擴大,人們越來越依賴互聯網獲取信息,因此Web數據挖掘、信息采集和管理技術也得到了快速發展[1-2]。Web信息采集通常分為基于整個Web的信息采集、增量式Web信息采集、基于主題的Web信息采集等類別[3-5]。目前,國內相關研究主要集中在以下方面:面向主題的Web信息采集、個性化Web信息采集、分布式Web信息采集、基于元搜索的Web信息采集與多技術結合的Web信息采集[6]。國外則主要是發展基于全采集策略、基于選擇性采集策略與基于聯合采集策略的項目等[7]。其中,信息采集是指采集指定網站中的特定信息,通過模擬用戶正常瀏覽行為并設置一定規則,從而獲取Web頁面指定信息[8]。其采集的最終結果不再是頁面,而是深入到站點或頁面內部,獲取信息并保存到用戶指定的數據庫中[9-11]。信息自動采集既能節省時間,又能得到相對準確的結果,因此很多學者針對該技術在各領域的應用進行了研究[12-13]。如在新聞自動采集方面,為了保證新聞發布的時效性,張一睿[14] 、戚揚[15]提出通過綜合利用動態服務器頁面(Active Server Pages,ASP)、Java服務器頁面(JavaServer Pages,JSP)等技術對用戶指定網站區域下的Web新聞網頁進行自動抓取,經解析、消重、分類處理后保存到新聞網站數據庫中,即可24小時自動采集并發布新聞;馬凱[16]采用模塊化技術構建一種特定領域的Web信息集成系統,通過用戶提供的關鍵詞,結合人工篩選進行關鍵詞擴展,對全網相關新聞、微博數據進行采集與抽取。針對小企業的信息采集問題,趙紅艷[17]提出利用自動信息采集系統從鏈接地址頁面中提取目標網頁URL地址與相應企業名稱,并從URL地址對應的詳細信息頁面中提取具體企業信息。在輿情采集、網絡爬蟲方面,國內如周劍[18]、湯露陽[19]、李曉偉[20]應用自動采集技術進行網絡爬蟲、數據融合與文本情感分析等,實現了面向Web輿情評價信息的采集與分析系統;王仕艷[21]、熊暢[22]采用的數據采集技術主要是從Web上獲取網站網頁,通過既定規則自動抓取整個網頁信息,并將其保存在文檔中,同時將文檔中的信息提取出來。國外研究則側重于高性能Web爬蟲程序的體系結構與實現、協作Web爬蟲、深層Web爬蟲、多媒體內容爬蟲以及Web爬蟲研究未來方向5個主題[23]。
總體上看,Web信息采集技術正逐漸向高性能、專業化、智能化、個性化方向發展。但由于網絡信息資源的迅猛增長,現有技術仍存在一些待改進之處,比如信息采集需要更加個性化,在多個平臺采集時需要進行網頁預處理,以達到網頁去重的效果等。
本文在以上技術基礎上進行創新,將自動采集技術應用于影視節目標簽獲取。與已有技術不同的是,本文在對不同平臺進行信息采集時,沒有使用保存整個網頁信息的方法,而是采用一定規則提取所需內容,從而提高了采集效率。同時,本文采集的節目信息不是由單一平臺產生的,而是源自很多不同的互聯網平臺。本次研究還利用中文近義詞匹配技術,并采用課題組的扁平化節目標簽體系得到扁平化的節目標簽,從而對影視節目進行更加準確、有效的描述[24]。
1 扁平化標簽體系
本文將扁平化結構應用于影視節目分類的標簽體系中,通過減少原有樹形標簽體系帶來的大量冗余,使不同維度的領域標簽、形態標簽以及內容標簽可以同等權重賦予同一節目,不僅可以簡化現有復雜的影視節目標簽體系,還可以實現對多元化影視節目進行快速、高效的分類。
本文采取課題組的扁平化節目標簽體系,將節目標簽分為三大維度,即領域、形態、內容[24],整個體系如圖1所示。然后根據三大維度將標簽分為內容、類型、時間、評分4類。內容標簽根據影視節目選題范圍和制作信息提煉出標簽,分為背景、題材、基調、元素、人物、主旨、導演、演員;類型標簽主要根據影視劇的領域進行劃分,分為形式和產地兩種;時間標簽根據影視劇上映日期進行劃分,如:2018年、2017年、90年代等;評分標簽根據國內評分可信度較高的豆瓣平臺上該影視節目的得分制作而成。
圖1 電視節目扁平化標簽體系
2 扁平化標簽自動獲取方案及關鍵技術
本文所涉及的標簽獲取流程如圖2所示,分為數據采集、數據處理與標簽扁平化3部分。首先通過搜集愛奇藝等影視網站的影視數據得到基礎的影視標簽信息,然后對采集的標簽信息進行數據清洗、格式標準化、合并等處理,并結合已建立完成的扁平化標簽庫,獲取影視節目的扁平化標簽,最后通過3部分聯合運作,實現影視節目扁平化標簽的一鍵自動獲取。相比于人工貼標簽方式,運用扁平化標簽自動獲取技術為影視節目貼標簽更加準確、迅速。
圖2 扁平化標簽獲取方案
2.1 數據采集
本文提出的扁平化標簽獲取技術運用對象為影視節目,網絡上的相關影視信息則是本文的直接信息數據來源。數據采集過程如圖3所示。
相比于其它影視節目,電視劇與電影的節目標簽具有復雜性、多樣性、主觀性等特點,因此本文主要對電視劇和電影的相關信息數據進行采集與處理。利用Python爬蟲程序對愛奇藝、搜狗影視、貓眼電影和豆瓣影視4個影視網站進行標簽信息采集,信息包括節目類型、節目簡介、導演、演員、評分等。
圖3 數據采集過程
2.2 數據處理
由于初始采集的影視節目信息數據來源于4個不同網站,因此信息數據格式并不統一,且有大量重復,需要對這些數據作進一步處理,如圖4所示。
圖4 數據處理
首先,對采集的標簽信息進行合并。在4個影視網站上采集的影視信息存在大量重復的情況,此處將同一影視節目在不同網站的相關信息進行合并,使一個影視節目在數據庫中只出現一次,標簽信息更加清晰明確。
然后,對合并后的節目信息數據進行清洗。采集到的文本中存在一些不必要的數字、標點符號、網址等內容,這些文本信息并不屬于節目標簽信息,將會增加后續程序運行工作量及獲取標簽的不確定性,因此在數據處理過程中需將其清除。
最后,對處理后的標簽進行格式標準化。4個網站收集的標簽信息格式各有不同,因此將同類標簽信息進行格式上的統一,包括文字編碼格式統一、英文大小寫統一、數字格式統一以及標簽分隔符統一。
2.3 標簽扁平化
對采集到的標簽信息進行處理后,基本得到完整的影視節目標簽。為使節目標簽呈現扁平化特點,利用上文提到的節目標簽庫以及中文近義詞工具包對節目標簽進行扁平化匹配處理,使處理后的節目標簽全部為源于標簽庫的扁平化標簽。處理過程如圖5所示。
將處理后的節目標簽與本文建立的節目標簽詞庫進行逐一匹配,將標簽庫中不存在的標簽篩選出來。然而篩選出的大部分標簽雖然不存在于標簽庫中,但其意義與標簽庫中的標簽相近,不能簡單刪去,因此還需進行下一步的近義詞匹配操作。
本文在近義詞匹配過程中采用了一款名為“synonyms”的中文近義詞工具包,該工具包可以應用于自然語言理解的很多任務中。在Python程序中使用該工具包,可以針對某具體詞語進行“近義詞查找”及“詞語相似度檢測”任務。例如,Python程序中對詞語“熱血”進行近義詞匹配的輸出內容為(結果保留兩位小數): [‘熱血,‘青春,‘勇往直前,‘男子漢,‘FUN,‘勵志,‘新時代,‘本色,‘好勝,‘
],[1.0,0.61,0.61,0.57,0.57,0.53,0.51,0.49,0.49,0.43]。
上例中的第一個向量是匹配到的相關近義詞,第二個向量是每個近義詞與“熱血”這一原詞的相似度,數值越大表示該詞與原詞相似度越高。本文在近義詞匹配過程中,按照相似程度大小排序,將查找到的近義詞與標簽庫中的標簽再一次進行匹配。一旦在標簽庫中查找到該近義詞,即將其加入節目標簽信息中,并停止對剩余近義詞的匹配查找,從而得到標簽庫中與節目最相近的標簽。對于近義詞依然無法與標簽詞庫匹配的原節目標簽詞語,則將其舍棄。
在對節目標簽進行扁平化匹配處理后,節目的標簽扁平化操作已基本完成。由于在上述匹配過程中,存入影視節目的部分標簽信息會有重復,因此還需進行最后一步去重操作,即將重復出現的影視節目扁平化標簽刪除。
通過數據采集、數據處理與標簽扁平化3個步驟的操作,可以準確地為影視節目貼上標簽,標簽類型與扁平化標簽庫中的標簽類型相對應,分為“內容”、“類型”、“評價”、“時間”。本文為了更快捷地獲取節目扁平化標簽,將上述3個步驟進行整合運作,各程序在時間上無縫連接,實現了對影視節目扁平化標簽的一鍵自動獲取,大大提高了影視標簽獲取效率。
3 實驗與結果分析
本研究通過訓練集對算法進行訓練,并通過測試集進行測試。實驗中采用兩個較為常用的指標測評實驗生成的標簽,即準確率和召回率。準確率和召回率用于衡量實驗中的標簽生成效果。P表示節目集合,Lab(p)表示節目p在豆瓣、時光網等視頻網站給出節目標簽中出現頻率最高的標簽集合,Tag(p)表示節目p由本實驗算法得出的標簽集合。準確率定義如下:
[Precision=p∈P|Lab(p)?Tag(p)|p∈P|Tag(p)|]? ? (1)
召回率定義如下:
[Recall=p∈P|Lab(p)?Tag(p)|p∈P|Lab(p)|]? ? ? ?(2)
上式中的[Lab(p)?Tag(p)]表示實驗中得出的節目標簽集與視頻網站給出的節目高頻標簽集合交集所含有的元素數量。準確率用于表示實驗給出標簽與網絡公認節目標簽的交疊程度,召回率表示測試集中利用本實驗算法計算得出網絡公認節目標簽的比例。
以下兩個實驗根據準確率與召回率對實驗結果進行對比分析。每個實驗根據所選標簽數量的不同分為5組,為了能夠更清晰、直觀地看到結果變化規律,采用折線圖表示結果。
實驗1:準確率分析。將豆瓣、時光網等影視網站給出的高頻標簽作為測試數據與本文所得結果利用公式(1)進行比較計算,本文標簽獲取算法的準確率結果如圖6所示。
圖6 準確率結果
由圖6可見,隨著實驗獲取標簽數量的增加,準確率逐漸降低。主要由于增加標簽數量使一些由算法計算出的低權值標簽逐漸加入結果中,這些標簽很難與本文測試數據進行匹配。然而,這些標簽本身權值很低,所以并不能說明實驗得出的標簽不夠準確。可以看到,在使用8個標簽時測試結果的準確率很高。事實上,8個標簽已能足夠反映出一個節目的各方面信息,如本算法得出《霸王別姬》的標簽為電影、90年代、陳凱歌、中國大陸/香港、漢語普通話、人性、文藝、同性。
實驗2:召回率分析。將豆瓣、時光網等影視網站給出的高頻標簽作為測試數據與本文所得結果利用公式(2)進行比較計算,本文標簽獲取算法的召回率結果如圖7所示。
圖7 召回率結果
由圖7可見,隨著獲取標簽數量的增多,召回率逐漸下降,且標簽數量越多,下降越快。主要由于越來越多的低頻標簽加入了測試集,這些數據很難與本文標簽數據庫中的標簽進行匹配。但這些標簽通常不具有代表性,并不會影響對一個節目的描述。8~10個標簽時情況較好,實際上此時標簽已能很全面地展現一個節目。
綜上所述,在選用8~10個標簽時,本文算法能得到較為理想的結果。在標簽數量增多時,準確率與召回率逐漸降低,并且下降速度不斷加快。事實證明8~10個標簽能夠很全面地描述一個影視節目的各方面信息,包括主題、類型、年代、導演、國家、語言等。故利用本文算法能夠得出準確、全面的節目標簽,并且選用8~10個標簽更為合適。
4 結語
本文提出的扁平化節目標簽自動獲取技術具有高效、準確與全面等特點。扁平化節目標簽獲取需要經過數據采集、數據處理與標簽扁平化3個步驟,并運用了多種自然語言處理技術。實驗結果表明,本文算法所得節目標簽的準確率與召回率較好,具有較高的實用價值。同時,實驗也得出選用8~10個標簽描述一個節目較為合適。本文研究成果可用于后續影視節目推薦算法或其它用戶服務技術,同時還可在匹配算法方面作進一步優化與改進。
參考文獻:
[1] 黃慶. 大數據挖掘與數據處理方法[J]. 電腦迷,2018,9(11): 89.
[2] 高國連,祖成浩. 大數據定向采集技術研究[J]. 中國管理信息化, 2017,12(15):162-164.
[3] 周林云. Web信息采集系統設計與實現[D]. 四川:西南交通大學, 2013.
[4] LIN S-H,HO J-M. Discovering informative content blocks from Web documents[C]. Washing,D.C.:Proceedings of the Eighth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2002:588-593.
[5] FREITAG D. Machine learning for information extraction in informal domains[J]. Machine Learning, 2000, 5(39):169-202.
[6] 張婧,劉彥君,范漪萍,等.國內網絡信息采集研究現狀述評[J].科技管理研究,2017,37(9):260-266.
[7] EMILIO F,PASQUALE D M,GIACOMO F,et al. Web data extraction, applications and techniques: a survey[J]. Knowledge-Based Systems,2014,70:301-323.
[8] 吳爽. 基于python語言的web數據挖掘與分析研究[J]. 電腦知識與技術,2018,14(27):1-2.
[9] 韓洋. 大數據時代計算機信息處理技術探析[J]. 科技傳播, 2018, 9(18): 80-81.
[10] 袁琦. 大數據時代計算機信息處理技術的研究[J]. 科技風, 2018,30(28): 72.
[11] FURCHE T,GOTTLOB G,GRASSO G, et al. OXPath: a language for scalable data extraction, automation, and crawling on the deep web[J]. VLDB Journal, 2013, 22(1):47-72.
[12] 周瑜智,劉展鳴,王博,等. 關于網絡信息自動采集技術的難點及其解決辦法的研究[J]. 科技傳播, 2013, 4(6): 204-205.
[13] 李寶密.基于自動生成模板的Web信息抽取技術[J].網絡安全技術與應用,2016(9):56,58.
[14] 張一睿. Web端新聞自動采集系統的設計與實現[D]. 北京:中國科學院大學, 2017.
[15] 戚揚. Web數據挖掘、信息采集技術研究及在網絡新聞自動抓取中的應用[D]. 杭州:浙江工業大學, 2012.
[16] 馬凱. 基于微博數據采集的Web信息集成系統研究[J]. 現代電子技術,2016,39(11):125-128.
[17] 趙紅艷. 基于大數據技術的小微企業信息采集技術研究[J]. 科技展望, 2015 (30):1-3.
[18] 周劍. 面向Web輿情評價信息的采集與分析系統的研究與開發[D]. 蘇州:蘇州大學,2017.
[19] 湯露陽. 面向網絡輿情分析的數據采集與管理方法研究[D]. 成都:電子科技大學,2017.
[20] 李曉偉. 云環境下的輿情監測關鍵技術研究[D]. 綿陽:西南科技大學,2017.
[21] 王仕艷. 云環境中Web信息抓取技術的研究及應用[J]. 通信電源技術,2018,35(9):175-176,178.
[22] 熊暢. 基于Python爬蟲技術的網頁數據抓取與分析研究[J]. 數字技術與應用,2017(9):35-36.
[23] DENIS S. Current challenges in Web crawling[C]. 13th International Conference Web Engineering,2013:518-521.
[24] 殷復蓮,王顏顏,柴劍平,等. 中國電視節目扁平化標簽分類體系研究[J]. 電視技術, 2017, 41(Z1): 174-176,181.
(責任編輯:黃 ?。?/p>