熊暢
摘要:基于Python爬蟲技術(shù)簡單易用的特點,利用python語言編寫爬蟲程序?qū)覐V播電視總局電視劇電子政務(wù)平臺的電視劇備案數(shù)據(jù)進行了爬取。并對爬取的電視劇備案數(shù)據(jù)進行了統(tǒng)計分析,得出相關(guān)結(jié)論。
關(guān)鍵詞:Python;爬蟲;數(shù)據(jù)分析
中圖分類號:TP311.11 文獻標識碼:A 文章編號:1007-9416(2017)09-0035-02
1 爬蟲技術(shù)簡介
網(wǎng)絡(luò)爬蟲,是一種通過既定規(guī)則,自動地抓取網(wǎng)頁信息的計算機程序。爬蟲的目地在于將目標網(wǎng)頁數(shù)據(jù)下載至本地,以便進行后續(xù)的數(shù)據(jù)分析。爬蟲技術(shù)的興起源于海量網(wǎng)絡(luò)數(shù)據(jù)的可用性,通過爬蟲技術(shù),我們能夠較為容易的獲取網(wǎng)絡(luò)數(shù)據(jù),并通過對數(shù)據(jù)的分析,得出有價值的結(jié)論。
Python語言簡單易用,現(xiàn)成的爬蟲框架和工具包降低了使用門檻,具體使用時配合正則表達式的運用,使得數(shù)據(jù)抓取工作變得生動有趣。
2 案例分析
2.1 網(wǎng)頁說明
目標數(shù)據(jù)是歷年來的全國電視劇拍攝備案數(shù)據(jù)。數(shù)據(jù)源于國家廣播電視總局電視劇電子政務(wù)平臺的公開信息,如圖1所示,具體網(wǎng)址URL:“http://dsj.sarft.gov.cn/tims/site/views/applications.shanty?appName=note”。
我們需要爬取歷年來每個月的備案公示信息列表數(shù)據(jù),如圖2,并進行匯總和分析。
2.2 爬蟲程序設(shè)計并實現(xiàn)
首先,我們用BeautifulSoup解析器來解析URL的文本信息,分析網(wǎng)頁HTML文本和頁面規(guī)則后,制定以下步驟來抓取目標數(shù)據(jù)。
①抓取首頁碼和尾頁碼后,循環(huán)抓取列表頁信息;
②通過”th”標簽來提取表頭信息;
③循環(huán)提取行信息;
④將每一行的信息加入年份和月份屬性,將所提取的信息組合成DataFrame格式。
用Python編程實現(xiàn)上述步驟,最終的結(jié)果是抓取并形成了一個8884行、6列的二維表,包含了從2009年3月份至2017年7月份的電視劇拍攝備案數(shù)據(jù),如圖3和圖4所示。
2.3 數(shù)據(jù)分析
根據(jù)上述數(shù)據(jù),我們可以運用Python的統(tǒng)計方法,對數(shù)據(jù)進行簡單的統(tǒng)計和分析。
2.3.1 統(tǒng)計每年的拍攝數(shù)量
用groupby方法統(tǒng)計每年的電視劇數(shù)量并作條形圖。從數(shù)據(jù)上可以看出,2010年至2016年,我國電視劇備案數(shù)量整體上看呈上升趨勢,如圖5,從2010年的962部上升至2016年的1217部。
2.3.2 統(tǒng)計各地區(qū)的備案情況
同樣的,用groupby方法統(tǒng)計各地區(qū)的備案數(shù)量。如圖6所示,2009年3月份至2017年7月份,北京、浙江和上海這三個地區(qū)的電視備案數(shù)量排名前三,具體數(shù)量分別為2329部、1214部和938部。而排名倒數(shù)前三的地區(qū)分別是青海、西藏和甘肅,具體數(shù)量分別為4部、13部和16部。
2.3.3 統(tǒng)計題材分布
如圖7所示,從題材上來看,備案數(shù)量排名前三的題材分別是當代都市、近代革命和近代傳奇,這三個題材的備案數(shù)量分別為3396部、1130部和709部。
3 結(jié)語
運用Python爬蟲技術(shù)能夠順利的抓取所需數(shù)據(jù)。通過對數(shù)據(jù)的整理和分析,可以認為:從總量上來看,我國電視部備案數(shù)量整體呈穩(wěn)步上升趨勢;從地區(qū)分布上看,備案數(shù)量與地區(qū)經(jīng)濟的發(fā)達程度正相關(guān),由于電視劇的拍攝和制作需要資本投入,發(fā)達地區(qū)擁有資本和人才優(yōu)勢,能夠大批量的拍攝和制作電視劇;最后,從備案題材來看,當代都市題材的數(shù)量處于絕對領(lǐng)先地位,說明反映時代特征的當代題材劇最受資本和制作方的親睞。
參考文獻
[1]Yves Hilpisch.Python金融大數(shù)據(jù)分析[M].北京:人民郵電出版社,2015.
[2]吳劍蘭.基于Python的新浪微博爬蟲研究[J].無線互聯(lián)科技,2015,(6):93-94.endprint