999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

Python語言在大數據處理中的應用

2021-07-26 01:19:28葉惠仙游金水
網絡安全技術與應用 2021年5期
關鍵詞:可視化語言信息

◆葉惠仙 游金水

(1.福建農業職業技術學院 福建 350007 2.福建省職業技術教育中心 福建 350001)

在大數據時代,如何充分挖掘出蘊藏于數據資源中的價值正在成為各國IT 業界、學術界和政府共同關注的焦點。使用大數據技術應用于各行各業來分析行業情況與事件趨勢已經成為共識并且得到了廣泛應用。隨著數據信息資源的不斷層階梯式增多,提高大數據分析技術就變得非常重要,而Python 正是這個重要的大數據應用輔助工具,其功能強大、操作簡單、邏輯語法易懂易讀、代碼高效。所以將Python 應用到大數據挖掘、清理、分析、可視化中非常有必要。不僅如此,Python 語言數據分析庫功能齊全,并且還提供了十分豐富的API 和工具,以便程序員能夠輕松地使用C 語言、C++、Python來編寫自己所需的擴充模塊。本文通過闡述Python 在大數據應用技術過程中的階段應用,來體現Python 相較于其他語言在大數據應用技術中的優勢。

1 大數據應用

隨著互聯網技術的發展,信息技術與人類生活中的政治、經濟、軍事、科研、醫療、生活等方方面面不斷交織融合,并且隨著時間流逝,這個數據量將呈階梯式的冗積。這也正是大數據技術滲透到社會各個方面的最好體現。大數據技術的發展已在以下幾個方面得以體現:

(1)物聯網:把所有物品通過信息傳感設備與互聯網連接起來,進行信息交換,以實現智能化識別和管理。

(2)智慧城市:運用信息和通信技術手段感測、分析、整合城市運行核心系統的各項關鍵信息;并對包括民生、環保、公共安全、城市服務、工商業活動在內的各種需求做出智能響應。

(3)增強現實(AR)與虛擬現實(VR):它利用計算機生成一種模擬環境,讓用戶創建和體驗一種多源信息融合的、交互式的三維動態視景和實體行為的虛擬世界的計算機仿真系統。

(4)區塊鏈技術:是分布式數據存儲、點對點傳輸、共識機制、加密算法等計算機技術的新型應用模式。

(5)語音識別技術:語音識別技術將進入工業、家電、通信、汽車電子、醫療、家庭服務、消費電子產品等各個領域。

(6)人工智能(AI):人工智能需要被匯入很多信息才能進化,進而產生一些意想不到的結果。是研究、開發用于模擬、延伸和擴展人的智能的理論、方法、技術及應用系統的一門新的技術科學。

(7)數字匯流:就是“內容”與“電子商務”的匯流[1]。

大數據成為時代發展一個必然的產物,而這些數據猶如是蘊藏能量的煤礦資源,從性質上可分為焦煤、無煙煤、肥煤、貧煤等,這些煤礦的挖掘成本又不相同。而大量數據的分析過程如性質不同的煤礦,挖掘成本也不盡相同,如何將這些“大”數據挖掘出“大”價值才是贏得競爭的關鍵。而大數據時代,一切可量化,一切可分析。

2 Python 語言較其他常用語言的優勢

Python 語言邏輯人性化、代碼編寫人性化、編程速度高效人性化。是人類思維與計算機思維的時代性的結合,完全適應和符合現代計算機技術發展水平,簡化了多種文本的操作,對中文有良好的支持,還兼容多種數據類型并靈活表達集合長度。而C 語言有指針、地址等復雜的結構元素;Java 語言對于變量須手動定義才可使用。Python語言提供了十分豐富的API 和工具,以便程序員能夠輕松地使用C語言,C++,Cython 來編寫擴充模塊。Python 編譯器本身也可以被集成到其他需要腳本語言的程序內。其中大量函數庫編寫功能廣、質量高、如數組計算庫NumPy、圖像繪制庫matplotlib、計算機視覺庫OpenCV、三維可視化庫VTK、醫學圖像處理庫ITK 等。

Python 語言是一個腳本語言,可直接通過運行源代碼來運行腳本程序,這使得腳本程序運行與源代碼不可分離。代碼十分簡潔易懂,主要支持面向對象與面向過程這種程序設計方法,不要求程序一定要通過函數封裝,代碼行數簡潔,是C 語言同樣功能的代碼行數的1/5到1/10。以每種語言的入門輸出“Hello World”為例:

Python 語言的源代碼程序就只有一行:

Print("Hello World!")

而通過C 語言編寫的程序需要先引入main()函數,同樣功能的程序運行源代碼如下:

此外,Python 語言還可以編譯繪制圖形界面的程序,代碼同樣十分簡潔。例如下面所展示的可執行程序源代碼可以通過畫筆在一筆一畫之間繪制出一棵樹的形狀:

(代碼運行注意縮進)運行結果如下圖1所示:

圖1 樹形程序示例輸出圖

從上面兩個簡單程序的實例可以看出,Python 語言與C 語言,Java 語言等相比起來能夠更好支持代碼圖形化輸出、使用更少的程序源代碼、更接近于自然語言邏輯的語法習慣。

3 Python語言在大數據處理中的應用

3.1 獲取數據資源

大數據之所稱之大就是基于被分析的數據龐大,如何有效地提取并利用這些信息成為一個巨大的挑戰。搜索引擎(Search Engine)如Yahoo 和Google 等可輔助檢索數據信息,但存在著一定的不足,搜索引擎所返回的結果信息量涉及方方面面,沒有歸類,針對性不強;導致搜索引擎服務器資源與無限的網絡數據資源之間的沖突;針對通用性搜索引擎存在的問題,定向抓取面向特定主題需求的網頁資源的聚焦爬蟲應運而生,他在實施網頁抓取時盡量保證只抓取與需求相關的網頁信息并進行處理篩選。根據需要的網頁分析算法過濾與主題無關的鏈接,保留有用的鏈接并將其放入等待抓取的URL 隊列[2]。所有被爬蟲抓取的網頁將會被系統存貯,進行一定的分析、過濾,并建立索引,以便之后的查詢和檢索。

3.2 Python 爬蟲scrapy 框架

Scrapy 是利用Python 語言編寫的網絡爬蟲框架。一個目的為了爬取網站內容,提取結構性數據而編寫的開源爬蟲應用框架。可以運用在包括數據挖掘,信息處理或者存儲歷史數據等一系列的程序中。Scrapy 最初的設計目的是頁面抓取,也可以是用來獲取各種API 返回的數據[3]。在scrapy 項目中,只需寫入定制的爬蟲規則、運行即可快速獲得所需要的數據信息。

爬取網頁內容代碼如下:

創建Scrapy 爬蟲框架需要在Python 的控制臺中輸入創建命令,也可以通過UI 圖形界面點擊創建。例如,創建一個爬取電影數據信息的Scrapy 爬蟲項目的命令如下:

scrapy startproject film

3.3 數據清理

數據清理,用于檢測和糾正、刪除表或數據庫中的不準確或損壞的記錄。數據清除是指識別不正確,不完整,不相關或其他有問題(“臟”)的數據部分,然后替換,修改或刪除該臟數據。

(1)刪除不需要的觀測值。

在數據收集過程中,最常見的是重復觀察或多余的觀察。當從不同位置組合數據集或從客戶端接收數據時,隨著數據的重復,這種觀察會大大影響效率,并且可能會增加正確或不正確的因素,從而產生不忠實的結果。例如,在手寫數字識別領域,掃描錯誤(例如污跡或非數字字符)是無關緊要的觀察結果。這樣的觀察結果是沒有用的數據,可以直接刪除。

(2)修復數據集中的結構錯誤。

結構錯誤是指在測量,數據傳輸過程中的印刷錯誤、具有不同名稱的相同屬性、貼錯標簽的類,大小寫不一致等。例如模型應將錯字和大小寫不一致(例如“BBBb”和“BBBB”)視為同一個類別,而不是兩個不同的類別。

(3)處理丟失的數據。

收集到的數據信息中有一個重要的是“缺少數據”。不能簡單地忽略數據集中的缺失值,須以某種方式處理丟失的數據。如刪除具有缺失值的觀察值或者根據過去或其他觀察結果估算缺失值。

3.4 Python 數據分析

Python 語言數據分析庫目前非常廣泛,從科學計算領域的Numpy 和Scipy 到Web 上的Django 和基于Web 的用于創建可視化的工具箱Plotly 到Seaborn,及專注于統計模型的的Seaborn。其中Numpy 和Pandas 使用頻率較高。

Numpy 是一個基于Python 的開源工具庫,支持多種數值運算。最重要的功能是該工具可以支持具有強大計算能力的大量矩陣數據操作。numpy 提供了多種數學計算工具,可用于實現強大的數學函數,例如線性代數[4]。pandas 也是在Python 的基礎上開發的,該數據分析工具包是在Numpy 的基礎上。它提供的一維數組(series)和二維表數據結構(DataFrame)是其核心數據模型。該數據包集成了常用的數據分析功能。例如,Pandas 庫可用于在二維數據表結構(DataFrame)中匯總簡單的數據統計信息,包括具有最高值,平均值和正態分布的數據。數據預處理和分析結合了Pandas 和Numpy 工具包來有效地處理數據集。在統計計算結果之后,可通過清洗數據,缺失的處理和消除噪音等操作進一步提取有價值的數據集。而且Pandas 還具有大量的內置庫和一些標準數據模型,特別是對于非常高效和快速的大規模數據處理。例如,要處理數千萬行的CVS 數據,使用字典處理大約需要2 分鐘,而pandas 需要不到10 秒,并且使用的代碼行也更少。在掌握并學習了如何使用這些數據分析庫之后,Python 將成為當前市場上大數據分析的首選。除了這些庫之外,Python 還具有各種軟件包資源,例如人工智能和神經網絡。

3.5 數據可視化操作

數據可視化的主要目的是使圖形方式清晰有效地傳達信息。 關鍵方面和功能的直觀交流使您能夠對相對稀疏和復雜的數據集進行詳細的洞察。 開發人員需要能夠掌握設計和功能之間的平衡,以便創建引人注目的數據可視化并實現信息傳達與溝通的效果。

(1)Python 可視化模塊

Python 中的可視化工具包括常規軟件工具和某些軟件組件。 通用軟件工具是集成開發環境(IDE),特定軟件繪圖組件是Python 繪圖庫,例如Bokeh,iPython,Matplotlib,Scipy,Numpy,Scikit-learn和Seaborn。Plotly 是一種在線分析和數據可視化工具。提供用于繪圖,分析和統計。該工具基于Python,具有一個用戶界面,該用戶界面使用JavaScript 和由D3.js,HTML 和CSS 制成的可視化庫。包含兼容多語言的科學制圖庫,例如Arduino,Julia,MATLAB,Python和R.最常見的可視化類型包括以下類別:比較和排名,相關性,分布,位置定位或地理數據,隨時間變化的趨勢等。

(2)Python 數據可視化處理

Python 有很多繪圖包,Matplotlib 是個專門針對于數據繪圖功能設計的第三方庫,其pyplot 子庫主要用于進行各類型數據展示圖形的繪制。Matplotlib 庫將繪圖所需的各種方法和功能都封裝在函數中,為用戶提供了操作和使用上更加友好的接口。通過Matplotlib,開發者可以僅需要幾行代碼,便可以生成繪圖,直方圖,功率譜,雷達圖條形圖,錯誤圖,散點圖等[5]。即使是繪制圖形,Python 的代碼仍舊簡短、簡潔、簡單,另初學者都能輕易看懂讀懂。以雷達圖為例,隨即抽樣了某大學一年級五位學生在五項科目考試成績的數據,經過數據清理,使用Python 來繪制多級雷達圖,即在一組同心圓上填充繪制不規則五邊形,其每個頂點到圓心的距離代表分院學生的每個科目的成績。程序運行源代碼如下:

運行結果如圖2所示。

圖2 大學生成績雷達圖

大學生科目成績為5 個屬性,設置屬性標簽radar_labels,并預設各人成績匯總數據。np.concatenate()函數用于將數據和角度的數組首尾閉合,便于調用plot()。圖形保存格式為Python 可支持的PNG類型,最后通過show()函數顯示圖形,默認圖形文件保存路徑與代碼保存路徑相同。

一個簡單的雷達圖便成功實現,使我們更加直觀地觀察各個學生的成績情況。Python 數據可視化可以作用于廣闊的社會中各種各類的問題。在大數據時代,大規模、高緯度、非結構化的數據層出不窮[6]。Python 具有超大型圖像、純色、高亮度、高分辨率等優點。數據信息的實時更新,實現了數據的實時圖形可視化、場景可視化和實時交互,使使用者能夠更簡單明了的理解數據信息。

4 大數據處理中Python 語言的不足

在大數據的背景下,使用Python 完成數據挖掘,清理和分析功能可以獲取大量具有一定真實性和準確性的信息,利用大數據本身的應用價值,進行相關工作的探索和進一步信息參考,但是,Python語言和大數據的結合仍然有些不足,例如:

(1)數據資源的收集和保護水平有待提高。一些數據采集和存儲未標準化,完整性和質量相對較差,記錄數據的標準化需要改進。。

(2)在某些地區,大數據和Python 的集成度不高,在互聯網和金融等行業也很好地適應了這一點。但是,一些傳統行業,例如教育和文化,沒有明顯的優勢。

當完全了解Python 函數庫的各種應用方法后,Python 便成為大數據技術應用程序的最合適方法。越來越多的人意識到Python 語言本身的應用價值,將Python 應用于大數據處理的人數將持續增長。

5 小結

隨著大數據技術在生活各個領域的不斷發展,數據信息資源的范圍也在不斷擴大。只有通過挖掘,分析和過濾大量數據信息資源,才能發現大量數據信息的內在作用。大數據時代下用Python 語言爬取,分析,處理數據的意義更加突顯,Python語言在大數據處理實踐中深深扎根,讓大數據的應用價值更加精彩。

猜你喜歡
可視化語言信息
基于CiteSpace的足三里穴研究可視化分析
基于Power BI的油田注水運行動態分析與可視化展示
云南化工(2021年8期)2021-12-21 06:37:54
基于CGAL和OpenGL的海底地形三維可視化
語言是刀
文苑(2020年4期)2020-05-30 12:35:30
“融評”:黨媒評論的可視化創新
傳媒評論(2019年4期)2019-07-13 05:49:14
讓語言描寫搖曳多姿
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
累積動態分析下的同聲傳譯語言壓縮
我有我語言
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
主站蜘蛛池模板: 亚洲天堂网在线播放| 午夜福利无码一区二区| 永久免费AⅤ无码网站在线观看| 欧美高清日韩| 天天综合色网| 欧美日韩中文国产va另类| 亚洲乱亚洲乱妇24p| 欧美性天天| 香蕉蕉亚亚洲aav综合| 波多野吉衣一区二区三区av| 91口爆吞精国产对白第三集| 91在线一9|永久视频在线| 国产草草影院18成年视频| 四虎精品黑人视频| 欧美成人一区午夜福利在线| 少妇精品久久久一区二区三区| 人妻精品久久久无码区色视| 不卡午夜视频| 在线观看国产精品日本不卡网| 在线观看国产黄色| 国产成本人片免费a∨短片| 欧美yw精品日本国产精品| 日韩高清欧美| 女高中生自慰污污网站| 日本爱爱精品一区二区| 欧美特黄一免在线观看| 亚洲人免费视频| 91麻豆国产视频| 国产欧美一区二区三区视频在线观看| 免费欧美一级| 亚洲国产一成久久精品国产成人综合| 亚洲人在线| 国产成人亚洲无码淙合青草| 在线无码九区| 成人午夜在线播放| 欧美国产日产一区二区| 色精品视频| 真实国产乱子伦高清| 中字无码av在线电影| 国产麻豆另类AV| 国产欧美日本在线观看| 亚洲日本中文字幕天堂网| 五月激情婷婷综合| 精品在线免费播放| 久久精品国产亚洲麻豆| 国产又爽又黄无遮挡免费观看| 99久久人妻精品免费二区| 亚洲精品国产自在现线最新| 久久semm亚洲国产| 四虎成人在线视频| 久久中文无码精品| 超碰91免费人妻| 欧美日韩在线观看一区二区三区| 国产精品网址你懂的| 国产经典在线观看一区| 欧美日韩福利| 国产日韩久久久久无码精品| 在线观看亚洲天堂| 日韩精品毛片| 欧美日韩中文国产| 91人妻在线视频| 午夜色综合| 亚洲无码精品在线播放| 一级爱做片免费观看久久| 久久久亚洲国产美女国产盗摄| 久久人搡人人玩人妻精品 | 狠狠色婷婷丁香综合久久韩国| 夜夜操天天摸| 国产精品无码AⅤ在线观看播放| 网久久综合| 欧美日韩理论| 一本久道久久综合多人| 91精品啪在线观看国产60岁 | 亚洲天堂精品在线| 国产一区二区网站| 欧洲亚洲一区| 制服丝袜无码每日更新| 国产精品色婷婷在线观看| 久久精品只有这里有| 九九热精品视频在线| 大香网伊人久久综合网2020| 伊人久热这里只有精品视频99|