
漫畫:什么是大數據?
時間:2016-11-10




大數據是具有海量、高增長率和多樣化的信息資產,它需要全新的處理模式來增強決策力、洞察發現力和流程優化能力。
Big data is high volume, high velocity, and/or high variety information assets that require new forms of processing to enable enhanced decision making, insight discovery and process optimization.

















大數據通常都擁有海量的數據存儲。僅根據2013年的統計,互聯網搜索巨頭百度已擁有數據量接近EB級別、阿里、騰訊聲明自己存儲的數據總量都達到了百PB以上。此外,電信、醫療、金融、公共安全、交通、氣象等各個方面保存的數據量也都達到數十或者上百PB級別。
面對這樣規模的數據存儲量,依靠單臺數據庫服務器顯然是不夠的,需要以分布式文件系統(例如 HDFS)作為基石。



在傳統的關系型數據庫中,所存儲的數據都是結構化的,例如:

但是在現實生活中,信息往往并沒有嚴格的結構限制。比如一個電商網站需要記錄如下用戶行為:
用戶張三, 于某某時間在商品搜索欄搜索了“蘋果手機”一詞,然后進入 XXX 商鋪進行瀏覽,經過與店家溝通,討價還價,最終以6000元的價格購買了 iPhone 7 “鋼琴黑”款式手機一部。
諸如此類的用戶行為數據屬于非結構化數據,很難用關系型數據庫存儲。因此諸多No-SQL數據庫(例如 HBase)成為了存儲大數據的更好選擇。



如果沒有更加快速有效的海量數據解決方案,那么如此大量多樣的數據不但沒有帶來更多價值,反而成為了系統的負擔。關于這一點,谷歌公司率先提出的MapReduce模型為我們帶來了新的道路。
MapReduce可以簡單的理解成一種分治方法:把龐大的任務分成若干小任務,交給多個節點進行并行處理,然后再把所有節點的處理結果合并起來,從而大大提升了數據處理效率。(關于MapReduce的詳細流程,將會在以后的文章中進行講解。)




人工智能:

以大數據作為機器學習的訓練集,從而訓練出擁有一定決策能力的人工智能。典型的代表案例就是谷歌的AlphaGo, 通過大量圍棋棋局的學習,最終擁有了打敗圍棋世界冠軍的能力。
商業分析:

從大量的用戶行為數據中挖掘出有價值的商業信息。典型代表是著名社交公司LinkedIn,他們通過用戶之間的關聯關系,繪畫出學校、公司、人才之間龐大而復雜的信息網絡。不僅如此,LinkedIn還通過大量求職者和招聘方的信息,分析出哪些公司正在迅速擴張,哪些公司正在流失人才,哪些公司之間正在展開人才市場的爭奪。這些對于客戶公司來說,都是無價之寶。
犯罪預測:

洛杉磯警察局曾經借助一套原本用于預測地震后余震的大數據模型,把過去80年內的130萬個犯罪記錄數據輸入進去,結果發現其預測出的犯罪高發地點與現實驚人的吻合。后來該預測算法經過改進,已經成為了當地警局重要的參考依據,大大降低了當地的犯罪率


這里所介紹的相關知識,只是作者對于大數據領域的淺層次理解。通過這篇漫畫,希望沒有從事過IT行業,或者不了解大數據的朋友們能夠對大數據有一些初步的認知。
相關閱讀:
-
分享本文到:
-
關注隨銳:
微信掃描,獲取最新資訊 -
聯系我們:
如果您有任何問題或建議,
請與我們聯系:
suiruikeji@suirui.com