
漫畫(huà):什么是大數(shù)據(jù)?
時(shí)間:2016-11-10




大數(shù)據(jù)是具有海量、高增長(zhǎng)率和多樣化的信息資產(chǎn),它需要全新的處理模式來(lái)增強(qiáng)決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力。
Big data is high volume, high velocity, and/or high variety information assets that require new forms of processing to enable enhanced decision making, insight discovery and process optimization.

















大數(shù)據(jù)通常都擁有海量的數(shù)據(jù)存儲(chǔ)。僅根據(jù)2013年的統(tǒng)計(jì),互聯(lián)網(wǎng)搜索巨頭百度已擁有數(shù)據(jù)量接近EB級(jí)別、阿里、騰訊聲明自己存儲(chǔ)的數(shù)據(jù)總量都達(dá)到了百PB以上。此外,電信、醫(yī)療、金融、公共安全、交通、氣象等各個(gè)方面保存的數(shù)據(jù)量也都達(dá)到數(shù)十或者上百PB級(jí)別。
面對(duì)這樣規(guī)模的數(shù)據(jù)存儲(chǔ)量,依靠單臺(tái)數(shù)據(jù)庫(kù)服務(wù)器顯然是不夠的,需要以分布式文件系統(tǒng)(例如 HDFS)作為基石。



在傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)中,所存儲(chǔ)的數(shù)據(jù)都是結(jié)構(gòu)化的,例如:

但是在現(xiàn)實(shí)生活中,信息往往并沒(méi)有嚴(yán)格的結(jié)構(gòu)限制。比如一個(gè)電商網(wǎng)站需要記錄如下用戶行為:
用戶張三, 于某某時(shí)間在商品搜索欄搜索了“蘋(píng)果手機(jī)”一詞,然后進(jìn)入 XXX 商鋪進(jìn)行瀏覽,經(jīng)過(guò)與店家溝通,討價(jià)還價(jià),最終以6000元的價(jià)格購(gòu)買了 iPhone 7 “鋼琴黑”款式手機(jī)一部。
諸如此類的用戶行為數(shù)據(jù)屬于非結(jié)構(gòu)化數(shù)據(jù),很難用關(guān)系型數(shù)據(jù)庫(kù)存儲(chǔ)。因此諸多No-SQL數(shù)據(jù)庫(kù)(例如 HBase)成為了存儲(chǔ)大數(shù)據(jù)的更好選擇。



如果沒(méi)有更加快速有效的海量數(shù)據(jù)解決方案,那么如此大量多樣的數(shù)據(jù)不但沒(méi)有帶來(lái)更多價(jià)值,反而成為了系統(tǒng)的負(fù)擔(dān)。關(guān)于這一點(diǎn),谷歌公司率先提出的MapReduce模型為我們帶來(lái)了新的道路。
MapReduce可以簡(jiǎn)單的理解成一種分治方法:把龐大的任務(wù)分成若干小任務(wù),交給多個(gè)節(jié)點(diǎn)進(jìn)行并行處理,然后再把所有節(jié)點(diǎn)的處理結(jié)果合并起來(lái),從而大大提升了數(shù)據(jù)處理效率。(關(guān)于MapReduce的詳細(xì)流程,將會(huì)在以后的文章中進(jìn)行講解。)




人工智能:

以大數(shù)據(jù)作為機(jī)器學(xué)習(xí)的訓(xùn)練集,從而訓(xùn)練出擁有一定決策能力的人工智能。典型的代表案例就是谷歌的AlphaGo, 通過(guò)大量圍棋棋局的學(xué)習(xí),最終擁有了打敗圍棋世界冠軍的能力。
商業(yè)分析:

從大量的用戶行為數(shù)據(jù)中挖掘出有價(jià)值的商業(yè)信息。典型代表是著名社交公司LinkedIn,他們通過(guò)用戶之間的關(guān)聯(lián)關(guān)系,繪畫(huà)出學(xué)校、公司、人才之間龐大而復(fù)雜的信息網(wǎng)絡(luò)。不僅如此,LinkedIn還通過(guò)大量求職者和招聘方的信息,分析出哪些公司正在迅速擴(kuò)張,哪些公司正在流失人才,哪些公司之間正在展開(kāi)人才市場(chǎng)的爭(zhēng)奪。這些對(duì)于客戶公司來(lái)說(shuō),都是無(wú)價(jià)之寶。
犯罪預(yù)測(cè):

洛杉磯警察局曾經(jīng)借助一套原本用于預(yù)測(cè)地震后余震的大數(shù)據(jù)模型,把過(guò)去80年內(nèi)的130萬(wàn)個(gè)犯罪記錄數(shù)據(jù)輸入進(jìn)去,結(jié)果發(fā)現(xiàn)其預(yù)測(cè)出的犯罪高發(fā)地點(diǎn)與現(xiàn)實(shí)驚人的吻合。后來(lái)該預(yù)測(cè)算法經(jīng)過(guò)改進(jìn),已經(jīng)成為了當(dāng)?shù)鼐种匾膮⒖家罁?jù),大大降低了當(dāng)?shù)氐姆缸锫?br />


這里所介紹的相關(guān)知識(shí),只是作者對(duì)于大數(shù)據(jù)領(lǐng)域的淺層次理解。通過(guò)這篇漫畫(huà),希望沒(méi)有從事過(guò)IT行業(yè),或者不了解大數(shù)據(jù)的朋友們能夠?qū)Υ髷?shù)據(jù)有一些初步的認(rèn)知。
相關(guān)閱讀:
-
分享本文到:
-
關(guān)注隨銳:
微信掃描,獲取最新資訊 -
聯(lián)系我們:
如果您有任何問(wèn)題或建議,
請(qǐng)與我們聯(lián)系:
suiruikeji@suirui.com