今天小編走在街上,一會兒的功夫收到好幾張傳單廣告:“健身房游泳館了解一下,我們的私教可以為您量身定制,根據(jù)大數(shù)據(jù)分析為您挑選最適合您的健身計劃”。
“對不起,沒錢”。
說完這句萬能通用的應答傳單口令之后,小編愉快的回到了家中??粗巴獾男枪?,想到了自己寥寥的工資。突然一個激靈想到,為什么現(xiàn)在到處都是大數(shù)據(jù)大數(shù)據(jù),大數(shù)據(jù)到底是個什么東西啊。
小編順勢拿起了手機在某直聘上搜了一下關鍵詞“大數(shù)據(jù)”,我勒個親娘了,這個東西為什么這么高工資啊?。?!
于是小編痛定思痛,開始了解,大數(shù)據(jù)到底是個啥。這時小編的腦子里全是走上人生巔峰,迎娶白富美的劇情。
接下來就是小編給大家總結的大數(shù)據(jù)。 可以說,大數(shù)據(jù)跟在廚房做菜是一樣一樣的。我現(xiàn)在給大家講一個故事,來解釋這一切。
有一天,小明的爸爸吩咐小明說,家里馬上要來客人,讓小明準備兩道拿手菜。小明得到了這個通知后開始著手籌劃,他將做菜這個任務分解為買菜、洗菜摘菜、制定菜單、炒菜。起初是他一個人做這些所有的事情。
終于飯菜都做好了,并且得到了客人滿意的答復,小明的廚藝也日益精湛。后來小明家逐漸開起了餐館,他們換了更大的廚房,起了很多個爐灶一起炒菜,很多個水池一起擇菜洗菜,雇了一些員工共同承擔這些工作。
他們能承擔的酒席也由最開始的一桌菜,到現(xiàn)在可以承擔10桌客人的用菜。小明還說,就算之后來再多的客人,我也可以再承包一個廚房,也能夠接待的過來。最后小明家餐館的生意也越來越紅火了。
看到這,想要關閉頁面的同學們趕緊回來,干貨時間來了。
上面這個故事咋一看像小學生作文在記流水賬,但實際上這個故事已經(jīng)說明白了大數(shù)據(jù)所處理的大部分的問題。咱們一起來看看。
首先小明的爸爸吩咐小明說,家里要來客人,需要做幾道拿手菜。這個過程是大數(shù)據(jù)開發(fā)過程的需求立項階段,大多數(shù)的產(chǎn)品開發(fā)都是根據(jù)需求來細化開發(fā)過程。
現(xiàn)在已經(jīng)有了需求了,小明將需求進行了分解和細化,提出了完成這幾道拿手菜需要進行幾個步驟,買菜、洗菜摘菜、制定菜單、炒菜這幾個環(huán)節(jié)。這幾個步驟在大數(shù)據(jù)開發(fā)流程中可以稱為:數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)分析/數(shù)據(jù)建模、數(shù)據(jù)加工/數(shù)據(jù)應用。
數(shù)據(jù)采集顧名思義,跟炒菜一樣,巧婦難為無米之炊,需要做幾道好菜,首先得有原材料。那么數(shù)據(jù)采集就是買菜的過程。
數(shù)據(jù)清洗同樣對應著洗菜摘菜,也就是把一些臟了的數(shù)據(jù)剔除。
數(shù)據(jù)分析/數(shù)據(jù)建模可以看成是制定菜單的環(huán)節(jié),模型就等于是一個菜單,菜單上有每道菜的做法,我們將洗好的菜按照菜單上的做法就可以做出好吃的菜啦。模型可以看成是每道菜的做法,它讓數(shù)據(jù)能真正變得有實際利用的價值,它能真正的去挖掘數(shù)據(jù)中更深層的意義。
最后炒菜過程實際就是數(shù)據(jù)的加工和應用了,最終通過模型得出來的數(shù)據(jù),我們可以在很多地方應用,比如用來做個性化推薦、用來通過數(shù)據(jù)可視化制作數(shù)據(jù)分析圖表、使用數(shù)據(jù)模型來預測事件等等。
大數(shù)據(jù)開發(fā)流程已經(jīng)說明白了,有同學可能會問,你這些開發(fā)流程我可以在很多很小的場景使用也是一樣,為什么偏偏要強調(diào)是大數(shù)據(jù)開發(fā)呢?這位同學別急,等我慢慢來說完這整個故事。
咱接著說故事,制定完這些計劃,最開始都是小明一個人完成,也完成的比較好。這種場景也就對應我們最開始使用單機進行數(shù)據(jù)開發(fā)的情形,通過這種開發(fā)流程確實也可以應對大多數(shù)的問題,但后來問題就來了。
小明家后來開了餐館,由于生意太好,他發(fā)現(xiàn)靠他的雙手無法做這么多菜來接待大量的客人,所以他重新裝修了廚房,洗菜的水池擴充、爐灶擴充、買菜炒菜的人手同樣雇了很多人。
這也對應著數(shù)據(jù)開發(fā)的場景,一開始數(shù)據(jù)量不大時,用單機進行處理可以從容應對,當用戶量增加,數(shù)據(jù)量增加后,單機數(shù)據(jù)處理的瓶頸也來了,這么多數(shù)據(jù)采集不過來、清洗不過來、分析不過來。
所以大數(shù)據(jù)技術應運而生,大數(shù)據(jù)技術的核心說白了就是可以處理大量的數(shù)據(jù),而一般的做法就是將大數(shù)據(jù)“廚房”中的設備增加,比如水池、爐灶、增加人手等。
這些情況對應著大數(shù)據(jù)的分布式技術,大數(shù)據(jù)通常是以分布式集群的形式存在,既然單機處理大數(shù)據(jù)有瓶頸,那我就多叫幾個兄弟一起來處理,你來10倍數(shù)據(jù),我就多叫10倍的兄弟。所以理論上,不管你的數(shù)據(jù)有多大,只要我的兄弟足夠多,我都能夠處理得了。
故事說到最后,小編也被說餓了,同學們先在廚房里呆會兒,想明白大數(shù)據(jù)是怎么回事兒再走吧。拜拜,小編去吃肉啦。