看完這篇,數(shù)據(jù)平臺的成長你就知道了!
課工場 | 2020-07-17 11:20:48  2426 瀏覽
在互聯(lián)網(wǎng)圈,每個階段都會有新的技術名詞出現(xiàn)。
在互聯(lián)網(wǎng)發(fā)展1.0階段,完成了傳統(tǒng)廣告企業(yè)數(shù)據(jù)化,技術名詞有單體式應用、LADP、郵件、電子商務、IM。
在互聯(lián)網(wǎng)發(fā)展2.0階段,完成了內(nèi)容產(chǎn)業(yè)數(shù)據(jù)化,技術名詞有維基百科、搜索引擎、微博、微信、朋友圈,技術名詞。
在移動互聯(lián)網(wǎng)階段,完成了生活服務業(yè)數(shù)據(jù)化,技術名詞有短視頻、大數(shù)據(jù)平臺、數(shù)據(jù)挖掘等;而在物聯(lián)網(wǎng)階段,則完成萬物數(shù)據(jù)化,技術名詞有微服務、容器、云計算、人工智能、5G等。
每個階段的演變都代表著一次革命,代表著生活工作方式的又一次迭代更新,而在整個演進史中,一直被專寵的名詞就是數(shù)據(jù)。
互聯(lián)網(wǎng)誕生后,只要連上網(wǎng)的終端都會產(chǎn)生數(shù)據(jù),人們也逐漸意識到單純數(shù)據(jù)是沒有價值的,將數(shù)據(jù)進行再次挖掘分析后能獲取更多的信息,甚至可以演變成商業(yè)數(shù)據(jù)產(chǎn)品進行售賣,數(shù)據(jù)的位置也被捧得越來越高,成為了老板們最關注的內(nèi)容。
而數(shù)據(jù)平臺的演變也經(jīng)歷了三個階段,包含2000年~2010年的數(shù)據(jù)倉庫、2010年~2015年的大數(shù)據(jù)平臺、2015年~至今的數(shù)據(jù)中臺,那么對于數(shù)據(jù)的處理與認知又是怎么迭代的呢?
1.0階段數(shù)據(jù)倉庫
在這個階段,數(shù)據(jù)主要是為企業(yè)提供數(shù)據(jù)報表、分析等數(shù)據(jù),輔助企業(yè)進行經(jīng)營決策,比如電信行業(yè)的經(jīng)營分析系統(tǒng)、銀行的風控管理系統(tǒng)等。
數(shù)據(jù)倉庫,顧名思義就是存儲數(shù)據(jù)的倉庫,通過數(shù)據(jù)庫來進行數(shù)據(jù)的存放,可以理解為數(shù)據(jù)庫的升級版本,數(shù)據(jù)庫是面向交易的,為了交易、快速讀寫而設計數(shù)據(jù)結(jié)構(gòu),數(shù)據(jù)倉庫是面向數(shù)據(jù)挖掘、數(shù)據(jù)分析、輔助決策而設計數(shù)據(jù)結(jié)構(gòu)。數(shù)據(jù)倉庫的數(shù)據(jù)量比數(shù)據(jù)庫大很多很多。
那么在數(shù)據(jù)倉庫中有哪些關鍵概念呢?
概念1-維度,維度就是看事情的角度,維度的分類又包括單級維、層級維、變化維,單級維就是一對一的表,最小顆粒度,層級維就是有分層結(jié)構(gòu)的維度表,比如地區(qū)維度、省市、國家維度,變化維就是隨著時間屬性會變化的維度,比如商品維,商品類型會隨著時間而改變。
概念2-度量,度量是衡量運行情況的數(shù)值指標,比如銷售額、成本、利潤。
概念3-事實表,事實表由多個維度和度量組成一個期望分析的主題,包含事務粒度事實表、周期快照事實表、累積快照粒度事實表,比如在電商中,某個商品的一筆銷售記錄,包含訂單人、商品類型、價格,這就是最小的數(shù)據(jù)單元,不可再拆分,而周期快照事實表則是按一定的周期進行記錄,比如月度商品營業(yè)額、季度商品營業(yè)額等,累計快照事實表就是記錄整個生命周期過程中不同階段的關鍵信息,從而在不同時間不同維度進行數(shù)據(jù)報表的分析,比如某地區(qū)年度營業(yè)額、公司年度營業(yè)額。
那么企業(yè)中是如何搭建數(shù)據(jù)倉庫的呢?如下圖所示,企業(yè)數(shù)據(jù)倉庫架構(gòu)圖一般劃分為4層,從下往上分別是數(shù)據(jù)采集層、數(shù)據(jù)存儲與分析層、數(shù)據(jù)共享層、數(shù)據(jù)庫應用層,數(shù)據(jù)采集層是獲取業(yè)務系統(tǒng)的原生數(shù)據(jù),通過日志、數(shù)據(jù)庫、網(wǎng)絡傳輸?shù)韧緩絹慝@取數(shù)據(jù)。
數(shù)據(jù)存儲與分析層是為了將獲取的數(shù)據(jù)、經(jīng)過分析的數(shù)據(jù)存儲起來,提供上層使用,結(jié)構(gòu)化數(shù)據(jù)使用Sqoop進行數(shù)據(jù)抽取,非結(jié)構(gòu)化數(shù)據(jù)則使用Flume進行抽取,對于實時數(shù)據(jù)的計算則使用Spark引擎進行,對于離線數(shù)據(jù)則使用Hive大數(shù)據(jù)引擎進行計算,對于數(shù)據(jù)的存儲使用HDFS,數(shù)據(jù)的傳輸使用高吞吐量的Kafka進行。
數(shù)據(jù)共享層則是通過關系型數(shù)據(jù)庫管理系統(tǒng)、redis、大數(shù)據(jù)存儲系統(tǒng)HBase存儲數(shù)據(jù)。應用層是為了滿足具體具體而構(gòu)建的數(shù)據(jù),通過報表、接口、即席查詢、數(shù)據(jù)可視化的方式對外暴露,常見的比如季度性經(jīng)營報表、通過接口給其它部門獲取數(shù)據(jù)生成數(shù)據(jù)大盤、直接生成數(shù)據(jù)大盤給到用戶查看。

整個數(shù)據(jù)倉庫的分層架構(gòu),是把數(shù)據(jù)從分散到集中、從業(yè)務數(shù)據(jù)到?jīng)Q策數(shù)據(jù)的轉(zhuǎn)變,更好的為企業(yè)經(jīng)營決策做準備。
2.0階段大數(shù)據(jù)平臺
在這個階段,數(shù)據(jù)的應用已經(jīng)開始遍布各個場景了,比如app的智能推薦、網(wǎng)站的搜索引擎、用戶畫像等,企業(yè)已經(jīng)開始使用數(shù)據(jù)進行精準營銷與運營了。
最炙手可熱的技術無疑是Hadoop分布式計算框架,只要使用相對廉價的PC服務器就可以搭建大數(shù)據(jù)集群。
當下最流行的一個詞是數(shù)據(jù)湖,即接入業(yè)務系統(tǒng)的結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù),再應用Hadoop生態(tài)強大計算引擎,將數(shù)據(jù)直接應用于服務,減少了傳統(tǒng)數(shù)據(jù)倉庫的建模過程。
當下最關鍵的一個詞便是Hadoop,Hadoop的核心設計包括三大部分,即Mapreduce、Hbase、HDFS,通過MapReduce將計算任務進行拆解執(zhí)行并最終匯總起來,通過Hbase列式內(nèi)存數(shù)據(jù)庫進行數(shù)據(jù)的存儲,通過HDFS進行文件元數(shù)據(jù)管理、存儲物理文件、獲取各種文件API存儲到數(shù)據(jù)節(jié)點中。
那么企業(yè)是如何搭建大數(shù)據(jù)平臺的呢?
除了數(shù)據(jù)倉庫的頂層數(shù)據(jù)應用、底層數(shù)據(jù)采集外,在數(shù)據(jù)存儲與分析層拆分的更加細致,從下往上包含數(shù)據(jù)集成、文件存儲、數(shù)據(jù)存儲、編程模型、數(shù)據(jù)分析。
因為海量的設備和系統(tǒng)每天都在產(chǎn)生海量的數(shù)據(jù),其中有標準化的數(shù)據(jù),也有文件文本等,對于標準化的數(shù)據(jù),數(shù)據(jù)采集系統(tǒng)直接使用異步傳輸、消息中間件傳輸?shù)确湃氪髷?shù)據(jù)庫進行存儲,對于文件數(shù)據(jù),直接傳到HDFS文件存儲系統(tǒng),數(shù)據(jù)全存儲起來后可以根據(jù)數(shù)據(jù)的類型選擇適合的數(shù)據(jù)模型來進行處理,最后結(jié)合業(yè)務需求進行數(shù)據(jù)的多維分析。

整個大數(shù)據(jù)平臺結(jié)構(gòu)的劃分,是把數(shù)據(jù)拆分的更加細致管理,降低企業(yè)成本,運用在更多的場合。
3.0階段數(shù)據(jù)中臺
隨著10多年的技術和經(jīng)驗積累,再結(jié)合人工智能、云計算的出現(xiàn),大家對于數(shù)據(jù)有了更多更深的認識,因此產(chǎn)生了數(shù)據(jù)中臺的概念。
數(shù)據(jù)中臺的核心是資源共享與復用,通過數(shù)據(jù)流轉(zhuǎn)環(huán)節(jié)統(tǒng)一化、處理工具組件化、應用調(diào)用服務化、組織管理清晰化來進行中臺的建設。
那么企業(yè)是如何搭建數(shù)據(jù)中臺的呢?
總的來說可以劃分為五大模塊,從下往上是即數(shù)據(jù)技術平臺、數(shù)據(jù)管理平臺、數(shù)據(jù)開發(fā)平臺、公共數(shù)據(jù)區(qū)、應用服務層。
數(shù)據(jù)基礎平臺則包含數(shù)據(jù)采集、計算、存儲,直接使用云廠商提供的云計算服務即可。
數(shù)據(jù)管理平臺則包含元數(shù)據(jù)統(tǒng)一管理、數(shù)據(jù)質(zhì)量管理、數(shù)據(jù)生命周期管理等,保障數(shù)據(jù)中臺可以監(jiān)控數(shù)據(jù)鏈路的數(shù)據(jù)流向、數(shù)據(jù)使用效果。
數(shù)據(jù)開發(fā)平臺則是進行各個數(shù)據(jù)開發(fā)工具的開發(fā)管理,比如數(shù)據(jù)接入導出工具、模型設計工具、數(shù)據(jù)調(diào)用工具。
公共數(shù)據(jù)區(qū)則是負責公共數(shù)據(jù)模型開發(fā),統(tǒng)一標簽平臺,把數(shù)據(jù)封裝成可對外服務的數(shù)據(jù);在應用服務層,可直接使用數(shù)據(jù)部門提供的數(shù)據(jù)進行業(yè)務的分析和市場營銷,比如新注冊一個用戶,根據(jù)用戶的年齡、性別、地域、注冊時間、注冊時長等標簽即可判斷該用戶屬于哪一類用戶,從而進行精準的用戶營銷。


數(shù)據(jù)中臺雖然在2015年就提出來,并且在阿里、京東這樣的電商巨頭也得到了較好的實踐,但中臺并不是適合任何一個企業(yè),他們只是提供了參考答案,而非標準答案。
物聯(lián)網(wǎng)時代的到來將會產(chǎn)生更多的數(shù)據(jù),數(shù)據(jù)的采集、存儲、生命周期管理、數(shù)據(jù)建模、數(shù)據(jù)分析、數(shù)據(jù)應用等將會產(chǎn)生更大的挑戰(zhàn),也會誕生更新的玩法,至于如何演進,我們就拭目以待吧~



標簽:
欧美性大战XXXXX久久久√,国产无遮挡裸体免费视频网站 ,久99久女女精品免费观看69堂,五月综合激情婷婷六月,国自产精品手机在线观看视频,欧美色爱综合网,国产精品三级国产AV,免费黄色高清无码,**a免费视频毛片,亚洲AV永久无码精品无码四虎
亚洲欧美日韩国产成人精品影院 | 国产精品三级国产AV| 日韩高清亚洲日韩精品一区二区 | 18禁免费无码无遮挡网站| 永久无码精品无码| 人妻激情另类乱人伦人妻| 亚洲最新无码成av人| 一本到无码av无码专区| 一本久道久久综合狠狠躁AV| 国产真人一级a爱做片视频| 国产色诱视频在线播放丝袜| 久久99热精品免费观看| 色综合久久综合网97色综合| 天天爽夜夜爽视频| 免费无码又爽又刺激成人| 国产普通话刺激视频在线播放| 永久免费观看午夜成人网站 | 每日更新国产精品视频| 国产精品丝袜肉丝出水| 亚洲精品中文字幕区| 久久久亚洲精品无码| 国产成人精品男人的天堂| 国内精品福利视频喷| 国产无夜激无码av毛片| 国产成人午夜福利在线观看| 亚洲爆乳AⅤ无码一区二区| 亚洲va中文字幕无码毛片| 少妇粗大进出白浆嘿嘿视频| a一级毛片视频免费看| 无遮挡十八禁在线视频国产| 国产日产成人免费视频在线观看 | 国产欧美日韩亚洲一区二区三区| 国产成人亚洲综合九色| 日韩精品一区二区三区色欲AV| 欧美性猛交XXXX黑人| 免费无码一区二区三区| 国产爆乳成av人在线播放| 经典三级一区二区三区视频| 日韩人妻高清精品专区噜噜噜| 久久免费高清视频| 悠悠色就色综合偷拍区|