大數(shù)據(jù)技術(shù)的應(yīng)用同樣也經(jīng)歷了一個(gè)發(fā)展過程:從最開始Google在搜索引擎中使用,到現(xiàn)在無處不在的各種人工智能應(yīng)用。伴隨著大數(shù)據(jù)技術(shù)的發(fā)展,大數(shù)據(jù)應(yīng)用也從曲高和寡走到了今天的遍地開花。
01
大數(shù)據(jù)應(yīng)用的搜索引擎時(shí)代
作為全球最大的搜索引擎公司,Google也是公認(rèn)的大數(shù)據(jù)“鼻祖”。它存儲(chǔ)著全世界幾乎所有可訪問的網(wǎng)頁。為了存儲(chǔ)這些文件,Google開發(fā)了GFS,統(tǒng)一管理數(shù)千臺(tái)服務(wù)器上的數(shù)萬塊磁盤,然后當(dāng)成一個(gè)文件系統(tǒng),統(tǒng)一存儲(chǔ)所有的網(wǎng)頁文件。
如果只是簡(jiǎn)單地存儲(chǔ)所有網(wǎng)頁,技術(shù)上好像也沒什么太了不起的。但是Google取得這些網(wǎng)頁文件是為了構(gòu)建搜索引擎,這需要對(duì)所有文件中的單詞進(jìn)行詞頻統(tǒng)計(jì),然后根據(jù)PageRank算法計(jì)算網(wǎng)頁排名。
Google一路走來,從搜索引擎、Gmail、地圖、Android、無人駕駛,每一步都將人類的技術(shù)邊界推向更高的高度。
02
大數(shù)據(jù)應(yīng)用的數(shù)據(jù)倉庫時(shí)代
當(dāng)Google的論文剛發(fā)表時(shí),吸引的是像Yahoo這樣的搜索引擎公司和Doug Cutting這樣的開源搜索引擎開發(fā)者,其他公司還只是“吃瓜群眾”。但是當(dāng)Facebook推出Hive的時(shí)候,嗅覺敏感的科技公司都不淡定了,它們開始意識(shí)到,大數(shù)據(jù)的時(shí)代真正開啟了。Hive可以在Hadoop上進(jìn)行SQL操作,實(shí)現(xiàn)數(shù)據(jù)統(tǒng)計(jì)與分析。也就是說,可以用更低廉的價(jià)格獲得比以往更強(qiáng)大的數(shù)據(jù)存儲(chǔ)與計(jì)算能力。
人們就會(huì)想到Hadoop大數(shù)據(jù)技術(shù),這也是Hadoop發(fā)展特別快的一個(gè)原因。技術(shù)的發(fā)展促進(jìn)了技術(shù)的應(yīng)用,也為接下來的大數(shù)據(jù)應(yīng)用走進(jìn)數(shù)據(jù)挖掘時(shí)代埋下了伏筆。
03
大數(shù)據(jù)應(yīng)用的數(shù)據(jù)挖掘時(shí)代
一旦大數(shù)據(jù)進(jìn)入更多的企業(yè),人們就會(huì)對(duì)它提出更多期望,除了統(tǒng)計(jì)數(shù)據(jù),還希望發(fā)掘出更多的數(shù)據(jù)價(jià)值,大數(shù)據(jù)技術(shù)進(jìn)入數(shù)據(jù)挖掘時(shí)代。除了商品和商品之間的關(guān)系,還可以利用人和人之間的關(guān)系推薦商品。
現(xiàn)代生活幾乎離不開互聯(lián)網(wǎng),各種各樣的應(yīng)用無時(shí)無刻不在收集數(shù)據(jù),這些數(shù)據(jù)在后臺(tái)的大數(shù)據(jù)集群中一刻不停地被分析與挖掘。這些分析和挖掘帶給我們的是美好還是恐懼,取決于人們的選擇。但是可以肯定,不管結(jié)果如何,這個(gè)進(jìn)程只會(huì)加速不會(huì)停止,你我只能投入其中。
04
大數(shù)據(jù)應(yīng)用的機(jī)器學(xué)習(xí)時(shí)代
人們很早就發(fā)現(xiàn),數(shù)據(jù)中蘊(yùn)藏著規(guī)律,這個(gè)規(guī)律是所有數(shù)據(jù)都遵循的,過去發(fā)生的事情遵循這個(gè)規(guī)律,將來要發(fā)生的事情也遵循這個(gè)規(guī)律。一旦掌握了這個(gè)規(guī)律,就可以按照它來預(yù)測(cè)未來。過去,人們受數(shù)據(jù)采集、存儲(chǔ)、計(jì)算能力的限制,只能通過抽樣的方式獲取小部分?jǐn)?shù)據(jù),無法得到完整的、全局的、細(xì)節(jié)的規(guī)律;現(xiàn)在有了大數(shù)據(jù),就可以收集全部的歷史數(shù)據(jù),統(tǒng)計(jì)規(guī)律,進(jìn)而預(yù)測(cè)即將發(fā)生的事情——這就是機(jī)器學(xué)習(xí)。
從搜索引擎到機(jī)器學(xué)習(xí),大數(shù)據(jù)技術(shù)的發(fā)展思路其實(shí)是一脈相承的,就是發(fā)現(xiàn)數(shù)據(jù)的規(guī)律并為我所用。所以,很多人把數(shù)據(jù)稱為金礦,大數(shù)據(jù)應(yīng)用就是指從這座蘊(yùn)含知識(shí)寶藏的金礦中發(fā)掘具有商業(yè)價(jià)值的真金白銀。
下面來看一下淘寶和美團(tuán)大數(shù)據(jù)平臺(tái),進(jìn)一步學(xué)習(xí)大廠大數(shù)據(jù)平臺(tái)的架構(gòu)。
淘寶大數(shù)據(jù)平臺(tái)
淘寶可能是中國(guó)互聯(lián)網(wǎng)業(yè)界較早搭建了自己大數(shù)據(jù)平臺(tái)的公司,下圖是淘寶早期的Hadoop大數(shù)據(jù)平臺(tái),比較典型。
淘寶的大數(shù)據(jù)平臺(tái)基本分成三部分,上面是數(shù)據(jù)源與數(shù)據(jù)同步模塊;中間是云梯1,即淘寶的Hadoop大數(shù)據(jù)集群;下面是大數(shù)據(jù)的應(yīng)用,即使用大數(shù)據(jù)集群的計(jì)算結(jié)果。
淘寶大數(shù)據(jù)平臺(tái)的核心是位于架構(gòu)圖左側(cè)的天網(wǎng)調(diào)度系統(tǒng),提交到Hadoop集群上的任務(wù)需要按序、按優(yōu)先級(jí)調(diào)度執(zhí)行,Hadoop集群上已經(jīng)定義好的任務(wù)也需要調(diào)度執(zhí)行,何時(shí)從數(shù)據(jù)庫、日志、爬蟲系統(tǒng)導(dǎo)入數(shù)據(jù)也需要調(diào)度執(zhí)行,何時(shí)將Hadoop執(zhí)行結(jié)果導(dǎo)出到應(yīng)用系統(tǒng)的數(shù)據(jù)庫,仍然需要調(diào)度執(zhí)行。可以說,整個(gè)大數(shù)據(jù)平臺(tái)都是在天網(wǎng)調(diào)度系統(tǒng)的統(tǒng)一規(guī)劃和安排下運(yùn)作的,如圖所示。
DBSync、TimeTunnel、DataExchange這些數(shù)據(jù)同步組件也是淘寶內(nèi)部開發(fā)的,可以針對(duì)不同的數(shù)據(jù)源和同步需求導(dǎo)入、導(dǎo)出數(shù)據(jù)。這些組件淘寶大多已經(jīng)開源,我們可以參考使用。
美團(tuán)大數(shù)據(jù)平臺(tái)
美團(tuán)大數(shù)據(jù)平臺(tái)的數(shù)據(jù)源來自MySQL數(shù)據(jù)庫和日志,數(shù)據(jù)庫通過Canal獲得MySQL的binlog,輸出給消息隊(duì)列Kafka,日志通過Flume輸出到Kafka,如圖所示。
美團(tuán)大數(shù)據(jù)平臺(tái)的整個(gè)過程管理通過調(diào)度平臺(tái)進(jìn)行管理。公司內(nèi)部開發(fā)者使用數(shù)據(jù)開發(fā)平臺(tái)訪問大數(shù)據(jù)平臺(tái),進(jìn)行ETL(數(shù)據(jù)提取、轉(zhuǎn)換、裝載)開發(fā),提交任務(wù)作業(yè)并進(jìn)行數(shù)據(jù)管理。
大數(shù)據(jù)學(xué)習(xí)
毫不夸張地說,我們已經(jīng)全面迎來了一個(gè)大數(shù)據(jù)的時(shí)代!來北大青鳥徐州中博,大數(shù)據(jù)課程領(lǐng)航者帶你劈波斬浪!
課程體系全面:課程體系目前在業(yè)界內(nèi)最全面,課程設(shè)置流程最合理;
更有深度和廣度:課程在深度和廣度上相比業(yè)內(nèi)其他機(jī)構(gòu)更深、更廣;
緊跟市場(chǎng)需求:課程順應(yīng)時(shí)代需求,不斷增加主流技術(shù),讓學(xué)員更具競(jìng)爭(zhēng)力;就業(yè)不再迷茫,精準(zhǔn)定位目標(biāo)崗位;
真實(shí)企業(yè)項(xiàng)目:課程項(xiàng)目都是真實(shí)企業(yè)級(jí)落地項(xiàng)目,學(xué)員學(xué)習(xí)項(xiàng)目更扎實(shí);
師資力量雄厚:大數(shù)據(jù)老師真正來自于大企業(yè),具備多年實(shí)戰(zhàn)和教學(xué)經(jīng)驗(yàn);
老師跟進(jìn)就業(yè):就業(yè)服務(wù)+面試題+簡(jiǎn)歷指導(dǎo),跟蹤就業(yè)輔導(dǎo);
傳授工作經(jīng)驗(yàn):老學(xué)員遍布各大企業(yè),工作內(nèi)推機(jī)會(huì)多,不定期老學(xué)員交流活動(dòng)!
大數(shù)據(jù)現(xiàn)在正處在發(fā)展的黃金時(shí)期,可以說此刻正是學(xué)大數(shù)據(jù)的最好時(shí)機(jī),如果你對(duì)現(xiàn)狀不滿,渴望高薪、體面的工作,那么來北大青鳥徐州中博學(xué)大數(shù)據(jù)吧,改變?nèi)松臋C(jī)會(huì)就在這里。
|