曙海教學(xué)優(yōu)勢
本課程,秉承二十一年積累的教學(xué)品質(zhì),以項目實現(xiàn)為導(dǎo)向,面向企事業(yè)項目實際需要,老師將會與您分享設(shè)計的全流程以及工具的綜合使用經(jīng)驗、技巧。課程可定制,線上/線下/上門皆可,熱線:4008699035。
曙海培訓(xùn)的課程培養(yǎng)了大批受企業(yè)歡迎的工程師。大批企業(yè)和曙海
建立了良好的合作關(guān)系,合作企業(yè)30萬+。曙海培訓(xùn)的課程在業(yè)內(nèi)有著響亮的知名度。
?
本課程將分別從理論基礎(chǔ)知識,程序設(shè)計以及應(yīng)用案例(數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí))三方面對以Hadoop為基礎(chǔ)的大數(shù)據(jù)知識記性介紹。
本課程采用循序漸進(jìn)的課程講授方法,首先講解Hadoop和Spark系統(tǒng)基礎(chǔ)知識,概念及架構(gòu),之后講解Hadoop和Spark實戰(zhàn)技巧,最后詳盡地介紹Hadoop和Spark經(jīng)典案例(數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)),使培訓(xùn)者從概念到實戰(zhàn),均會有收獲和提高。
當(dāng)前,我國已經(jīng)進(jìn)入大數(shù)據(jù)時代,在這樣的時代背景下,以Hadoop和Spark為基礎(chǔ)的大數(shù)據(jù)應(yīng)用也逐漸深入,正在從互聯(lián)網(wǎng)企業(yè),逐漸拓展到電信,金融,政府,醫(yī)療這些傳統(tǒng)行業(yè)。目前Hadoop和Spark應(yīng)用場景已廣泛應(yīng)用于日志存儲、查詢和非結(jié)構(gòu)化數(shù)據(jù)處理等大數(shù)據(jù)應(yīng)用領(lǐng)域,隨著Hadoop和Spark技術(shù)的不斷成熟以及生態(tài)系統(tǒng)相關(guān)產(chǎn)品的完善,包括Hadoop和Spark對SQL不斷加強(qiáng)的支持,以及主流商業(yè)軟件廠商對Hadoop和Spark支持的不斷增強(qiáng),必定會帶動Hadoop 和Spark滲透到越來越多的應(yīng)用場景中。
2015年是中國大數(shù)據(jù)的應(yīng)用落地年,越來越多的行業(yè)用戶開始重視并啟動大數(shù)據(jù)相關(guān)的項目。而在大數(shù)據(jù)領(lǐng)域的眾多技術(shù)中,最受關(guān)注的是衍生于開源平臺的Hadoop 和Spark生態(tài)系統(tǒng)。Hadoop 從2006 年誕生至今已經(jīng)超10年時間。2015 年,整個生態(tài)系統(tǒng)變得比以往更加豐富,無論是在開源領(lǐng)域,商業(yè)軟件廠商或是硬件廠商,都開始推出基于Hadoop 的相關(guān)產(chǎn)品。Hadoop之所以受到如此的關(guān)注,主要原因在于它支持用戶在低價的通用硬件平臺上實現(xiàn)對大數(shù)據(jù)集的處理
本課程將為大家全面而又深入的介紹Hadoop和Spark平臺的構(gòu)建流程,涉及Hadoop和Spark系統(tǒng)基礎(chǔ)知識,概念及架構(gòu), Hadoop和Spark實戰(zhàn)技巧(數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)),Hadoop和Spark經(jīng)典案例等。
通過本課程實踐,幫助學(xué)員對Hadoop生態(tài)系統(tǒng)有一個清晰明了的認(rèn)識;理解Hadoop系統(tǒng)適用的場景;掌握Hadoop等初 中級應(yīng)用開發(fā)技能;搭建穩(wěn)定可靠的Hadoop集群,滿足生產(chǎn)環(huán)境的標(biāo)準(zhǔn);掌握如何應(yīng)用hadoop和spark完成數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)任務(wù);了解和清楚大數(shù)據(jù)應(yīng)用的幾個行業(yè)中的經(jīng)典案例。
各類 IT/軟件企業(yè)和研發(fā)機(jī)構(gòu)的軟件架構(gòu)師、軟件設(shè)計師、程序員。對于懷有設(shè)計疑問和問題,需要梳理解答的團(tuán)隊和個人,效果最佳。
學(xué)員學(xué)習(xí)本課程應(yīng)具備下列基礎(chǔ)知識: 1) 了解Java語言; 2) 了解Linux系統(tǒng);
3) 數(shù)據(jù)挖掘基礎(chǔ)
?
主題 | 內(nèi)容 |
大數(shù)據(jù)架構(gòu)概述 |
1. 大數(shù)據(jù)層級結(jié)構(gòu) |
數(shù)據(jù)收集系統(tǒng)Flume與Sqoop |
介紹如何使用flume和sqoop兩個系統(tǒng)將外部流式數(shù)據(jù)(比如網(wǎng)站日志,用戶行為數(shù)據(jù)等)、關(guān)系型數(shù)據(jù)庫(比如MySQL、Oracle等)中的數(shù)據(jù)導(dǎo)入Hadoop中進(jìn)行分析和挖掘 |
大數(shù)據(jù)存儲系統(tǒng)HDFS與HBase |
1. 1. HDFS 2.0 原理、特性與基本架構(gòu) |
分布式計算技術(shù)MapReduce與Hive |
1. 介紹計算框架MapReduce基本原理,架構(gòu)及程序設(shè)計方式 |
分布式計算技術(shù)Spark |
1. 介紹計算框架Spark基本原理,架構(gòu)及程序設(shè)計方式 |
數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí) |
1. 常見的數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)算法 |
應(yīng)用案例1:基于Hadoop的構(gòu)建數(shù)據(jù)倉庫 |
1. 數(shù)據(jù)倉庫基礎(chǔ)介紹 |
應(yīng)用案例2:用戶畫像系統(tǒng) |
1. 什么是用戶畫像系統(tǒng) |
應(yīng)用案例3:商品推薦系統(tǒng) |
1. 什么是商品推薦系統(tǒng) |
應(yīng)用案例4:數(shù)據(jù)挖掘系統(tǒng) |
1. 什么是數(shù)據(jù)挖掘系統(tǒng) |