曙海教學(xué)優(yōu)勢(shì)
本課程,秉承二十一年積累的教學(xué)品質(zhì),以項(xiàng)目實(shí)現(xiàn)為導(dǎo)向,面向企事業(yè)項(xiàng)目實(shí)際需要,老師將會(huì)與您分享設(shè)計(jì)的全流程以及工具的綜合使用經(jīng)驗(yàn)、技巧。課程可定制,線(xiàn)上/線(xiàn)下/上門(mén)皆可,熱線(xiàn):4008699035。
曙海培訓(xùn)的課程培養(yǎng)了大批受企業(yè)歡迎的工程師。大批企業(yè)和曙海
建立了良好的合作關(guān)系,合作企業(yè)30萬(wàn)+。曙海培訓(xùn)的課程在業(yè)內(nèi)有著響亮的知名度。
?通過(guò)培訓(xùn)您將會(huì):
深刻理解Hadoop原理與調(diào)優(yōu)?
深刻理解Hive原理掌握程序開(kāi)發(fā)?
深刻理解Hbase?掌握程序開(kāi)發(fā)?
深刻理解Hadoop?日常運(yùn)維管理
?
課程大綱:
Hadoop和傳統(tǒng)數(shù)據(jù)庫(kù)技術(shù)優(yōu)劣勢(shì)對(duì)比
Hadoop/Hive?對(duì)比?Oracle?在構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)上的優(yōu)劣勢(shì)
Hadoop?如何和傳統(tǒng)IT系統(tǒng)配合完成原來(lái)不可能的任務(wù)
Hadoop版本講解及Hadoop新舊版本使用對(duì)比
案例及實(shí)驗(yàn)
Apache社區(qū)版本:Cloudera?版本、MapR版本、Intel版本、Oracle、Dell、HP版本
Hadoop的來(lái)源和動(dòng)機(jī)
傳統(tǒng)大規(guī)模系統(tǒng)存在的問(wèn)題?
Hadoop概述?
Hadoop分布式文件系統(tǒng)??????
MapReduce工作原理?????????
Hadoop集群剖析????????????
Hadoop生態(tài)系統(tǒng)對(duì)一種新的解決方案的需求
Hadoop的行業(yè)應(yīng)用案例分析
Hadoop在云計(jì)算和大數(shù)據(jù)的位置和關(guān)系
非結(jié)構(gòu)化數(shù)據(jù)與半結(jié)構(gòu)化數(shù)據(jù)在大數(shù)據(jù)中的應(yīng)用
案例及實(shí)驗(yàn)
某銀行數(shù)據(jù)統(tǒng)一處理平臺(tái),通過(guò)Hadoop進(jìn)行系統(tǒng)優(yōu)化
某電信運(yùn)營(yíng)商用戶(hù)行為分析系統(tǒng)
某電力行業(yè)數(shù)據(jù)采集大數(shù)據(jù)分析案例
聯(lián)通使用Hadoop/Hbase解決3G詳單查詢(xún)問(wèn)題。
Hadoop生態(tài)系統(tǒng)介紹和演示
Hadoop?HDFS?和?MapReduce?
Hadoop數(shù)據(jù)庫(kù)之HBase?
HBase架構(gòu)及如何應(yīng)用與編程開(kāi)發(fā)相結(jié)合
Hadoop數(shù)據(jù)倉(cāng)庫(kù)之Hive
Hive架構(gòu)及如何應(yīng)用與編程開(kāi)發(fā)相結(jié)合
Hadoop數(shù)據(jù)處理腳本Pig?
Pig架構(gòu)及如何應(yīng)用與編程開(kāi)發(fā)相結(jié)合
Hadoop數(shù)據(jù)接口Sqoop和Flume?
Sqoop和Flume架構(gòu)及如何應(yīng)用與編程開(kāi)發(fā)相結(jié)合
Hadoop工作流引擎?Oozie
Oozie架構(gòu)及如何應(yīng)用與編程開(kāi)發(fā)相結(jié)合
Hadoop生態(tài)系統(tǒng)各模塊應(yīng)用與編程開(kāi)發(fā)相結(jié)合
案例及實(shí)驗(yàn)
某銀行如何使用Hadoop統(tǒng)一數(shù)據(jù)平臺(tái)
手機(jī)上網(wǎng)日志分析
移動(dòng)GPRS上網(wǎng)日志查詢(xún)系統(tǒng)
國(guó)家電網(wǎng)城區(qū)用電量分析
聯(lián)通不良信息檢測(cè)系統(tǒng)
電廠海量數(shù)據(jù)監(jiān)控分析系統(tǒng)
某銀行數(shù)據(jù)統(tǒng)一處理平臺(tái)
海量指紋比對(duì)系統(tǒng)
Hadoop集群調(diào)優(yōu)
選擇適合hadoop的硬件配置
Hadoop配置項(xiàng)優(yōu)化
Hadoop配置優(yōu)化?-?core-site.xml
Hadoop配置優(yōu)化?-?hdfs-site.xml
Hadoop配置優(yōu)化?-?mapred-site.xml
Hadoop配置優(yōu)化?-?機(jī)架感知
網(wǎng)絡(luò)帶寬參數(shù)調(diào)優(yōu)
系統(tǒng)參數(shù)調(diào)優(yōu)
配置文件管理
嚴(yán)格控制root權(quán)限
Java的GC模式
選擇正確的JDK
hadoop作業(yè)調(diào)優(yōu)
Map?side?tuning設(shè)置
Map?side設(shè)置
Linux操作系統(tǒng)優(yōu)化
其他配置和參數(shù)調(diào)優(yōu)
案例及實(shí)驗(yàn)
Hadoop硬件優(yōu)化
不是所有的硬件都合適拿來(lái)直接使用
安裝調(diào)優(yōu)的第一步服務(wù)器硬件的選型的竅門(mén)
如何選擇適合業(yè)務(wù)使用的CPU
內(nèi)存越大越好嗎?設(shè)置合理的的內(nèi)存配置
連接網(wǎng)絡(luò)的選擇和優(yōu)化
高速硬盤(pán)的選擇注意事項(xiàng)
硬盤(pán)為什么不做raid?
設(shè)置網(wǎng)絡(luò)的注意事項(xiàng)
中間結(jié)果壓縮對(duì)磁盤(pán)和網(wǎng)絡(luò)的優(yōu)化
機(jī)架感知,網(wǎng)絡(luò)和磁盤(pán)IO優(yōu)化作用,確定存儲(chǔ)的具體位置,
內(nèi)存參數(shù),map/reduce槽位數(shù)的計(jì)算方法。
對(duì)磁盤(pán)和網(wǎng)絡(luò)的優(yōu)化
Java工具使用,jstack使用
Sun和open之間的區(qū)別,JIT編譯器的使用
inux系統(tǒng)參數(shù)調(diào)優(yōu)
Linux監(jiān)控系統(tǒng)的使用
cacti,
ganglia
常用的linux排錯(cuò)工具lsof,strace,iostat,vmstat,netstat...
常見(jiàn)異?,F(xiàn)象級(jí)處理方法
網(wǎng)卡流量導(dǎo)致連接失敗
權(quán)限錯(cuò)誤
主機(jī)名IP轉(zhuǎn)換錯(cuò)誤
NN與DN?namespaceID不一致
磁盤(pán)滿(mǎn)導(dǎo)致報(bào)錯(cuò)
Jave?heap?size?OOM
Hadoop?2.0
Hadoop?1.0?存在的問(wèn)題及現(xiàn)有的解決方案
Hadoop?2.0?各廠商版本對(duì)比
Apahce?and?CDH4
Hadoop?2.0?項(xiàng)目結(jié)構(gòu)解析
Hadoop?2.0?環(huán)境搭建
Yarn?與MapReduce的不同
Yarn?原理與架構(gòu)
Apache?YARN基本框架
Apache?YARN工作流程
Apache?YARN設(shè)計(jì)細(xì)節(jié)
MapReduce與YARN結(jié)合
如何與Yarn來(lái)結(jié)合
yarn的優(yōu)化、資源管理、優(yōu)先級(jí)管理。
Hadoop?生態(tài)系統(tǒng)解析
Hadoop?小圖檔方案
Hadoop?2.0?HDFS?運(yùn)維管理
丟失block的情況分析
常見(jiàn)的故障排查
HDFS高級(jí)程序?qū)崙?zhàn)演練?
HDFS實(shí)戰(zhàn)-命令行等使用
HDFS命令行工具?
啟動(dòng)、停止HDFS服務(wù)?
如何查看HDFS日志?
如何查看HDFS?Web控制臺(tái)?
HDFS參數(shù)配置?
案例及實(shí)驗(yàn)
HDFS實(shí)戰(zhàn)-Java?API使用
Eclipse?開(kāi)發(fā)環(huán)境介紹
HDFS?開(kāi)發(fā)基本步驟
HDFS?Java?API詳解
Configuration
Path
FileSystem
Stream、IOUtils
Hadoop?HDFS?HA方案介紹?
Hadoop?1.0?系?HA的一些辦法
Hadoop?2.0?介紹
MapReduce高級(jí)程序?qū)崙?zhàn)演練?
使用?Hadoop?MapReduce?Streaming?編程
MapReduce流程??????????
剖析一個(gè)MapReduce程序?
基本MapReduceAPI?概念?
驅(qū)動(dòng)代碼?Mapper、Reducer
Hadoop流?
API?使用Eclipse進(jìn)行快速開(kāi)發(fā)???????????????
新MapReduce?API?
MapReduce的優(yōu)化
MapReduce的任務(wù)調(diào)度
MapReduce編程實(shí)戰(zhàn)?
滿(mǎn)足解決實(shí)際數(shù)據(jù)分析問(wèn)題的高級(jí)Hadoop?API
案例及實(shí)驗(yàn)
Hadoop?Streaming?和?Java?MapReduce?Api?差異。
MapReduce?實(shí)現(xiàn)數(shù)據(jù)庫(kù)功能
利用Combiners來(lái)減少中間數(shù)據(jù)
編寫(xiě)Partitioner來(lái)優(yōu)化負(fù)載平衡
直接訪問(wèn)Hadoop分布式文件系統(tǒng)(HDFS)
Hadoop的join操作
輔助排序在Reducer方的合并
定制Writables和WritableComparables?
使用SequenceFiles和Avro文件保存二進(jìn)制數(shù)據(jù)?
創(chuàng)建InputFormats?OutputFormats
Hadoop的二次排序
Hadoop的海量日志分析
在Map方的合并?
Hadoop?SQL?接口Hive?
Hive基礎(chǔ)??????????????
Hive的作用和原理說(shuō)明
Hadoop倉(cāng)庫(kù)和傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)的協(xié)作關(guān)系;Hive與傳統(tǒng)數(shù)據(jù)庫(kù)的對(duì)接使用
Hadoop/Hive倉(cāng)庫(kù)數(shù)據(jù)數(shù)據(jù)流
Hive?Cli?的基本用法
HQL基本語(yǔ)法
自行編寫(xiě)數(shù)據(jù)庫(kù)與Hadoop相互ETL工具的思路
案例及實(shí)驗(yàn)
使用JDBC?連接Hive進(jìn)行查詢(xún)和分析
使用正則表達(dá)式加載數(shù)據(jù)
HQL高級(jí)語(yǔ)法
編寫(xiě)UDF函數(shù)
編寫(xiě)UDAF自定義函數(shù)
執(zhí)行嵌套sql的優(yōu)化
Hadoop數(shù)據(jù)庫(kù)之HBase及HBase優(yōu)化??
hbase概念與架構(gòu)??????????????
hbase核心知識(shí)點(diǎn)
hbase安裝、部署
HBase配置優(yōu)化綜述
表設(shè)計(jì)優(yōu)化相關(guān)參數(shù)
監(jiān)控工具使用方法及注意事項(xiàng)
常見(jiàn)異常現(xiàn)象級(jí)處理方法
案例及實(shí)驗(yàn)
hot?region造成讀請(qǐng)求瓶頸
region預(yù)劃分
Memstore合并設(shè)置的時(shí)機(jī)選擇
合并storefile策略設(shè)置技巧
Memstore?flush設(shè)置時(shí)機(jī)選擇
Hbase-env.sh、Single、multi-thread、CMS使用及參數(shù)調(diào)整
GC回收垃圾時(shí)機(jī)、GC日志打印設(shè)置
GC階段,region無(wú)法提供服務(wù)如何如何處理
Split時(shí)機(jī)控制(增大、disable)方法
CF數(shù)量多少對(duì)讀寫(xiě)性能的影響
自動(dòng)關(guān)閉flush的目的
?