
大數(shù)據(jù)基礎與應用培訓
01
初識大數(shù)據(jù)
了解大數(shù)據(jù)的定義、應用場景、分析流程和工作崗位需求
1.1 大數(shù)據(jù)定義
1.2 大數(shù)據(jù)應用場景
1.3 大數(shù)據(jù)分析流程
1.4 如何參與大數(shù)據(jù)分析
02
大數(shù)據(jù)應用縱覽
展示大數(shù)據(jù)在不同行業(yè)的應用進展和趨勢。包括醫(yī)療大數(shù)據(jù)、旅游大數(shù)據(jù),以及華為公司的兩個案例。
2.1 大數(shù)據(jù)應用縱覽
2.2 智能醫(yī)療大數(shù)據(jù)
2.3 旅游大數(shù)據(jù)案例
2.4 金融科技與大數(shù)據(jù)風控
2.5 政務多跑一次
03
Python大數(shù)據(jù)基礎(一)
介紹Python的基本數(shù)據(jù)類型和數(shù)據(jù)結構,Numpy和Pandas的使用方法,以及本課程所使用的在線實踐平臺。
3.1 內(nèi)置數(shù)據(jù)類型
3.2 擴展數(shù)據(jù)類型
3.3 內(nèi)置數(shù)據(jù)結構
3.4 Ndarray介紹
3.5 Series介紹
3.6 DataFrame介紹
3.7 在線實驗平臺介紹
3.8 數(shù)據(jù)類型和結構在線實驗
04
Python大數(shù)據(jù)基礎(二)
介紹使用Python進行數(shù)據(jù)讀取、數(shù)據(jù)轉換、數(shù)據(jù)交換和數(shù)據(jù)展示等相關內(nèi)容。
4.1 文件讀寫
4.2 文件和文件夾處理
4.3 數(shù)據(jù)庫存取
4.4 CSV和Excel數(shù)據(jù)交換
4.5 JSON和XML數(shù)據(jù)交換
4.6 Web數(shù)據(jù)交換
4.7 用pandas加工數(shù)據(jù)
4.8 用Matplotlib展示數(shù)據(jù)
4.9 數(shù)據(jù)加工和展示在線實驗
05
數(shù)據(jù)分析方法(一)
學習并掌握統(tǒng)計數(shù)據(jù)分析,主要包括數(shù)據(jù)的中心趨勢度量、 數(shù)據(jù)的離散程度度量、數(shù)據(jù)分布的度量和圖形化分析方法。
5.1 數(shù)據(jù)分析方法概述
5.2 統(tǒng)計數(shù)據(jù)分析方法
5.3 數(shù)據(jù)的中心趨勢度量
5.4 數(shù)據(jù)的離散程度度量
5.5 數(shù)據(jù)分布的度量
5.6 圖形化分析方法
06
數(shù)據(jù)分析方法(二)
學習并掌握基于機器學習的數(shù)據(jù)分析方法,主要包括機器學習的典型任務,常見的有監(jiān)督學習和無監(jiān)督學習算法。
6.1 機器學習簡介
6.2 機器學習的典型任務
6.3 決策樹算法
6.4 K-近鄰分類算法(KNN算法)
6.5 K-均值聚類算法(K-means算法)
6.6 Apriori關聯(lián)規(guī)則算法
6.7 在線實驗
07
開源平臺和工具(一)
介紹數(shù)據(jù)獲取、清洗與存儲等相關的開源平臺和工具
7.1 數(shù)據(jù)采集與清洗概述
7.2 日志數(shù)據(jù)采集Flume簡介
7.3 數(shù)據(jù)分發(fā)中間件Kafka簡介
7.4 HDFS介紹及使用方法
7.5 HBase介紹及使用方法
7.6 Hive介紹及使用方法
7.7 NoSQL數(shù)據(jù)庫技術
08
開源平臺和工具(二)
介紹批處理、流式數(shù)據(jù)處理與分析以及資源管理與調(diào)度的開源平臺和工具
8.1 批處理:MapReduce
8.2 批處理:Spark
8.3 PageRank舉例
8.4 流處理:Storm
8.5 流處理:Spark Streaming
8.6 資源管理與調(diào)度概述
8.7 Zookeeper介紹及使用方法
8.8 在線實驗
09
數(shù)據(jù)可視化
介紹數(shù)據(jù)可視化的基本方法和技術。
9.1 數(shù)據(jù)可視化簡介
9.2 高維數(shù)據(jù)可視化
9.3 網(wǎng)絡和層次化數(shù)據(jù)可視化
9.4 時空數(shù)據(jù)可視化
9.5 文本數(shù)據(jù)可視化
9.6 可視化在線實驗
10
綜合實踐
以旅游大數(shù)據(jù)為例展示大數(shù)據(jù)分析的流程和方法。
10.1 旅游大數(shù)據(jù)在線實驗