
????????本課程主要講解Spark技術(shù),借助Spark對外提供的Python接口,使用Python語言開發(fā)。涉及到Spark內(nèi)核原理、Spark基礎(chǔ)知識及應(yīng)用、Spark基于DataFrame的Sql應(yīng)用、機器學(xué)習(xí)及深度學(xué)習(xí)等內(nèi)容。由淺到深的帶大家深入學(xué)習(xí)大數(shù)據(jù)領(lǐng)域火的項目Spark。幫助大家進入大數(shù)據(jù)領(lǐng)域,抓住大數(shù)據(jù)浪潮的尾巴。
? ? 軟件版本:?? ??
???內(nèi)容涉及:???
-
pyspark 基礎(chǔ)模塊
-
pyspark.sql?模塊
-
pyspark.ml?基于DataFrame的機器學(xué)習(xí)模塊
-
pyspark.mllib package?基于RDD的機器學(xué)習(xí)模塊
-
中間還會涉及到云計算中的docker容器技術(shù),課程的學(xué)習(xí)環(huán)境就是使用Docker三個容器搭建的分布式環(huán)境
-
pyspark中Numpy、Pandas、Scikit-learn的互操作和相互對比