尚硅谷2024最新版Spark视频课程,一套搞定大数据Spark3.x

2024新版本Spark教程,一套搞定大数据Spark3.x!
教程简介
Spark是专为大规模数据处理而设计的分析计算引擎。
技术上,Spark是基于Hadoop MapReduce设计的通用并行框架,拥有其所具备的优点,并采用内存的方式优化了中间计算过程,极大提高了计算效率,从而使Spark可以更好地应用在数据挖掘与机器学习等迭代式计算场景。
应用上,Spark可以满足绝大部分的离线数据分析场景和部分的实时数据分析场景,从而使Spark技术框架成为企业大数据离线处理技术的首选。
本套教程基于Spark 3.3版本,使用Java语言,详解了Spark技术生态的三个核心模块:Spark Core核心模块,讲解Spark运行环境,以及分布式数据模型RDD的使用和原理;Spark SQL模块,讲解Spark在结构化数据场景中的使用方式,包括SQL语法、DSL语法、UDF函数、UDAF函数等;Spark Streaming模块,讲解Spark在流式数据处理中的使用方式,包括无界数据流的处理、Kafka系统的对接和数据窗口的应用等。
授课方式上,还是一贯的将图形、文字、源码相结合的保姆式讲解;配套资料上,还是一样的败家式赠送,视频、课件、代码、资料,全部送送送!力求让学习者对分布式计算的原理、框架的使用建立深刻的理解,从而将Spark应用于企业的项目中。
课程目录
001.Spark-教程简介
002.Spark-文件结构-介绍
003.Spark-基础概念-介绍-分布式
004.Spark-基础概念-介绍-计算
005.Spark-基础概念-介绍-分布式基础架构
006.Spark-基础概念-介绍-框架
007.Spark-基础概念-介绍-Spark和MR的关系
008.Spark-介绍
009.Spark-部署方式-介绍
010.Spark-解压后的文件结构
011.Spark-部署环境-Local
012.Spark-部署环境-Local-演示
013.Spark-部署环境-Yarn-演示
014.Spark-部署环境-Yarn-历史服务
015.Spark-部署环境-Yarn-两种执行方式Cluster和Client
016.Spark-部署环境-几种模式的对比
017.Spark-数据结构-说明
018.Spark-RDD-介绍
019.Spark-RDD-数据处理流程简介
020.Spark-RDD-计算原理
021.Spark-RDD-计算原理-补充
022.Spark-RDD-代码-环境的准备
023.Spark-RDD-代码-对接内存数据源构建RDD对象
024.Spark-RDD-代码-对接磁盘数据源构建RDD对象
025.Spark-RDD-代码-RDD的理解
026.Spark-RDD-代码-RDD的分区
027.Spark-RDD-代码-内存数据源-分区数量的设定
028.Spark-RDD-代码-磁盘文件数据源-分区数量的设定
029.Spark-RDD-代码-内存数据源-分区数据的分配
030.Spark-RDD-代码-磁盘文件数据源-分区数据的分配
031.Spark-RDD-代码-磁盘文件数据源-分区数据的分配-演示
032.Spark-RDD-课件梳理
033.Spark-RDD-方法-介绍
034.Spark-RDD-方法-方法的两大类-转换和行动
035.Spark-RDD-方法-数据处理的两大类-单值和键值
036.Spark-RDD-方法-转换-map
037.Spark-RDD-方法-转换-map-1
038.Spark-RDD-方法-转换-map-2
039.Spark-RDD-方法-转换-map-3
040.Spark-RDD-方法-转换-map-4
041.Spark-RDD-方法-转换-filter
042.Spark-RDD-方法-转换-flatMap
043.Spark-RDD-方法-转换-flatMap-1
044.Spark-RDD-方法-转换-groupBy
045.Spark-RDD-回顾-原理
046.Spark-RDD-回顾-方法
047.Spark-RDD-Shuffle
048.Spark-RDD-Shuffle-原理
049.Spark-RDD-Shuffle-原理-补充
050.Spark-RDD-Shuffle-演示
051.Spark-RDD-方法-distinct
052.Spark-RDD-方法-sortBy
053.Spark-RDD-方法-KV类型数据介绍
054.Spark-RDD-方法-KV类型数据补充
055.Spark-RDD-方法-KV-mapValues
056.Spark-RDD-方法-KV-wordCount
057.Spark-RDD-方法-KV-groupByKey
058.Spark-RDD-方法-KV-reduceByKey
059.Spark-RDD-方法-KV-sortByKey
060.Spark-RDD-方法-KV-reduceByKey和groupByKey的区别
061.Spark-RDD-WordCount程序在环境中运行
062.Spark-RDD-转换方法的回顾
063.Spark-RDD-行动算子-介绍
064.Spark-RDD-行动算子-collect
065.Spark-RDD-行动算子-collect-补充
066.Spark-RDD-行动算子-其他方法-1
067.Spark-RDD-行动算子-其他方法-2
068.Spark-RDD-行动算子-其他方法-3
069.Spark-RDD-行动算子-Driver端和Executor端数据传输
070.Spark-RDD-序列化-1
071.Spark-RDD-序列化-2
072.Spark案例-数据格式说明
073.Spark案例-需求介绍
074.Spark案例-需求分析
075.Spark案例-需求设计
076.Spark-案例-开发原则
077.Spark-案例-代码实现-1
078.Spark-案例-代码实现-2
079.Spark-案例-代码实现-3
080.Spark-案例-代码实现-4
081.Spark-RDD-KRYO序列化框架
082.Spark-RDD-依赖关系-介绍
083.Spark-RDD-依赖关系-原理
084.Spark-RDD-依赖关系-血缘关系
085.Spark-RDD-依赖关系-依赖关系
086.Spark-RDD-依赖关系-宽窄依赖关系
087.Spark-RDD-依赖关系-作业,阶段和任务的关系
088.Spark-RDD-依赖关系-任务的数量
089.Spark-RDD-依赖关系-分区的数量
090Spark-RDD-持久化和序列化的关系
091.Spark-RDD-持久化-cache
092.Spark-RDD-持久化-persist
093.Spark-RDD-持久化-checkpoint
094.Spark-RDD-持久化-shuffle算子的持久化
095.Spark-RDD-分区器
096.Spark-RDD-自定义分区器
097.Spark-两个案例
098.Spark-第一个案例问题原因
099.Spark-广播变量
100.Spark-RDD的局限性
101.SparkSQL-介绍
102.SparkSQL-环境对象的封装
103.SparkSQL-模型对象的封装
104.SparkSQL-SQL的操作
105.SparkSQL-不同场景下环境对象的转换
106.SparkSQL-不同场景下模型数据对象的转换
107.SparkSQL-使用SQL的方式来访问数据模型
108.SparkSQL-使用DSL的方式来访问数据模型
109.SparkSQL-自定义udf函数对象
110.SparkSQL-自定义udf函数的底层实现原理
111.SparkSQL-自定义udaf函数的底层实现原理
112.SparkSQL-自定义udaf函数的实现步骤-1
113.SparkSQL-自定义udaf函数的实现步骤-2
114.SparkSQL-自定义udaf函数的实现步骤-回顾
115.SparkSQL-数据源-CSV
116.SparkSQL-数据源-JSON
117.SparkSQL-数据源-Parquet
118.SparkSQL-数据源-JDBC
119.SparkSQL-数据源-Hive
120.SparkSQL-案例-数据准备
121.SparkSQL-案例-数据准备-补充
122.SparkSQL-案例-需求分析
123.SparkSQL-案例-需求设计
124.SparkSQL-案例-SQL实现-1
125.SparkSQL-案例-SQL实现-2
126.SparkSQL-案例-SQL实现-3
127.SparkSQL-案例-SQL实现-4
128.SparkSQL-案例-SQL实现-5
129.SparkSQL-案例-SQL实现-6
130.SparkSQL-案例-SQL实现-7
131.SparkSQL-案例-SQL实现-8
132.SparkSQL-案例-SQL实现-9
133.SparkStreaming-介绍
134.SparkStreaming-原理
135.SparkStreaming-原理-补充
136.SparkStreaming-课件梳理
137.SparkStreaming-环境准备
138.SparkStreaming-网络(Socket)数据流处理演示
139.SparkStreaming-Kafka数据流处理演示
140.SparkStreaming-DStream方法介绍
141.SparkStreaming-DStream输出方法介绍
142.SparkStreaming-窗口操作
143.SparkStreaming-回顾-1
144.SparkStreaming-回顾-2
145.SparkStreaming-关闭-1
146.SparkStreaming-关闭-2
147.SparkStreaming-关闭-3
148.Spark-内核-运行流程-1
149.Spark-内核-运行流程-2
150.Spark-内核-运行流程-3
151.Spark-内核-核心对象
152.Spark内核-核心对象通信流程-Netty
153.Spark内核-Task任务的调度执行
154.Spark内核-Shuffle底层的实现原理-1
155.Spark-内核-Shuffle底层的实现原理-2
156.Spark-内核-内存管理
157.Spark-内核-内存管理-补充
资料.zip
课件.zip
代码.zip
相关内容
资源信息普通29金币会员免费钻石会员免费推荐其他信息有效期永久有效每天签到送金币
下载遇到问题或者链接失效? 可联系客服(右侧点击扫码添加微信)反馈
爱学方极致后台体验,无插件,集成会员系统
I学FUN » 尚硅谷2024最新版Spark视频课程,一套搞定大数据Spark3.x

发表回复

提供最优质的资源集合

立即查看 了解详情