大佬教程收集整理的这篇文章主要介绍了RDD,大佬教程大佬觉得挺不错的,现在分享给大家,也给大家做个参考。
RDD(Resilient DiStributed Dataset)叫做弹性分布式数据集,是 Spark 中最基本的数据处理模型。
@H_450_4@弹性
@H_450_4@分布式
数据集:RDD封装了计算逻辑,不保存数据
数据抽象:RDD是一个抽象类,需要子类具体实现
不可变:RDD封装了计算逻辑,是不可以改变的,想要改变,只能产生新的RDD,在新的RDD里面封装计算逻辑
可分区、并行计算
计算阶段划分的依据是 shuffle,不是转换函数的类型,有的函数有时候有 shuffle,有时候没有
Spark 里面的 RDD 函数有两种:
@H_450_4@一种是转换函数,调用以后得到的还是一个 RDD,RDD 的计算逻辑主要通过转换函数完成
另一种是 action 函数,调用以后不再返回 RDD。比如count() 函数,返回 RDD 中数据的元素个数;saveAsTextFile(path),将 RDD 数据存储到 path 路径下。Spark 的 DAGscheduler 在遇到 shuffle 的时候,会生成一个计算阶段,在遇到 action 函数的时候,会生成一个作业(job)。
以上是大佬教程为你收集整理的RDD全部内容,希望文章能够帮你解决RDD所遇到的程序开发问题。
如果觉得大佬教程网站内容还不错,欢迎将大佬教程推荐给程序员好友。
本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ:384754419,请注明来意。