程序问答   发布时间:2022-06-01  发布网站:大佬教程  code.js-code.com
大佬教程收集整理的这篇文章主要介绍了Apache Spark - 将参数传递给自定义聚合器构造函数是否存在问题?大佬教程大佬觉得挺不错的,现在分享给大家,也给大家做个参考。

如何解决Apache Spark - 将参数传递给自定义聚合器构造函数是否存在问题??

开发过程中遇到Apache Spark - 将参数传递给自定义聚合器构造函数是否存在问题?的问题如何解决?下面主要结合日常开发的经验,给出你关于Apache Spark - 将参数传递给自定义聚合器构造函数是否存在问题?的解决方法建议,希望对你解决Apache Spark - 将参数传递给自定义聚合器构造函数是否存在问题?有所启发或帮助;

我创建了一个 Aggregator 来使用 udaf,它使用数据框中的三列来计算其结果,但它还需要其他两个参数,每行通用。最初,我这样定义了输入类型(简化了不必要的细节)

case class In(a: Long,b: Double,c: Double,d: Long,e: DoublE)
class MyUDAF extends Aggregator[In,Buf,Long] {
   ...
}

并使用 lit 中的 org.apache.spark.sql.functions 传递这些额外参数:

val myudaf = udaf(new MyUDAF,ExpressionEncoder[In])
val df: DataFrame = _ // suppose there's an actual DataFrame here
df.withcolumn("result",myudaf(col("a"),col("b"),col("c"),lit(100L),lit(10.0)))

它工作得很好,但我不喜欢这种将这两个参数作为列传递的方法,因为我必须将它们保存在缩减缓冲区中(@H_72_3@merge 方法仅将缓冲区作为参数)。所以我决定将它们包含在 @H_72_3@myUDAF 构造函数中,并像这样使用它:

case class In(a: Long,c: DoublE)
class MyUDAF(d: Long,e: DoublE) extends Aggregator[In,Long] {
   ...
}
val myudaf = udaf(new MyUDAF(100L,10.0),ExpressionEncoder[In])
val df: DataFrame = _
df.withcolumn("result",col("c")))

这也适用于本地测试。但是我是Spark新手,不知道这种做法是否会带来可能的错误。不幸的是,我目前无法访问更多机器来创建集群并检查自己是否在更复杂的场景中出现问题。所以问题是:使用与输入 Row 和缓冲区中包含的数据不同的数据(如来自构造函数的值)会导致任何问题、错误或副作用吗?我的第二种方法可以吗?

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)

大佬总结

以上是大佬教程为你收集整理的Apache Spark - 将参数传递给自定义聚合器构造函数是否存在问题?全部内容,希望文章能够帮你解决Apache Spark - 将参数传递给自定义聚合器构造函数是否存在问题?所遇到的程序开发问题。

如果觉得大佬教程网站内容还不错,欢迎将大佬教程推荐给程序员好友。

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ:384754419,请注明来意。
标签:-Apache