分类导航

程序问答发布时间：2022-06-01 发布网站：大佬教程 code.js-code.com

大佬教程收集整理的这篇文章主要介绍了Apache Spark - 将参数传递给自定义聚合器构造函数是否存在问题？，大佬教程大佬觉得挺不错的，现在分享给大家，也给大家做个参考。

如何解决Apache Spark - 将参数传递给自定义聚合器构造函数是否存在问题？？

开发过程中遇到Apache Spark - 将参数传递给自定义聚合器构造函数是否存在问题？的问题如何解决？下面主要结合日常开发的经验，给出你关于Apache Spark - 将参数传递给自定义聚合器构造函数是否存在问题？的解决方法建议，希望对你解决Apache Spark - 将参数传递给自定义聚合器构造函数是否存在问题？有所启发或帮助；

我创建了一个 Aggregator 来使用 udaf，它使用数据框中的三列来计算其结果，但它还需要其他两个参数，每行通用。最初，我这样定义了输入类型（简化了不必要的细节）

case class In(a: Long,b: Double,c: Double,d: Long,e: DoublE)
class MyUDAF extends Aggregator[In,Buf,Long] {
   ...
}

并使用 lit 中的 org.apache.spark.sql.functions 传递这些额外参数：

val myudaf = udaf(new MyUDAF,ExpressionEncoder[In])
val df: DataFrame = _ // suppose there's an actual DataFrame here
df.withcolumn("result",myudaf(col("a"),col("b"),col("c"),lit(100L),lit(10.0)))

它工作得很好，但我不喜欢这种将这两个参数作为列传递的方法，因为我必须将它们保存在缩减缓冲区中（@H_72_3@merge 方法仅将缓冲区作为参数）。所以我决定将它们包含在 @H_72_3@myUDAF 构造函数中，并像这样使用它：

case class In(a: Long,c: DoublE)
class MyUDAF(d: Long,e: DoublE) extends Aggregator[In,Long] {
   ...
}
val myudaf = udaf(new MyUDAF(100L,10.0),ExpressionEncoder[In])
val df: DataFrame = _
df.withcolumn("result",col("c")))

这也适用于本地测试。但是我是Spark新手，不知道这种做法是否会带来可能的错误。不幸的是，我目前无法访问更多机器来创建集群并检查自己是否在更复杂的场景中出现问题。所以问题是：使用与输入 Row 和缓冲区中包含的数据不同的数据（如来自构造函数的值）会导致任何问题、错误或副作用吗？我的第二种方法可以吗？