程序问答   发布时间:2022-06-02  发布网站:大佬教程  code.js-code.com
大佬教程收集整理的这篇文章主要介绍了有没有办法在 AWS 胶上使用 Apache Hudi?大佬教程大佬觉得挺不错的,现在分享给大家,也给大家做个参考。

如何解决有没有办法在 AWS 胶上使用 Apache Hudi??

开发过程中遇到有没有办法在 AWS 胶上使用 Apache Hudi?的问题如何解决?下面主要结合日常开发的经验,给出你关于有没有办法在 AWS 胶上使用 Apache Hudi?的解决方法建议,希望对你解决有没有办法在 AWS 胶上使用 Apache Hudi?有所启发或帮助;

尝试探索 apach hudi 以使用 S3 作为源进行增量加载,然后最终通过 AWS 粘合作业将输出保存到 S3 中的其他位置。

任何可以帮助这里作为起点的博客/文章?

解决方法

所以我不完全确定您的用例,但是这个 article 可能对您有帮助。

这是关于如何通过 Glue 自定义连接器连接到 Hudi。

,

还有另一种可能的方式(根据罗伯特的回答),将自定义罐子包含到粘合作业中。然后这些将加载到您的胶水作业中,并在任何其他 hadoop/spark 环境中可用。

实现这种方法所需的步骤如下(至少这些适用于我的 pyspark 工作,如果您发现一些信息没有耗尽或遇到一些麻烦,请纠正我,我会更新我的答案):

注意 1:以下是批量写入,没有针对 hudi 流进行测试
注意 2:Glue 作业类型:Spark,Glue 版本:2.0,ETL 语言:python

  1. 获取hudi所需的所有jar包并将它们放入S3:
    • hudi-spark-bundle_2.11
    • httpclient-4.5.9
    • spark-avro_2.11
  2. 在创建粘合作业(见注 2)时,指定:
    • 依赖的 jars 路径 = 从点号开始的 jars 的逗号分隔路径。 1 (例如 s3://your-bucket/some_prefix/hudi-spark-bundle...jar,s3://your-bucket/some_prefix/http...jar,s3://your-bucket/some_prefix/spark -avro....jar)
  3. 根据 hudi docs 中提供的文档创建您的脚本并享受!

最后一点: 确保为您的粘合作业分配适当的权限

大佬总结

以上是大佬教程为你收集整理的有没有办法在 AWS 胶上使用 Apache Hudi?全部内容,希望文章能够帮你解决有没有办法在 AWS 胶上使用 Apache Hudi?所遇到的程序开发问题。

如果觉得大佬教程网站内容还不错,欢迎将大佬教程推荐给程序员好友。

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ:384754419,请注明来意。