大佬教程收集整理的这篇文章主要介绍了有没有办法在 AWS 胶上使用 Apache Hudi?,大佬教程大佬觉得挺不错的,现在分享给大家,也给大家做个参考。
尝试探索 apach hudi 以使用 S3 作为源进行增量加载,然后最终通过 AWS 粘合作业将输出保存到 S3 中的其他位置。
任何可以帮助这里作为起点的博客/文章?
所以我不完全确定您的用例,但是这个 article 可能对您有帮助。
这是关于如何通过 Glue 自定义连接器连接到 Hudi。
,还有另一种可能的方式(根据罗伯特的回答),将自定义罐子包含到粘合作业中。然后这些将加载到您的胶水作业中,并在任何其他 hadoop/spark 环境中可用。
实现这种方法所需的步骤如下(至少这些适用于我的 pyspark 工作,如果您发现一些信息没有耗尽或遇到一些麻烦,请纠正我,我会更新我的答案):
注意 1:以下是批量写入,没有针对 hudi 流进行测试
注意 2:Glue 作业类型:Spark,Glue 版本:2.0,ETL 语言:python
最后一点: 确保为您的粘合作业分配适当的权限
以上是大佬教程为你收集整理的有没有办法在 AWS 胶上使用 Apache Hudi?全部内容,希望文章能够帮你解决有没有办法在 AWS 胶上使用 Apache Hudi?所遇到的程序开发问题。
如果觉得大佬教程网站内容还不错,欢迎将大佬教程推荐给程序员好友。
本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ:384754419,请注明来意。