分类导航

程序问答发布时间：2022-06-02 发布网站：大佬教程 code.js-code.com

大佬教程收集整理的这篇文章主要介绍了有没有办法在 AWS 胶上使用 Apache Hudi？，大佬教程大佬觉得挺不错的，现在分享给大家，也给大家做个参考。

开发过程中遇到有没有办法在 AWS 胶上使用 Apache Hudi？的问题如何解决？下面主要结合日常开发的经验，给出你关于有没有办法在 AWS 胶上使用 Apache Hudi？的解决方法建议，希望对你解决有没有办法在 AWS 胶上使用 Apache Hudi？有所启发或帮助；

尝试探索 apach hudi 以使用 S3 作为源进行增量加载，然后最终通过 AWS 粘合作业将输出保存到 S3 中的其他位置。

任何可以帮助这里作为起点的博客/文章？

所以我不完全确定您的用例，但是这个 article 可能对您有帮助。

这是关于如何通过 Glue 自定义连接器连接到 Hudi。

还有另一种可能的方式（根据罗伯特的回答），将自定义罐子包含到粘合作业中。然后这些将加载到您的胶水作业中，并在任何其他 hadoop/spark 环境中可用。

实现这种方法所需的步骤如下（至少这些适用于我的 pyspark 工作，如果您发现一些信息没有耗尽或遇到一些麻烦，请纠正我，我会更新我的答案）：

注意 1：以下是批量写入，没有针对 hudi 流进行测试
注意 2：Glue 作业类型：Spark，Glue 版本：2.0，ETL 语言：python

获取hudi所需的所有jar包并将它们放入S3：
- hudi-spark-bundle_2.11
- httpclient-4.5.9
- spark-avro_2.11
在创建粘合作业（见注 2）时，指定：
- 依赖的 jars 路径 = 从点号开始的 jars 的逗号分隔路径。 1 (例如 s3://your-bucket/some_prefix/hudi-spark-bundle...jar,s3://your-bucket/some_prefix/http...jar,s3://your-bucket/some_prefix/spark -avro....jar)
根据 hudi docs 中提供的文档创建您的脚本并享受！