wordpress   发布时间:2022-04-02  发布网站:大佬教程  code.js-code.com
大佬教程收集整理的这篇文章主要介绍了如何在Windows机器上为Spark应用程序设置集群环境?大佬教程大佬觉得挺不错的,现在分享给大家,也给大家做个参考。

概述

我一直在使用spark独立非集群模式在pyspark中开发.这些天,我想探讨更多关于spark的集群模式.我在互联网上搜索,发现我可能需要一个集群管理器来使用Apache Mesos或Spark Standalone在不同的机器上运行集群.但是,我无法轻易找到图片的细节. 我应该如何从系统设计的角度进行设置,以便在多个Windows机器(或多个Windows vms)中运行spark集群. 您可能
@H_197_15@
我一直在使用spark独立非集群模式在pyspark中开发.这些天,我想探讨更多关于spark的集群模式.我在互联网上搜索,发现我可能需一个集群管理器来使用Apache Mesos或Spark Standalone在不同的机器上运行集群.但是,我无法轻易找到图片的细节.

我应该如何从系统设计的角度进行设置,以便在多个Windows机器(或多个Windows vms)中运行spark集群.

解决方法

您可能希望探索(从最简单的)Spark Standalone,通过Hadoop YARN到Apache Mesos或DC / Os.Cluster Mode Overview.

我建议首先使用Spark Standalone(作为提交Spark应用程序的最简单选项). Spark Standalone包含在任何Spark安装中,并且可以在Windows上正常运行.问题是没有脚本可以启动和停止Windows操作系统的独立Master和Workers(也称为奴隶).你只需要自己“编码”它们.

使用以下命令在Windows上启动独立主服务器:

// terminal 1
bin\spark-class org.apache.spark.deploy.master.Master

请注意,在启动独立主服务器后,您没有输入,但不要担心,请转到http://localhost:8080/以查看Spark Standalone群集的Web UI.

在单独的终端中启动独立Worker的实例.

// terminal 2
bin\spark-class org.apache.spark.deploy.worker.Worker spark://localhost:7077

使用单工作Spark Standalone集群,您应该能够按如下方式提交Spark应用程序:

spark-submit --master spark://localhost:7077 ...

阅读Spark官方文档中的Spark Standalone Mode.

正如我刚刚发现Mesos不是一个可选的System Requirements

但是,您可以使用VirtualBox或类似工具使用虚拟机运行任何群集.至少DC / OS有dcos-vagrant,这应该很容易:

大佬总结

以上是大佬教程为你收集整理的如何在Windows机器上为Spark应用程序设置集群环境?全部内容,希望文章能够帮你解决如何在Windows机器上为Spark应用程序设置集群环境?所遇到的程序开发问题。

如果觉得大佬教程网站内容还不错,欢迎将大佬教程推荐给程序员好友。

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ:384754419,请注明来意。