分类导航

程序问答发布时间：2022-06-02 发布网站：大佬教程 code.js-code.com

大佬教程收集整理的这篇文章主要介绍了通过 Spark 提交作业 (scala) 写入 Google Cloud Storage，大佬教程大佬觉得挺不错的，现在分享给大家，也给大家做个参考。

如何解决通过 Spark 提交作业 (scala) 写入 Google Cloud Storage？

开发过程中遇到通过 Spark 提交作业 (scala) 写入 Google Cloud Storage的问题如何解决？下面主要结合日常开发的经验，给出你关于通过 Spark 提交作业 (scala) 写入 Google Cloud Storage的解决方法建议，希望对你解决通过 Spark 提交作业 (scala) 写入 Google Cloud Storage有所启发或帮助；

还有其他文章描述了如何为 spark 类设置配置（spark 和 hadoop）以便能够写入 GCS 存储桶。

如果我从 IntelliJ 运行以下代码

package com.test.migration;

import java.io.file
import java.util

import org.apache.spark.SparkContext
import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.{DataFrame,SaveMode,SparkSession}
object DFToGcslite {

  def main(args: ArraY[String]): Unit = {

    val spark = SparkSession
      .builder
      .master("local[*]")
      .appname("DFToGcslite")
      .config("spark.hadoop.Google.cloud.auth.service.account.enable",truE)
      .config("spark.hadoop.Google.cloud.auth.service.account.Json.keyfile","src/main/resources/test-storage-318320-d3aa6f895415.Json")
      .getorCreate()

    import spark.implicits._


    val sc = spark.sparkContext
    sc.hadoopConfiguration.set("fs.defaultFS","gs://test-csv-write/")
    
      (0 to 100)
      .toDF
      .write
      .mode(SaveMode.Append)
      .parquet("outputs01")
  }
}
@H_801_8@


它完美地写入了我的 GCS 存储桶。
但是当我编译 jar 并在集群上运行它时：
/usr/local/bin/spark-submit --class com.test.migration.CSVToGCS --master local /Users/adam.mac/Desktop/csv_to_gcs/target/scala-2.11/CSVToGCS-assembly-0.0.1.jar
@H_801_8@

将 @H_567_7@master.("local[*]")@H_801_8@ 改为 @H_567_7@master.("yarn")@H_801_8@
还有一个关键文件位置在一个共享的挂载上
它失败了
Exception in thread "main" org.apache.hadoop.fS.Unsupportedfilesystemexception: No fileSystem for scheR_344_11845@e "gs"
@H_801_8@

built.sbt：
name := "CSVToGCS"

version := "0.0.1"

scalaVersion := "2.11.8"

val sparkVersion = "2.4.0"

libraryDependencIEs ++= Seq(
  "com.typesafe" % "config" % "1.3.1","org.apache.spark" %% "spark-core" % sparkVersion,"org.apache.spark" %% "spark-sql" % sparkVersion,"org.apache.spark" %% "spark-yarn" % "2.4.0" % "provIDed","org.apache.hadoop" % "hadoop-common" % "2.7.3","com.Google.cloud.bigdataoss" % "gcs-connector" % "hadoop3-2.0.0"
)
@H_801_8@

我也尝试过设置这些配置：
sc.hadoopConfiguration.set("fs.gs.impl","com.Google.cloud.hadoop.fs.gcs.GoogleHadoopfileSystem")
sc.hadoopConfiguration.set("fs.AbstractfileSystem.gs.impl","com.Google.cloud.hadoop.fs.gcs.GoogleHadoopFS")
@H_801_8@

但我得到了相同的结果。我觉得我的配置在某处不正确，但是当我只从 IntelliJ 运行类文件时，代码如何工作？ 
解决方法

        这是我在讨论这个 github 问题 https://github.com/GoogleCloudDataproc/hadoop-connectors/issues/323#issuecomment-597353458 的帮助下解决错误的方法。由于我们使用的是 hadoop 2.6 版，因此我们需要使用此 gcs-connector-hadoop2-2.0.1.jar@H_801_8@ 可用 here

一旦我将 jar 放在 $SPARK_HOME/jars/ 中，代码就运行得很好！
      
 


 
 
      大佬总结
       以上是大佬教程为你收集整理的通过 Spark 提交作业 (scala) 写入 Google Cloud Storage全部内容，希望文章能够帮你解决通过 Spark 提交作业 (scala) 写入 Google Cloud Storage所遇到的程序开发问题。
		如果觉得大佬教程网站内容还不错，欢迎将大佬教程推荐给程序员好友。
		本图文内容来源于网友网络收集整理提供，作为学习参考使用，版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ：384754419，请注明来意。


			标签：Google写入提交作业通过


	
		 
			
			   上一篇: 尝试使用 GeometricFlux.jl 训练...
				下一篇:如何下载文件然后在 spring 控制...
		
	
    
    
       
	
    

	
		猜你在找的程序问答相关文章
		 
						在烧瓶中重定向时发出POST请求
						2022-06-02
			

						从 CreateWindow() 返回的 HWND 的格式值是多少？
						2022-05-31
			

						使用nodejs打印json对象内容
						2022-05-31
			

						useEffect 无限循环仅在测试时发生，否则不会发生 - 尽管使用 useReducer
						2022-05-31
			

						从雅虎财经检索 ESG 分数
						2022-05-31
			

						Gulp：获取“必须指定任务功能”错误，但我只有 1 个任务
						2022-05-31
			

						JavaScript 将平面数组转换为嵌套/分组和排序数组
						2022-05-31
			

						405 Method Not Allowed 当提交表单到 Flask 时，即使路由有 ['GET', 'PO...
						2022-05-31
			

						Mongodb 错误码和对应的 http 状态码
						2022-05-31
			

						连接到上游时 Nginx connect() 失败（111：连接被拒绝），客户端：192.168.128.1，服务...
						2022-05-31
			
	      
    
    
			其他相关热搜词更多
			phpJavaPython程序员load中如何string使用参数jquery开发安装listlinuxiosandroid工具javascriptcap

 
	   
		
		
			
			
			
			
		

		
			最新程序问答教程
			
							在烧瓶中重定向时发出POST请求
							
				

							Python：`from x import *`不能全部导入
							
				

							如何从Django模板中访问包含连字符的字典键？
							
				

							使用进程名称获取另一个程序窗口的标题
							
				

							RequestFactory不会填充我的实体代理的所有字段
							
				

							如何从ISO 8601格式的字符串中选择时区到Calendar instace
							
				

							Python Pandas-比较2个数据框，多个参数
							
				

							游标如何在Python的DB-API中工作？
							
				

							N的总和列出按元素排列的python
							
				

							Python中eval的替代方法
							
				
		
		
		
			热门程序问答教程
			 
							在烧瓶中重定向时发出POST请求
							
				 

							Python：`from x import *`不能全部导入
							
				 

							如何从Django模板中访问包含连字符的字典键？
							
				 

							使用进程名称获取另一个程序窗口的标题
							
				 

							RequestFactory不会填充我的实体代理的所有字段
							
				 

							如何从ISO 8601格式的字符串中选择时区到Calendar instace
							
				 

							Python Pandas-比较2个数据框，多个参数
							
				 

							游标如何在Python的DB-API中工作？
							
				 

							N的总和列出按元素排列的python
							
				 

							Python中eval的替代方法