pyspark读取文件时报这个错误,网上找了好多都没有妥善解决,给支个招,感谢
试试这样搞
根据你提供的错误信息,可能是因为你的pyspark代码中使用了Hadoop的API,但是缺少了Hadoop的配置文件。你可以尝试在代码中添加如下的配置代码:
from pyspark import SparkConf, SparkContext
conf = SparkConf().setAppName("appName").setMaster("local")
conf.set("spark.hadoop.fs.defaultFS", "hdfs://localhost:9000")
sc = SparkContext(conf=conf)
其中,spark.hadoop.fs.defaultFS的值应该是你的Hadoop的namenode的地址和端口号。如果你的Hadoop是在本地运行的,那么地址应该是hdfs://localhost:9000。如果你的Hadoop是在集群中运行的,那么地址应该是你的namenode的地址和端口号。