Python、SparkConf、SparkContext

使用Python，初始化一个pyspark，但是找第五行报错，提示系统找不到指定的文件

【相关推荐】

这篇文章讲的很详细，请看：Spark笔记（pyspark）
您还可以看一下徐培成老师的大数据课程30天掌握 spark内存计算（python ）课程中的 Python-01.python简介小节, 巩固相关知识点

除此之外, 这篇博客: PySpark教程中的 SparkContext示例 - Python程序 部分也许能够解决你的问题, 你可以仔细阅读以下内容或跳转源博客中阅读:

让我们使用Python程序运行相同的示例。创建一个名为 firstapp.py 的Python文件，并在该文件中输入以下代码。

----------------------------------------firstapp.py---------------------------------------
from pyspark import SparkContext
logFile = "file:///home/hadoop/spark-2.1.0-bin-hadoop2.7/README.md"  
sc = SparkContext("local", "first app")
logData = sc.textFile(logFile).cache()
numAs = logData.filter(lambda s: 'a' in s).count()
numBs = logData.filter(lambda s: 'b' in s).count()
print "Lines with a: %i, lines with b: %i" % (numAs, numBs)
----------------------------------------firstapp.py---------------------------------------

然后我们将在终端中执行以下命令来运行此Python文件。我们将得到与上面相同的输出。

$SPARK_HOME/bin/spark-submit firstapp.py
Output: Lines with a: 62, lines with b: 30

如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放在评论区, 以帮助更多的人 ^-^