Python、SparkConf、SparkContext

使用Python,初始化一个pyspark,但是找第五行报错,提示系统找不到指定的文件

img

img

【相关推荐】



  • 这篇文章讲的很详细,请看:Spark笔记(pyspark)
  • 您还可以看一下 徐培成老师的大数据课程30天掌握 spark内存计算(python )课程中的 Python-01.python简介小节, 巩固相关知识点
  • 除此之外, 这篇博客: PySpark教程中的 SparkContext示例 - Python程序 部分也许能够解决你的问题, 你可以仔细阅读以下内容或跳转源博客中阅读:

    让我们使用Python程序运行相同的示例。创建一个名为 firstapp.py 的Python文件,并在该文件中输入以下代码。

    ----------------------------------------firstapp.py---------------------------------------
    from pyspark import SparkContext
    logFile = "file:///home/hadoop/spark-2.1.0-bin-hadoop2.7/README.md"  
    sc = SparkContext("local", "first app")
    logData = sc.textFile(logFile).cache()
    numAs = logData.filter(lambda s: 'a' in s).count()
    numBs = logData.filter(lambda s: 'b' in s).count()
    print "Lines with a: %i, lines with b: %i" % (numAs, numBs)
    ----------------------------------------firstapp.py---------------------------------------
    

    然后我们将在终端中执行以下命令来运行此Python文件。我们将得到与上面相同的输出。

    $SPARK_HOME/bin/spark-submit firstapp.py
    Output: Lines with a: 62, lines with b: 30
    

如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放在评论区, 以帮助更多的人 ^-^