这样读文件后,第一行存在,如果不读取第一行,该如何写?
跳过第一行:
lines = sc.textFile('path_to_data')
header = lines.first()
lines = lines.filter(row => row != header)
楼上的做法有问题。如果文件内容中某一行的内容和第一行内容相同,也会被过滤掉。
看楼主的意思,应该是想过滤csv的第一行,也就是字段名那行。
如果是这样的话,spark提供了解决方案:spark.read.format("csv").option("header","true").csv(path-to-file)
楼上07.14的说法也是错误的,option(“header”,true)只是告诉Spark:我的文件有header,你不用提供你的列名:_c0,_c1等
而并不是跳过,大家可以show以下试试,设置之后也是有自己的csv文件中的header的。