Spark 第二次 RDD作业

Spark 第二次

RDD作业

将发的chinese_year文件上传到HDFS上。该文件含有1248条数据,包含年份、节目类型、节目名称、节目参演演员四列数据,记录了从1983-2019年每年春节晚会的节目中。

1.统计各个类型节目的数量,打印出前10名。

2.统计每年各类节目的数量,打印(节目名称、数量、年份)。要求首先按照节目名称升序排序,节目名称相同时其次按照年份升序排序。

chinese_year文件链接: https://pan.baidu.com/s/1eQnYO9PsHU_-85M2y0EoaA 提取码: k4qn 

不知道你这个问题是否已经解决, 如果还没有解决的话:
  • 给你找了一篇非常好的博客,你可以看看是否有帮助,链接:spark-rdd

如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 以帮助更多的人 ^-^