大量单条数据使用spark效率高吗？

比如我有 1亿条汉字句子，需要生成哈希码，但是这些句子不能组成list，只能单条一条一条的生成哈希码，这样使用spark，会提升效率吗？这种应用场景，应该怎么使用spark？

确认几个事情：
1）数据在哪 spark能不能分布式访问比如HDFS 就OK
2）你的spark集群有多大如果只有一两个节点其实和跑多个线程并行计算没多大区别
3）不理解只能单条生成的含义 spark DataFrame 本来就是面向Row的生成哈希吗 map 一下就完了可以写回HDFS