解决 Spark OOM 有哪些基本思路？

具体问题是，我想统计hive表里所有文本里高频的字，

把每row的句子split后flatmap成每row一个字，之后groupby，最后每个group里统计高频的字，会OOM

不知道你数据量有多大？不过你可以调整下以下两个spark参数，估计会有用？

--num-executors 5   ##启动更多的executor来分散数据
--executor-memory 6G ## 调大单个executor所使用的内存限制