解决 Spark OOM 有哪些基本思路?

具体问题是,我想统计hive表里所有文本里高频的字,

把每row的句子split后flatmap成每row一个字,之后groupby,最后每个group里统计高频的字,会OOM

https://guotong1988.blog.csdn.net/article/details/116168895

 

https://guotong1988.blog.csdn.net/article/details/116189487

不知道你数据量有多大?不过你可以调整下以下两个spark参数,估计会有用?

--num-executors 5   ##启动更多的executor来分散数据
--executor-memory 6G ## 调大单个executor所使用的内存限制