具体问题是,我想统计hive表里所有文本里高频的字,
把每row的句子split后flatmap成每row一个字,之后groupby,最后每个group里统计高频的字,会OOM
https://guotong1988.blog.csdn.net/article/details/116168895
https://guotong1988.blog.csdn.net/article/details/116189487
不知道你数据量有多大?不过你可以调整下以下两个spark参数,估计会有用?
--num-executors 5 ##启动更多的executor来分散数据
--executor-memory 6G ## 调大单个executor所使用的内存限制