为什么规约算法在GPU并行运算的耗时要慢于CPU串行运算结果?

最近在研究OpenCL 的Reduction操作和barrier,简单的来说就是规约算法和组间同步吧
测试了一下典型的规约算法,大数组数组求大数组找最大值
测试结果发现GPU运算的结果要慢于CPU!
由于刚接触,学习接触了才几周?不是很懂?
有没有朋友解释一下?

img

img