linux和windows下oepnmp嵌套并行的性能差距

在我的程序中，我使用了嵌套并行。
在windows系统上，使用微软公司的msvc编译器，我获得了较好的性能。
但是在linux上的gcc编译器下，嵌套并行似乎表现的比较差，相对windows来说完成时间差了40%左右。
我的服务器是两块物理cpu，48核96线程，外部我有6个并行的sections。
一个明显的表现是，在linux系统上，如果我在嵌套并行内部开启4个线程以上，系统性能就会急剧下降，
但是在windows上就不会这样。
Linux版本是3.10，centos7，gcc版本是4.8.1。
因此我怀疑是否是我的设置有问题，或者是gcc编译器与msvc编译器的差别，
或者是linux与windows系统的差别？

omp_set_dynamic(1);
omp_set_nested(1);
#pragma omp parallel sections
{
#pragma omp section
{
func()
}
#pragma omp section
{
func()
}
#pragma omp section
{
func()
}
#pragma omp section
{
func()
}
#pragma omp section
{
func()
}
#pragma omp section
{
func()
}

void func()
{
#pragma omp parallel for schedule(static) num_threads(4)
        for(int k=0;k<1280000000;k++)
        {
        }
}