linux和windows下oepnmp嵌套并行的性能差距

在我的程序中,我使用了嵌套并行。
在windows系统上,使用微软公司的msvc编译器,我获得了较好的性能。
但是在linux上的gcc编译器下,嵌套并行似乎表现的比较差,相对windows来说完成时间差了40%左右。
我的服务器是两块物理cpu,48核96线程,外部我有6个并行的sections。
一个明显的表现是,在linux系统上,如果我在嵌套并行内部开启4个线程以上,系统性能就会急剧下降,
但是在windows上就不会这样。
Linux版本是3.10,centos7,gcc版本是4.8.1。
因此我怀疑是否是我的设置有问题,或者是gcc编译器与msvc编译器的差别,
或者是linux与windows系统的差别?

omp_set_dynamic(1);
omp_set_nested(1);
#pragma omp parallel sections
{
#pragma omp section
{
func()
}
#pragma omp section
{
func()
}
#pragma omp section
{
func()
}
#pragma omp section
{
func()
}
#pragma omp section
{
func()
}
#pragma omp section
{
func()
}

void func()
{
#pragma omp parallel for schedule(static) num_threads(4)
        for(int k=0;k<1280000000;k++)
        {
        }
}