openmp对for循环的优化反而导致运算时间变长，是怎么回事呢


#include<iostream>
#include"omp.h"
#define numbs 10000
using namespace std;
int main()
{
    int i,j,a[numbs]={0},k=1,b[numbs];
    double start, finish;
omp_set_num_threads(16);
omp_set_dynamic(0);
#pragma omp parallel for private(i) shared(a,b)
for (i = 0; i < numbs; i++)
        {
            b[i] = i;
        }
start = omp_get_wtime();

#pragma omp parallel for  shared(a) private(i,j) collapse(2) 
    for (j = 1; j < numbs; j++)
    {
        for (i = j; i >= 0; i--)
        {
            a[j] += k * b[i];
            k = -k;
        }
        k = 1;
    }
finish = omp_get_wtime();
for (i = 0; i < 10; i++)
        {
            cout << a[i] << endl;

        }
    
    cout << finish-start<<endl ;
}

表示不明白原因

1、对人来说 10000 比较大了，但对现在的cpu来说，计算量太小，omp的开销比任务本身还大。
2、把任务量换到10亿，同时计算中加入一些三角函数，再看看结果
3、第二个并行域中的任务是三角计算。因为使用了collapse（2），我不确定omp能否正确或高效地处理这类循环.