【CUDA】救救孩子吧!GPU运算【突然】没有CPU快了?

本人初学CUDA编程,使用WIN10+CUDA10.0+VS2017。在网上找了矩阵相乘和向量内积的程序,自己也编了一些。今天突然发现GPU运算的结果要比CPU慢了。以前没有这种情况,GPU会比CPU快,加速比9+,现在只有1e-2了。。不知道怎么回事,求大神解答!!

附上运行结果以及Nsight查看运行的时间线:
图片说明

图片说明

https://www.cnblogs.com/cation/p/11307800.html