CPU加载模型与GPU加载模型结果不同

对于同一个网络结构，使用相同的输入，相同的网络权值，网络在CPU模式和GPU模式下的输出会有比较大的差异。
举个栗子：用CPU加载的模型进行实体识别可以发现三个正确的实体，而GPU加载的模型仅仅发现了一个实体还是错误的
在搜索后发现有猜测可能是：浮点数自身的不准确性或CPU和GPU计算架构不同，但是他两个方式的结果差异不大，而我的结果差异较大，特此请教

对比加载进CPU和GPU的参数
对比每一层的输出
主要是看看参数读取问题还是模型前向传播问题