CPU加载模型与GPU加载模型结果不同

对于同一个网络结构,使用相同的输入,相同的网络权值,网络在CPU模式和GPU模式下的输出会有比较大的差异。
举个栗子:用CPU加载的模型进行实体识别可以发现三个正确的实体,而GPU加载的模型仅仅发现了一个实体还是错误的
在搜索后发现有猜测可能是:浮点数自身的不准确性或CPU和GPU计算架构不同,但是他两个方式的结果差异不大,而我的结果差异较大,特此请教

  1. 对比加载进CPU和GPU的参数
  2. 对比每一层的输出
  3. 主要是看看参数读取问题还是模型前向传播问题