q learning算法做路径规划一定能找到最优解吗？

我用q learning做路径规划，每次训练收敛的结果都不一样，感觉都不是最优解。q learning一定能找到最优解吗，如果不一定怎么评价训练结果的好坏呢？