q learning算法做路径规划一定能找到最优解吗?

我用q learning做路径规划,每次训练收敛的结果都不一样,感觉都不是最优解。q learning一定能找到最优解吗,如果不一定怎么评价训练结果的好坏呢?