论文中作为基准的模型实验结果与模型原论文的实验结果差距过大，为什么还能作为比较对象？

在19年的论文BERT4Rec: Sequential Recommendation with Bidirectional Encoder Representations from Transformer 中对数据集ML-1m，使用文章提出的模型，产生的评价指标HR@10为0.6970，NDGG@10为0.4818；而在21年的论文Lighter and Better: Low-Rank Decomposed Self-Attention Networks for Next-Item Recommendation 中，使用相同的数据集，使用上面论文的模型产生的数据评价指标得分为 HR@10 0.2199,NDGG@10 为0.1099；作者自己的模型的效果是HR@10为0.2256，NDGG@10为0.1132。
使用别人的模型作为基准来对比显示自己的模型，但是第二篇论文中使用第一篇模型产生的效果和原论文中差距如此之大，为什么能作为对比呢？这难道不应该是作者的代码复现有问题吗？作者提出的模型明显没有第一篇作者的效果好，这样的论文为什么能发出来呢？