暑假在和导师研究White-Box Transformers via Sparse Rate Reduction 这篇论文,
七月份到现在过去已经一个月了,我一开始是深度学习基本不懂的,但是有一点python基础,照着论文复现了实验,但是准确率有差异。
导师给我指明说要发论文的核心点就在于提升这个模型的性能和精读。看这篇the state of art的论文我真的不知道怎么完成这个目的,所以想去看title那本书补基础,目前学到了丢弃法了。
但是我今天和我导师汇报的时候,他说我学这玩意儿没啥用,就是一个说明手册,说我学了跟我发论文也没啥关系。
可是我觉得基础真的很重要啊,没有了解一些基本的东西怎么研究最新的东西。我就有点憋屈但又只能认同。
他的想法是说我一个月过去了还没有特别大的改变,他的理解是这篇论文确实对我很难,直接读比较难,但是论文开源了代码,但是可以通过观察打印每一层输入图像的数组的变换作为突破口,然后研究他的loss。我觉得是可以接受的这样的想法,但是他说我读那本书没用真的对吗?没有基础直接上高层,我真的不太喜欢这样
这个其实看书意义不大,需要有好的数据集,没有好的数据集,复现效果都很差。书除了入门,帮助其实有限。
没基础后期是怎样的我告诉你,比如一个论文复现的步骤需要用到一个脚本,你可能会浪费一天的时间到某个代码步骤上面,而有基础的话分分钟搞定,有基础可以向下兼容,而没基础,需要用到的时候你只能临时去补而且学的又不系统,何不如花空余时间把基础打扎实
【以下回答由 GPT 生成】
回答:
根据您的问题,您希望从chatgpt得到一些关于研究论文复现实验的信息和建议。那么,首先我们来回答您的问题,是否读这本书真的没有用?我不认为读这本书没有用。尽管导师给出了这个观点,但是在研究最新技术时,了解基础知识是非常重要的。这些基础知识可以帮助您理解相关领域的概念、算法和方法,从而更深入地理解论文的内容和思路。同时,读这本书也有助于您了解更多的应用案例和最佳实践,帮助您更好地应用和实现论文中的方法。
关于是否可以直接从高层次开始学习而不需要基础知识,这是一个相对主观的问题,取决于您的学习风格和目标。对于某些人来说,从高层次开始学习可能更容易进入论文的内容,但对于理解细节和原理可能会有一些困难。而对于另一些人来说,先掌握基础知识再逐渐深入学习可能更有帮助,因为基础知识可以帮助您建立起一些直观的概念和推理框架。
针对您的论文复现实验的准确率问题,我可以提供一些可能的解决方案。
确认环境和数据:首先,确保您的实验环境和数据设置与论文中描述的一致。检查您使用的数据集、模型配置、训练参数等是否与论文中的设置相同。
模型实现:检查您实现的模型代码与论文中的模型描述是否一致。确保模型的结构和参数设置正确,并且正确地加载了预训练的权重(如果有的话)。
调试模型:观察模型的输入图像及其在每一层的数组变换,可以通过打印每一层的输入图像的数组变换来实现。这样可以帮助您理解模型的运算过程和数据变化,从而排查是否有错误或异常情况出现。
训练调优:如果发现模型准确率与论文中的结果仍有差异,可以考虑对模型进行调优。尝试不同的超参数设置、学习率调整策略、正则化方法等,以找到更好的模型性能。
模型评估:与论文中描述的评估指标和方法进行对照,确保您的评估过程与论文一致。同时,对于复现实验,您还可以尝试与论文作者进行交流,以获得更多关于实验细节和设置的信息。
综上所述,我给出了一些可能的解决方案,希望对您的问题有帮助。如果您需要进一步的帮助或有其他问题,请随时告诉我。