faster rcnn提高训练速度

我用的抓取检测模型里面用到了fastrcnn 结合vmrd和抓取检测，训练vmrd数据集。但训练过程很慢，增大batch_size训练速度也没有提高多少。

这个图是我的训练过程，感觉训练完需要一天，实在太慢

这张图是训练用到的显存，用的GPU1，24446的显存只用了9232
应该修改哪些参数提高训练速度呢？想尽可能的提高显存的利用率

数据存储优化：S3（读取http）、直接到内存
数据处理欧化：dali/ffcv
模型优化：全部上gpu，用空间换时间。也可以考虑DDP多卡训练。
可能有效：opencv线程、并行线程等设置
anchor部分优化：比如for改为维度计算，可以参考yolov5
。。。
看你这张图gpu利用率那么低，大概率卡在CPU阶段了。如果没有额外的卡，先提高gpu利用率吧。
...