遥感图像-文本跨模态检索

这是一个关于遥感图像-文本跨模态检索的问题，根据下面这个

我想要实现RSICD数据集的训练，但是不是很理解思路

（我如何利用预训练的结果？我怎么生成最后的检索实验结果？）

下面就是RSICD数据集的实例化过程：

Lu等人在“探索遥感图像配图生成的模型和数据”中提出的RSICD数据集是一个图像配图数据集，使用谷歌Earth、百度Map、MapABC和天图提取10,921张224x224 RGB图像，每张图像5个句子。虽然该数据集是较大的遥感图像字幕数据集之一，但该数据集包含非常重复的语言，细节很少，而且许多字幕是重复的。
数据集可以使用scripts/download_rsicd.sh下载(0.57GB)，并实例化如下:

import torchvision.transforms as T
from torchrs.datasets import RSICD

transform = T.Compose([T.ToTensor()])

dataset = RSICD(
    root="path/to/dataset/",
    split="train",  # or 'val', 'test'
    transform=transform
)

x = dataset[0]
"""
x: dict(
    x:        (3, 224, 224)
    captions: List[str]
)
"""

最终应该是得到下面这种结果：