遥感图像-文本跨模态检索

这是一个关于遥感图像-文本跨模态检索的问题,根据下面这个

https://github.com/isaaccorley/torchrs

我想要实现RSICD数据集的训练,但是不是很理解思路

(我如何利用预训练的结果?我怎么生成最后的检索实验结果?)

下面就是RSICD数据集的实例化过程:

img

Lu等人在“探索遥感图像配图生成的模型和数据”中提出的RSICD数据集是一个图像配图数据集,使用谷歌Earth、百度Map、MapABC和天图提取10,921张224x224 RGB图像,每张图像5个句子。虽然该数据集是较大的遥感图像字幕数据集之一,但该数据集包含非常重复的语言,细节很少,而且许多字幕是重复的。
数据集可以使用scripts/download_rsicd.sh下载(0.57GB),并实例化如下:

import torchvision.transforms as T
from torchrs.datasets import RSICD

transform = T.Compose([T.ToTensor()])

dataset = RSICD(
    root="path/to/dataset/",
    split="train",  # or 'val', 'test'
    transform=transform
)

x = dataset[0]
"""
x: dict(
    x:        (3, 224, 224)
    captions: List[str]
)
"""

最终应该是得到下面这种结果:

img