https://github.com/isaaccorley/torchrs
(我如何利用预训练的结果?我怎么生成最后的检索实验结果?)
Lu等人在“探索遥感图像配图生成的模型和数据”中提出的RSICD数据集是一个图像配图数据集,使用谷歌Earth、百度Map、MapABC和天图提取10,921张224x224 RGB图像,每张图像5个句子。虽然该数据集是较大的遥感图像字幕数据集之一,但该数据集包含非常重复的语言,细节很少,而且许多字幕是重复的。
数据集可以使用scripts/download_rsicd.sh下载(0.57GB),并实例化如下:
import torchvision.transforms as T
from torchrs.datasets import RSICD
transform = T.Compose([T.ToTensor()])
dataset = RSICD(
root="path/to/dataset/",
split="train", # or 'val', 'test'
transform=transform
)
x = dataset[0]
"""
x: dict(
x: (3, 224, 224)
captions: List[str]
)
"""
最终应该是得到下面这种结果: