将数据集划分训练集和验证集
dataset = load_dataset(rating_info, policy_info)
print("数据集总数量:", len(dataset))
trainset = dataset[:int(0.85*len(dataset))]
print("训练集数量:", len(trainset))
validset = dataset[int(0.85*len(dataset)):]
print("验证集数量:", len(validset))
输出:数据集总数量: 114
训练集数量: 96
验证集数量: 18
使用Dataset和DataLoader来构建数据的迭代器,Dataset包含针对单条数据的处理,DataLoader主要对Dataset的数据进行批次化
import numpy as np
from paddle.io import Dataset, DataLoader
class PolicyDataset(Dataset):
def __init__(self, dataset):
self.dataset = dataset
def __getitem__(self, idx):
# 数据转换成numpy的形式
pol_id = np.array(self.dataset[idx]['pol_info']['pol_id'])
title = np.array(self.dataset[idx]['pol_info']['title'])
category = np.array(self.dataset[idx]['pol_info']['category'])
score = np.array(self.dataset[idx]['scores'],dtype='int32')
return [pol_id, category, title], score
def __len__(self):
return len(self.dataset)
# 定义数据迭代Batch大小
BATCH_SIZE = 256
# 构建train_dataset
train_dataset = PolicyDataset(trainset)
# 构建训练集数据迭代器
train_loader = DataLoader(train_dataset,
batch_size=BATCH_SIZE,
shuffle=True)
print(train_dataset[0])
# 构建valid_dataset
valid_dataset = PolicyDataset(validset)
# 构建验证集数据迭代器
valid_loader = DataLoader(valid_dataset,
batch_size=BATCH_SIZE,
shuffle=False)
DataLoader数据迭代器的使用方式如下:
for idx, data in enumerate(train_loader):
pol_data, score = data
pol_id_arr, pol_cat_arr, pol_tit_arr = pol_data
print("政策ID数据尺寸", pol_id_arr.shape, ", 政策类别genres数据的尺寸", pol_cat_arr.shape, ", 政策名字title的尺寸", pol_tit_arr.shape)
break
输出:政策ID数据尺寸 [96] , 政策类别genres数据的尺寸 [96, 11] , 政策名字title的尺寸 [96, 96]
为什么输出的不是batchsize[256]而是trainset的数量[96]?
如何修改才能输出batchsize?
你用的命令好像不正确吧