from datasets import load_dataset
raw_datasets = load_dataset("glue", "sst2")
导入Glue的sst-2数据库,load函数有data_dir和cache_dir两个目录参数,一个数据目录一个缓存目录
当选择数据目录时会报错
raw_datasets = load_dataset("glue", "sst2",data_dir=".......")
Dataset Generation Error: An error occurred while generating the dataset
但是选择缓存目录就可以成功
raw_datasets = load_dataset("glue", "sst2",cache_dir=".......")
Downloading and preparing dataset glue/sst2 to ......
这是为什么
因为data_dir表示要使用的本地数据集所在的目录,参数data_files表示本地数据集文件,载入时会到data_dir里找data_files本地文件,没有找到会报错
data_dir参数缺省则默认从Hugging Face Hub下载数据集文件
你得py啥版本呀