问下有人知道和BERT论文用的一模一样的预训练源数据从哪找吗
貌似需要自己爬 Wikipedia + bookcorpus ,一些参考:
https://github.com/NVIDIA/DeepLearningExamples/blob/master/PyTorch/LanguageModeling/BERT/data/create_datasets_from_start.sh