使用Transformers微调机器翻译预训练模型
我的数据为两列["zh","en"]

在分词的时候,使用的语句是
def tokenize_function(examples):
return tokenizer(examples["zh"],examples["en"] padding="max_length", truncation=True)
分词效果如下

已经存在input_ids
为什么最后调用traner.train()函数会报如下错误:
You have to specify either decoder_input_ids or decoder_inputs_embeds
麻烦大家帮帮忙
不知道你这个问题是否已经解决, 如果还没有解决的话:
- 以下回答来自chatgpt: 首先需要排查错误信息,看出现的具体错误是什么。然后根据错误信息进行调试和修改代码。如果提示是数据格式错误,可以通过以下方法解决: 1. 确认输入数据的格式是否正确。可以通过打印出数据的第一个样本来进行确认。如果数据格式不正确,可以对输入数据进行处理,将其转换为正确的格式。 2. 检查分词的方式是否正确,有时候分词的方式不正确会导致错误。可以通过打印出分词后的数据来检查分词的方式是否正确。 3. 如果数据已经存在input_ids,可以先将其删除,然后重新进行分词。可以使用以下代码: ``` del train_dataset['input_ids'] del eval_dataset['input_ids'] ``` 4. 如果问题依旧存在,可以考虑更换其他的数据集或者调整训练参数。 以上是基本的解决方法,如果问题依旧存在可以提供更多的具体信息和错误提示,以便进行更加准确的调试和修改。
如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放在评论区, 以帮助更多的人 ^-^