自然语言处理-机器翻译-Transfoemers

使用Transformers微调机器翻译预训练模型
我的数据为两列["zh","en"]

在分词的时候，使用的语句是

def tokenize_function(examples):
   return tokenizer(examples["zh"],examples["en"] padding="max_length", truncation=True)

分词效果如下

已经存在input_ids
为什么最后调用traner.train()函数会报如下错误：
You have to specify either decoder_input_ids or decoder_inputs_embeds
麻烦大家帮帮忙

不知道你这个问题是否已经解决, 如果还没有解决的话:

以下回答来自chatgpt: 首先需要排查错误信息，看出现的具体错误是什么。然后根据错误信息进行调试和修改代码。如果提示是数据格式错误，可以通过以下方法解决： 1. 确认输入数据的格式是否正确。可以通过打印出数据的第一个样本来进行确认。如果数据格式不正确，可以对输入数据进行处理，将其转换为正确的格式。 2. 检查分词的方式是否正确，有时候分词的方式不正确会导致错误。可以通过打印出分词后的数据来检查分词的方式是否正确。 3. 如果数据已经存在input_ids，可以先将其删除，然后重新进行分词。可以使用以下代码： ``` del train_dataset['input_ids'] del eval_dataset['input_ids'] ``` 4. 如果问题依旧存在，可以考虑更换其他的数据集或者调整训练参数。以上是基本的解决方法，如果问题依旧存在可以提供更多的具体信息和错误提示，以便进行更加准确的调试和修改。

如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放在评论区, 以帮助更多的人 ^-^