请问一下,文本处理的时候,测试集出现训练集没有的标签,该怎么处理数据才合理?(我现在是在把标签二值化的时候,测试集和训练集的标签合并后一起放进去fit了,我这样子这样合理吗?)
主要还是要看需求,才能判断这类数据是否有用,如果需求指定有这个类别,那就要合并,如果没有去掉也是没问题的。
同时考虑到另一种情况,这类数据就是用来评判分类器在开放领域的能力,就是故意放一些没有训练过的类别数据去测试,看看分类器给出的结果,考验分类器是否能拒绝分类。实际应用中,分类器一般都是要考虑开放领域的识别能力,即并不是任何输入都要返回结果。