处理字符串时常用整型数值代替字符串 或者 进行独热编码,请问两种方法分别在什么情况下适用?

就比如说这样的数据集做预测,Category那一列怎么处理比较合适?还有Category和Genres两列比较相似,如何处理比较妥当?(整个数据集共一万多条)

还有Content Rating那一列,其中大部分都是everyone,但是也有一些别的像少数民族那样出现,那么对于这样特征的数据怎么处理比较合适呢?

这种直接使用类别的index编码,在分类的时候直接转换成one hot后经过交叉熵计算loss反向传播就行了。如有帮助请采纳

您好,我是有问必答小助手,您的问题已经有小伙伴解答了,您看下是否解决,可以追评进行沟通哦~

如果有您比较满意的答案 / 帮您提供解决思路的答案,可以点击【采纳】按钮,给回答的小伙伴一些鼓励哦~~

ps:问答VIP仅需29元,即可享受5次/月 有问必答服务,了解详情>>>https://vip.csdn.net/askvip?utm_source=1146287632