我在用决策树算法训练模型时,有些特征列属于中文列,这些列能怎么处理吗?麻烦懂的大佬解答一下!!
理论上是不是中文应该不影响决策树生长?是出现了什么错误么?如果是有限个中文选项可以直接用字符串判断相等去生长子节点?
使用决策树,可以用先进行分箱操作(一般卡方分箱用得较多),然后再用WOE encoding编码处理一下,然后训练模型,效果会更好.不过还是建议用集成学习算法,模型效果会进一步得到优化.