分析lending club数据的时候有这样一类数据,比如 ‘距离最后一次违约的月数’ ,有的人没有违约记录在这列就是缺失值,不能简单的用平均值、众数或什么算法拟合填充,更不能简单删除。对于这样的有实际意义的缺失值应该如何处理呢?
我的一个想法是用一列对是否有违约记录进行编码,然后有违约记录的进行one-hot编码。不知道这样是不是可行。
缺失值的处理都不能用,那么只能用自己的逻辑去处理了,只要数据处理和程序运行结果符合你的要求即可,一般而言,数据质量太差,即使模型再好,最终结果还是强差人意。
分析lending club数据用的python