之前总结的数据预处理方法:
https://blog.csdn.net/qq_43012160/article/details/98462307显然这次的特征是有缺失值的,读入数据集,看一下训练集和测试集的长度及各特征的缺失情况:
#看一下训练集和测试集的各特征的缺失情况:
for column in test_data.columns:
print(column,':',train_data[column].count()/len(train_data),' ',train_data[column].count())
print(column,':',test_data[column].count()/len(test_data),' ',test_data[column].count())
发现最后有一个空白的特征列,多半是数据集存储的时候格式出了问题,把数据集的目录打出来看一下,果然,换行符\r被当作一个单独的列读了进来,后面要删掉: