【相关推荐】
实例操作,这里使用消费记录的数据进行展示
#首先准备数据,这里是截取csv文件汇总的部分数据
demo = {'Country': {0: 'France',1: 'Spain',2: 'Germany',3: 'Spain',4: 'Germany',5: 'France',6: 'Spain',7: 'France',8: 'Germany',9: 'France'},
'Age': {0: 44.0,1: 27.0,2: 30.0,3: 38.0,4: 40.0,5: 35.0,6: nan,7: 48.0,8: 50.0,9: 37.0},
'Salary': {0: 72000.0,1: 48000.0,2: 54000.0,3: 61000.0,4: nan,5: 58000.0,6: 52000.0,7: 79000.0,8: 83000.0,9: 67000.0},
'Purchased': {0: 'No',1: 'Yes',2: 'No',3: 'No',4: 'Yes',5: 'Yes',6: 'No',7: 'Yes',8: 'No',9: 'Yes'}}
#第一步:从模块中导入函数
from sklearn.impute import SimpleImputer
#第二步:填充的对象和填充的方式
imp_mean = SimpleImputer(missing_values = np.nan, strategy = 'mean')
#第三步:选取数据
X = data.iloc[:,:-1].values
y = data.iloc[:,-1].values #这里是标签的信息,本篇博客暂时用不到
imp_mean.fit(X[:,1:3])
#第四步:处理数据
X[:,1:3] = imp_mean.transform(X[:,1:3])
X
输出结果为:(Age和Salary两个字段的缺失数据就处理完毕了,也可以尝试选择不同的处理对象和处理方式)