小费数据集预处理——求思考题

实验目的

1、掌握数据的载入方法；
2、掌握检测与处理缺失值的方法；
3、掌握检测与处理异常值的方法；

1、导入模块：

import pandas as pd
import numpy as np

2、获取数据：

fdata=pd.read_excel("tips_mod.xls")
print(fdata.head())

3、分析数据：

#1）查看数据的描述信息：
#数据规格大小
print(fdata.shape)
# 描述信息
fdata.describe()
#2）显示用餐时间段time的不重复值
fdata['聚餐时间段'].unique()
#3）修改拼写错误的字段值：
fdata.loc[fdata['聚餐时间段']=='Diner','聚餐时间段']='Dinner'
fdata.loc[fdata['聚餐时间段']=='Dier','聚餐时间段']='Dinner'
fdata['聚餐时间段'].unique()
#4）检测数据中的缺失值：
 fdata.isnull().sum()
#5）删除一行内至少有两个缺失值的数据：
fdata.dropna(thresh=6,inplace=True)
fdata.isnull().sum()
#6）删除性别或者聚餐时间为空的行
fdata.dropna(subset=['性别','聚餐时间段'],inplace=True)
fdata.isnull().sum()
#7）对剩余空缺的数据用平均值替代
fdata.fillna(fdata.mean(),inplace=True)
fdata.isnull().sum()

思考题

若上述6）中语句改为：

fdata.dropna(subset=['聚餐时间段'],inplace=True)
fdata.isnull().sum()

使用7）中语句能否完全消除缺失值，为什么？此时如何消除缺失值？

我感觉可以完全消除