1、掌握数据的载入方法;
2、掌握检测与处理缺失值的方法;
3、掌握检测与处理异常值的方法;
import pandas as pd
import numpy as np
fdata=pd.read_excel("tips_mod.xls")
print(fdata.head())
#1)查看数据的描述信息:
#数据规格大小
print(fdata.shape)
# 描述信息
fdata.describe()
#2)显示用餐时间段time的不重复值
fdata['聚餐时间段'].unique()
#3)修改拼写错误的字段值:
fdata.loc[fdata['聚餐时间段']=='Diner','聚餐时间段']='Dinner'
fdata.loc[fdata['聚餐时间段']=='Dier','聚餐时间段']='Dinner'
fdata['聚餐时间段'].unique()
#4)检测数据中的缺失值:
fdata.isnull().sum()
#5)删除一行内至少有两个缺失值的数据:
fdata.dropna(thresh=6,inplace=True)
fdata.isnull().sum()
#6)删除性别或者聚餐时间为空的行
fdata.dropna(subset=['性别','聚餐时间段'],inplace=True)
fdata.isnull().sum()
#7)对剩余空缺的数据用平均值替代
fdata.fillna(fdata.mean(),inplace=True)
fdata.isnull().sum()
若上述6)中语句改为:
fdata.dropna(subset=['聚餐时间段'],inplace=True)
fdata.isnull().sum()
使用7)中语句能否完全消除缺失值,为什么?此时如何消除缺失值?
我感觉可以完全消除