数据预处理与数据清洗

读取数据
import pandas as pd
df = pd.read_csv("./SalesData.csv") # 这里填入数据集路径
df = df.sample(n = 500,random_state=x) # random_state 为随机数种子,x填入学号后三位。
df.to_csv("./数据集.csv", encoding="utf_8_sig") # 修改后的数据集将被保存在与此python文件相同的路径下。
数据集修改完成后请重新读取新的数据集(# 后为注释,可删除)

  1. 缺失数据处理
    针对所有数值变量找出缺失值”NA“,用每个数值变量的众数替换缺少的值。
  2. 图形法检测异常值
    在执行第二部分操作前,请删除所有缺少数据的行,并将新数据集命名为S1。

为每个数值变量绘制柱状图,哪些变量显示存在异常值?

  1. 数值法检测异常值

使用IQR方法识别所有数值变量的异常值。

  1. 变量操作
    在执行第三部分操作前,删除包含异常值的行以获取数据表,并将新数据集命名为S1。

找出明显不是正态分布的数值变量。

  1. 中心与离散程度度量

求出所有数值变量的中位数。

  1. 数据转换
    利用输出的特征值计算原数据中’ Sales ’变量的偏度。