数据预处理与数据清洗

读取数据
import pandas as pd
df = pd.read_csv("./SalesData.csv") # 这里填入数据集路径
df = df.sample(n = 500,random_state=x) # random_state 为随机数种子，x填入学号后三位。
df.to_csv("./数据集.csv", encoding="utf_8_sig") # 修改后的数据集将被保存在与此python文件相同的路径下。
数据集修改完成后请重新读取新的数据集（# 后为注释，可删除）

缺失数据处理
针对所有数值变量找出缺失值”NA“,用每个数值变量的众数替换缺少的值。
图形法检测异常值
在执行第二部分操作前，请删除所有缺少数据的行，并将新数据集命名为S1。

为每个数值变量绘制柱状图，哪些变量显示存在异常值？

数值法检测异常值

使用IQR方法识别所有数值变量的异常值。

变量操作
在执行第三部分操作前，删除包含异常值的行以获取数据表,并将新数据集命名为S1。

找出明显不是正态分布的数值变量。

中心与离散程度度量

求出所有数值变量的中位数。

数据转换
利用输出的特征值计算原数据中’ Sales ’变量的偏度。