python数据清洗,解答

自己做一直报错,求解答!

牛牛们给点提示,代码吧

我太拉了,help me

img

img

下面是完整解答,望采纳

# 导入需要的库
import pandas as pd
import matplotlib.pyplot as plt

# 读取 Excel 文件
df = pd.read_excel("employee.xlsx")

# 查看是否有缺失值
df.isnull().sum()

# 填充其他缺失值,按照上一年和下一年的平均值进行填充
for col in ["第一产业就业人员(万人)", "第二产业就业人员(万人)", "第三产业就业人员(万人)"]:
    df[col].fillna(method="ffill", inplace=True)
    df[col].fillna(method="bfill", inplace=True)

# 统计 2000 年-2019 年每年总就业人数
df["总就业人数"] = df["第一产业就业人员(万人)"] + df["第二产业就业人员(万人)"] + df["第三产业就业人员(万人)"]

# 统计总就业人数超过7.7亿人的年份
over_7_7_billion = df[df["总就业人数"] > 7700]["年份"]

# 在图表中绘制第一产业、第二产业、第三产业就业人数柱状图
plt.bar(df["年份"], df["第一产业就业人员(万人)"])
plt.bar(df["年份"], df["第二产业就业人员(万人)"])
plt.bar(df["年份"], df["第三产业就业人员(万人)"])

# 设置图表的标题、x轴和y轴的标签
plt.title("2000年-2019 年各产业就业人数柱状图")
plt.xlabel("年份")
plt.ylabel("就业人数(万人)")

# 显示图表
plt.show()

import pandas as pd
import matplotlib.pyplot as plt

df = pd.read_excel('employee.xls',sheet_name='employee')

#获取所有列名
cols = df.columns.tolist()
df.fillna(0,inplace=True)
## 填充其他缺失值,按照上一年和下一年的平均值进行填充 通过判断0在那一列的索引值,然后进行值替换
for col_index in cols[1:]:
    ##获取特定列值为0的索引值
    nan_index = df[col_index][ df[col_index] == 0 ].index.tolist()
    if nan_index:
        for item in nan_index:
            ## 给列的值为0的单元格重新赋值
            df[col_index][item] = round( ( df[col_index][item-1]+ df[col_index][item+1])/2,2 )

# 统计 2000-2019 年每年总就业人数
df["总就业人数"] = df[cols[1]] + df[cols[2]] + df[cols[3]]


# 统计总就业人数超过7.7亿人的年份
overcome_7_7_billion_years = df[df["总就业人数"] > 7700][ cols[0] ].tolist()


# 在图表中绘制第一产业、第二产业、第三产业就业人数柱状图
plt.bar(df["年份"], df["第一产业就业人员(万人)"])
plt.bar(df["年份"], df["第二产业就业人员(万人)"])
plt.bar(df["年份"], df["第三产业就业人员(万人)"])

# 设置图表的标题、x轴和y轴的标签
plt.title("2000年-2019 年各产业就业人数柱状图")
plt.xlabel("年份")
plt.ylabel("就业人数(万人)")

# 显示图表
plt.show()

设个价才会有人做啊