用pandas操作excel做以下操作
1.添加标题行,2.添加时间,单位:万元 ,3.合计标色,4.添加备注,5.修改excel文件名添加后缀时间
以使用模块xlwings
其实从统计学的角度来说,这一步之前应该是数据清洗,处理掉空值和异常值,这里暂时不做说明。
Pandas对数据的统计处理,主要使用 groupby 函数,熟悉sql的朋友应该不会陌生,也就是分组统计。
import pandas as pd
import matplotlib.pyplot as plt
data = pd.read_excel('E:/data/myfile/商品销售信息表.xlsx',encoding='windows-1252',
sheetname=None,
header=1,
skip_footer=1
)
df_all = pd.concat([data['商品销售信息表0714'],data['商品销售信息表0715']],axis=0)
df_type = df_all.groupby(['商品名','价格']).sum()
df_result = df_type.reset_index()
groupby 会把所有的数字列全部汇总,如需过滤,可使用 df_result [{‘商品名’,’价格’,‘数量’,‘总价’}] 进行过滤
按照 商品-价格 分类汇总,这里调用 reset_index() 方法,让结果看起来更直接一些。
生成excel:
df_result.to_excel('E:/dat/myfile/分类统计各类型商品销售额.xlsx')