(1)用pandas库读取bike_day.csv文件,查看前5行、后2行。
(2)选择 instant、dteday、atemp、casual、registered共5列数据,将缺失值全部丢奔处理,并将处理后结果导出到文本文件 bike_atemp_user.txt,要求数据之间用空格分隔,每行末尾包含换行符。
(3)读取文本文件 bike_atemp_user.txt, 计算列casual 与列 registered 和(即casual+registered),并作为一个新的列cnt添加到原始数据,导出到新的Excel 文件 bike atemp_user_cnt.xlsx中。
(4)读取 Excel 文件 bike_atemp_user_cnt.xlsx, 统计列atemp的最大值 maxValue、最小值 minValue、平均值 meanValue。利用 category=[minValue,0.4,0.6,0.8,maxValue] 和 labels=['Cold', 'Cóol', 'Warm', 'Hot]将 atemp 进行离散化;并将离散化结果作为一个新的列Label添加到原始数据集,并保存为bike_atemp_user_cnt result.csv。
(5)读取 bike_atemp_user_cnt result.csv,按照列Lable分组,计算列cnt的均值,并以柱状图可视化显示该均值。要求以列Lable为x轴,轴刻度分别为Cold、Cool、Warm、Hot,包括图例、图标题,填充颜色为蓝色,并保存为bike_atemp_user_cnt.png,要求分辨率不低于300dpi。