通过requests技术在一个网站里面获取数据,包括使用openpyxl第三方库创建一个excel表格并把获取后的数据需存放在excel表格里通过pandas技术把获取后的数据清洗一遍,数据清洗后不能存在缺失值、重复值,清洗后的数据需存放在一个新建的excel表格里
参考gpt:
下面是一个使用requests、openpyxl和pandas库来获取数据、创建并清洗Excel表格的示例代码:
import requests
import openpyxl
import pandas as pd
# 发送请求获取数据
response = requests.get('https://example.com/data') # 替换为你要获取数据的网址
data = response.json() # 假设返回的数据为 JSON 格式
# 创建新的Excel工作簿
workbook = openpyxl.Workbook()
worksheet = workbook.active
# 将数据写入Excel表格
for row, item in enumerate(data, start=1):
worksheet.cell(row=row, column=1, value=item['field1'])
worksheet.cell(row=row, column=2, value=item['field2'])
# 添加其他字段
# 保存Excel文件
workbook.save('original_data.xlsx')
# 使用pandas读取数据并进行清洗
df = pd.read_excel('original_data.xlsx')
# 清洗数据
df = df.dropna() # 删除包含缺失值的行
df = df.drop_duplicates() # 删除重复行
# 创建新的Excel工作簿用于存放清洗后的数据
clean_workbook = openpyxl.Workbook()
clean_worksheet = clean_workbook.active
# 将清洗后的数据写入Excel表格
for row, values in enumerate(df.values, start=1):
for col, value in enumerate(values, start=1):
clean_worksheet.cell(row=row, column=col, value=value)
# 保存清洗后的Excel文件
clean_workbook.save('cleaned_data.xlsx')