先爬虫然后又数据清洗建表格

通过requests技术在一个网站里面获取数据,包括使用openpyxl第三方库创建一个excel表格并把获取后的数据需存放在excel表格里通过pandas技术把获取后的数据清洗一遍,数据清洗后不能存在缺失值、重复值,清洗后的数据需存放在一个新建的excel表格里

参考gpt:
下面是一个使用requests、openpyxl和pandas库来获取数据、创建并清洗Excel表格的示例代码:

import requests
import openpyxl
import pandas as pd

# 发送请求获取数据
response = requests.get('https://example.com/data')  # 替换为你要获取数据的网址
data = response.json()  # 假设返回的数据为 JSON 格式

# 创建新的Excel工作簿
workbook = openpyxl.Workbook()
worksheet = workbook.active

# 将数据写入Excel表格
for row, item in enumerate(data, start=1):
    worksheet.cell(row=row, column=1, value=item['field1'])
    worksheet.cell(row=row, column=2, value=item['field2'])
    # 添加其他字段

# 保存Excel文件
workbook.save('original_data.xlsx')

# 使用pandas读取数据并进行清洗
df = pd.read_excel('original_data.xlsx')

# 清洗数据
df = df.dropna()  # 删除包含缺失值的行
df = df.drop_duplicates()  # 删除重复行

# 创建新的Excel工作簿用于存放清洗后的数据
clean_workbook = openpyxl.Workbook()
clean_worksheet = clean_workbook.active

# 将清洗后的数据写入Excel表格
for row, values in enumerate(df.values, start=1):
    for col, value in enumerate(values, start=1):
        clean_worksheet.cell(row=row, column=col, value=value)

# 保存清洗后的Excel文件
clean_workbook.save('cleaned_data.xlsx')