python 做CSV 批量数据分析处理

一个文件夹里有很多csv文件，每一个里面有四列数据，希望批量将每一个文件的第四列取出来，输出到一个excel文件里，表头是该csv文件的名称，仅此而已，望大神速回复

参考GPT和自己的思路，你可以使用 Python 的 pandas 库来处理这个任务。下面是一个基本的代码框架，它遍历一个文件夹中的所有 CSV 文件，并将每个文件的第四列数据提取到一个新的 Excel 文件中，文件名为原始 CSV 文件的名称。

import os
import pandas as pd

# 定义输入和输出文件夹
input_folder = 'path/to/csv/folder'
output_file = 'path/to/output/excel/file.xlsx'

# 初始化结果 DataFrame
result_df = pd.DataFrame(columns=['file_name', 'column_4_data'])

# 遍历 CSV 文件
for file_name in os.listdir(input_folder):
    if file_name.endswith('.csv'):
        # 读取 CSV 文件
        file_path = os.path.join(input_folder, file_name)
        df = pd.read_csv(file_path, usecols=[3])
        
        # 将结果添加到结果 DataFrame 中
        column_4_data = df.iloc[:, 0].values
        result_df = result_df.append({'file_name': file_name, 'column_4_data': column_4_data}, ignore_index=True)

# 将结果保存到 Excel 文件中
result_df.to_excel(output_file, index=False)

在上面的代码中，input_folder 是存储 CSV 文件的文件夹路径，output_file 是要生成的 Excel 文件的路径。代码使用 os.listdir 函数遍历输入文件夹中的所有文件，然后使用 pandas 库的 read_csv 函数读取每个 CSV 文件的第四列数据。最后，代码将每个文件的第四列数据添加到结果 DataFrame 中，并使用 to_excel 函数将结果保存到 Excel 文件中。

请注意，上述代码仅提供了一个基本的框架，你可能需要根据你的具体需求进行更改。例如，你可能需要处理文件中的缺失值，或者需要根据其他列进行分组或筛选。你可以使用 pandas 库的其他函数来实现这些需求。

该回答引用ChatGPT

您可以使用Python中的pandas和os模块来实现这个功能。下面是一个可能的解决方案：



import pandas as pd
import os

# 设置csv文件夹路径
csv_folder = 'your_folder_path'

# 用来存储所有csv文件的DataFrame
data_frames = {}

# 遍历csv文件夹中的所有文件
for file in os.listdir(csv_folder):
    # 确认文件是csv文件
    if file.endswith('.csv'):
        # 读取csv文件并存储第四列到DataFrame
        df = pd.read_csv(os.path.join(csv_folder, file), usecols=[3])
        # 将DataFrame存储到字典中，以csv文件名为key
        data_frames[file] = df

# 创建Excel文件并将每个DataFrame写入单独的sheet
with pd.ExcelWriter('output.xlsx') as writer:
    for file, df in data_frames.items():
        sheet_name = file.replace('.csv', '') # sheet名为csv文件名（去除后缀）
        df.to_excel(writer, sheet_name=sheet_name, index=False) # 写入Excel文件，不包括index

这个代码会将csv文件夹中的所有csv文件的第四列提取出来，并存储到一个字典中。然后，它会创建一个新的Excel文件，并将每个DataFrame写入一个单独的sheet，sheet名为csv文件名（去除后缀）。

您可以使用Python中的pandas库来读取csv文件，并使用xlwt或openpyxl库将数据写入Excel文件。

以下是一段代码示例，演示如何实现您的要求：

import os
import pandas as pd
import xlwt

# 设置工作目录
work_dir = '/path/to/csv/files'

# 创建一个工作簿
workbook = xlwt.Workbook(encoding='utf-8')

# 遍历目录下所有的csv文件
for file_name in os.listdir(work_dir):
    if file_name.endswith('.csv'):
        # 读取csv文件
        file_path = os.path.join(work_dir, file_name)
        df = pd.read_csv(file_path)
        
        # 获取第四列数据
        col_name = df.columns[3]
        col_data = df[col_name]
        
        # 将数据写入工作簿的新工作表中
        worksheet = workbook.add_sheet(file_name)
        for i, value in enumerate(col_data):
            worksheet.write(i, 0, value)
            
# 保存工作簿
workbook.save('output.xls')

请注意，这段代码假设csv文件的第四列没有标题。如果第四列有标题，请将header=None传递给pd.read_csv()函数，并相应地更改获取列数据的代码。

你可以使用Python来处理这个任务，下面是一份示例代码：

import os
import csv
import openpyxl

# 定义输入和输出文件夹路径
input_folder = '/path/to/input/folder/'
output_file = '/path/to/output/file.xlsx'

# 获取所有 CSV 文件的名称
csv_files = [f for f in os.listdir(input_folder) if f.endswith('.csv')]

# 创建输出 Excel 文件并写入表头
wb = openpyxl.Workbook()
ws = wb.active
for i, filename in enumerate(csv_files):
    ws.cell(row=1, column=i+2, value=filename[:-4])

# 读取每个 CSV 文件并将第四列数据写入 Excel
for i, filename in enumerate(csv_files):
    with open(os.path.join(input_folder, filename)) as f:
        reader = csv.reader(f)
        for row_num, row in enumerate(reader, start=2):
            ws.cell(row=row_num, column=i+2, value=row[3])

# 保存 Excel 文件
wb.save(output_file)

解释一下上面代码的过程：

首先，定义输入文件夹和输出文件的路径。
获取所有以 .csv 结尾的文件。
创建一个新的 Excel 文件并写入表头，表头是所有 CSV 文件的名称。
逐个读取每个 CSV 文件并将第四列数据写入 Excel 表格中。
最后，保存 Excel 文件。
注意，上述代码中的 os.path.join() 函数是用来拼接文件路径的，根据不同的操作系统它会自动添加相应的分隔符。在使用时需要将 /path/to/ 替换为实际的文件路径。另外，上述代码中使用的是 openpyxl 库来读写 Excel 文件，如果你没有安装该库，可以使用以下命令进行安装：

pip install openpyxl