当一个文件夹下面有600个txt数据文件,每个txt文件里都是第一行是变量名,从第2行开始是数据,大概100行左右,共23列,想要把这600个文件里的数据都导入到pycharm中,不知道只用array还是dataframe比较合适呢??虽然感觉这个问题很简单,但我真的操作起来好难的,求解!!!在线等
# 导入工具包
import pandas as pd
import numpy as np
import os
# 路径
path = 'c:/users/用户/desktop/'
# 文件列表
files = []
for file in os.listdir(path):
if file.endswith(".txt"):
files.append(path+file)
# 定义一个空的dataframe
data = pd.DataFrame()
# 遍历所有文件
for file in files:
datai = pd.read_csv(file,encoding='gbk')
datai_len = len(datai)
data = data.append(datai) # 添加到总的数据中
print('读取%i行数据,合并后文件%i列, 名称:%s'%(datai_len,len(data.columns),file.split('/')[-1]))
我常用的一个批量读取文件的模板, 供参考.
可以用dataframe试试
path1 = "textdata"
files= os.listdir(path1)
for file in files: #遍历文件夹
if not os.path.isdir(file): #判断是否是文件夹,不是文件夹才打开
f = os.path.basename(file)
print "",f #打印结果
outfile.write(""+f+"\n")
paths="textdata/"+f
#读取文件
infile = open(paths)
text = infile.read()
感觉还是dataframe更容易操作一点
dataframe更好操作
试试dataframe操作
用DataFrame可以直接合并
https://blog.csdn.net/milton2017/article/details/54406482
dataframe 更好操作