关于python pandas 模块和 py7zr 模块的错误问题

py7zr

在用py7zr模块解压 7z 文件时,出现过很多次解压卡顿的情况,无报错,强制停止程序,压缩包就丢失了(文件变成0KB)。这周共解压超过70个7z文件(超过170G),一共出现4次,丢了10G左右的文件。以前也遇到过这种情况

import os, py7zr

def zip(file):
    f = py7zr.SevenZipFile(file, "r", password="xxx")
    f.extractall()
    f.close()

for f in os.listdir().copy():
    zip(f)

pandas

爬虫程序 pandas 写数据到 excel 时,出现 3 次(一共发了上千个excel) excel 打不开的情况(无任何报错)。把 xlsx 改为zip解压 xml 时,解压报错。

img

用pandas读取文件,出现 badzipfile 啥啥啥 magic number 错误,

打开 xl\worksheets\sheet1.xml 发现 xml 文件不完整,标签只有一部分

img

另外两个 excel 缺少几个 xml 文件

网上有帖子说开多进程时会出现 io 冲突导致写入失败。但是该爬虫程序开的是单进程单线程

这个是文件处理的时候文件格式有问题,你解压的时候输出解压文件名,然后重试一下这个文件名会不会出现一样错误

您好,我是有问必答小助手,您的问题已经有小伙伴帮您解答,感谢您对有问必答的支持与关注!
PS:问答VIP年卡 【限时加赠:IT技术图书免费领】,了解详情>>> https://vip.csdn.net/askvip?utm_source=1146287632