我有60万行数据,excel文件300多兆。我用pandas 把其中6列值为0的替换为别的值。python运行了快一个小时

我有60万行数据,excel文件300多兆。我用pandas 把其中6列值为0的替换为别的值。python运行了快一个小时,都没有出结果,请问有什么可以解决的么?
data= pd.read_excel('a.xlsx',sheet_name='b')

data['Cancel order']=data['Cancel order'].replace("0","")
data['Cancel order2']=data['Cancel order2'].replace("0","")
data.to_excel('result5.xlsx',sheet_name='Sheet1',index=None,header=True)

运行结果及报错内容


怎么提高处理速度

每列数据更改使用线程,data改为全局变量
使用的时候在子线程中更改数据,每个子线程更改一列数据
主线程检测子线程是否结束所有子线程,主线程保存data值,这样可以大大加快读写的时间
例子


import time
from threading import Thread
import pandas as pd
data = None


def datareplace(name,oldv = "0",newv = ""):
    global data
    if data:
        data[name] = data[name].replace(oldv,newv)
    else:
        print('data is None')


def main():
    global data
    data = pd.read_excel('a.xlsx',sheet_name = 'b')
    one = Thread(target = datareplace,args = ('Cancel order',),kwargs = {"oldv":"0","newv":""})
    tow = Thread(target = datareplace,args = ('Cancel order2',),kwargs = {"oldv":"0","newv":""})
    timenumber = 0
    print("开始操作")
    while True:
        if one.is_alive() or tow.is_alive():
            time.sleep(1)
            print('\r',end = '')
            timenumber += 1
            print(f"执行了{timenumber}秒",end = '')
        else:
            print('\r',end = '')
            print(f"程序结束,共用{timenumber}秒",end = '')
            break
    data.to_excel('result5.xlsx',sheet_name = 'Sheet1',index = None,header = True)

有帮助请点一下右上角的采纳,谢谢

数据量大时,excel是非常低效的格式。不妨试试csv,这是纯文本格式,不借助任何工具,纯粹的pyhton读写文件,速度都比pandas读excel快。

您好,我是有问必答小助手,您的问题已经有小伙伴帮您解答,感谢您对有问必答的支持与关注!
PS:问答VIP年卡 【限时加赠:IT技术图书免费领】,了解详情>>> https://vip.csdn.net/askvip?utm_source=1146287632