用pandas 链接数据库后 用pd.read_query读取数据语句 然后对读出来的数据进行 groupby 分组 sum求和等操作 四十万的数据 大约十一秒
我用数据库语言直接分组求和 大约一秒多
是因为pandas读取数据库浪费了时间嘛
我提前读取csv等文件 然后用pandas.处理是不是速度很快
pandas和数据库处理数据的优缺点,在什么情况下应用这两种那个比较好
新建表存储操作完的数据,写个定时任务去执行脚本更新新建表的数据。
前端就只需要读单表了。
原理不一样,数据库一般是b+树,有做查询优化,一般用于结构化数据查询。pandas是在内存中转换为DataFrame结构,慢是肯定的,优势是可以处理各种离线文件。