300万行数据,如行统计,并且统计计数

300万行数据,如何统计,并且统计计数
300万行的数据分布在不同的文档当中
如何统计并且统计所有的重复数按从大到小排序?
并导出。

建议使用数据库。现在市面上有很多数据库软件,可以看看。一般的数据库软件都是配有使用教程的。
如果对你有帮助,还请帮忙点个采纳,谢谢!

如果数据的格式什么都是一样的,建议全部加载到数据库里面来操作会方便很多,如果字段类型都不一样的,可以分别建多张表来处理

用python写个小脚本不就好了,很简单的

可以导入到数据库中,然后使用sql操作非常方便了

首先,要确定这些文件中的数据是否有固定的格式。其次,确定数据的大小,有没有超过计算机内存。如果有固定格式并且文件大小没超过内存,那么可以使用Python脚本把多个文档内容同时加载到内存中进行统计计算。如果有固定格式但是文件大小超过了内存,同样可以使用Python脚本把多个文件流式的读取加载,进行统计。最后,也可以用Hive直接把数据导入,然后用sql统计,但是得安装Hadoop。

先单文档统计,然后再整合统计

可以导出为csv然后用pandas进行处理

思路有很多种:
1.想方便但不怕麻烦:逐个excel表导入数据库,再每一个表union all起来得到总表即可,麻烦在于如果excel文件多,union all多。

2.不方便但麻烦的:python脚本逐个excel表读取然后插入成一个总excel表导出保存,但是写python脚本不方便,可以参考:https://blog.csdn.net/weixin_30657999/article/details/98774193

使用hive,在大数量都不怕

1、使用ELK套件处理
具体思路
通过logstash将数据导入至elasticsearch
通过kibana连接elasticsearch查询数据