300万行数据，如行统计，并且统计计数

300万行数据，如何统计，并且统计计数
300万行的数据分布在不同的文档当中
如何统计并且统计所有的重复数按从大到小排序？
并导出。

建议使用数据库。现在市面上有很多数据库软件，可以看看。一般的数据库软件都是配有使用教程的。
如果对你有帮助，还请帮忙点个采纳，谢谢！

如果数据的格式什么都是一样的，建议全部加载到数据库里面来操作会方便很多，如果字段类型都不一样的，可以分别建多张表来处理

用python写个小脚本不就好了,很简单的

可以导入到数据库中，然后使用sql操作非常方便了

首先，要确定这些文件中的数据是否有固定的格式。其次，确定数据的大小，有没有超过计算机内存。如果有固定格式并且文件大小没超过内存，那么可以使用Python脚本把多个文档内容同时加载到内存中进行统计计算。如果有固定格式但是文件大小超过了内存，同样可以使用Python脚本把多个文件流式的读取加载，进行统计。最后，也可以用Hive直接把数据导入，然后用sql统计，但是得安装Hadoop。

先单文档统计，然后再整合统计

可以导出为csv然后用pandas进行处理

思路有很多种：
1.想方便但不怕麻烦：逐个excel表导入数据库，再每一个表union all起来得到总表即可，麻烦在于如果excel文件多，union all多。

2.不方便但麻烦的：python脚本逐个excel表读取然后插入成一个总excel表导出保存，但是写python脚本不方便，可以参考：https://blog.csdn.net/weixin_30657999/article/details/98774193

使用hive，在大数量都不怕

1、使用ELK套件处理
具体思路
通过logstash将数据导入至elasticsearch
通过kibana连接elasticsearch查询数据