一般情况下,统计log日志中的某个关键字,一般都是用哪些方式?

现在我想统计Log日志文件中的某个关键字,看一看这个关键字出现了多少次

我用的方法是java的forkJoinPool,思路就是把日志文件的数据加载到内存中

然后在用Java去解析它,1G文件大概是60s左右

你们是如何解析这种日志文件的?

这个很适合spark等这类分布式系统,分别读取文件,再多文件都可以并行统计

这种问题用perl或者C#都是分分钟搞定。可以按行读取或者几行一组读取。速度基本和你的io一样,比如硬盘一般读取1GB不会超过10秒钟。

文本搜索的统计,可以试试ElasticSearch。