现在我想统计Log日志文件中的某个关键字,看一看这个关键字出现了多少次
我用的方法是java的forkJoinPool,思路就是把日志文件的数据加载到内存中
然后在用Java去解析它,1G文件大概是60s左右
你们是如何解析这种日志文件的?
这个很适合spark等这类分布式系统,分别读取文件,再多文件都可以并行统计
这种问题用perl或者C#都是分分钟搞定。可以按行读取或者几行一组读取。速度基本和你的io一样,比如硬盘一般读取1GB不会超过10秒钟。
文本搜索的统计,可以试试ElasticSearch。