我这边有个日志文件,非常的大,这边需要对这个日志文件进行数据分析,对于每一行的数据进行处理比如ip地址相同的数据:ip:127.0.0.1 , num 22,starttime 2015-2-5 12:21:20 endtime 2015-2-5 23:59:59提取这样格式的数据并写入xml文件中,由于数据非常的大,写人的非常慢
直接用Hadoop,Spark等分布式框架做分析吧,数据量太大了。这么大的XML解析起来也是麻烦事。