一直很频繁的处理大量的csv文件

每个文件夹,csv文件平均每分钟产生20个,需要全天一直不停的解析,如何处理
总共11个文件夹,还要整理csv文件里面的数据格式,还要和数据库表关联来筛选数据
之前使用kettle,但是一直不停解析,仅仅一两个文件夹就CPU遭不住了

关键点是csv文件的大小吧,至于后面的数据库比对计算只是堵塞IO倒是可以异步多线程之类跑,自己写Java调度会比kettle好很多

你这需要分布式了

大概每个文件2-3M,有些可能较小大概几百K

数据量也不大,感觉用python就可以