一直很频繁的处理大量的csv文件

每个文件夹，csv文件平均每分钟产生20个，需要全天一直不停的解析，如何处理
总共11个文件夹，还要整理csv文件里面的数据格式，还要和数据库表关联来筛选数据
之前使用kettle，但是一直不停解析，仅仅一两个文件夹就CPU遭不住了

关键点是csv文件的大小吧，至于后面的数据库比对计算只是堵塞IO倒是可以异步多线程之类跑，自己写Java调度会比kettle好很多

你这需要分布式了

大概每个文件2-3M，有些可能较小大概几百K

数据量也不大，感觉用python就可以