hdfs是一个分布式文件存储系统,如果我每天产生2G日志,是不是每天还要把这2G日志,导入到hdfs系统中?
如果导入,那么等于我一天的硬盘存储就是4G(近似值),因为2G日志+2G的hdfs文件,觉得这样很没有效率。
请问,我这样理解对不对?
噢,写个脚本跑定时任务好了。让他凌晨的时候自己折腾去。
还可以增量分析嘛。
分布式文件存储一般不太在意这个存储空间,日志文件如果需要计算需要备份,那就存。
一般情况都是定期清理,并不是永久不动的。
我接触到的hadoop一般都是用到它的计算会很多,存储只是附带上用。