有关hadoop数据导入的一些疑问

hdfs是一个分布式文件存储系统,如果我每天产生2G日志,是不是每天还要把这2G日志,导入到hdfs系统中?
如果导入,那么等于我一天的硬盘存储就是4G(近似值),因为2G日志+2G的hdfs文件,觉得这样很没有效率。

请问,我这样理解对不对?

噢,写个脚本跑定时任务好了。让他凌晨的时候自己折腾去。
还可以增量分析嘛。

分布式文件存储一般不太在意这个存储空间,日志文件如果需要计算需要备份,那就存。
一般情况都是定期清理,并不是永久不动的。

我接触到的hadoop一般都是用到它的计算会很多,存储只是附带上用。