关于hadoop分布式储存问题

前段时间了解到hadoop中hdfs的储存方式,其中hadoop具有高可靠性,我想了解,当hdfs存储副本的时候,副本是否占用和原文件大小一致。也就是说如果一个块是128M那他的副本是否也是128M,那这么来说10t的文件要在hadoop中体现高可靠性至少需要20t的空间来存储10t的文件,是否可以理解成牺牲空间占用问题来换取高可靠性?这个是我疑惑的地方,希望可以得到大佬解惑。

确实是牺牲空间换取数据安全,
而且不止20t,一份数据放在HDFS中存储的话应该是3份
也就是30t
可以参考这篇文章:

华为云大数据存储的冗余方式是三副本_大数据入门:HDFS数据副本存放策略_undertaler的博客-CSDN博客 大数据处理当中,数据储存始终是一个重要的环节,从现阶段的市场现状来说,以Hadoop为首的大数据技术框架,仍然占据主流地位,而Hadoop的HDFS,在数据存储方面,仍然得到重用。今天的大数据入门分享,我们就来讲讲HDFS数据副本存放策略。HDFS 是 Hadoop 分布式文件系统,基于廉价的PC集群,就能支持大规模数据集的存储,并且可以通过增加机器来提升存储容量,对于企业而言,提供了低成本的灵活... https://blog.csdn.net/weixin_34766991/article/details/112065856?utm_medium=distribute.pc_relevant.none-task-blog-2~default~baidujs_title~default-0.no_search_link&spm=1001.2101.3001.4242