hadoop方向问题

孩子想知道,hadoop怎么通过MR实现对一批数据的划分(包含文本文件,图像,视频之类的),还有就是对block的放置,怎么根据Datanode的存储容量来分配副本放置的节点?(新人小白)

看着好久没人答,我大体说一下吧。
hadoop包含了几部分的内容,MR是其中的一部分,是用来做分布式计算用的,一般是用来做离线计算(非实时的分布式计算)。对于数据的分类存储,这不是hadoop的本身功能,需要配合二次开发来实现,而且跟MR没啥关系。hadoop的数据存储功能一般称为分布式文件系统,也就是HDFS,HDFS设计的初衷是用来存储大文件,所以HDFS对小文件的存储并不具备太大的优势。HDFS在存储文件的时候,是把大文件分成多个block,然后把block分别存储在多个节点上,并在节点上进行备份。至于在几个节点上备份,可以通过一个参数来配置(因为很久没搞这个了,这个参数我忘记是啥了),也就是通过参数来配置备份的数量。
根据Datanode的存储容量来分配副本放置的节点,这个我具体记不清了,要么是根据容量来确定副本的存储节点,要么就是随机选的节点。有没有这个策略记不清了。
MR主要是用来做分布式计算,而不是你上面说的对数据进行划分。举个例子,有一堆苹果,需要得到苹果的数量。那么map阶段,让多个人同时去数,每个人得到一个数量,然后在reduce阶段,把这几个人的结果汇总,得到最终的苹果数量。

您好,我是有问必答小助手,您的问题已经有小伙伴帮您解答,感谢您对有问必答的支持与关注!
PS:问答VIP年卡 【限时加赠:IT技术图书免费领】,了解详情>>> https://vip.csdn.net/askvip?utm_source=1146287632