hadoop方向问题

孩子想知道，hadoop怎么通过MR实现对一批数据的划分（包含文本文件，图像，视频之类的），还有就是对block的放置，怎么根据Datanode的存储容量来分配副本放置的节点？（新人小白）

看着好久没人答，我大体说一下吧。
hadoop包含了几部分的内容，MR是其中的一部分，是用来做分布式计算用的，一般是用来做离线计算（非实时的分布式计算）。对于数据的分类存储，这不是hadoop的本身功能，需要配合二次开发来实现，而且跟MR没啥关系。hadoop的数据存储功能一般称为分布式文件系统，也就是HDFS，HDFS设计的初衷是用来存储大文件，所以HDFS对小文件的存储并不具备太大的优势。HDFS在存储文件的时候，是把大文件分成多个block，然后把block分别存储在多个节点上，并在节点上进行备份。至于在几个节点上备份，可以通过一个参数来配置（因为很久没搞这个了，这个参数我忘记是啥了），也就是通过参数来配置备份的数量。
根据Datanode的存储容量来分配副本放置的节点，这个我具体记不清了，要么是根据容量来确定副本的存储节点，要么就是随机选的节点。有没有这个策略记不清了。
MR主要是用来做分布式计算，而不是你上面说的对数据进行划分。举个例子，有一堆苹果，需要得到苹果的数量。那么map阶段，让多个人同时去数，每个人得到一个数量，然后在reduce阶段，把这几个人的结果汇总，得到最终的苹果数量。

您好，我是有问必答小助手，您的问题已经有小伙伴帮您解答，感谢您对有问必答的支持与关注！
PS：问答VIP年卡【限时加赠：IT技术图书免费领】，了解详情>>> https://vip.csdn.net/askvip?utm_source=1146287632