hdoop集群下各hbase的数据是一样的吗?

场景:要把全国31个省的数据从原来的oracle数据库导入到现在的hadoop集群,采用大数据以提高效率。
现在的环境是10台机器,Hadoop集群
问题是Hadoop集群的工作原理是怎样的?是把31个省的数据都导入每台机器的hbase还是每台机器的hbase导几个省,总共是31个省?怎么保证效率? 不懂吖 刚接触。

10台机器的hadoop集群上配置hbase 分表空间 导入数据就可以了 都说了是集群了 所以10台用的是一份数据

hbase是集群部署的,导入数据的时候可以按省份分region导入,但只要各个省份数量量不要差距过大,就不会出现数据倾斜现象

在实际的商用情况下,每个省数据差别是很大的。一个是不同省的人口基数和经济程度相差很大,一个是你的业务本身有地域相关性。你可以使用别的方式分割你的数据。