关于mysql和hadoop数据交互的问题，和hadoop的文件夹设计

目前mysql按地区，商业区区分，假设读取mysql数据库的地区，根据地区划分

我昨天和领导沟通了，领导说点击率不是必要条件，地区划分才是重点，后面就是各方面劝导，只好以地区区分，关键是这个镇区区分数据和产品的话，全国有6k多个地区，

这样的hdfs文件夹数量，岂不是很崩溃，

后面感觉还有很多纬度和条件查询啥的，上头又喊了一句不一定要用hadoop，发挥hadoop啥啥优势，mysql多条件查询方便，好好做这个方案，然后我就一头雾水了，心里比较纠结和郁闷。最近搞mahout出了点成绩，发现单机版也挺好使（数据量少的前提下）,搜了搜房子，北京也就519,059这么多套房子在待售，没啥必要用hadoop，自我感觉，如果只是单独分析这些条数据519,059条，感觉不大，

如果你有好的博客和资源提供，麻烦提供url连接，谢谢

关于 MySQL 和 Hadoop 之间的数据交互问题，可以考虑使用 Sqoop 工具进行数据传输，Sqoop 是基于 Hadoop 的开源工具，可以方便地将关系型数据库的数据导入到 Hadoop 中进行处理。对于高并发的数据访问，建议将 MySQL 配置成主从复制的方式，将查询操作和写操作分别分配到不同的服务器上，这样可以大幅提高 MySQL 的并发处理能力。

对于 Hadoop 的文件夹设计，可以根据需要进行分区和分桶设计，以提高查询性能。例如，可以按照地区、商圈、价格等维度进行分区和分桶，这样可以将数据划分为更小的数据集，提高查询效率。建议使用 Partitioner 类来进行数据分区，同时可以使用 Combiner 类来在 Map 阶段进行数据聚合，减少数据传输量和网络开销。

如果你的数据量相对较小，可以考虑直接使用 MySQL 进行数据处理和分析，并使用一些数据分析工具（如 R、Python 等）来分析数据。当数据量增大时，再考虑使用 Hadoop 等分布式计算平台进行数据处理和分析。

如果你想进一步了解 Hadoop 和大数据处理，可以参考以下一些资源：

《Hadoop权威指南》（Tom White 著）
《大数据处理：Spark和Hadoop实践》（Sandy Ryza 等著）
Hadoop 官方网站：http://hadoop.apache.org/
Spark 官方网站：https://spark.apache.org/
大数据资讯网站：http://www.infoq.com/cn/bigdata/