现在在mysql 有 14亿 行数据,我现在是这么做的,将数据导出到hdfs,将数据根据一个
字段hash分区 分成1000个小文件,用spark+kafka+redis ,web端发送条件到kafka
spark程序消费数据(条件),从hdfs读取对应的hash文件,条件判断之后将数据保存
到redis。有什么更好的解决方案吗,前提是机器内存有限16-32g左右。
先建立映射表,通过映射表进行条件查询hash 速度本来就很快,建立好映射了查询就快了。
请问建立映射表是啥意思,是建立一个所需返回字段的新表,导入数据到新表,通过新表进行条件查询?
14亿数据量, MongoDB/hbase/ES 都是毫秒级响应