最近在设计数据仓库,其中涉及到事实表与维表的建立。事实表建立起来之后,随着时间推动,数据量也会不断增加。那么应该将事实表与维表是存储在传统关系型数据库中还是其他存储方式?
根据你实际的数据量和数据处理的需求来评估,数据体量大传统关系型数据库性能更不上就需要采用分布式存储数据库hive、gbase等
数仓建议是多维度的分布式数据库,hive、hbase一起使用,根据不同的数据特点进行设计。如:hiv能只能够在Haoop上批量的执行。Hbase是一种Key/Value系统能够在它的数据库上实时运行。
大数据离线数据仓库一般采用hive,hive的数据一般存储在hadoop的hdfs中,
如果数据来源是日志文件数据,可用flume采集到hdfs或直接采集到hive中,
如果数据来源是数据库数据,可用sqoop或kettle导出到hdfs中