搭建一个连锁超市的数据仓库,有什么推荐的数据仓库?

老板需要搭建一个数据仓库,从一个固定的api中取数据,然后通过数据仓库导入到Tableau中进行可视化。请问有什么推荐的数据仓库,或者其他建议?
背景:一个连锁超市,日增数据可能有1w条。
pss:我只是个实习生,从来没接触过搭建数仓,只是学过Mysql,MongoDB和spark,实在没有经验:/
不知道为啥要让我来做

对于一个连锁超市的数据库需求,可以考虑以下几种常见的数据库和建议:

  1. MySQL:MySQL是一种开源的关系型数据库管理系统,被广泛用于各种规模的应用程序。它具有稳定性和可靠性,并支持高并发读写操作。您可以使用Python等编程语言编写脚本来从固定的API中获取数据,并将其导入MySQL数据库中。Tableau可以直接连接MySQL数据库进行数据可视化。

  2. PostgreSQL:PostgreSQL也是一种功能强大的开源关系型数据库,适用于处理大规模数据。它提供高级功能,如事务处理和数据完整性验证。您可以使用编程语言获取API数据并将其导入到PostgreSQL数据库中,然后使用Tableau进行可视化。

  3. Microsoft SQL Server:如果您会使用Microsoft技术栈,可以考虑使用Microsoft SQL Server作为数据库解决方案。它是一种功能齐全的关系型数据库管理系统,具有强大的性能和安全性。您可以使用适当的编程语言获取API数据并将其导入到SQL Server中,然后使用Tableau进行可视化。

  4. MongoDB:如果您对非关系型数据库有兴趣,可以考虑MongoDB。它是一种面向文档的NoSQL数据库,适用于处理半结构化数据。您可以将API数据以JSON格式导入MongoDB,并使用Tableau连接MongoDB进行可视化。

无论您选择哪种数据库,以下是一些建议:

  • 考虑数据库的性能和扩展性,确保它能够处理每天1万条的数据增长。
  • 定期备份数据库以确保数据的安全性。
  • 使用适当的索引和查询优化技术,以提高数据检索的效率。
  • 根据需要进行数据清洗和转换,以确保数据质量和一致性。
  • 针对数据库的安全性进行适当的配置和控制访问权限,以保护数据的机密性和完整性。

此外,您还可以考虑使用ETL(抽取、转换和加载)工具来管理从API到数据库的数据流程。这些工具可以帮助您自动化数据提取和转换的过程,使数据导入到数据库中变得更加高效和可靠。

对于一个连锁超市的数据仓库,可以考虑使用一些成熟的商业智能(BI)工具或者开源数据仓库建设方案,以下是一些推荐:
AWS Redshift是Amazon Web Services提供的一种快速、可扩展、完全托管的数据仓库服务,它可以处理海量数据,并提供高性能的数据查询和可视化工具。支持多种数据源的导入,包括S3、RDS、DynamoDB 等。
Google BigQuery是Google Cloud提供的一种完全托管的企业级分析数据库,支持高效的SQL查询、实时数据导入、多用户访问等特性,可支持不同的数据格式和数据仓库的建设。
Apache Hadoop是一种开源的分布式计算框架,可以用于存储和处理超大规模的数据,包括数据仓库建设、数据分析等功能,支持HDFS分布式文件系统、MapReduce计算框架、Hive查询分析等。
Apache Cassandra是一种分布式数据库,支持高可用、高性能、高伸缩等特点,可以用于海量数据的存储和查询,也有很好的数据仓库搭建方案。
对于你的应用场景,一般在做数据仓库的时候,很多人基本上会使用开源的ETL (Extract, Transform, Load) 工具对常用数据源进行数据抽取、清洗转换,导入中心化的数据仓库中。
对于你提到的数据源是一个固定的API,如果提供的API也是适合进行数据抽取的,你可以使用开源的ETL工具,如Apache NiFi, Pentaho Data Integration等,通过API提供的数据接口进行数据抽取和清洗,然后将清洗过的数据导入到相应的数据仓库中进行可视化展示