请问数据仓库的的分层,这个层具体操作指的是什么呢,是数仓里的目录么
数据仓库的分层指的是将数据仓库中的数据按照不同的层次进行分类和组织。这些层次可以包括以下几个方面:
操作型层(Operational Layer):用于存储原始数据,数据以原始的形式被捕获和存储,并且通常用于支持实时交易处理和业务操作。
数据仓库层(Data Warehouse Layer):也称为中间层或整合层,它对原始数据进行清洗、集成、转换和整合,以生成适合用于报表、分析和决策支持的数据。数据仓库层中的数据被组织成主题(即某个业务方面的数据,例如销售、客户、供应商等)和维度(即数据的属性,例如时间、地理位置等)。
汇总层(Summary Layer):用于提供经过聚合和汇总的数据,使用户可以更轻松地访问和分析数据。汇总层的数据通常是基于事实表(Fact Table)和维度表(Dimension Table)中的数据计算得出的。
数据域层(Data Mart Layer):用于存储特定业务领域的数据,例如销售、人力资源等。数据域层通常是基于数据仓库层的数据构建的,为特定的用户群体提供了更专业化和定制化的数据。
通过这些层次的组织和管理,数据仓库可以更有效地支持企业的决策制定和分析需求,提高数据的可用性和可靠性,从而帮助企业更好地把握市场机遇和应对挑战。
简单来说
数仓分层,就像分文件夹,在做数仓设计的时候,会设计这个文件夹的名字,用于存储什么样的数据
一般我们都会分四层
贴源层 :用处就是把各项数据抽上数仓,在进行操作
明细层 :将数据整理,丢进来,为加工宽表使用
汇总层 :将贴源层和明细层的数据加工成一张宽表
展示层 :一般会抽回mysql为驾驶舱或者一些需要开发的报表使用
层数不固定 还是会按照相应的需求,设计数仓的结构
名字也不固定 但是大家每层的命名都差不多
你好,数仓分层的目的就是逻辑分离并解耦,在每一层只做每一层的功能,代码会比较简洁,把数据清洗转换、数据建模、指标开发等过程分开处理,即避免了代码冗余,可读性高,又方便排查问题; 在操作上,分层就可以操作位每一层建一个对应的库,然后使用调度任务来把脚本调度起来,脚本里对数据进行查询并写入目的库,如果使用的是Hadoop+Hive的话,就像您说的,在HDFS上每一层都是一层目录,有不清晰的可以交流