1.hudi的落地与应用及相关案例,hudi的应用范围、应用场景和应用架构。落地应用的数据规模,数据新鲜度5min~15min。hudi两种表格式和三种视图的应用选取及场景。查询引擎与hudi持久化数据的交互。
2.是否基于Hudi构建了实时数仓?若有,则实时数仓的构建流程、建设规范、分层设计、模型设计和数据架构,库表如何管理?分区如何做?
3.Hudi数据实时写入湖,是否需要与离线库表区分?
4.实时数据持久化的应用部署和技术架构。实时持久化数据与离线数据湖整合,近实时OLAP分析?
5.基于Hudi的数据预写入校验的数据质量如何做?
6.Flink+Hudi提交到Yarn集群或者K8S,写入另一个HDFS集群,flinksql或flink datastream api如何配置开发?写入HDFS长期Kerberos如何做?
7.Flink+Hudi数据写入和元数据sync集群需kerberos认证,Hudi是否原生支持,不支持如何做?长期认证如何做?
8.预建Hudi元数据Hive库表如何做?
9.Hudi的bulk_insert应用场景如何?如何做?
10.除Spark基于Hudi的OLAP分析ETL之外,基于Hudi表的流读应用场景?
11.Hudi的应用场景限制?限制级场景如何扩展?
12.Hudi实时入湖历史数据初始化如何做?
Flink on hudi的问题,你一个问题页面提一个,否则很难详细回答。