对原表进行upsert后，Hudi的parquet文件名中writeToken会变动，导致Incremental query失败

@[toc]

0 原因猜测

每次对原标进行upsert操作，hoodie都会产生log，然后进行compaction，从而导致该时间点以前的增量查询无法操作。

1 现象重现

下面是对原标进行的所有操作。
请添加图片描述

1.1 操作一（更新）

首先对原表进行一次upsert操作（更新370数据），然后使用增量查询，结果成功
请添加图片描述
使用hadoop指令查询HDFS文件，出现log日志，数据被写到了log文件中，并未写到parquet中：

请添加图片描述

查询hoodie的详细操作，并未进行compaction操作：

请添加图片描述

1.2 操作二（插入和更新）

对原表数据进行插入6条数据并更新380数据，使用spark查询的HDFS中数据变化如下：
请添加图片描述

发现370数据又被重复commit。使用spark进行增量查询，曝出如下错误：

21/07/30 14:25:45 ERROR executor.Executor: Exception in task 0.0 in stage 2.0 (TID 4)
java.io.FileNotFoundException: File does not exist: hdfs://hdp-jk-1:8020/user/hive/warehouse/test_increment_hudi9_mor/2021/07/30/4fe43850-4be8-447f-827e-edfdba44adb4-0_0-340-294_20210730142459.parquet

使用hadoop指令查询instantTime的20210730142459的parquet如下，发现实际的writeToken为341-295,而进行查询的writeToken为340-294，说明了文件被再次写入了一次，导致writeToken被改变，使得spark增量查询到了一个失效或不存在的parquet文件。

请添加图片描述
查询hoodie的详细操作，发现instantTime为20210730142459的数据被compaction了一次，导致数据被重写了一次，进而writeToken被改变。