渐变维度 使用 Apache Hudi 实现 SCD-2( 五 )

实施过程中需要考虑的几点

  • 对于现有记录的每次更新,parquet 文件将在存储中重新写入/移动,这可能会影响写入时的性能
  • 在查询数据期间,根据代表主要过滤器的属性对目标表进行分区总是一个更好的主意 。例如:销售表中的销售日期,注册产品目录的卖家 。上述示例中选择了 actv_ind ,因为我们希望使其易于解释并将所有活动记录保存在一个分区中 。
结论随着我们持续使用 Apache Hudi 编写 Spark 应用程序,我们将继续改进加载数据的策略,上述尝试只是用 Hudi 实现 SCD-2 功能的一个开始 。

推荐阅读