华为云 MRS 基于 Apache Hudi 极致查询优化的探索实践( 三 ) _生活百科

1000w 数据集做测试
spark.sql("""|create table prestoc(|c1 int,|c11 int,|c12 int,|c2 string,|c3 decimal(38, 10),|c4 timestamp,|c5 int,|c6 date,|c7 binary,|c8 int|) using hudi|tblproperties (|primaryKey = 'c1',|preCombineField = 'c11',|hoodie.upsert.shuffle.parallelism = 8,|hoodie.table.keygenerator.class = 'org.apache.hudi.keygen.SimpleKeyGenerator',|hoodie.metadata.enable = "true",|hoodie.metadata.index.column.stats.enable = "true",|hoodie.metadata.index.column.stats.file.group.count = "2",|hoodie.metadata.index.column.stats.column.list = 'c1,c2',|hoodie.metadata.index.bloom.filter.enable = "true",|hoodie.metadata.index.bloom.filter.column.list = 'c1',|hoodie.enable.data.skipping = "true",|hoodie.cleaner.policy.failed.writes = "LAZY",|hoodie.clean.automatic = "false",|hoodie.metadata.compact.max.delta.commits = "1"|)||""".stripMargin)最终一共产生了8个文件，结合 BloomFilter Skipping掉了7 个，效果非常明显。
后续工作后续关于点查这块工作会重点关注 Bitmap 以及二级索引。最后总结一下 DataSkipping 中各种优化技术手段的选择方式。

Clustering中各种排序方式需要结合 Column statistics 才能达到更好的效果。
BloomFilter 适合等值条件点查，不需要数据做排序，但是要选择高基字段，低基字段 BloomFIlter 用处不大；另外超高基也不要选 BloomFilter，产出的 BloomFilter 结果太大。

华为云 MRS 基于 Apache Hudi 极致查询优化的探索实践( 三 )

推荐阅读

汽车贴膜前需要洗车吗汽车贴膜前要洗车吗?

瘦麒麟臂方法瘦胳膊最有效的方法

糖不甩怎么做才Q

形容经历了事情的成语是什么

白煮牛肉的家常做法大全白煮牛肉的家常做法

梦见下牙掉了,但没流血是什么意思

金鱼眼面相解析，有金鱼眼的人运势怎么样

关于本玉12号简述本玉12号

双子座的床上功夫

2022年护士年终工作总结 2022美工个人年终工作总结

手机无响应的解决方法应该怎么解决呢

宝马有什么技术

诗歌鉴赏蜀相咏史怀古诗蜀相的作者

猫咪渴了的表现

母亲节要买什么礼物,分享几款走心的

越狱第3季中第几集越狱成功？

抗皱六胜肽精华液的使用方法六胜肽抗皱精华液使用方法

开元通宝680万图片 &#8211; 开元通宝2020价格

怎么去胶？

蓝牙耳机使用小技巧蓝牙耳机的正确使用方法