挑战海量数据:基于Apache DolphinScheduler对千亿级数据应用实践( 三 )


set spark.sql.adaptive.enabled=true;set spark.sql.adaptive.shuffle.targetPostShuffleInputSize=256000000;参数优化
CK的优化参数非常多,除了基础的参数外,在二级索引调整为布隆过滤器后,写入CK的parts就比原来多了,在这个时候调整CK的parts参数 , 使其可以正常运行,但是这个参数会稍微影响一下CK查询的性能,对于我们来说 , 数据都放不进去,再查询也就没有用了 。
parts_to_delay_insert:200000此外还可以添加background_pool_size参数(我们没有用) 。
Zookeeper优化
对于ClickHouse多分片多副本集群模式来说,Zookeeper是最大的性能瓶颈点 。
在不改动源码的情况下,我们做了如下的优化:

  1. 推荐阅读