离散方式如果选择 intHash64(user_id) ,如果写分布式表,就会根据 user_id hash到各个local表,这样在针对 count(distinct user_id) 的时候速度会比 离散写 rand() 快很多,应该是底层去重逻辑的优化, 这个时候 如果直接写分布式表,是不是也要根据user_id hash 取模 决定写入哪个local表?
ClickHouse复制表、分布式表机制与使用方法Replication & Sharding 在ClickHouse文集的第一篇文章[https://www.jianshu.com/p/78271ba9969b]中,笔者介...