Redis系列10：HyperLogLog实现海量数据基数统计 _生活百科

Redis系列1：深刻理解高性能Redis的本质Redis系列2：数据持久化提高可用性Redis系列3：高可用之主从架构Redis系列4：高可用之Sentinel(哨兵模式）Redis系列5：深入分析Cluster 集群模式追求性能极致：Redis6.0的多线程模型追求性能极致：客户端缓存带来的革命Redis系列8：Bitmap实现亿万级数据计算Redis系列9：Geo 类型赋能亿级地图位置计算
1 前言我们来回顾下在这个系列的第一篇深刻理解高性能Redis的本质中介绍过Redis的几种基本数据结构，它服务于各种不同的业务场景而设计的，比如：

动态字符串(REDIS_STRING)：整数(REDIS_ENCODING_INT)、字符串(REDIS_ENCODING_RAW)
双端列表(REDIS_ENCODING_LINKEDLIST)
压缩列表(REDIS_ENCODING_ZIPLIST)
跳跃表(REDIS_ENCODING_SKIPLIST)
哈希表(REDIS_HASH)
整数集合(REDIS_ENCODING_INTSET)

除了这些常见数据类型，还有一些不常用的数据类型，如 BitMap、Geo、HyperLogLog 等等，他们在各自的方向为不同的类型的数据统计给出解决方案。

位图（BitMap）计算：可以应用于任何大数据场景下的二值计算，比如是否登录、是否在线、是否签到、用户性别状态、IP黑名单、是否VIP用户统计等等场景。
Geo类型：记录地理空间信息，如地理坐标存储、位置计算、距离计算等能力，普遍运用在地图业务中的各种场景。

这一篇我们来介绍下HyperLogLog，HyperLogLog 主要用于Redis基数的统计，比如IP统计，用户访问量，页面访问量。
2 关于HyperLogLog【Redis系列10：HyperLogLog实现海量数据基数统计】HyperLogLog 主要用于Redis 的基数统计，它的数据结构专门设计用来做数据合并和计算，并能节省大量的空间。基数计数( cardinality counting) 通常用来统计一个集合中不重复的元素个数 , 例如统计某个网站的UV、PV或者网站搜索的的关键词数量。在各种应用领域基数统计被广泛应用，如数据分析、网络监控指标、存储性能优化等。简单来说，基数计数就是记录集合中所有不重复的元素Su ,当新增元素Xa时,判断Su中是否包含,不包含则将其加入Su,包含则不加入,计数值就是Su 的元素数量总和。当然这种做法也存在两个问题：

当统计的数据量变大时,相应的存储内存也会线性增长
当集合Su 变大,判断其是否包含新加入元素的成本变大

2.1 实际应用场景很多计数类场景，比如每日注册 IP 数、每日访问 IP 数、页面实时访问数 PV、访问用户数 UV等。因为主要的目标高效、巨量地进行计数，所以对存储的数据的内容并不关系。也就是说它只能用于统计数量，没办法知道具体的统计对象的内容。

统计单日一个页面的访问量(PV)，单次访问就算一次。
统计单日一个页面的用户访问量(UV) ，即按照用户为维度计算，单个用户一天内多次访问也只算一次。
多个key的合并统计，某个门户网站的所有模块的PV聚合统计就是整个网站的总PV 。

2.2 高效和海量特性如果我们使用普通集合，也能够实现对巨量数据的存储和统计么，但是存储量会大很多，性能也比较差。以百度搜索为例，如果要做百度指数的计算，针对来访IP进行统计。那么如果每天有 1000 万 IP，一个 IP 占位 15 字节，那么 1000 万个 IP 就是 143M 。
10,000,000 * 15 /(1024 * 1024)= 143.05 M如果使用 HyperLogLog，那么在 Redis 中每个键占用的内容都是 12K，理论上能够存储 264 个值，即18446744073709551616，这个数是巨量，Java中long类型也只能计算到 262。无论存储何值，它一个基于基数估算的算法HyperLogLog Counting（简称HLLC），使用少量固定的内存去存储并识别集合中的唯一元素。HLLC采用了分桶平均的思想来消减误差，在Redis中,有16384个桶。而HyperLogLog的标准偏差公式是1.04 / sqrt(m)，m 为桶的个数。所以
1.04 / sqrt(16384) = 1.04 / 128 = 0.008125所以这个计数的估算，是一个带有 0.81% 标准偏差的近似值。
HyperLogLog 算法原理参考这两篇，写的很清晰：https://zhuanlan.zhihu.com/p/77289303http://www.javashuo.com/article/p-mmwxrmjm-ga.html
3 HyperLogLog所支持的能力HyperLogLog数据结构的命令有三个：PFADD、PFCOUNT、PFMERGE
3.1 PFADD 添加计数Redis Pfadd 命令将所有元素添加到 HyperLogLog 数据结构中。
语法如下：
redis > PFADD key element [element ...]下面举例了网站统计模块添加IP的两种情况

/* 对访问百度网站(key=baidu:ip_address)的IP进行添加 */redis> PFADD baidu:ip_address "192.168.0.1" "192.168.0.2" "192.168.0.3"(integer) 1/* 如果IP已经存在，则进行忽略，不对估计数量进行更新 */redis> PFADD baidu:ip_address "192.168.0.3"(integer) 0# IP已经存在
上一页
1
2
下一页
		  	

    
    




    
    
    


推荐阅读

           
                  
              
                  带两个口罩是不是更安全 
                
                   
                
              
            

                  
              
                  母亲要退休了要送她什么礼物 今天就是礼物母亲退休后 
                
                   
                
              
            

                  
              
                  乔布斯怎么死的 
                
                   
                
              
            

                  
              
                  天蝎座对爱情的承诺可信度高吗 甜言蜜语掷地有声 
                
                   
                
              
            

                  
              
                  火龙果煮香蕉减肥吗 
                
                   
                
              
            

                  
              
                  如何评价漫威漫画的台词 
                
                   
                
              
            

                  
              
                  中卫市第一中学2022年燕宝奖学金申报工作的通知 
                
                   
                
              
            

                  
              
                  清洁能源是什么意思 
                
                   
                
              
            

                  
              
                  菲诗小铺水润触感唇膏怎么样？菲诗小铺水润触感唇膏色号 
                
                   
                
              
            

                  
              
                  新加坡移民申请条件 新加坡留学移民申请条件 
                
                   
                
              
            

                  
              
                  关于谢律简述 谢律 
                
                   
                
              
            

                  
              
                  江苏省2023年定向培养军士招生计划 
                
                   
                
              
            

                  
              
                  塔罗牌占卜：分析，三个月内你的幸运与倒霉 
                
                   
                
              
            

                  
              
                  销售拓展训练个人心得体会 户外销售个人心得体会 
                
                   
                
              
            

                  
              
                  经济特区的特是指什么 怎么理解经济特区？ 
                
                   
                
              
            

                  
              
                  姊妹的拼音 兄弟姊妹的拼音 
                
                   
                
              
            

                  
              
                  培根是用什么肉制作的，培根肉健康吗对人体有害吗？ 
                
                   
                
              
            

                  
              
                  给伴娘团送这些礼物好 女骑手送外卖拦到一辆车怒砸 
                
                   
                
              
            

                  
              
                  隆姓2022的男孩子名字怎么取 寓意吉祥上进 
                
                   
                
              
            

                  
              
                  高抬腿的作用 高抬腿一天做多少个 
                
                   
                
              
            

          

1 Dive into TensorFlow系列-静态图运行原理 

【k8s连载系列】2. k8s整体架构 

深唇口红排行榜10强 显色度超好，深唇和黄皮必入系列 

33 《吐血整理》高级系列教程-吃透Fiddler抓包教程-Fiddler如何抓取WebSocket数据包 

华为mate40e参数_华为mate40e参数配置 

从0到1搭建redis6.0.7续更~ 

zk系列三：zookeeper实战之分布式锁实现 

英雄联盟LOL钢铁瓦尔基里系列皮肤原画预览 

从0到1搭建redis6.0.7 

Redisson源码解读-公平锁