redis的HyperLogLog实战

序本文主要研究一下redis的HyperLogLog的用场相关命令pfadd每添加一个元素的复杂度为O(1)127.0.0.1:6379> pfadd uv0907 uid1 uid2 uid3(integer) 1添加元素到HyperLogLog中，如果内部有变动返回1，没有返回0pfcount作用域单个HyperLogLog时，复杂度为O(1)，作用于多个HyperLogLog时，复杂度为O(N)127.0.0.1:6379> pfcount uv0907(integer) 3返回该HyperLogLog的近似基数，如果是指定多个HyperLogLog则返回的是他们的并集的近似基数pfmerge复杂度为O(N)，N为合并后的HyperLogLog数量127.0.0.1:6379> pfadd uv0906 uid1 uid4 uid5(integer) 1127.0.0.1:6379> pfmerge uv0607 uv0906 uv0907OK127.0.0.1:6379> pfcount uv0607(integer) 5合并指定的HyperLogLog到新的HyperLogLog中使用场景HyperLogLog是Probabilistic data Structures的一种，这类数据结构的基本大的思路就是使用统计概率上的算法，牺牲数据的精准性来节省内存的占用空间及提升相关操作的性能。最典型的使用场景就是统计网站的每日UV。实例如下： @Test public void testUv(){ String uv1 = “uv96”; String uv2 = “uv97”; IntStream.rangeClosed(1,100) .forEach(i -> { System.out.println(i); redisTemplate.opsForHyperLogLog() .add(uv1,“user”+i); redisTemplate.opsForHyperLogLog() .add(uv2,“user”+i/2); }); long uv1Count = redisTemplate.opsForHyperLogLog().size(uv1); System.out.println(uv1Count); long uv2Count = redisTemplate.opsForHyperLogLog().size(uv2); System.out.println(uv2Count); String uv1uv2 = “uv67”; Long uv1uv2Count = redisTemplate.opsForHyperLogLog().union(uv1uv2,uv1,uv2); System.out.println(uv1uv2Count); Long realCount = redisTemplate.opsForHyperLogLog().size(uv1uv2); System.out.println(realCount); }小结redis的HyperLogLog特别是适合用来对海量数据进行unique统计，对内存占用有要求，而且还能够接受一定的错误率的场景。对于union操作由于是O(N)，在海量数据层面需要注意慢查询问题。dochyperloglogpfaddpfcountpfmergeHyperLogLogs in Redishyperloglog的java版使用