Redis HyperLogLog操作

2018-08-03 11:05 更新

HyperLogLog主要解決大數(shù)據(jù)應(yīng)用中的非精確計(jì)數(shù)(可能多也可能少,但是會(huì)在一個(gè)合理的范圍)操作,它可以接受多個(gè)元素作為輸入,并給出輸入元素的基數(shù)估算值,基數(shù)指的是集合中不同元素的數(shù)量。比如 {'apple', 'banana', 'cherry', 'banana', 'apple'} 的基數(shù)就是 3 。 HyperLogLog 的優(yōu)點(diǎn)是,即使輸入元素的數(shù)量或者體積非常非常大,計(jì)算基數(shù)所需的空間總是固定的、并且是很小的。在 Redis 里面,每個(gè) HyperLogLog 鍵只需要花費(fèi) 12 KB 內(nèi)存,就可以計(jì)算接近 2^64 個(gè)不同元素的基數(shù)。這和計(jì)算基數(shù)時(shí),元素越多耗費(fèi)內(nèi)存就越多的集合形成鮮明對(duì)比。但是,因?yàn)?HyperLogLog 只會(huì)根據(jù)輸入元素來(lái)計(jì)算基數(shù),而不會(huì)儲(chǔ)存輸入元素本身,所以 HyperLogLog 不能像集合那樣,返回輸入的各個(gè)元素。

關(guān)于這個(gè)數(shù)據(jù)類型的誤差:在一個(gè)大小為12k的key所存儲(chǔ)的hyperloglog集合基數(shù)計(jì)算的誤差是%0.81.

參考文獻(xiàn):http://highscalability.com/blog/2012/4/5/big-data-counting-how-to-count-a-billion-distinct-objects-us.html


以上內(nèi)容是否對(duì)您有幫助:
在線筆記
App下載
App下載

掃描二維碼

下載編程獅App

公眾號(hào)
微信公眾號(hào)

編程獅公眾號(hào)