Benfordův zákon - jednička vítězí

15. únor 2009 | 06.00 |
› 

Vezmeme-li větší skupinu dat (například 1000) reprezentujících jakoukoliv přírodní veličinu (například soubor fyzikálních konstant nebo ceny zboží v místním supermarketu), jaká je pravděpodobnost, že určité číslo bude začínat jedničkou? Na první pohled je odpověď jasná: Počáteční číslovka může být 1, 2, 3,... až 9 (vyloučíme nulu, která může být libovolně přiřazena před jakékoliv číslo). Tedy pravděpodobnost výskytu jakékoliv číslovky na prvním místě je 1/9 = 0,111 neboli 11,1 %. Takže z 1000 čísel by 11,1 %, tj. zhruba 111 čísel, mělo začínat jedničkou (stejně jako dvojkou, trojkou atd.). Je to tak skutečně?

Odpověď 1/9 kupodivu neplatí. Benfordův zákon říká, že ve skupině čísel reprezentujících reálné hodnoty čehokoliv bude jedničkou začínat zhruba 30 procent čísel, dále pak 17,6 % čísel bude začínat dvojkou, 12,5 % trojkou a jen 4,57 % devítkou. To znamená, že z 1000 čísel v průměru 300 bude začínat jedničkou, 176 dvojkou a pouze 46 bude mít na prvním místě devítku...

Nejde o žádný matematický trik, ale o skutečný přírodní zákon, kterým se řídí soubory jakýchkoliv přirozených dat, bez ohledu na jejich podstatu nebo fyzikální jednotky. Jedinou podmínkou je, že data musí být v minimálním rozsahu tří desítkových řádů).

Podle Benfordova zákona procentuální pravděpodobnost p (%) výskytu číslovky D (tj. 1, 2, 3, 4, 5, 6, 7, 8, 9) na prvním místě v libovolném souboru dat se dá vypočítat z rovnice:

p (%) = 100 log [1+ (1/D)].

Tento přírodní jev poprvé zveřejnil matematik Newcombe v American Journal of Mathematics (1881) 4, 39–40. Newcombův článek ale upadl v zapomnění a tuto pozoruhodnost znovu objevil roku 1938 fyzik Frank Benford. Všiml si zajímavé skutečnosti, že logaritmické tabulky v technické knihovně měly mnohem víc ohmatané stránky s čísly počínajícími jedničkou.

Aplikace Benfordova zákona je dalekosáhlá. Máme-li větší soubor jakýchkoliv dat, můžeme poměrně jednoduchým statistickým rozborem lehce zjistit, jsou-li data skutečná (přírodní), nebo podezřelá. Například vezmeme-li vyplněný formulář daňového přiznání, správně vyplněné údaje by měly víceméně zapadat do Benfordova statistického výskytu první číslovky. Stejně tak se dají analyzovat výsledky voleb, vědecká data, ekonomické údaje apod. Pochopitelně ale platí základní pravidlo statistiky: Čím více dat, tím lepší souhlas s teoretickou křivkou. Chovat se takto mají i účetní položky – při podvodech prý lidé často udělají chybu právě v tom, že se snaží, aby všechny číslice byly v jejich výkazech zastoupeny stejně často, tedy "náhodně". Je ovšem jasné, že Benfordův zákon, tak jako veškerá statistická pravidla, bude u malého počtu čísel působit různou mírou rozmazaně...
Jak je to všechno vůbec možné? Někdy se odpověď zdá být nasnadě. Třeba u pořadových čísel domů v ulicích je jasné, že všechny ulice budou mít dům s číslem 1, řada ulic bude mít čísel méně než 20 atd. Pokud si vezmeme města s více než milionem obyvatel, pak je také jasné, že bude existovat více měst milionových než devítimilionových.

Benfordův zákon se bohužel nedá použít k zlepšení šance výhry v Sazce, protože nahodile tažená čísla 1 až 9 mohou být seřazena v libovolném pořadí. V každém případě je však Benfordův zákon fascinující a je zajímavé, jak málo i renomovaných akademiků o něm ví.

Benford

podle Pavla Kantorka

Zpět na hlavní stranu blogu

Hodnocení

1 · 2 · 3 · 4 · 5
známka: 1.56 (9x)
známkování jako ve škole: 1 = nejlepší, 5 = nejhorší

Komentáře