数字のいかさまとベンフォードの法則

題名のうち「いかさま」は良く知られている行為なので、いまさら説明する必要もないでしょう。ですから、ベンフォードの法則(英語でBenford's law)について最初に触れておきます。

現実の生活で登場する無作為な数字(全部が全部ではないのですが)、例えば、天体の大きさ、川の長さ、などなどをよく観察してみると、「数字の最初の桁(一番左側の値、3桁なら百の位のこと)に」1から9まで「同じ頻度」では現れない。実際には、1が最も登場し、2,3,4,5・・・の順に登場回数が減り、9は殆ど登場しないということです。では10は?というと、10進法の場合、10個集まると1桁アップしますから、「数字の最初の桁の数」は「1」になります。為念。

世の中には、「1で始まる数」で溢れていて、「2で始まる数はそれ(1で始まる数)より少なく」、「3で始まる数はそれ(2で始まる数)より少なくなり」、・・・(以下省略)「9で始まる数は殆どない」ということです。

なんででしょう?

直感的には、数を数えるに当たって、1は最初に登場しますが、9は最後に登場するので不利なんです。

野球のバッターを想像すると分かりやすいかもしれません。1試合の打ち1番バッターと9番バッターでは打席数に「1打席の差」が出たりします。1番バッターが打席に4回も立ったのに対して9番バッターは3回しか打順が巡ってこなかった。その差を倍率にすると1.33倍。したがって、もし、毎試合「1打席の違い」が出れば、1番バッターの打席数は9番バッターよりも33%多くなる。(ここでは延長戦がなくてルール通り9回で終わった場合を想定)

ただし、毎試合いつもと1番バッターは9番バッターより1打席多く打席に立つとは限らない。仮に、毎試合1番と9番よりで「打席数に差が出ない」とすると両者の差は0%となる。

でも、差が出ないのは(四死球が無いとして)ヒット数が「きっちり9の倍数の場合のときだけ」です。例えば、一試合での安打数が「1安打から8安打」のときは、「1打席の差」は出ますし、「10安打から17安打」でも出る。つまり、「1打席の差」殆ど出るってこと(割合で言えば「9回中に8回は出る」、すなわち、8÷9=89%、の確率で「1打席の差」が出るイメージです)。


このように考えると、1番バッターは9番バッターの打席数の比率の差異は、現実には恐らく「29%」(=33%×89%の確率))前後で落ち着くのだろうという「ざっくりしたメド」が立ちますね。

この「根拠あるメド」ってやつが大事。フェミル推定とも言いますが。


詳しい学者さんたちが調べた結果、
最初の桁で「1」が登場する割合は30.1%だそうです、他方「9」は4.6%しかない、その差は約25%!

さっきのフェミル推定が29%ですから「まあまあ」ですね!

その他の数字(2,3,4,5・・・、8)の出現率はこちらにあります(Wikipediaより)。
http://ja.wikipedia.org/wiki/%E3%83%99%E3%83%B3%E3%83%95%E3%82%A9%E3%83%BC%E3%83%89%E3%81%AE%E6%B3%95%E5%89%87


■■

ベンフォードの法則を使うと、
「いかさま」
が見破れるんです。
(と変に断言してしまうのもいささか危険なのですが、「正確な記述を心がける」というよりも「(誤解を生まない範囲で)自分の意見表明をはっきりさせる」というブログの趣旨を優先します。どうぞお許しください)。

つまり、作為的に数字をいじったり、捏造したりすると、ベンフォードの法則から逸脱するので、あっさり「ばれる」ってわけ。

例えば、中国では更迭問題を意識して多数の死者が出たような重過失事故の場合、死者の数を大体「35名」前後に収める操作(35ルール)があるとかないとか、言われています。中国新幹線事故でも最初の報道では35名でした(後に40名(だったかな?)に訂正されました)。

事故での死者数もベンフォードの法則あたりにあてはまりそうです。

そこで、10名以上の死者数があった事故で公式発表死亡数をざっとみてみました(いろんなWEBをスメルチェック式にみた)。

35ルールが述べるような「ぴったり35以下」というのはあまりないのですが、「30から40あたり」に数字が集中しているようですね。したがって、ベンフォードの法則と比較して、最初の桁で「5,6,7,8,9」の出現する回数がすごく少ない印象です(これは飽くまで印象です。沢山のサンプルを取ってきて統計的に有意なレベルで調べたわけではありません)。

■■■

ベンフォードの法則から逸脱するかどうかのチェックを
「領収書」
とか
「会計データ」
などに適用してみて不正を見破ろうとするリスク・アプローチもあるようです。