情報エントロピー

衝撃スクープ!

世の中には「衝撃スクープ!」と呼ばれる情報がある。
何を持って「衝撃」というかは個人的な関心にもよるだろうが、そういう人間の主観を取り除くと、一般に「衝撃スクープ!」というのは「ありえないことが起きた!」 「非常にめずらしいことが起きた」というような事件の報道に対して「衝撃スクープ!」ということが多い。
つまり、「確率が非常に小さいようなことが起きる」ということに対して「衝撃度が大きい」と考えることにしよう。

衝撃度(自己情報量)

確率Pから衝撃度Sを計算してみたいが、その計算式はどういうものがいいだろうか?



としたときの関数fを決めよう。
その場合、以下のような用件はほしいところである。

1)確率1の出来事が起きた場合、まったく当たり前のことが起きたので、衝撃度は0である。
すなわち

 

例:「池に落ちたら濡れた」とか、「塩をなめたらしょっぱかった」とか、こんな情報は衝撃度=0である。

2)確率が非常に小さな出来事が起きた場合、衝撃度は大きくなる。
最大値は適当な有限値でもかまわないが、ここは

としよう。
例:「小学生とタイガー・ウッズが本気でゴルフをして小学生が勝った!」とか「古代恐竜が生きたまま発見!」とか、こういう情報は衝撃度が非常に大きい。

3)確率P1の出来事と確率P2の出来事が同時に起きる確率はP1×P2であるが、このとき衝撃度は確率P1の出来事の衝撃度と、確率P2の出来事の衝撃度の和となるとしよう。(和でなければ絶対にだめということもないのだが、まぁ一種の考え方である。)
すなわち 



例:あるゴルフコースで、最初のホールでホールインワンが出る確率がP1であり、二番目のホールでホールインワンが出る確率がP2であるとする。二連続でホールインワンが出る確率はP1P2であり、衝撃度は、「最初のホールでホールインワンが出る」という衝撃度+「二番目のホールでホールインワンが出る」という衝撃度 で表される。

こんなふうになっている関数fを探そう。

このような条件を満たす関数として



がある。
(マイナスがないと、p→0 であるとき、f(p)→−∞になってしまう。)
そこで、確率Pの出来事が起きた場合の衝撃度Sを


と表すことにする。

実は、「衝撃度」というのはここのページだけの用法であり、-log P は正しくは自己情報量という。

底の問題
衝撃度(自己情報量)を計算するときのlogの底は何がいいのだろうか?

一般的には -log10P でも -logeP でもいいのだが、よく使われるのは


である。
底を2にしたときの情報量の単位をbit(ビット)という。
底をeにしたときの情報量の単位をnat(ナット)という。
底を10にしたときの情報量の単位をdecit(デシット)あるいはdit(ディット)あるいはHartley(ハートレー)という。

自己情報量をグラフで書くと

こんな関数になる。

問題
確率1/8の自己情報量はいくらか?
logの底は2とする


-log2 1/8 = 3 であるから

3bit

次へ