太陽がまぶしかったから

C'etait a cause du soleil.

情報エントロピーと片付けや問題の切り分け方法について

http://www.flickr.com/photos/7471115@N08/3168458692

photo by Mr. T in DC

情報理論入門の入門

 応用情報技術者試験の取得のために改めて情報学を学習しなおしています。情報理論については今後の議論の前提にもなるため、自身の復習も兼ねて基本的な所をまとめてみようと思いました。

 情報量とは端的に言えば、ある確率的事象について確定的になった場合の価値のことです。ある確率的事象の正規確率がP(J)である場合、情報量I(J)は-log2(P(J))、例えば正規確率が1/256である場合は -log2(1/256)=log2(256)=8 となります。このI(J)がビットと呼ばれるものです。ファミコンの事を8ビットと言いますが、これはCPUが8bitの情報(=0〜255の値)を一度に扱えるという意味です。

 ビットは2進数で表すことができます。例えば8bitであれば2進数が8桁であり、「00000000」〜「11111111」がとり得る値は256種類あるということです。逆に生起確率が1/4であれば「00」「01」「10」「11」の2桁で表現可能であるから2bitです。1/4で起こる事が確定的になった場合には2の価値があるという事です。この例からも分かる通り、「情報量は確率の逆数が2進数での桁数」という意味になります。滅多に起こらない事が起こったという情報には価値があります。

 情報量には加法定理があり、事象J1、J2が互いに独立である場合において I(J1×J2)は-log2(P(J1×J2))=-log2(P(J1)) - log2(P(J2)) = I(J1) + I(J2) であるため、情報量は加算可能です。それぞれ12bitの情報J1、J2があると4ビットになるわけですね。これは「00,00」〜「11,11」と考えると理解しやすいと思います。

情報エントロピーについて

 SFや掃除でお馴染みのエントロピーですが、情報理論においてはある事象を確定させるために必要な平均的情報量の事を示しており、ΣP(Ji)×I(Ji)で表されることになります。確定させるための情報量が多く必要になるということは、それだけ「不確定な状態」であるという事です。ΣP(Ji)×I(Ji) は情報量の定義から ΣP(Ji)×-log2(P(Ji)) = -ΣP(Ji)×log2(P(Ji))と変形できますが、これは熱力学における「乱雑さ」を表す物理量としてのエントロピーとボルツマン定数を除いて同一です。

 例えば発生確率が40%・30%・20%・10%という事象において情報量はそれぞれ1.32・1.74・2.32・3.32となります。これに生起確率を掛けて合計すると1.85となります。これは上記のような4通り発生する事象において生起確率が偏ると平均1.85bitあれば確定できるいうことです。25%づつ分布する場合においては、情報量2bitに生起確率が0.25を掛けて4倍なので2bitとなります。つまり生起確率が均等に近づくほど情報エントロピーが増大するということです。

情報エントロピーと片付けについて

 部屋が散らかっている時にエントロピーの増大を嘆く際には「どこになにがあるか分からない状態」を考えると正確です。腕時計が引き出しのなかにある可能性が90%なのか、50%なのかでは後者のエントロピーの方が大きいという事になります。何かを探す時に、それだけの試行回数が必要となってしまうために掛かる時間が増えてしまう期待値が高いという事です。

皆さんもきっと、ちょっとペンが見当たらないとか、家族が定位置以外に置いた物を探すということがあるだろう。統計によると、人は1日10分、一生だとなんと153日分もの時間を探し物に費やしているという。


民間の保険会社が英国で成人男女3000人を対象に行った調査では、探し物をする回数は平均で1日9回、年間3285個にのぼった。20歳からの60年間で、のべ20万個近いアイテムを見失う計算になる。


探し物にかかる平均時間は1日10分。成人人生の3680時間、実に153日間を探し物に費やしているという、驚きの数字になる。

情報エントロピーの増大に対応する

 掃除には衛生環境を良くする活動と、物の整理や取捨選択を行う活動がありますが。片付けと言われる物の整理や取捨選択を行う事は情報エントロピーを減少させる効果があり、部屋に限ってみればエントロピー増大の法則を逆行させることができます。しかし整理活動に付随する人間の老化や生理活動や記憶や汚れなどを視野に含めると人間側の情報エントロピーが増えており、全体の情報エントロピーは増大しています。物理的なエントロピーが増大すると情報エントロピーも増大すると短絡する前提です。

 人間のエントロピーの増大はシャワーを浴びることである程度は戻せますが(マイナスのエントロピーをネゲントロピーと言います)、今度は風呂や下水のエントロピーが増大しますし、エネルギーや老化や記憶は部屋を掃除する前には戻りません。つまり片付けとは部屋の情報量エントロピーを人間に移植し、またセカイ全体から見るとエントロピーを増大させる作業でもあるのです。これは『まどか☆マギカ』のシステムに似ています。

 しかしエントロピーは開いた系で考えると増大しません。先の例で言えば下水をセカイの範囲に含めなければ良いのですね。これを進めると<私>のセカイの外部の人間に掃除をしてもらうという事が考えられます。

 つまりセカイのウチとソトに分けて、自身に不利となる情報エントロピーの増大をソトに押し付けるための取引を考える事です。一方で情報エントロピーを効率よく縮小させる事で効率よく対価を得る事が可能となります。プロの掃除代行サービスを利用するという事です。

情報エントロピーと問題の切り分け

 上記を踏まえてプロとして効率のよい問題解決を考えようと思います。例えばシステム利用不能になった時に、その原因を確定するためには、情報エントロピーを効率的に減らすように検証していくと効率がよくなります。例えばP(J1)=40%・P(J2)=30%・P(J3)=20%・P(J4)=10%で原因になりそうだと当たりを付けたら生起確率/検証労力が大きいものから実施します。

 ここでJ1の検証を最初に行い0%と確定した場合、確率を単純に分配するとP(J1)=0%・P(J2)=43.3%・P(J3)=33.3%・P(J4)=23.3%に再調整されるため、情報エントロピーが1.54bitまで下がります。対してJ4の原因の検証を実施した場合にもP(J1)=43.3%・P(J2)=33.3%・P(J3)=23.3%・P(J4)=0%であるため、1.54bitとなってJ1を棄却した状態と変わりません。情報エントロピーを0にしたらゴールなのですが、J1を実施して失敗しようが、J4を実施して失敗しようが次に選ぶ時に3択問題になってしまうという事です。

均衡を崩すこと

 これに対して例えばJ3の原因がありえないと確定したら関連するJ4の原因が5%まで下がる場合があるとします。この場合はP(J1)=52.5%・P(J2)=42.5%・P(J3)=0%・P(J4)=5%であるから、計算すると1.12bitまで下げられます。1.12bitは見た目にも分かる通りにほぼ2択問題にできるということです。これは20%+5%で合計25%を動かしたわけですが、J1の40%を0%にするよりも大きな効果がでます。

 このように問題切り分けのためには、いかに確率分布の均衡を崩すためのアクションを行うかが重要となります。この例については暗算や直観でも判断できるような事かもしれませんし、いきなりJ1を実行して成功するならそれで良いのかもしれませんが、これは残機が何機あるかによって最適戦略が異なります。例えば問題発生時の試行回数が3回までと限られているのであれば後者の方法を取る方が確実です。

 以上のように情報理論は色々な事に対応できる理論となります。「情弱」などという言葉が生まれて久しいですが、そもそも「情報」とは何かについて基本に立ち返ってみるのも一興ではないでしょうか。

人生がときめく片づけの魔法

人生がときめく片づけの魔法