データを読み解くリテラシー

世間では統計学がブームらしい.
kaji-fig1Google のHal Varian氏は,2009年の時点で「今後 10 年間で最もセクシーな仕事は統計学者だ」と断言している.最近は日本でも統計学に関する本が売れているし,ビッグデータというキーワードにも手垢が付き始めている.私自身も研究者として,あるいは普通の市民として,様々な調査結果や統計データに接する機会が多くなっているような気がするが,その中には,首を傾げたくなるものも少なからず存在する.このボンヤリとした違和感は,統計学以前の,統計的な数字という「情報が作り出される仕組み」の取扱いに関する不適切さから来るのではないか,と最近は思いつつある.小文では,情報理論における「エルゴード性」というキーワードを軸に,この雑駁とした感じについて書いてみたい.

影の薄い「エルゴード性」

kaji-fig2エルゴード性は情報理論で学ぶ基礎的な概念の一つであるが,抽象的でイメージすることが難しいこともあり,多くの学生が「理解せずにやり過ごしてしまう」用語の代表例であろう.かくいう私自身も,授業の準備のため教科書を読みなおして「再発見」するまでは,意識の片隅にしか残っていなかったことを正直に告白しておく.エルゴード性とは,「時間平均とアンサンブル平均が等しくなる性質」と説明されることが多いが,この説明ではいまひとつピンと来ない.これは,既に理解している人が「頭で考えてひねり出したキレイな説明」である.もっと泥臭くて良いから,わかりやすい理解の方法はないものだろうか.

非エルゴード的=個性的?

少し乱暴な言い方になるが,エルゴード性とは「個々の情報源に個性がないこと」と理解するのが早いように思われる.まずは具体例で考えよう.

  1. 工場から出荷されるサイコロを無作為に1個選び出し,そのサイコロを100回振ったところ, 1の出た回数が17回だった.この結果から,サイコロが 1を出す確率を17/100≒1/6と推測した.

たった100回の試行結果から議論を一般化するのは少し強引な気もするが,議論の大筋としては妥当であろう.サイコロには色や形の違うものもあるが,統計的には,どれも同じような振舞いをする.すなわち,個々のサイコロには「個性がない」ということができる.どれでも良いから1個のサイコロを選び出してきて,そのサイコロの統計的な性質を分析してやれば,他のサイコロの統計的性質も同じようにわかるはずである.このように,1個の代表の振舞いから全体の統計量を推測できるのが,エルゴード性と呼ばれる性質である.では,上の例と同じ論理構造を持つ次の例を考えてみよう.繰り返しになるが,次の例と上の例とは同じ理屈になっており,出てくる単語や数字が少し違っているだけである点に注意して欲しい.

  1. 日本の成人男性を無作為に1人選び出し,その人の喫煙行動を100日間にわたって観察したところ,タバコを吸った日が90日あった.この結果から,日本人の成人男性の喫煙率を90/100=9/10と推測した.

kaji-fig3明らかにヘンである.サイコロのときに成り立った議論が,どうして喫煙行動では成り立たないのであろうか.理由は簡単である.喫煙行動は人によって異なるのが当然なので,1人の行動をいくら詳細に分析しても,その分析結果を全体に対して一般化することはできない.すなわち,集合や集団を構成する要素に「個性」があるときは,1個の代表の振舞いから全体の統計量を推測することはできないのである.このようなタイプの情報源(現象,行為)は,非エルゴード的であると言われる.

エルゴード性と統計データの読み方

この例からもわかるとおり,非エルゴード的な情報源からの出力について間違った取り扱いをしてしまうと,せっかく実験や調査をしてデータを集めてみても,誤った結論を導き出してしまうおそれがある.とくに,人間の行動や行為は非エルゴード的なものの代表であるため,その取扱いには十分な注意が必要である.非エルゴード性の「罠」を避けるためには,十分多数の情報源(文脈によっては,サンプル,被験者,モニターと理解してよい)を集めてこなくてはならない.しかし,単に数を集めれば良いというものではなく,その集め方についても慎重に検討する必要がある.たとえば,前述の喫煙率調査のやり方を改善するため,100人の被験者を集めることにしよう.100人くらい集めれば,個性の違いを平均化して正しい推測ができそうであるが,煙草の自動販売機の前で100人にアンケートを取るのはマズイやり方である.自販機の前をウロウロするという行為と,喫煙行動との間には強い相関があると考えられるからである.この場合であれば,喫煙行動と全く相関のないやり方,たとえば電話番号をランダムにダイヤルする等の方法で被験者を集めなければならない.

上で述べたような人工的な例であれば比較的わかりやすいが,我々が日常生活で接するのは,もっと微妙でわかりにくいものである.たとえば「日本人は1日平均50通のメールを受信する」といったレポートを目にする機会もあるが,その調査方法をよく調べてみると,パソコンサイト上のアンケートだったりする.膨大な数のメールへの対応に忙しくて,アンケートに回答する時間すら持ち合わせていない人は,最初から調査の対象に入れてもらえないのである.これなど,上で述べた「自販機前でアンケートを取る」のと大差ないように思われるが,この数字だけを信じて何か新しいビジネスなんかを立ち上げてしまうと,痛い目に遭いそうである.

kaji-fig4あるいは,携帯会社の電話の「つながりやすさ」を評価するのに,その会社と契約している人をモニターに選んで発着信の成功率を調べた,といった結果を見ることもあるが,あれなどもエルゴード性について理解しているのか,甚だ疑わしい.言うまでもなく,携帯電話の「つながりやすさ」は,いつ,どこに居るかという個人の行動パターンと密接に関係している.「ある携帯会社のカバーエリアにいる確率が高い人」がその会社と契約しているのだから,契約者をモニターとして調査すれば,「つながりやすさ」が高く出るのは当然であろう.

身近な問題として

世間に出回っている調査結果を笑うのは簡単であるが,研究活動を行う者にとっては,この問題は他人事ではない.とくに情報科学の分野では,ユーザの利便性や操作性を改善するタイプの研究が少なからず行われている.そのような研究の良し悪しを決めるのは,突き詰めていけば人間の主観的な評価である.被験者アンケートにより提案手法の有効性を確認しました,という学会発表を聞く機会も多いが,その被験者が同じ研究室の友人だったりすると,とたんに結果の信ぴょう性が疑わしくなる.人間を対象にした研究を行うにあたっては,非エルゴード的な対象物を取り扱っているのだということを肝に銘じておきたいところである.

おわりに

膨大なデータを統計的に読み解く能力の重要性は高まる一方である.しかし,数字として表れた情報だけを見て,その情報が生み出される「仕組み」に思いを致さないのは,情報の専門家ならずとも褒められたものではない.もちろん,誤った分析結果を流布する者の責任は問われなければならないが,そのような不正確な議論を盲目的に受け入れることも,ある意味同罪であるといえる.幸い,情報科学の先達は,既に多くの発見をしてくれている.学ぶべきことは,手元の教科書に書かれているかもしれない.そのことに気付くか,気付かないかは,学ぶ時の意識の持ち方次第である.教科書を読みなおして,何かを「再発見」するようでは,全然ダメなのである.