平均的技術記事 (2012/02/25)


はじめに

現役大学生、4人に1人が「平均」を理解していない という記事があって, 若干話題をよんでいるようだ.

その記事では「おいおい平均も解らないとかやばくないか」という含意があるようだが, 平均はその記事を書いた奴が思っているほど自明な概念ではない. そこで今回は, 平均という操作が持つ数学的な意味(およびその非自明性)とその背景と適用範囲などに焦点をあててみたい.

平均の対象

\(n\)個の対象があったときその値を合算して\(n\)で割ったものが平均. 何か非自明な事でもあるの? と思う人もあるかもしれないが, そういう人はたとえばこんなふうに考えてみるのはどうだろう. 時計の文字盤に 12 個の数値が表記されている. 12個足して 12 で割れば, それは文字盤の平均値?

文字盤は, どこにナニが書いてあるか, Frank Muller の Crazy Hours などの例外を除いて, 決まっている. 決まっているからこそ時計は時刻を一読して理解する事ができるのであるし Crazy Hours は独立時計師の反逆の表現として成立するのである. 文字盤の値を足して12で割る事を禁じる規則は無いので, やりたければ勝手にやって構わないし, 将来, その操作が持つ数学的な内容が(もしあれば)明らかになる日が来るかもしれない. だがその操作の結果は今知られている平均値ではない. 値が確定している対象については, 平均は考えないのだ.

平均という考えの背後には不確定性がある. 平均とは確率論や, 統計学における操作の一つなのである. では, 不確定な値が \(n\) 個あったとき, その合算を \(n\) で割るという操作が持つ数学的な意味とは何か? まず自明と思える場合から始めよう. 正確なサイコロの出目の平均は? いうまでもなく 3.5 ですな.

平均 期待値 大数の法則

つぎに, ここにイカサマのサイコロがあるとしましょう. 1 が出る確率が他より高くなっている. このサイコロの出目の平均とはどうすれば判る? 1000回ぐらい振ってみたら判るかな? それとも10000回ぐらい振らないとだめかな? そんな根性任せの方法じゃなくてもっと理屈で考える方法は何かない?

そこで \(n\) 回振ってその値を足して, \(n\) で割るという操作が持っている意味を, このイカサマのサイコロで考えてみよう. 7000 回振ったときに 1 の回数は 2000 回で, あとはそれぞれ 1000 回ずつ目が出たとしよう.

$$ \frac {1*2000 + 2 * 1000 + 3 * 1000 + 4 * 1000 + 5 * 1000 + 6 * 1000} {7000} $$

普通の平均値の計算はこんなかんじです. こいつをこう書き直してみる.

$$ 1\frac{2000}{7000} + 2\frac{1000}{7000} + \cdots $$

上の式に出てくる \(\frac{2000}{7000}\) は何かというと 7000回振って1が2000回出たという話で, これは 1 の出る確率だ. イカサマだけに人の手が加わっているので理論値がそもそも判らないから, とりあえずここでは \( \frac{2}{7}\) という値を採用しておこう. 他については \(\frac{1}{7}\) だ. つまり平均値というのは値が \(x\) になる確率を \(P(x)\) とすると \(x * P(x)\) を \(x\) について足したもの.

$$ \sum_x x P(x) $$

を計算しているわけである. これはいわゆる期待値というもので, つまりイカサマなサイコロの出る目がいくつになりそうか, という値だ. 正確なサイコロは \(P(x)\) が恒等関数なので, \(1+2+3+4+5+6\) を 6 で割ったものが偶然に期待値になっているのである.

平均値は期待値を有限個のサンプルで自然に表現したものである. 平均をとるという操作の数学的内容ならびに, その有用性は, それを期待値として用いることができるという点にある. 損得づくで言うと, 出目の予想に使えるということである. 平均値の対象となる値が不確定であることが求められる理由は, わかっているものの期待値は計算しないからである.

この値は理論上の存在である期待値と完全に一致するとは限らない. サイコロの目に誤差は無いが, 一般的にいうと \(x\) の値には誤差が含まれているし, サンプルの内訳が確率にきっちり対応しているとは限らない(確率が無理数なら正確には対応しない). でも \( n \) をどんどん大きくしていけば徐々に理論値ににじり寄っていける(そんな気がする). これを定式化したものが大数の法則という極限定理で理論値と測定値の間をとりもつ架け橋のひとつだ.

確率空間, サンプル, 確率変数

確率論の教科書的展開としては, まず取り扱いたい確率事象というものが抽象的あるいは超越的な存在としてある. たとえば, 理想的サイコロを理想的に振ることであったり, 理想的なイカサマのサイコロをふることであったりする. そこから有限個の事象が現実世界に降臨したものがサンプルで, これはたとえばわりと理想的なさいころを実際に振ってみた結果であったりする. 確率論の対象となるのは, 抽象的な数学構造自体及び, この数学構造とサンプルの関連である.

このように理論上の構成としては, まず最初にあるのが抽象的な数学構造であって, 我々が見ているのはそれが地上世界に降臨した片鱗にすぎない, というふうになっているにも関わらず, 我々が最初に眼にするのは超越的存在の破片のほうである. だからどうしても, そこから逆流して超越的存在を追求していく, という流れが出てくるのは避けられない. 個人的な見解を申し上げますと, 教科書の超越論的ストーリーに忠実にやるのが確率論で, 物語を逆から読むのが統計である.

確率であつかう対象は, まったく抽象的な存在であって, 唯一の構造は「含む」とか「かつ」みたいな原始的な関係と, それに割り当てられた1以下の非負の実数(確率測度)しかない. これじゃまったく何の事やらさっぱりわからないと言いたくなりますが, でもそれはそのとおりで, 身長にせよテスト結果にせよ, 測定するとか採点するとかしないと, そこにあるのは未知の確率的事象でしかないわけで筋は通っている.

とはいえ実際問題としてこれだけではまったく解析の対象にならないので, まずこの抽象的な構造のほうにうまい具合に数値を割り当てて, この数値と確率の間の関数を考えることで, 超越的存在が見慣れた実数関数になってくれる. 事象に割り当てた数値は「確率変数」といい, 確率変数と確率の間の対応が確率密度関数だったり分布関数だったりする.

多くの場合は出来事自体と確率変数の間には自然な同一視ができるようになっていて, 身長体重あるいは試験の成績や金額などはそのまま確率変数として使う事ができる. しかし, じっくり考えてみると, そういう事ができるのは我々の長年の測定行為とその標準化という鍛錬の結果なのであって, これはそれほど自明な事ではない. 確率的に振る舞う匂いや色彩を扱おうと思ったら, まずはこれを数値に割り当てる方法を探ることになるが, その操作が確率変数の割り当てという事だ. 両者の対応は自然なものであることが望ましいのはいうまでもないが, その対応は任意であって, 最初から決まっているわけでもなければ, それしかない, というものでもない.

サンプルの限界

確率を実地に使う場合はしばしば, 抽象的な数学構造のほうと, それが現実に起きたサンプルの方面の間を行ったり来たりすることになる. サンプルから, 抽象的な数学構造をつかみたい場合もあれば, 構造は判っていて, 今後どんなサンプルが出てくるかを見通したい場合もある.

平均値の意味は, それが期待値という抽象的構造の性質の推定もしくは代理として使えるというところにあるのだが, この両者の間には常に多少のズレがあるだけでなく, それどころかサンプルの合算をその数で割ったものが期待値にまったく一致しない場合もある.

じつはこのイカサマのサイコロは角っこのところをよく見ると一つだけ, 生命保険の約款の文字よりもちっこく \( \underline{\infty} \) と刻んであるのだ(さすがイカサマ). でも, 無限大が出る確率が十分に小さいのでサンプルにその目は出てこないのだ(「期待値無限大!」 といってカモをおびきよせる). このように期待値が収束しない分布はいくらでもあるが, 一方で有限値を持つ有限個のサンプルを合算してその数で割ることは常に可能だ.

サンプルの合算をサンプル数で割るという操作の価値はそれが期待値として使える, という点にかかっているので, サンプルの集計結果が期待値にまったく一致しない場合はすっかり無意味な演算である. それが期待値として意味を持つかどうかは確率変数の分布に依存する. そこを考えずにサンプルを合算してその数で割った値を使うのは, 平均を理解していないという事だ.

おわりに

自分が自明と思う事を他の人が理解できないときに, その人をバカだとかゆとりだとかいって罵るのは一般的に言って不毛だ. じつはどこかに非自明な仕組みが隠されており, そのために理解が妨げられているのかもしれない. そして自分はそのステップをすっとばし, 使い方を暗記しているだけなのではないか, と疑うようにするほうが, 生産的だと思う. 自明に思える数理操作であっても背後には案外深い仕組みがあったりして, そんな場合は思わぬところで足をすくわれたりするからだ.

この記事では標本空間や確率変数などの概念をテキトーに(「適当に」ではなく)用いて, 期待値という確率論の概念とサンプル集計の間にある関係を説明したが, そのせいで人によってはキモい感じが残ると思う. その場合は確率論の教科書を参照してほしい. 最初のほうが, \(\sigma\)代数で始まっている本を選んでほしい. たとえば MIT の OpenCourse の 18.175 のテキストなどだ. そういうガチな構成ではなく, 道具として使えればよいという目的に特化した本もあるが, この記事の気持ち悪さを解決するためには, そういう本はまったく役に立たないだろう.

さんこうぶんけん


記事リストへ