AIC Dokan (2010/09/18)


直交性

数学で良く出て来る概念の一つに、基底 という考え方がある。 うまく選ばれたごく一部分とその組み合わせ規則によって、 全体を構成できるものを基底という。 典型的な例でいうと、 3次元空間における x 座標 y 座標 z座標である。 この場合、全体が3次元空間全体で、 基底のほうは各座標、もっというと座標全部じゃなくて長さ1(こうしておくと 計算が楽になるし表記も美しくなる)の座標軸。 長さ1の各座標軸はいうまでもなく3次元空間の一部分であり、 組み合わせ規則は(ベクトルの)足し算である。これで任意のベクトルを 表現できる。

この話はべつに3次元じゃなければいけない、というわけではないので、 任意の自然数nについてn次元ベクトル空間というものを自然に考えることができる。 何がどうn次元なのかといえば、 それは基底に含まれる要素がn個という意味である。 さて、ここで3次元の時はあたりまえに見えたけれども、 すこし考えるに値するように思えることが現れる。 それは、基底には本当にn個が必要なのか?みたいな話だ。

あるいは基底がn個とはどういう意味か、という点ですな。

それが基底である、と言えるためにはまず要求されるのは n個用意したものでは足りなくなったりしないことであり、 それは空間全域についてこれを表現する基底の組み合わせが 存在する事を調査する必要がある。 次に必要になるのは、余分なものが無いことで、 言ってみれば「じつはn-1個で十分なんじゃないの?」という疑念の払拭である。 こちらは、もし基底のうちのどれかが他の基底の組み合わせで表現できるか どうかという段取りで調査する。

この、互いに重複なく、しかも全てを網羅している、 という状態は数学の範囲を超えて世の中一般で、 非常に洗練されて本質を鋭く突いたものとして尊重されている。 その理由は、大きな対象を小さい範囲で考察する事を可能にするからである。 わしらの知能は空間全域を対象とするにはあまりに非力なのである。 また、このように凝縮された表現をとることで、 一見すると無関係に思われたものどうしの間に意外な関係性が 現れて来る事もよくある。

重複していない、という状況をさして、 しばしば「直交する」という表現を使う。 これは、我々の普段親しんでいるユークリッド空間に仮託した表現で、 そこでは独立なベクトルを使って直交ベクトルを生成する操作が可能である ことから、 独立性を象徴する表現としてしばしば用いられるのである。

AIC

赤池情報量基準

なかなか良い解説がネットワーク上に見当たらないので、 かなり理解に手間取った。 以下自分なりの理解をメモとして。

確率論の体裁としては、まず確率空間があって、 つまりシグマ代数と確率測度があって、 そこから標本が確率分布にしたがってピックアップされる(事象がおきる) ということになっている。 だが残念ながら、わしらが接する状況はその逆の段取りである事が多い。 つまり、あらかじめ、分布や確率密度関数が判っている場合はあまり無いが、 しかしサンプルならある、という場合はけっこう多いだろう。

サンプルから何か統計的な結論を得るというのは、 すなわちサンプルに確率論的な意味付を与えるという操作に他ならないわけです。 具体的には、サンプルが従う確率上の法則を推測し、 それに基づいて「この二つのデータは関係が無い」とか 「これの結果は偶然ではない」 などの、結論を得るわけです。

その際、推測した確率論上の法則、たとえば 得られたサンプルを生み出しそうな分布関数や その元になる確率モデルであったり、 そういう理論的な存在の妥当性に疑問があったりする場合もあるわけです。 もっとも、「これ以外ありえないだろ」 みたいな事もありますけどね。

そんなとき、妥当性を計測する尺度が欲しくなります。 まずは、どの関数が一番ソレっぽいのか、みたいな話です。 これには幾つかやり方があるようですが、その一つが 「最尤推定」といわれる方法です。 これは要するに、ある評価関数(尤度関数といいます)の元で、 確率密度関数族のうち一番成績の良いやつをピックアップする、というテクニックです。 関数族といっても何でもアリなわけではなく、 パラメタをいじくるぐらいの話です。 たとえば正規分布なら分散と平均とか。

正規分布はパラメタが二つで決めうちですが、 しかし、確率モデルによっては、パラメタの数が一定ではありません。 ところでパラメタを増やせばそれだけ関数をこっちが操作できるようになります。 それが本当に必要ならいいのですが、なんせ確率モデルが解らないのを 推定しようという話なのでそんな判断ができたら世話ないわけです。

逆に言えば、同じくらいソレっぽいモデルなら、 パラメタの数が少ない方が、広い世間で通用するだろうと期待できます。 つまりパラメタは少ないほうが優秀なモデルである。 これはいわばリーグ戦で、星(尤度)では決着がつかなかったとき、 得失点差(パラメタ数)で決めるような感じです。

そんなわけで、モデルが持つ確率密度関数の それっぽさ(尤度)から、パラメタの数を引いたスコアを基準にして モデルの成績をつければいいではないか、 というのが AIC という考え方です。

しかし、尤度は確率です。パラメタの数はベクトル空間の次元です。 この二つを加法演算した値にどのような確率論上の意味があるのか、 そこが私には全く理解できません。 提唱者の赤池先生の原論文は google books で読めるのですが、 ちと手ごわい。 他に参考になりそうな情報源は無し。 だから確率論上の意味は理解できていないわけですが、 まぁ、要するにAICのキモチとしてはそういうことです。

土管からこんにちは

Dokanというシェルコマンドから Twitter に投稿するツールがあります。

これを使って、emacs のバッファから Twitter に投稿できるようにしてみました。

(defun tweet-it (text)
  (start-process "post to Twitter" nil "/home/yuji/bin/dokan.rb" text))

(defun tweet-region ()
  (interactive)
  (tweet-it (buffer-substring (region-beginning) (region-end))))

(defun tweet (str)
  (interactive "sTweet: ")
  (tweet-it str))

最後の関数はミニバッファから発言するやつです。 irc の発言を同時に Twitter に転送する事も容易です。


記事リストへ