あらゆる non grata (2004/03/13)


unwanted messages

最近みた新たな手口

filesystem

メモリ管理のはなしを以前書いたが、 高級なコンピュータでは情報を保存し読み出すための仕組みを 複数用意してあるのが普通であり、 それら複数の仕組みは情報の性質によって使い分けられている。

非常に頻繁に参照される情報についてはメモリを使う。 これは高速に参照可能だが値段が高くて搭載量も限られている。 そこで、それ以外の、あまり頻繁に参照されない情報に関しては、 別の仕組みを用いて保存するわけでして、 その一つファイルシステムです。

だから、仕事の内容としては、メモリ管理とだいたい同じです。 だいたい同じだが、微妙に異なるところもある。 扱う情報の種類や量が違うからだ。 メモリ管理では、メモリ上に実行中のプログラムなどが配置され、 仮想メモリ機構が備わってたりして pagefault があったりしたけれど、 ファイルシステムではそういう問題は無い。 その代わり、ファイルシステムでは大量のデータを人間にも 見やすいように提供する、という仕事がある。

メモリは人間が直接参照することは (Cや機械語の開発者以外)ありえないが、 ファイルは人間が直接に参照するのである。

bogofilter その後

-Sn というオプションがあり、メッセージに含まれる語彙をスパム側から通常メールに引越し。

-Ns がその逆。

これをなんとなく学習コマンドに付けてたら、あらゆるゴミ箱行きになってしまい、烈しく難儀した。 今日はどうもメールが来ないな、と思ったら客のメールとか全部ゴミ箱に入ってんの。 しかも、どうやって直したらエエのかわからん。

ちょうどwordlistも25MBytesくらいになって動作もだいぶ遅くなってたので、 昨日、ここらでいっちょ初期化して、改めて -n と -s でやり直してみた。 その際、今回は適切なメールとゴミのメールの集合をキッチリ検査し、 ゴミ集合にゴミ以外が一切入ってないように。また、 通常のメッセージの集合には一切ゴミが入ってないように気を付けた。 前回はけっこうテキトーだったんで。

昨日は数通潜り抜けたものがあったが、それらを学習させたところ、今日は false positive 0 false negative 2。 前回よりもよほど優秀な結果である。 当り前だが、用意するメッセージの集合の品質によって得られる結果がずいぶん違う。 初期化に使う集合には気を付けねば。


記事リストへ