nDiki

2005年3月9日 (水)

bogofilter日本語 spam メールを弾けなくなったのでDB作り直し

最近 bogofilter日本語 spam メールをほとんど弾かなくなってきている。 英語や中国語のspamメールはきちんと弾いているのだけれども。

チェックしてみると逆に積極的に non-spam 判定されている spam メールもある。

前回設定を見直した時procmail から bogofilter を呼び出した際に -u オプションでどんどん新規登録するようにしたのだが、どうもこれで誤登録を重ねてしまっているようだ。

spam メールも non-spam メールも最終的には全て目視でチェックしており、不適切な振り分けがあった場合は手動で再学習させるようにしている。 spam メールbogofilter -u で spam として振り分けられなかった場合

  • non-spam 判定されている -> bogofilter -Ns で一旦 undo してから登録
  • unsure 判定されている -> bogofilter -s で登録

とするべきで当初そうしていたのだが、最近横着をしてすべて -s してしまっていた。

どうもこれでspamに特有な語が non-spam 側のテーブルにも残ってしまい、結果 non-spam 側に判定が傾きがちになってしまったようだ。そうこしているあいだに -u でどんどん誤登録が進んでしまったと思われる。

手動ではもはやDBをいい塩梅にもっていけなさそうなので、DBを作り直し。 26,000件の spam メールの登録をしかけて、就寝。

スポンサード リンク
[ 3月9日全て ]

About Me

Naney Naney (なにい)です。株式会社ミクシィで SNS 事業の部長をしています。

nDiki1999年1月に始めたコンピュータ日誌を前身とする NaneyWeb 日記(兼パーソナルナレッジベース)です。ちょっとしたノートは nNote にあります。

※内容は個人的見解であり所属組織とは関係ありません。

月別インデックス
Process Time: 0.165996s / load averages: 0.62, 1.06, 0.87
nDiki by WATANABE Yoshimasa (Naney)
Powered by DiKicker