nDiki

2005年3月9日 (水)

bogofilter日本語 spam メールを弾けなくなったのでDB作り直し

最近 bogofilter日本語 spam メールをほとんど弾かなくなってきている。 英語や中国語のspamメールはきちんと弾いているのだけれども。

チェックしてみると逆に積極的に non-spam 判定されている spam メールもある。

前回設定を見直した時procmail から bogofilter を呼び出した際に -u オプションでどんどん新規登録するようにしたのだが、どうもこれで誤登録を重ねてしまっているようだ。

spam メールも non-spam メールも最終的には全て目視でチェックしており、不適切な振り分けがあった場合は手動で再学習させるようにしている。 spam メールbogofilter -u で spam として振り分けられなかった場合

  • non-spam 判定されている -> bogofilter -Ns で一旦 undo してから登録
  • unsure 判定されている -> bogofilter -s で登録

とするべきで当初そうしていたのだが、最近横着をしてすべて -s してしまっていた。

どうもこれでspamに特有な語が non-spam 側のテーブルにも残ってしまい、結果 non-spam 側に判定が傾きがちになってしまったようだ。そうこしているあいだに -u でどんどん誤登録が進んでしまったと思われる。

手動ではもはやDBをいい塩梅にもっていけなさそうなので、DBを作り直し。 26,000件の spam メールの登録をしかけて、就寝。

スポンサード リンク
[ 3月9日全て ]

About Me

Naney Naney

Naney (なにい)です。株式会社ミクシィで SNS 事業の部長をしています。

About nDiki

nDiki1999年1月に始めたコンピュータ日誌を前身とする NaneyWeb 日記(兼パーソナルナレッジベース)です。

#nNote タグがついている記事は他の記事に比べて、より断片的・未整理・不完全なちょっとしたノートです。まだ結論に至っていない考えなども含まれます。頻繁/大幅に更新したり削除したりすることがあります。

※本サイトの内容は個人的見解であり所属組織とは関係ありません。

Other Notes

ナレッジベースアプリケーション Obsidian で書いているノートの一部を notes.naney.org で 公開しています。

最近検索されている記事

月別インデックス
Process Time: 0.158945s / load averages: 0.30, 0.34, 0.42
nDiki by WATANABE Yoshimasa (Naney)
Powered by DiKicker