Semantic Web – WordPress

SpamAssassin threshold X-Spam-Flag: YES

leave a comment »

 SpamAssassin の「X-Spam-Flag: YES」の意義などについて
(例) threshold 設定 (7.0) :
spam メール検出の 特異性(特異度) 99.99%, 感度 88.50% の設定です (テスト用サンプル 合計84637通, Version 3.0.2 )。
メールヘッダー表示「X-Spam-Flag: YES」のとき、99.996%の期待陽性率で spam メールと判断できます [計算式(注1)]。しかし、感度は 88.50% で、「X-Spam-Flag: YES」と表示されないメールの中に、spam メールが 18.30% (=100% – 期待陰性率) [計算式(注2)]  混在する可能性があります。
 @ nifty辞書 http://www.nifty.com/dictionary/
[threshold]
【物】しきい値 ((反応などを起こさせるのに必要な物理量の最小値))
【生理・心】閾(いき) ((刺激に対して生体が反応するかどうかの限界))
「閾値 (いきち)」がよく使用されます。
SpamAssassin スパムアサシン のデフォルトの閾値 default threshold (ないし、default threshold value) は 7.0 であると記載されているページがありました。
     http://www.dam.brown.edu/computing/SpamAssassin/default.htm

X-Spam-Flag:
– The “X-Spam-Flag:” identifier will ONLY appear when an email message has reached the spam threshold limit (default is 7.0).
– When an email message reaches and/or exceeds the spam threshold limit, the identifier “X-Spam-Flag: YES” will appear.
– This SpamAssassin identifier easily enables the individual to configure his/her client to look for the “X-Spam-Flag: YES” header to filter the spam messages.

ところが、
CPAN
     http://search.cpan.org/src/FELICITY/Mail-SpamAssassin-3.0.2/rules/STATISTICS.txt
では、Version 3.0.2 の default threshold:
# SUMMARY for threshold 5.0:
と記載されています。インストール後、ユーザー自身で確認された方がよいようです。また、threshold による感度、特異性をよくご確認後、設定して下さい。
ページ内のデータより、テスト用サンプルの合計は 84637 通(単位?)で、

Correctly spam + False negatives =    55933
Correctly non-spam + False positives = 28704

ですので、spam メールの検出については、

特異性(度)= 100%* Correctly non-spam ⁄ {Correctly non-spam + False positives(偽陽性)}
感  度  = 100%* Correctly spam ⁄ {Correctly spam + False negatives(偽陰性)}
 (注1) 期待陽性率 =
100%* Correctly spam ⁄ (Correctly spam + False positives)
 (注2) non-spam メールとの判定の中に spam メールが混在する頻度 =
100% - 期待陰性率  =
100% - 100%* Correctly non-spam ⁄ (Correctly non-spam + False negatives)

と同義です。よって、
(1) threshold を高い値に設定すると、特異性はよくなりますが、spam メールの検出感度は低下します。
   &middot non-spam メールは正しく判定されるようになります (non-spam メールを spam メール と誤って判断する偽陽性率の低下 )。
   &middot spam メールの「すり抜け」が増えます (spam メールの検出感度は低下します)。
(2) threshold を低い値に設定すると、spam メールの検出感度はよくなりますが、特異性は低下します。
   &middot spam メールの「すり抜け」が減少します( spam メールの検出感度は、よくなります) 。
   &middot non-spam メールを正しく判定する率は低下します (non-spam メールを spam メールと誤って判断する偽陽性率が増えます )。
CPAN参照ページ(同上):
テスト用サンプルを threshold 5.0 で検出すると、
特異性(度)99.95% 感度94.01% 期待陽性率99.97% 期待陰性率89.54%

# SUMMARY for threshold 5.0:
# Correctly non-spam:  28690  99.95%
# Correctly spam:      52582  94.01%
# False positives:        14  0.05%
# False negatives:      3351  5.99%

threshold 7.0 で検出すると、
特異性(度)99.99% 感度88.50% 期待陽性率99.996% 期待陰性率81.70%

# SUMMARY for threshold 7.0:
# Correctly non-spam:  28702  99.99%
# Correctly spam:      49503  88.50%
# False positives:         2  0.01%
# False negatives:      6430  11.50%

たとえば、threshold 5.0 (下限) から 7.0 (上限) の間で設定すればよいのではないでしょうか。
なお、「スパムメールと闘う」
     http://linuxmag.sourceforge.jp/Japanese/January2003/article279.shtml
のページに SpamAssassin のわかりやすい解説があります。
ただし、CPAN
     http://www.cpan.org/modules/by-category/19_Mail_and_Usenet_News/Mail/Mail-SpamAssassin-3.0.2.readme


SpamAssassin also includes support for reporting spam messages
automatically, and/or manually, to collaborative filtering databases
such as Vipul’s Razor [1].


SpamAssassin includes a Bayesian learning filter,

ですので、Bayesian, Razor 双方のスパムフイルターは SpamAssassin にすでに組み込まれています。

Written by support

2005/01/18 @ 16:43

コメントを残す

以下に詳細を記入するか、アイコンをクリックしてログインしてください。

WordPress.com ロゴ

WordPress.com アカウントを使ってコメントしています。 ログアウト / 変更 )

Twitter 画像

Twitter アカウントを使ってコメントしています。 ログアウト / 変更 )

Facebook の写真

Facebook アカウントを使ってコメントしています。 ログアウト / 変更 )

Google+ フォト

Google+ アカウントを使ってコメントしています。 ログアウト / 変更 )

%s と連携中

%d人のブロガーが「いいね」をつけました。