ページの作成や編集にはユーザ登録が必要です。
Akismetを利用したスパムフィルタ
- 投稿者: kitt
- カテゴリ: プラグイン要望
- 優先度: 普通
- 状態: 着手
- 日時: 2007年02月23日 16時50分53秒
内容
最近知ったのですが、Akismetなる結構評判のいいスパムフィルタがあるそうなのです。
これってPerlモジュールがあるようなんですが
http://search.cpan.org/~nikolay/Net-Akismet/lib/Net/Akismet.pm
これをプラグインにできないでしょうか?
コメント
- 上記モジュールでテストしてみたところ、現在のバージョン(0.02)では動作しませんでした。現在、上記モジュールを参考にして対応したものを作成し、テストしています。もうしばらくテストして大丈夫そうだったらリリースします。 - KG (2007年02月23日 21時47分41秒)
- ありがとうございます!期待して待っています。最近、スパムの単語登録が日課のようになってまして・・・ - kitt (2007年02月27日 13時28分30秒)
- どなたかご存知でしたら教えてください。Akismet は日本語にも対応しているという話を聞きますが、EUC-JP でも大丈夫なのでしょうか?それとも、UTF-8に変換してPOSTした方がよい?巷の Akismet対応プラグイン等は、ほぼUTF-8で運用さたシステム上で使用されているような気がします。それと、スパムチェックのテスト用に、『他のシステム(WordPress, PukiWiki, tDiaryなど)にて Akismet API を利用したプラグイン等を利用されている方』で、スパムと判定された日本語のデータを何方かいただけないでしょうか?こちらで色々とテストしていますが、日本語でスパムと判断されなくて正しい動作確認がとれません・・・orz。このページに添付ファイルとしてアップしていただけると助かります(アップされたスパムファイルはダウンロード後に削除しておきます)。必要な情報は、IPアドレス、UserAgent、メッセージ(コメント)です。スパム対策へのご協力よろしくお願いします。......現在の進捗は60%くらいです。プラグイン開発にあまり時間が取れなくなってきましたのでリリースにはもうしばらくかかります。orz... - KG (2007年03月09日 12時59分21秒)
- 検索結果なのでよく分かっていないのですが、http://moonrock.jp/~don/d/200701.html でのコードを見るとUTF-8に変換して引数に渡しているように見えます。データについてはすみません、MovableTypeで捕まえられるのは今のところ日本語以外ばかりで・・・ - kitt (2007年03月12日 21時46分56秒)
- ですよねぇ。変換なしか、UTF-8に変換しているものばかりですよねぇ。とりあえず、必要なところを Jcode で utf8 に変換しておきます。引き続きテストデータ募集します。ご協力よろしくお願いします。 - KG (2007年03月12日 22時08分35秒)
- Akismetってどういった判定アルゴリズムを使っているんでしょうか? 分かる方がいらっしゃれば教えてください。スパムか否かを学習させていく形ではなくてセンターの方に問い合わせてそちらで判定して判定結果を返してもらうような仕組みでしょうか? それとも、サイト毎に応じたスパムの学習と判定ができるような仕組みでしょうか? サイトにはいろんなジャンルのサイトが有りますので、あるサイトではスパムと判定すべきものでも他のサイトではスパムと判定すべきでない場合も存在するかと思います。その辺りの判定が柔軟に対応できる仕組みなのかどうかが知りたいです。 - あき (2007年03月13日 01時14分04秒)
- KG殿、日本語のテキストばかりではありませんが、スパム判定用に使えそうなテキストをまとめました。 ファイルが存在しません。 です。お使いください。 - あき (2007年03月13日 02時45分11秒)
- あきさん、ありがとうございます。テストに利用させていただきます。一応、悪用されないように添付ファイルは削除しておきますね。 - KG (2007年03月13日 09時21分36秒)
- ヤフーメッセンジャーの判定テキストを参考にしていますがなにか。 - 名無し@通りがかり (2007年03月14日 17時17分12秒)
- 『名無し@通りがかり』さん>これは私の質問に対する回答コメントでしょうか? - あき (2007年03月14日 17時54分19秒)
- すこしひっかかるフレーズになってしまったかも。スルーして下さってかまいません。^^; - 名無し@通りがかり (2007年03月14日 19時36分13秒)
- >あきさん http://akismet.com/faq/ FAQによると、サーバのサービスで判定するという点は確かなようです。誤判定用に内容を15日保持していてそれを訂正すれば、スパムじゃないよ学習、いわゆるHam学習ができるようです。もしかすると、URL等の利用サイトの情報毎で何かしらパラメータを保持しているかもしれませんが、中の判定ロジックに関してはSpammerに知られないように秘密でしょうね。前から好奇心で思ってたんですが、あるサイトではスパムだけど別のところではスパムじゃない・・・ってそういう境界のコンテンツって今時のスパム判定ロジックにおいて、数出てきてしまうものなんでしょうか?(←後で読み返したらちょっとキツい感じに見えちゃうかな、と思ったので追記。これは単なる興味です。家のメールは、アドレス毎で学習結果分けてるのですが、それのメンテが怠いんで一つにまとめちゃって大丈夫なものかなぁ、と・・・(’ω`)) - kitt (2007年03月14日 20時25分41秒)
- いえいえ。気分を害したとかではなくて、質問したかったのは判定アルゴリズムがどういった処理概要になっているのかをお聞きしたかったので、「〜を参考にしています」は、別の話題に対するコメントなのかな?と思いました。私の質問に対する回答だとすると質問が上手く伝わっていない気がしますので…。 - あき (2007年03月14日 21時04分08秒)
- kitt殿>ご報告ありがとうございます。別ルートからも情報を得ることができました。仕組みについてはなるほど…です。「あるサイトではスパムだけど別のところではスパムじゃない…」>これですが、う〜ん、どうなんでしょう? 個人的には柔軟に区別できた方がいいと思うのですが…。例えばここのサイトでも、たまにオンラインRPGに関するスパム書き込みがあったりします。全く関係のない分野なので自動で弾けるなら弾きたいです。ですが、そういった分野を専門に扱っているWikiも存在します。であい系やあだると系のWikiも然りです。どこかで真っ二つに境界線を引いてしまった場合、こういった分野での利用を締め出すことにもなりかねません。可能なら区別できた方がいいと思っています。 - あき (2007年03月15日 01時04分50秒)
- >>あきさん 後で思ったんですが、AkismetってAPI利用するのに無料登録アカウントが要るんで、アカウント毎でサイトを分ければ大丈夫ですよね。Ham学習ができるということは、アカウント毎での判定差異は持っているということでしょうし。 - kitt (2007年03月21日 13時45分43秒)
- そうですね。問題ないと思います。わざわざアカウントを分けなくても、同じサイト内でも複数のタイプに分けて学習させられるようですよ。 - あき (2007年03月21日 23時12分43秒)
最終更新時間:2007年03月23日 00時46分22秒