David the smart ass

心のダイエット!~時には辛口メッセージを~

スポンサーサイト

-----------
上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

ライブドアの「スパムちゃんぷるー」だそうです~週別集計

2008-10-13-Mon
ライブドアは10月10日、国内主要ブログを対象とした検索エンジン「livedoor ブログ検索」について、スパムブログを排除できるようにバージョンアップしたそうです。このスパムブログ排除のしくみは、「livedoor Blog」ほか、「livedoor Wiki」、「livedoor 掲示板」へのスパム書き込みを防ぐ共通フィルターで、各サービスのプラグインを組み合わせて運用するので、「ちゃんぷるー(「混ぜる」という意味)」と命名したそうです。
 → CNET Japan:「ライブドア「スパムちゃんぷるー」、ブログ検索結果をキレイに

こうしたスパムブログよけの検索技術は、「国内ブログの約40割がスパムブログ」(ニフティ)とか、「国内ブログのうち12%がスパムブログ」(総務省)という調査結果発表がある現在、必要とされる技術であることは自明でしょう。

ライブドアではこの「スパムちゃんぷるー」によって、

「まず検索結果から排除していくことで、無意味にネットを汚染するブログが出てくる風潮を防げる。そうすれば検索を使う人の利益にもなるし、各サービスで無駄な資源を抱え込まなくても済むという思想です」

ということを期待しているようす。(※ライブドアの山下氏のことば。CNET Japan:「ライブドア「スパムちゃんぷるー」、ブログ検索結果をキレイに」より) 多くの検索サイトがそれぞれにスパムブログを排除することによって、「スパムブログは作っても無駄骨」ということになってくれば、減ってくる可能性は決して低くないはずです。こうした動きは大歓迎ですね!

では、実際のスパムブログの排除がどんな感じなのかということですが、まず、スパムブログとはこんなものです。

スパムブログとは、アフィリエイト収入を得たり、特定のサイトへ誘導することを目的に、専用ツールを使って自動生成された、内容の伴わないブログ。

 別のブログやニュースサイトの記事をそのままコピーしたものや、アフィリエイトリンクを大量に掲載しているもののほか、流行のキーワードや芸能人の名前など、検索されやすい言葉を並べ、意味の通らないでたらめの文章「ワードサラダ」を自動生成し、投稿しているものもある。
 → ITmediaNews:「増え続けるスパムブログの現状は ライブドアが検索に新技術、9割排除


相当程度は、機械的に処理することが可能なようで、実際こんな感じで説明されています。

新技術は、10種類ほどのフィルタリングシステムを組み合わせている。詳細は非公開だが、まずはクローラーで収集したブログ記事の中にブラックリストに登録されたブログの記事がないかをチェックし、その後フィルタにかける。スパムブログが見つかれば、検索対象から除外する。

 収集したブログ記事を、同社が持つ100万件のブログ記事のサンプルと比較し、類似した記事が投稿されていないかを確認する――といったことも行う。
 → ITmediaNews:「増え続けるスパムブログの現状は ライブドアが検索に新技術、9割排除


「ブラックリストによる除外」、「10種類のフィルタリングシステムによる除外」そして、「コピー記事(類似記事)の除外」というのがあげられていますね。

最後の「コピー記事」の判定はかなり微妙です。

同社が事前に行ったテストによると、スパムブログを取りこぼした割合は9.7%、スパムブログではないのにスパムと誤判定した割合は1.8%。ほかの記事を引用して短いコメントを付けているようなブログ記事は、誤ってスパムと判定してしまう場合があった
 → ITmediaNews:「増え続けるスパムブログの現状は ライブドアが検索に新技術、9割排除


このように、実際に、時々見受ける「ニュース記事のほぼ全文コピー+1行~数行の感想」という形式のブログをコピー記事として誤判定してしまうようです。わたしは、スパムかどうかはともくとして、「引用部分の方が本文より多い」なんてのは、著作権法上からも問題ありなので「誤判定」としなくてもいいと思うのですけど、「スパムブログ」という観点からみると、微妙なのかもしれませんね。

いずれにしても、スパムブログや著作権侵害ブログが少なくなるいに越したことはありませんね。

こちらが「ライブドア検索(ブログ検索)

わたしのブログは全然ヒットしませんので、スパム扱いかと思ったら、そもそもFC2ブログを検索対象にしていないようです。

今回の「ブラックリスト」や「フィルタリング」によって除外されてるという意味ではなくて、そもそも「国内ブログ限定」ということで始まってるので、ブログちゃんぷるー以前のフィルタリングということなんでしょうけれども。(※総務省の調査にはFC2ブログは入ってるんですよ>ライブドア)

結果、FC2ブログってスパムブログと同列の扱いということになっちゃてますね。こんなのは使えます? せっかくのスパムブログ対策を施した検索がこんなことでは。


では、いつものグラフです。今日は週初めなので、週別集計。
・アメーバはついに39万を突破です。
・FC2ブログは、あいかわらず画像サーバがエラー出まくりなわりに好調です。
・ヤフーも好調。
・昨年の今頃は、seesaaが第二のアメーバのようにぐんぐん伸びるかと思っていましたが、むしろ急降下という感じです。

acts081013a.gif
※集計はブログファンです。

にほんブログ村 ブログブログへ

COMMENT



コメントの投稿












※スパム対策のため、半角英数字のみのコメントは禁止設定してあります。
また、半角「-」の5文字以上連続もコメント内に書き込めません。



秘密にする

TRACKBACK

※この記事のトラックバックURL(コピーしてお使い下さい)
  
http://smartass.blog10.fc2.com/tb.php/2229-9ce5100b

※管理人が承認したトラックバックのみ表示します(12時間以内には表示処理をするつもりです)。
HOME
上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。