FC2ブログ

David the smart ass

心のダイエット!~時には辛口メッセージを~

ライブドアの「スパムちゃんぷるー」だそうです~週別集計

2008-10-13-Mon
ライブドアは10月10日、国内主要ブログを対象とした検索エンジン「livedoor ブログ検索」について、スパムブログを排除できるようにバージョンアップしたそうです。このスパムブログ排除のしくみは、「livedoor Blog」ほか、「livedoor Wiki」、「livedoor 掲示板」へのスパム書き込みを防ぐ共通フィルターで、各サービスのプラグインを組み合わせて運用するので、「ちゃんぷるー(「混ぜる」という意味)」と命名したそうです。
 → CNET Japan:「ライブドア「スパムちゃんぷるー」、ブログ検索結果をキレイに

こうしたスパムブログよけの検索技術は、「国内ブログの約40割がスパムブログ」(ニフティ)とか、「国内ブログのうち12%がスパムブログ」(総務省)という調査結果発表がある現在、必要とされる技術であることは自明でしょう。

ライブドアではこの「スパムちゃんぷるー」によって、

「まず検索結果から排除していくことで、無意味にネットを汚染するブログが出てくる風潮を防げる。そうすれば検索を使う人の利益にもなるし、各サービスで無駄な資源を抱え込まなくても済むという思想です」

ということを期待しているようす。(※ライブドアの山下氏のことば。CNET Japan:「ライブドア「スパムちゃんぷるー」、ブログ検索結果をキレイに」より) 多くの検索サイトがそれぞれにスパムブログを排除することによって、「スパムブログは作っても無駄骨」ということになってくれば、減ってくる可能性は決して低くないはずです。こうした動きは大歓迎ですね!

では、実際のスパムブログの排除がどんな感じなのかということですが、まず、スパムブログとはこんなものです。

スパムブログとは、アフィリエイト収入を得たり、特定のサイトへ誘導することを目的に、専用ツールを使って自動生成された、内容の伴わないブログ。

 別のブログやニュースサイトの記事をそのままコピーしたものや、アフィリエイトリンクを大量に掲載しているもののほか、流行のキーワードや芸能人の名前など、検索されやすい言葉を並べ、意味の通らないでたらめの文章「ワードサラダ」を自動生成し、投稿しているものもある。
 → ITmediaNews:「増え続けるスパムブログの現状は ライブドアが検索に新技術、9割排除


相当程度は、機械的に処理することが可能なようで、実際こんな感じで説明されています。

新技術は、10種類ほどのフィルタリングシステムを組み合わせている。詳細は非公開だが、まずはクローラーで収集したブログ記事の中にブラックリストに登録されたブログの記事がないかをチェックし、その後フィルタにかける。スパムブログが見つかれば、検索対象から除外する。

 収集したブログ記事を、同社が持つ100万件のブログ記事のサンプルと比較し、類似した記事が投稿されていないかを確認する――といったことも行う。
 → ITmediaNews:「増え続けるスパムブログの現状は ライブドアが検索に新技術、9割排除


「ブラックリストによる除外」、「10種類のフィルタリングシステムによる除外」そして、「コピー記事(類似記事)の除外」というのがあげられていますね。

最後の「コピー記事」の判定はかなり微妙です。

同社が事前に行ったテストによると、スパムブログを取りこぼした割合は9.7%、スパムブログではないのにスパムと誤判定した割合は1.8%。ほかの記事を引用して短いコメントを付けているようなブログ記事は、誤ってスパムと判定してしまう場合があった
 → ITmediaNews:「増え続けるスパムブログの現状は ライブドアが検索に新技術、9割排除


このように、実際に、時々見受ける「ニュース記事のほぼ全文コピー+1行~数行の感想」という形式のブログをコピー記事として誤判定してしまうようです。わたしは、スパムかどうかはともくとして、「引用部分の方が本文より多い」なんてのは、著作権法上からも問題ありなので「誤判定」としなくてもいいと思うのですけど、「スパムブログ」という観点からみると、微妙なのかもしれませんね。

いずれにしても、スパムブログや著作権侵害ブログが少なくなるいに越したことはありませんね。

こちらが「ライブドア検索(ブログ検索)

わたしのブログは全然ヒットしませんので、スパム扱いかと思ったら、そもそもFC2ブログを検索対象にしていないようです。

今回の「ブラックリスト」や「フィルタリング」によって除外されてるという意味ではなくて、そもそも「国内ブログ限定」ということで始まってるので、ブログちゃんぷるー以前のフィルタリングということなんでしょうけれども。(※総務省の調査にはFC2ブログは入ってるんですよ>ライブドア)

結果、FC2ブログってスパムブログと同列の扱いということになっちゃてますね。こんなのは使えます? せっかくのスパムブログ対策を施した検索がこんなことでは。


では、いつものグラフです。今日は週初めなので、週別集計。
・アメーバはついに39万を突破です。
・FC2ブログは、あいかわらず画像サーバがエラー出まくりなわりに好調です。
・ヤフーも好調。
・昨年の今頃は、seesaaが第二のアメーバのようにぐんぐん伸びるかと思っていましたが、むしろ急降下という感じです。

acts081013a.gif
※集計はブログファンです。

にほんブログ村 ブログブログへ
スポンサーサイト



レビュー・ポスターとはてなブックマカウンタ~<日別集計>

2006-10-26-Thu
feedmeterを提供しているサイドフィード社が、ブックマークしたレビュー記事をサイトに表示する「レビュー・ポスター」というサービスを、始めたので試しに使ってみました。

「レビュー・ポスター」のサイトによると、
お好きなオンラインブックマークサービス(例:はてなブックマーク や del.icio.us など)に、レビュー記事を見つけたら どんどんブックマークし、ブックマークサイトの URL を「レビュー・ポスター」のページのフォームに入力し、タイトルなどを適当につければ、表示タグ(ブログパーツ)が生成されるます

ブックマークサービスを有効に使いこなしてないので、どうしようと思っていたら、RSSでもできるのというで、FC2インフォメーションのRSSで作ってみました。

こんな感じです。
FC2インフォメーション
    ▼すべて表示
    generated by レビュー・ポスター


    また、同じくブックマーク関連のツールで、ずいぶん前ですが、「はてなブックマーク」でどの程度ブックマークされているか(被ブックマーク数)を表示する「はてなブックマークカウンター」というのも設置しました。

    こちらで登録不要で利用できます。


    この日記のはてなブックマーク数


    こんな感じです。おもしろそうなんで、二つともサイドナビに貼っておきますね。

    ブログファン(http://www.blogfan.org/)の調べているアクティブユーザー数の推移のグラフを貼っておきます。<日別の集計>です。ライブドアブログ、アメーバブログが伸びています。
    act061024a.gif


    にほんブログ村 ブログブログへ
    HOME