FC2ブログ

David the smart ass

心のダイエット!~時には辛口メッセージを~

ライブドアの「スパムちゃんぷるー」だそうです~週別集計

2008-10-13-Mon
ライブドアは10月10日、国内主要ブログを対象とした検索エンジン「livedoor ブログ検索」について、スパムブログを排除できるようにバージョンアップしたそうです。このスパムブログ排除のしくみは、「livedoor Blog」ほか、「livedoor Wiki」、「livedoor 掲示板」へのスパム書き込みを防ぐ共通フィルターで、各サービスのプラグインを組み合わせて運用するので、「ちゃんぷるー(「混ぜる」という意味)」と命名したそうです。
 → CNET Japan:「ライブドア「スパムちゃんぷるー」、ブログ検索結果をキレイに

こうしたスパムブログよけの検索技術は、「国内ブログの約40割がスパムブログ」(ニフティ)とか、「国内ブログのうち12%がスパムブログ」(総務省)という調査結果発表がある現在、必要とされる技術であることは自明でしょう。

ライブドアではこの「スパムちゃんぷるー」によって、

「まず検索結果から排除していくことで、無意味にネットを汚染するブログが出てくる風潮を防げる。そうすれば検索を使う人の利益にもなるし、各サービスで無駄な資源を抱え込まなくても済むという思想です」

ということを期待しているようす。(※ライブドアの山下氏のことば。CNET Japan:「ライブドア「スパムちゃんぷるー」、ブログ検索結果をキレイに」より) 多くの検索サイトがそれぞれにスパムブログを排除することによって、「スパムブログは作っても無駄骨」ということになってくれば、減ってくる可能性は決して低くないはずです。こうした動きは大歓迎ですね!

では、実際のスパムブログの排除がどんな感じなのかということですが、まず、スパムブログとはこんなものです。

スパムブログとは、アフィリエイト収入を得たり、特定のサイトへ誘導することを目的に、専用ツールを使って自動生成された、内容の伴わないブログ。

 別のブログやニュースサイトの記事をそのままコピーしたものや、アフィリエイトリンクを大量に掲載しているもののほか、流行のキーワードや芸能人の名前など、検索されやすい言葉を並べ、意味の通らないでたらめの文章「ワードサラダ」を自動生成し、投稿しているものもある。
 → ITmediaNews:「増え続けるスパムブログの現状は ライブドアが検索に新技術、9割排除


相当程度は、機械的に処理することが可能なようで、実際こんな感じで説明されています。

新技術は、10種類ほどのフィルタリングシステムを組み合わせている。詳細は非公開だが、まずはクローラーで収集したブログ記事の中にブラックリストに登録されたブログの記事がないかをチェックし、その後フィルタにかける。スパムブログが見つかれば、検索対象から除外する。

 収集したブログ記事を、同社が持つ100万件のブログ記事のサンプルと比較し、類似した記事が投稿されていないかを確認する――といったことも行う。
 → ITmediaNews:「増え続けるスパムブログの現状は ライブドアが検索に新技術、9割排除


「ブラックリストによる除外」、「10種類のフィルタリングシステムによる除外」そして、「コピー記事(類似記事)の除外」というのがあげられていますね。

最後の「コピー記事」の判定はかなり微妙です。

同社が事前に行ったテストによると、スパムブログを取りこぼした割合は9.7%、スパムブログではないのにスパムと誤判定した割合は1.8%。ほかの記事を引用して短いコメントを付けているようなブログ記事は、誤ってスパムと判定してしまう場合があった
 → ITmediaNews:「増え続けるスパムブログの現状は ライブドアが検索に新技術、9割排除


このように、実際に、時々見受ける「ニュース記事のほぼ全文コピー+1行~数行の感想」という形式のブログをコピー記事として誤判定してしまうようです。わたしは、スパムかどうかはともくとして、「引用部分の方が本文より多い」なんてのは、著作権法上からも問題ありなので「誤判定」としなくてもいいと思うのですけど、「スパムブログ」という観点からみると、微妙なのかもしれませんね。

いずれにしても、スパムブログや著作権侵害ブログが少なくなるいに越したことはありませんね。

こちらが「ライブドア検索(ブログ検索)

わたしのブログは全然ヒットしませんので、スパム扱いかと思ったら、そもそもFC2ブログを検索対象にしていないようです。

今回の「ブラックリスト」や「フィルタリング」によって除外されてるという意味ではなくて、そもそも「国内ブログ限定」ということで始まってるので、ブログちゃんぷるー以前のフィルタリングということなんでしょうけれども。(※総務省の調査にはFC2ブログは入ってるんですよ>ライブドア)

結果、FC2ブログってスパムブログと同列の扱いということになっちゃてますね。こんなのは使えます? せっかくのスパムブログ対策を施した検索がこんなことでは。


では、いつものグラフです。今日は週初めなので、週別集計。
・アメーバはついに39万を突破です。
・FC2ブログは、あいかわらず画像サーバがエラー出まくりなわりに好調です。
・ヤフーも好調。
・昨年の今頃は、seesaaが第二のアメーバのようにぐんぐん伸びるかと思っていましたが、むしろ急降下という感じです。

acts081013a.gif
※集計はブログファンです。

にほんブログ村 ブログブログへ
スポンサーサイト



矢野経済研究所がブログ調査を公表してます~日別集計

2008-08-06-Wed
ITmedia Newsが「国内ブログは1985万サイト 1年で1.4倍に」という記事を8/5付けで載せています。



先日の総務省の調査(’08年1月時点)の時には、

2008年1月現在、インターネット上で公開されている国内のブログの総数は約1690万で、総記事数は約13億5000万件。データ総量は42テラバイトとなった。このうち1カ月に1回以上の更新があるブログは約300万で、ブログ総数に2割弱にあたる。

ということでした。総務省の調査では毎月新規に開設されるブログは40~50万というこですので、この1690万(総務・1月)と1985万(矢野・3月)とは、2か月違いですので、対象となったブログサービスが違うのかという疑問にいたります。

今回の矢野経済研究所は主要ブログポータルサービス19サービスのブログ開設総数は1,806 万5,000 サイト(2008年3月末現在)と推計し、そこから国内ブログポータルサービスのブログ開設総数(2008年3月現在)で1,985 万サイトと推計した数値です。19のサービスについても、明示されています。

Ameba(アメブロ)、ウェブリブログ、エキサイトブログ、FC2 ブログ、AutoPage、goo ブログ、CURURU、ココログ、Seesaaブログ、JUGEM、So-net ブログ、ドリコムブログ、忍者ブログ、はてなダイアリー、ブログ人、Yahoo!ブログ、ヤプログ!、livedoor Blog、楽天ブログ

いちおう、FC2ブログも入れてもらってます。

これに対して総務省の調査では、サービスやコンテンツが主に日本語で提供されているブログサイトを対象として、公表データによる登録者数が上位のサイトから主要20サイトを抽出したということになっていて、具体的なサービス名は公表されてません。算出に利用した元サイトが1社多いのにかかわらず、逆に推計が(矢野のものと比較して)少なめに出ていることに関しては、不思議な気もするのですが、そうでもありません。いつものグラフを見てもらえばわかるのですが、ブログサービスのシェアはアメブロとFC2ブログの2社が圧倒的で、さらに数社でほとんど全体が決まっている。シェア20番目のサービスを集計に加えて平均値を算出して、それを元に全体を推計しようとすると低めに出るのは当たり前というところでしょうか(※読み直して、なんかこう書くと語弊がありますね。もちろんこんな大雑把な推計をしてるとは思えませんけどw。サンプルが多い方がより信頼は高いと思いますです)。

※参照元
 → 総務省情報通信政策研究所の調査(PDF。08年1月のデータ。7月公開)
 → 矢野経済研究所の調査(PDF。08年3月末現在のデータ。8月公開)

今回の矢野経済研究所の調査の特徴は、ブログの市場価値について、こんなふうに書いています。

ブログサービス事業者の各社売上高で見た市場規模は、そのサービスの知名度や規模を考慮すると、さほど大きくない市場であろう。その一方で、ブログサービスは、アフィリエイトなどを介したEC(Electric Commerce)売上や、ブログコンテンツを活かした出版による売上、更にはブログ分析サービス、ブログ検索、ブログパーツ関連事業など、非常に広範な事業かつ多大な売上に貢献するサービスとなっており、今後も各種ネットサービス・ビジネスに大きな影響を与え続けていくことは間違いがない。

つまり、各サービス会社にとっては直接的に大きな利益には結びつかないが(というよりも、こんなシステムを無料でやってるなん大赤字じゃないのでしょうか?)、広告やアフィリエイトなどなどその周辺に起きる波及効果は無視できないということなんでしょう。ブログ自体を有料化して利益を得るのではなくて、無料でいいサービスをして多くのユーザーを集め、副次的な収入で利益を上げるということが正解ということなのでしょうね(矢野研究所調査には「ブログサービス売り上げ予測」なんてのもあります)。

そして、優良なブログを増やし、スパムブログを撲滅していくことが、ブログという市場を守るために必要不可欠としています。FC2ブログも一層の対策が望まれますね。

・それにしても、19サービスも20サイトとの間にある1社はどこなんでしょう~。

いつものグラフはあとで追記。

にほんブログ村 ブログブログ ブログサービスへ

スパムブログのリストは月額20万円也~月別集計

2008-08-01-Fri
スパムブログの話題が続きますが、先日、データセクション社が、スパムブログのURLリストを販売するというニュースが出てました。
 → CNET Japan:「データセクション、スパムブログのURLリストを販売
 → データセクション:「スパムブログURLリスト提供サービス

こんなものが商売になるんですねぇ。ちょっとデータセクションの事業内容のページから考え方などを引用します。

2004年以降、国内のブログ数は拡大し「ブログ検索システム」「トレンド抽出、意識調査」「マーケティング情報の収集」や「キャンペーン効果測定」といった、ブログデータを利用したさまざまな市場が形成されてきました。

その一方でSEOやアフィリエイト目的に機械的にブログを作成するスパムブログが急増し、「ブログ検索をしても知りたい情報を得られない」「正確なトレンド抽出や分析が困難」などの問題が生じ、ブログのメディアとしての価値の低下が危惧されています。

そのような状況下で、スパムブログの除去がブログの市場価値を高める上で非常に重要になってきました。

まとめます。2004年以降ブログ数は増加し、トレンドの抽出やマーケティング情報の収集などなど有効活用の可能性がある反面、アフィリエイトなどを目的にした「スパムブログ」も急造、弊害が増え、ブログ全体の価値が低下している。そこでスパムブログを排除することで市場価値を高めるということのようです。もちろん、スパムブログは日々生産されているので、データセクションは毎日新規スパムブログのリストをダウンロードできるようにする……というわけです。そして、その値段が月額20万円(年間で200万円で40万円お得)。

どの程度の需要があるのか見当がもつきません。ま、言えることは、たとえばエキサイトブログなどブログサービス側が禁止行為として規約に明記するところも出てきましたし、このデータセクション社のように利用サイドで対策を講じるところも出てきました。こうして、スパムブログ包囲網が進んで、作っても意味がないということになっていくといいなと思います(その場合、このデータセクション社のこの事業も意味がなくなるかもしれませんけど……)。

ちなみに、データセクション社のスパムブログの分類はこんな感じです。

▼データセクション独自のスパムブログの主な定義

・コピペ(Copy & Paste)型
 他のブログやニュースなどを自動的に貼り付けて、機械的に文章を作成している。
・アフィリエイト型
 商品の画像やリンクを大量に貼り付け、アフィリエイト収入を目的としたブログ。
・ワードサラダ
 文章の意味が通じない、キーワードを含む文章が組み合わせてあるだけのもの。
・アダルトサイトへの誘導目的のブログ



では、先月(7月)までの月別のアクティブユーザー数の比較グラフを貼っておきます。
・アメーバは50万名を軽く突破してしまいました。グラフのY軸の上限を毎月更新しています。
・アメーバほど目立ちませんが、ココログはゆっくり着実に増えています。
・今後各ブログサービスが「スパムブログ」対策を導入していくと、グラフに大きな変化出ていくのか、ちと楽しみです。
actg0807.gif
※集計はブログファン(http://www.blogfan.org/)です。

FC2ブログにも、FC2ブログらしい具体的なスパムブログの封じ込めを期待します。

にほんブログ村 ブログブログ ブログサービスへ

エキサイトブログが規約にスパムブログの禁止を明記!~日別集計

2008-07-31-Thu
しばらく多忙で、グラフの更新が滞っていましたが、また、ぼちぼち復活できそうです。

さて、<日別集計>のグラフを貼ってみます。最近こちらをお読みいただいている方のために簡単に触れておきますと、ブログファン(http://www.blogfan.org/)が、各ブログサービスの新着記事などを手がかりに集計しているアクティブユーザー数を元にしています。<日別>というのは、わたしが使った名称で「一日ごとの」という意味です。「毎日の」という言葉でもいいのですけれど、「毎日のアクティブユーザー」というようなフレーズにしたとすると、読み手によっては「皆勤の」「毎日書いている」というようなふうにもとれるので、ちょっと耳当たりのよくない言葉と思いながらも「日別」を採用しました。ブログファンは、これ以外に毎週のアクティブユーザー数(うちのブログでは「週別」と呼んでます)や毎月(月別)の集計もしています。では、グラフ。
act080730.gif
7月に入ってから、好調にのびてきたアメーバも横ばいになり、FC2ブログやココログ、ライブドアもダウンして横ばいという感じになり、どこも勢いがなくなりました。お盆前で社会全体が忙しいと言うことも言えると思います。どこもそうなのですが、目を引く減り方をしているところがあります。エキサイトブログです。どうしたんだろう? このダウン。数字で言うと、

excite_080730.gif

この二日ほどの下がり具合はエラーか、メンテなんでしょうけれど、ときどきどこもこういうことがあるので。ただ、これをきっかけに、普段は見ないエキサイトブログのお知らせページ(エキサイトブログ向上委員会)を見に行ったら、こんな記事がありました。

「エキサイトブログ 利用規約」改訂のお知らせ
いつもエキサイトブログをご利用頂き、まことにありがとうございます。

増え続けるスパムブログ対策、及び、ユーザー間の紛争防止策として、
本日、「エキサイトブログ 利用規約」の「3.禁止行為」に
以下項目を追加いたしましたのでお知らせいたします。

●通常利用の範囲を超えてサーバーに負担をかける行為
●無限連鎖講(ねずみ講)、マルチ商法、またはそれに類するもの、
その恐れのあるものとエキサイトが判断する内容を掲載する行為
●バナーやリンク、キーワードの羅列、引用を主とした記事を掲載する行為
●プログラムによってブログ、記事、コメント、トラックバックを自動生成する行為

●他人に対する誹謗中傷、脅迫、嫌がらせ、ストーカー等の行為

(以下略)


バナーやリンク、キーワードの羅列、引用を主とした記事を掲載する行為」「プログラムによってブログ、記事、コメント、トラックバックを自動生成する行為」というのを、具体的に指摘して禁止行為としています。

これは、スパムブログ行為を禁止しているわけで、例の総務省のブログ実態調査(→「12パーセントはスパムブログ」~総務省ブログ実態調査(3)・日別集計)を踏まえてさっそく対応をとったということなのでしょう。

「ブログの4割はスパム」という分析を公開しているニフティのココログでさえ、利用規約にスパムブログを具体的に禁じている項目はなく、エキサイトブログの姿勢は高く評価できますね(まさか、その結果がこの落ち込みとは思いたくはないのですが……)。

FC2ブログも、FC2ブログらしい具体的なスパムブログの封じ込め対策をしてほしいと期待します。

にほんブログ村 ブログブログ ブログサービスへ
HOME NEXT