太陽がまぶしかったから

C'etait a cause du soleil.

はてブ新着に最適化されたスパムは観測しやすいけど組織的スパムのデコイとして役立っている問題

f:id:bulldra:20130923185303p:plain

ちょっと頭の良い小学生でも「アカンやろ」と思うアルゴリズム

 『そろそろ、はてなブックマークスパム問題について当事者から語っておくとするか - 太陽がまぶしかったから』を書くにあたって、『日系パワハラのスパム行為の根拠とか、他いくつか - Diary of Dary』を参考にさせて頂いたのですが、そもそもの問題については同感です。

何が問題って、ユーザ数が 4 年前に 100 万人突破したサービスが未だに短時間の間に 3 人がブクマしたら新着とかいうちょっと頭の良い小学生でも「アカンやろ」と思うアルゴリズムを 2013 年にもなって使い続けてる京都の会社のセンスが一番問題だと思っています(本気)。

 この文章については後に、『はてブ新着のアルゴリズムが誰に対してアカンのかの説明 - Diary of Dary』で解説されています。

この話は具体的なので一般化して話すと「第三者から簡単にコントロールできるようなアルゴリズムでは駄目」という事です。


(中略)


それで、はてブが「短時間の間に 3 人がブクマしたら新着」というアルゴリズム(だと想像される)なのですが、これではアカウントを 3 つ作ってちょいと操作すれば新着エントリーに載せる事が出来る状態でして、第三者が「みんなが読んでいる情報」でも「旬な情報」でもない記事を新着エントリーに載せる事が出来るワケで(それで実際にやっている連中が沢山いる)、それはさっきのおしっこの記事の話と同様にユーザの期待を裏切るワケですよ。

 この指摘に共感して、だからこそ簡単に解析できてしまう程度のスパム行為が横行するんだなという事も感じました。先の例に関わらず、スパムっぽい人を解析すると統計的有意性が観測される場合が多いです。

デコイとしてのライトスパマー

 第三者から簡単にコントロールできるようなアルゴリズムだからこそ、それに適応した動作からは帰納的にスパムのアルゴリズムが簡単に観測できるという事ですが、これには幾つかの問題をはらんでいます。

  • 「簡単に出来るからやる」という形で悪意を誘発すること
  • 上記の範囲を摘発すれば充分と思えてしまい、少し複雑化すれば隠れてしまう

 「木を隠すには森」と言いますが、簡単にできてしまうからこそ、軽い気分でそれをやってしまう人がいて、本来的な意味の組織的なスパムを隠すためのデコイに使われている現状があります。分かりやすい例を探す方が簡単ですし、カタルシスもありますが、その程度のスパムをモグラたたきで通報したところでしょうもないという側面があります。

 簡単にコントロール可能だけど、ぼっちがクリーンにやると難しいという状態において、5ユーザーにしようが、グラデーションの問題にすぎないと思います。私としては『そろそろ、はてなブックマークスパム問題について当事者から語っておくとするか - 太陽がまぶしかったから』でも書いた通りに、1ユーザーで新着に載せてしまうようにしてしまって全員に完全なコントールを渡してしまえば不公平感がなくなると考えています。どうせゴミの山なら、ゴミの中の比率を現実に近づけた方がマシという事です。

 その上で、お気に入りユーザーやホワイトリストや通報ボタンなどのパーソナルフィルターを充実させれば、望む結果になると思われます。そこから先の段階については、本当に人気になるか、大規模スパムでないと実現不能な「人気エントリー」を対象とするのであればライトスパマーによるデコイが少なくなって業者スパムとの闘いも容易になるでしょう。

スケーラービリティ対応の二面性

 スケーラービリティ対応というと大規模アクセスに耐えられるだけのサーバー構成みたいなものを重視しがちです。しかし、もっと単純なルール設定やアルゴリズム内の絶対値による「交通整理」も関わってくるのではないかと思いました。参加者が善意の少数人であれば3ユーザーで新着エントリになっても良かったのかもしれませんが、現在においてはお粗末なアルゴリズムだと思います。

 大規模スパムに蹂躙される中でライトスパマーというダークフォースを覚醒させてしまう人が出る事にも一定の範囲で同情の念を抱きます。そんなわけで、はてなは「交通整理」というスケーラービリティ対応にこそ「技術力」を活用すべきではないでしょうか。

【BOOK DARTS】ブックダーツ チョコラベル75個ミックス

【BOOK DARTS】ブックダーツ チョコラベル75個ミックス

関連記事