2013年6月21日金曜日

レビュースコアの補正にみられる、ある傾向

Take IT Easy(2012.11.27)

「美しい人はより美しく、そうでない方はそれなりに…」 このフレーズを憶えている人は本コラムの読者にどれだけいるだろうか。 いまから30年ほど昔に流れていた、フィルムのTVコマーシャルでのやりとりである。 このコマーシャル自体は本コラムの内容と全く関係ないが、テーマとして挙げた「ある傾向」をどう表現しようかと考えていたら、頭にピンと浮かんだのがこのフレーズ。 なるほどコピーライターは昔からうまいことを考えるものだと、妙に納得した。

このフレーズがどう関係するのか、それが気になる方はぜひともこのまま最後まで読み進めていただきたい。

■ レビュースコアの取扱い

さて、一般の消費者がネットに書き込むことによってコンテンツが作成されるメディア、いわゆるCGM(Consumer Generated Media)の代表例として「レビュー」がある。 CGMについては本コラムでも以前から何度か取り上げており、レビューの危うさについては「CGMコンテンツの分析は集合痴に要注意」という記事で私も指摘した。 しかし、他人の評判は気になるものだし、一般的には、オンラインショッピングのサイトでそれなりに参考にされている有効なコンテンツといえよう。

多くのレビューでは、「☆1つ」から「☆5つ」というように、対象の良し悪しをスコアで点数化し、数値として評価できるようになっている。 このような指標は感覚的なものなので、本来は順序尺度として扱うべきだ。 ただし多くのシステムでスコアには「各スコア間の距離は等間隔で評価されている」という暗黙の仮定が持ち込まれており、その点数は間隔尺度として扱われている。 間隔尺度として扱うことで各レビューのスコアに関する平均値を計算でき、その値をレビュー対象の良し悪しを測る総合的な評価指標として提示できることになる。

そうはいってもレビューそれ自身が主観的なものだし、ステルスマーケティング、いわゆる「ステマ」や、「やらせ問題」のように、恣意的なレビューが紛れ込む隙が残されている。 そこで、以前の記事で紹介したように、少しでもより客観的な評価とするためにレビューそのものに対する更なる評価を備えているシステムも多い。

■ レビューそのものの評価を加味した補正の計算

さてここで、レビューコメントの有用度を用いてレビューの平均値を補正するということを考えてみよう。 レビューの有用度とは、前の記事で紹介したように、そのレビューが「参考になった」かどうかの投票を用いて決められる0.0から1.0までの値である。 有用度は、全投票数分の「参考になった」への投票数として定義される。

この有用度を用いて、レビューの平均値を「より客観的になるように」補正することを考える。 そのために、単なる平均の代わりに、有用度を重みに用いた加重平均を採用してみよう。

この加重平均では、参考になったレビューのスコアは重要視され、あまり参考にならなかったレビューのスコアは軽視される。 多くの一般消費者にとって、☆の評価、スコアを付けるだけならいざしらず、わざわざレビューのコメントを投稿する作業は、いささか敷居が高いと感じるひとは多いことだろう。 しかし、レビューを読んで参考になったかどうかをクリックするだけであれば簡単だ。 単純平均の代わりにこの加重平均を使うというアイデアによって、より広い消費者の意見を反映することができるといえないだろうか。

■ みんなの意見を反映すると…

このように加重平均を用いて補正してみたところ、面白い傾向が浮かんできた。 以下に示す図は、某オンライン書店でのベストセラーを対象として、補正の効果がどのくらい現れているかをプロットしたものだ。 なお対象とした書籍は、これまでのベストセラーとしてリストアップされていたものから100以上のレビューコメントが寄せられていた200冊強を選んだ。

縦軸は、単純平均から加重平均を引いた差分の値、そして横軸はレビュースコアに関する加重平均の値である。 簡単にいうと、縦軸に関して中央より上にプロットされたものは、「補正したらレビュースコアは全体としてより高くなった」ものであり、中央より下はその逆、 つまり「補正によってレビュースコアはさらに悪くなった」ものだ。 恣意的なレビューが混ざっていると、そのようなレビューは排斥されるのでレビューの評価は大きく変動する傾向にある。 この補正の根底には、「みんなの意見はだいたい正しい」という集合知の考え方がある。

■ 高い評価はより高く、それなりの評価はそれなりに

ところで、横軸がレビュースコアの平均値である点に注目してほしい。 グラフの上で回帰直線を引いてみると、ちょうど「☆4つ」あたりのところで差分値の正負が逆転する。 すなわち、このグラフから、ユーザによるレビューの補正が行われると、低い評価はより低く、高い評価はより高くなるという傾向も確認することができるだろう(※ 蛇足ながら、冒頭で引用したフレーズはこの結果に対応したものですよ!)。

先に述べたように、加重平均による補正は、レビューの評価にサイレント・マジョリティの意見が反映されたものと考えられる。 これは、より客観的に評価したと考えることもできるが、見方によっては「多くの一般消費者は付和雷同する」ととらえることができなくもなかろう。 ここで新たに気になるのは、「これは日本人特有の気質によるものなのだろうか、それとも海外でも共通に現れる傾向なのだろうか」という疑問である。

今回対象としたのは日本の書籍に対する日本語のレビューだが、海外でも同じシステムが存在する。 海外のデータを使って調べたらどうなるか、誰か挑戦してみませんか?

CGMコンテンツの分析は集合痴に要注意

Take IT Easy(2011.2.1)

集合知やCGM(Consumer Generated Media)は、ITの活用領域としてまだまだ発展する余地が大きい分野である。 今後も様々なサービスが開発されていくだろう。 本コラムでも、これまで何度か集合知やCGMに関するテーマを取り上げている。 集合知やCGMという話題、いまだホットな領域であり、目を離せない分野である。

しかし一方で、集合知やCGMのプラットフォームたり得る掲示板やコメント欄、twitterなどのオンライン・コミュニケーションツールは、炎上したり、田代砲のような悪戯が蔓延したりといった危険も孕んでいる。 そのような状況はもはや「集合知」ではなく「集合痴」という名がふさわしい。 集合知は新しい知識発見の方法として非常に魅力的だが、そこに集合痴が混じると道を誤るリスクがある。

集合痴になってしまったケースか否かの見極めは、生のデータを人間が少しでも読めば、それほど難しくないだろう。 しかし機械的な判断は、さほど簡単な話でもない。 大量のCGMコンテンツをデータマイニングやテキストマイニングのツールで機械的に処理しようとする場合には、集合痴になってしまったケースを自動で排除する仕掛けを用意しておかなければ、誤った結論を導いてしまいかねない。 そのためには、集合痴状態か否かを自動で判断する基準として使うための、何らかの指標を用意しておく必要があろう。

■ 集合知から集合痴に至る道

具体的な例を示そう。 本稿では、書評の分析を題材にして、集合知と集合痴の区別を考えてみたい。

本稿で以下に示すグラフは、大手オンライン書店サイトに寄せられたユーザレビュー、つまりユーザによる書評を分析したものである。 およそ500件以上のレビューが寄せられている書籍をいくつかピックアップし、その傾向を調べてみた。 以下に示すグラフの縦軸は各レビューの文字数、横軸は、そのコメントの有用度である。 なお縦軸は対数目盛りで刻まれている点に注意されたい。 このグラフに、書評と共に示されている星の数による評価で分類した各レビューを、プロットした。

なお有用度は「そのコメントが参考になったか否か」の投票で定められる。 ユーザはレビューコメントを読んで、「参考になった」もしくは「参考にならなかった」との意見を投稿できる。 そこで、「参考になった」という投票を投票の総数で割った値として、有用度を定義する。 有用度は0.0から1.0の値をとる。 その値が高いほど、そのレビューの価値が高い、そのレビューに共感したユーザが多い、あるいは、そのレビューに対する支持者が多い、ということを意味する。 有用度を、そのレビューに対する支持率と読み替えても構わないだろう。

では6作品の分析結果を順にみていこう。 順番は、投稿されているレビュー数の少ないほうから並べている。

■ まともな集合知のケース

ケース1: 最初に示すグラフは、いま非常に人気の高いミステリー作家の手による直木賞受賞作に寄せられたレビューの分布である。

この作家の作品に対する書評は星5つと高い評価が多く、星4つ、星3つが徐々に減っていく逆三角形の分布をみせているという特徴を持つ。 星2つや星1つという評価は少ない。 映像化された作品も多く、高い人気を誇るベストセラー作家だけに、愛読者による真面目なレビューが多く投稿されていることの証であろう。

それだけにレビューコメント自体にも真面目な評価が加えられている。 グラフをみると、星の多寡に関わらず、コメントの評価が一様に分散している傾向が分かる。

ケース2およびケース3: 次は、グラフを2つ示そう。 1つは昨年ベストセラーとなったビジネス書ふうの小説、もう1つは昨年夏に映画が公開され、驚きのラストシーンが待っていたミステリ小説だ。


両者に共通して、先のグラフよりは全般的に有用度が下がっている。 また星の数が低いコメントのほうが支持されており、星の数が高いものは共感を得にくいという傾向があるのではないか、ということにも気付く。 実際、これらのケースについて星5つのコメントと星1つのコメントに関する有用度の平均を検定すると、有意差があることが示される。

この2作、いずれも内容とは違った文脈で話題が広がった作品であり、先の書評とはやや質が違っている。 コアなファンによる書評以上にライトユーザによる書評が多く含まれると、全体としてはこのような傾向を見せるようである。

■ どうも集合痴となってしまったケース

ケース4: 次のグラフは、ある文学賞の大賞受賞者がイケメン俳優だったというレアなケース。 完全に話題先行型で、この受賞作が出版されたときには、その内容に関してかなりの物議を醸した。

これまでに示したグラフと極端に異なることは一目瞭然である。 星1つや星2つといった低評価の支持率が極めて高く、逆に星4つ、星5つといった高評価は軒並み反感を買っている。 全体の評価結果に対する単純平均も低いが、有用度で重みを付けて評価の平均をとると、悲惨な結果になってしまうだろう。

ケース5: 次は、不思議なベストセラーのケース。

この作品も、先のグラフと比較的近いパターンとなっている。 本作は、初版は自費出版として製作され、その文章も日本語としていろいろ問題があるという欠陥を抱えていたにも関わらず、ベストセラーとなり映画化までされたという作品である。

グラフ全体の傾向はケース4と似ているが、明らかに違う点は、星5つで有用度がわりと高いものが散見される点である。 ところがこれらの星5つで有用度が比較的高いというレビューのほとんどが、書籍の内容に対するレビューではなく、レビューに関するメタレビュー、あるいは「本書はトイレットペーパーとして最適でした」というようなウケを狙ったレビューである。 その点には、十分に注意する必要があるだろう。

次のケース6では、それがさらにエスカレートしている。

ケース6: 本作は、1500を越えるレビューがありながら、その評価は星1つまたは星5つに集中しているという極端な作品である。

1000以上の評価が星1つとはいえ、ケース4、ケース5と異なり、星5つの評価も多くのユーザによる支持を得ている特徴を持つ。 しかしこの事実から、「内容がエキセントリックなので両極端に意見が割れているのかな」と安易に判断してはいけない。 このグラフは、ケース5で指摘したようなメタレビューが集中した結果である。 このケースでは、完全にネットワーカーの遊び場となってしまっており、いわゆる「縦読み」という悪ふざけが蔓延した状態になっている。

■ 集合痴には気を付けよう

本稿は、集合痴状態を否定するものではない。 原因もなく掲示板が炎上したり、本稿でいう集合痴の状態になったりということはあり得ず、集合痴状態になるからには何がしかの要因が存在する。 これまでの事例を振り返っても、炎上するケースというのは本人にも何らかの責任がある場合が多い。

本稿で指摘したいポイントは、CGMコンテンツを機械的に分析する際には気をつけましょうということである。 集合痴状態なった書評を分析しても、その書籍が述べたい内容に関する有用な知見は得られないだろう(逆に、炎上した原因を含め、その書籍をとりまく文化的事例に対する分析はできるかもしれない)。 CGMを頼る際には、集合知か集合痴かを見極める能力を鍛え、落とし穴に落ちないように気を付けたい。

amazon書評の正しい見分け方

SEM-LABO(2009.10.4)

amazonの書評はかなり胡散臭いものも多く、本を読むときに中々あてにならない場合が非常に多いです。今日はこのamazonの書評の見分け方を書き出してみます。

■ amazon書評の正しい見分け方

発売日即日、また2,3日中に投稿されているレビュー
セミナーやコンサルティングを開催している著者
過剰なうたい文句で絶賛している評価
発売日即日、また2,3日中に投稿されているレビュー

発売日即日に書評をする人なんているのか?と思われそうですが、amazonにはその類の方々が多数存在しています。それが実際に前もって献本されている場合もありますが、今回はあくまで平均値としての見分け方です。その為、意中の本の発売日と書評の日付の間隔が最低でも1週間以上経っているものに基準を置きましょう。

発売日は「登録状況」から判断可能です。

■ セミナーやコンサルティングを開催している著者

こういった仕事がらみやイベントごと行っている著者の周りには信者が存在しています。その為、本の内容には関わらずレビューを無造作に投稿されているもが多数存在しています。

しかしながらそれらもカスタマーレビューのグラフでなんとなく分かるようになっています。下記のように5つ星と1つ星などとかなり開きがある書評は操作されている場合が多いです。

しかしセミナーやコンサルティングを開催している著者は実際に良書を書いている場合が多いので、この当たりは書評の内容も重要視することで判断してください。

過剰なうたい文句で絶賛している評価

文章にリテラシーが感じられない書評、下品な書評、全てにおいて大絶賛な書評は数字の平均値を上げるだけのダミーが多いです。レビューは新しいもの順に表示されるので平均値を上げるにはもってこいなんですね。


ダミーがいるということは”そういう本”だということです。

■ amazon書評の正しい見分け方:まとめ

amazon側でも様々な対策はしているようですがこれを全てかいくぐるのは不可能でしょう。実際に僕が知っているamazon書評の操作方法もいくつかあります。例えば中小企業の代表が出された本は社員全員がアカウントを発行してamazonから購入して書評をしていたり、amazonから集中的に購入しまくり、瞬間風速的にランキングを操作する会社があったり。等など。
※amazonの書評は商品を購入したアカウントでのみ可能です。

なんだかんだでamazonはやはり便利なので、今日上げた対策3つを元に判断することで少なくとも”怪しい”本は買わずにすむことが多いです。僕も数冊”怪しい”本を購入してからこういった見分け方を学びました。

2013年6月20日木曜日

なぜ「よくないね!」ボタンは必要ないのか

DNA(2013.6.19)


Facebookの「いいね!」ボタンやGoogleの「+1」ボタンなど、気軽に賛同を示せるものはたくさんありますが「よくないね!」的なボタンはあまり見かけません。これはいったいなぜなのでしょうか。実は「評価」というものができあがる仕組みに秘密があるのです。

まずはこちらのグラフを見てみましょう。これはYelp(グルメレビュー)、Amazon、Netflix(ストリーミング映画配信)、Reddit(掲示板)でのすべての評価を集めたもの。
ピンク色の部分が「否定的」ですが、いずれのサイトにおいても「ダメ(星1~2個)」と評価されているものが2割に達していません。(Amazonの「3」は肯定・否定があいまいなので集計なし、Redditは良否の2段階なので緑の中間値がありません)

このうち「星1個」はYelpで4%、Amazonで6.9%、Netflixで4.8%でした。

なぜ「ダメ」はこんなにも少ないのでしょうか。これは「ダメなものに注意を払っているヒマはない」からです。一般的には、価値のないもののためにわざわざ「よくないね!」とクリックしたりレビューを書いているヒマはなく、したがって「星1個」や「低評価のレビュー」というのは少なくなるのです。

また調査されたサンプルは食べ物屋さんや本、映画など、ある程度中身が予測できるものです。明らかに「ダメ」なものはみんな最初から避けて通るので、レビューの総数が少なくなり、当然「ダメ」という評価の数も減ります。

では逆にレビューが多い「ダメ」なもの、というのは存在するのでしょうか。こちらは縦軸にレビュー数、横軸に評価をとったグラフです。

これを見るとレビューの数が多いほど評価が3.5に近づいています。たくさんレビューされるものは、実際の中身はともかくとして極端な低評価にはならないのです。これはひろく普及するものにはそれなりに価値があるからで、そうでなければ評価がつくまえに消えてしまうのです。

また、グラフの形が中央からやや右寄りになっています。これもネットのレビューでは「肯定的」なものが多くなるのを示しています。

「いやそれはおかしい。現にTwitterやネットの掲示板では毎日のように『ユーザーの怒りの声』を見るぞ」と、実感とのズレを感じている人もいるかもしれません。しかしインターネット上にはTwitterやネットの掲示板を使っていない人のほうがはるかに多いので、全体を見るとこうなってしまうのです。

なぜ「よくないね!」ボタンがないのか、はこれらの結果から見えてきます。

そもそも低質なコンテンツには、低い評価をつけるよりも無視する人が多いこと。また、たくさん人目に触れるほど低い評価は目立たなくなること。この2点からわざわざサイト上のスペースを割いて「よくないね!」ボタンをつける意味がないから、というのが理由なのですね。

逆に「ネットではプラスの評価に偏る」「ダメなものは評価がつかない」「いいものは評価そのものの数が多い」ということを頭に入れておくと、様々なレビューを読むときに役に立ちます。

特に悪評の読み方は変わってきます。無視するのが普通なのに、わざわざ低い評価をつける。よっぽど強い意志があるか、あるいはムリがあるのかのどちらかです。

実際悪いレビューのほとんどは「自分には合っていない」という非常に主観的なものか、さもなければ詭弁や「いちゃもん」、あるいは故意に貶めようとするイタズラ目的のもので、価値のあるもの・客観的なものはあまり多くありません。

ズバッと斬り捨てる「カラクチ」なレビューは、ネットでは盛り上がるウケのいいコンテンツです。しかし自分の力量や見識がバレてしまう諸刃の剣でもあります。評価しているつもりで評価されていることをいつも忘れたくないものですね。


ソース:Why you can’t dislike something on Facebook