2013.01.10
《Gunosy》開発チームから学ぶ、WEB業界人のための“統計学入門”

《Gunosy》開発チームから学ぶ、WEB業界人のための“統計学入門”

今、WEB業界で最もホットなテーマの一つである“統計学”。だが、一般的にはなかなか馴染みのない分野でもある。そこで、統計解析・データマイニングに基づいた高精度なパーソナルニュースキュレーションサービス《Gunosy》の開発チームを直撃。「はじめての統計学」と題し、統計学の基礎を教えていただいた。

0 0 664 0

今さら聞けない、統計学の基礎知識。

ここ最近、WEB業界において“統計”がキーワードになっている。だが、そもそも“統計学”は数ある専門分野の一つ。実はよく分かっていなくて…という方も、少なくないのではないだろうか?

今回、その統計学について基礎の基礎から教わるべくお話を伺ったのが、話題のニュースキュレーションサービス《Gunosy》(グノシー)を手がける、福島良典さん、関喜史さん、吉田宏司さんの3名。まずは《Gunosy》について、簡単にご紹介しておこう。

3名

左から、吉田宏司さん、福島良典さん、関喜史さん。

次世代の新聞とも言うべき、ニュースキュレーションサービス。

ロゴ


Gunosyは、個人のTwitter、Facebook、はてなアカウントにおけるアクティビティからユーザーの興味を分析し、そのインタレストに紐づいたニュースをレコメンドするというパーソナル・ニュースキュレーションサービス。毎朝、定時にユーザーの興味・関心に合ったニュースを配信してくれる、まさに“新しい時代の新聞”ともいうべきサービスだ。

Gunosyが画期的なのは、何より“ソーシャルグラフの中では話題になっていない”ニュースをもレコメンドしてくれることだ。その人自身のツイートやFacebookへの投稿の内容を解析し、最適な情報を抽出するアルゴリズムを構築しているのだという。

福島さん、関さん、吉田さんは、現役の東京大学大学院生。データマイニング研究の一貫として《Gunosy》をスタート。そしてサービスの急速な広がりに手応えを感じ、満を持して法人化を果たした。

彼らが活用しているデータマイニングと呼ばれる技術は、統計学と密接な関係にあり、サービス運営に置いても統計学的手法を活用しているという。統計学について教わるには、これ以上ない方々だ。それでは、「はじめての統計学」の講義をスタートすることにしよう。

統計学とは何か? ― 物事の“曖昧性”を評価する。

― 早速ですが、統計学というのは何のための学問なのでしょうか?


福島:実は私たちも統計学を専門としているわけではなく、あくまで統計の上に成り立っているものの、さらに上にあるものを扱っている感じなので…。あまり突っ込んだ内容をお話することは難しいのですが、ざっくりと概要をお話すると、統計とはデータを正しく理解し、評価するためのものだと言えます。

統計を使えば、物事の“曖昧性”を評価することができます。例えばサイコロを振って「3」の目がでる確率が1/6であることは、皆さんご存知だと思います。

しかし6回振って「3」の目が一度も出なかったからといって、そのサイコロが歪んでいるのかというとそうとは言えませんし、みなさんも別に歪んでいると感じることはないと思います。

しかし“たくさん”サイコロを振って、“少し”しか「3」の目が出なかった場合は、そのサイコロが歪んでいると感じられるのではないでしょうか?

統計学を使えば、その“沢山”と“少し”を的確に評価することができます。何回サイコロを振って、何回「3」が出た時、そのサイコロが歪んでいるといえる確率は何%か?つまり、「サイコロが歪んでいる」という仮定が正しいかどうかを統計学を使って評価することができます。


福島さん


それがWEBにおいてどう活きるのかということですが、WEBサイトのCVRが、新機能をリリースして10%上がった。しかし、本当に新機能をリリースしたおかげで上がったと言えるのか?それを統計学を用いることで定量的に評価することができます。

このような仮説を評価するというのが、統計学の機能の一つになります。これは仮説検定と呼ばれる手法であり、統計学の基本的な概念の一つです。

あるデータに対して仮説を立てたとき、その仮説がどれぐらいの割合で信頼できるのかを示すことができます。「自分はこう思うんだけど実際はどうなんだろう?」という部分を解明するものです。

Gunosyを支える統計学。

― 皆さんはGunosyというサービスを運営する上で、どのように統計を活かしていらっしゃるんですか?


関:私たちの場合は、Gunosyのアルゴリズムの改善性を適正に評価する目的で用いています。手法としてはそれほど高度なものではなく、大学初年度に学ぶレベルのものです。

関さん

Gunosyにとって特に重要なのは、「検索」や「レコメンド」の技術。具体的に明かすことはできないのですが、ここ10年ほどで流行っている技術を、論文などを追いかけつつ活用しています。

いわゆる“枯れた技術”ではあるけれど、その分、信頼性もある程度高い手法。それをどんどん試して、とにかくスピーディにPDCAをまわすことを重視しています。

枯れた技術をテストし、改良して、自分たちのサービスに適用する。そしてユーザーのアクティビティが改善したのかどうかをしっかりと評価し、次のテストを行なう。

そうしてアップデートを繰り返した結果、Gunosyのアルゴリズムは、リリース当初と比べるとまったく違ったものになりました。そして、その精度の高さに関しては、統計的にも検証できています。

WEB業界における統計学 ― 陥りがちな落とし穴。

― 統計はあくまで“仮説”を検定するツールであるということが少しずつですが分かってきたような気がします。


吉田:そうですね、重要なのは統計そのものではなく、統計を使って“何を評価するか”です。個人的には、統計の知識以前に、「数字に対して誠実になること」が大事だと思っています。


吉田さん

自分と関係のないWEBサービスに関しては客観的な視点で見ることができるのに、こと自分のサービスとなると、多分に主観が入ってしまい、冷静な判断をすることができない。そういうことって、意外と少なくないように思います。

数字の減少の原因を外部要因に求めたがったり、自分の判断ではなく上層部の意思決定の問題にしたがったり、自分のサービスの運用に対して都合のいい仮説を立ててしまう。

そうすると、いくら高度な統計の知識を有していたとしても意味がありません。恣意的な仮説を検証したところで何にもなりませんから。今、WEB業界全般で統計の専門家が重宝される傾向にありますが、それは明確かつクリティカルな仮説を立てられる人がいる、という前提があってこそ成り立つことだと思います。

検証可能な仮説を立てることに関しては、やはりある程度の慣れも必要です。売上を上げたいのだとしたら、売上をあげてくれるお客様はどんな行動をしているのか、それがログにどんな分布としてあらわれているか、とにかく調べる。そしてシンプルな仮説をいくつもたてて、早いスパンで検証していくのがいいと思います。

いかにして統計を“使いこなすか”。

― 最近の注目度の高まりから、統計に対して“魔法の杖”のようなイメージを抱いていたのですが、どうもそういうわけではなさそうです。


福島:もちろんです。統計を知らないことを負い目に感じる必要はまったくないと思います。自分たちが正しいと思っていることは、本当に正しいと言えるのか。その正確性を客観的に確かめるためのもの、それ以上でもそれ以下でもありません。

とはいえ、人の勘でやっていたものを少しでも理性的にやろうという試み、定性的だったものをより定量的に分析するためのものですから、WEBサービスの適切な改善においては、非常に有効な手段だと思います。


3名


関:個人的に重要なポイントは、統計学の難解な知識を身につけることではなく、統計が分かる人や統計ツールを“いかに使いこなすか”にあると思っています。仮に統計解析を専門に担当する方がいたとすると、その人に対して、「売上が下がっているから要因を調べてみて」と依頼しても機能はしません。「売上が下がった原因は○○だと思うから、調べてみて」と、きちんと仮説をもった上で、分析に臨むことが必要です。

こうした観点でみると、必ずしも統計の専門スキルを身につける必要はないけれど、統計で何ができるのかを知っておくことは大切だと言えるかもしれませんね。数式などは理解できなくてもいいので、統計関連の本を一度読んでみて、専門用語の意味や考え方を押さえておくことをおすすめします。


(つづく)□《Gunosy》開発チームが厳選、WEB業界人が読むべき“統計学”の必読書ベスト5はこちら



編集 = CAREER HACK


特集記事

お問い合わせ
取材のご依頼やサイトに関する
お問い合わせはこちらから
pFad - Phonifier reborn

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.


Alternative Proxies:

Alternative Proxy

pFad Proxy

pFad v3 Proxy

pFad v4 Proxy