「Data Scientist Casual Talk in 白金台」の内容報告

こんにちは、SSTDの髙橋です。 2020年に東京オリンピックが開催されることが決まりましたね、おめでとうございます。 一度は生でオリンピックを見てみたかったので、嬉しいです。 また、大きいイベント共に新しい技術の導入も進んでいくので、そういった観点から見ても嬉しいことですね。

さて、本日のブログは、私が9月6日(金)に参加した「Data Scientist Casual Talk in 白金台」の内容を紹介したいと思います。


(画像はこちらからお借り致しました。)
  1. データサイエンティストの現場で思うこと:株式会社ブレインパッド 佐藤洋行 様
  2. Network Effects In Behavioral Economics:CodeIQ 大成弘子 様
  3. dwh/sql入門:日本GMAP株式会社 中川帝人 様
  4. 大事な話は他の人に譲ってReproducible Researchの話:株式会社サイバーエージェント 和田計也 様
  5. ドリコムの分析環境とデータサイエンス活用事例:株式会社ドリコム 里洋平 様

1. データサイエンティストの現場で思うこと
株式会社ブレインパッド 佐藤洋行 様

  1. 受託分析の変遷の気になっていること
  2. 今後のデータ活用ビジネス

1.1. 受託分析の変遷の気になっていること

受託分析を行ってきた中でも時間の流れと共に分析の要求が変遷して行っているそうです。 初期では、ダイレクトビジネスや金融系など分析した結果を反映させた際にすぐに結果が分かる業種。 中期では、売り上げ予測で誤差の範囲を制限されていたり、また、分析・シミュレーション・システム構築・プロモーションまで行うような内容。 後期では、何年も立たないと結果が分からないような対象。 このようにどんどん分析の要求が移り変わっていったそうです。

初期
ダイレクトビジネス
金融系
広告代理店
中期
外食チェーン
売り上げ予測:誤差3.8%以内に収めた 分析,シミュレーション,システム構築,プロモーションまで
後期
家電の中長期戦略策定支援(顧客LTVの推測)
電気自動車の充電拠点配置
HEMS構築支援

1.2. 今後のデータ活用ビジネス

今後のデータ活用ビジネスを考える上で、Pivotal社が何をするのか?ということを気にされているそうです。

その他に、先端技術を利用した海外での事例の紹介もありました。

  • 距離センサ付きカメラでショップでの購買行動の分析
  • 距離センサのカメラ(kinectではなくて、Xtion PROのようでした)を使って、お客さんの店舗での購買行動を分析する事例です。
  • 猫耳センサを利用したクラブにおけるお客の好感度リアルタイム測定の視覚化
  • 脳波を測定し、その人が喜んでいるかどうかを判定する猫耳をクラブホールのお客さんが装着し、その反応によってDJが盛り上げられているかどうかを測定するイベントの事例です。


2. Network Effects In Behavioral Economics
CodeIQ 大成弘子 様

当日の発表資料を公開して下さっているので掲載致します。

大成さんの発表は、他の発表者の方とは毛色が違い、ネットワーク効果という行動経済学の見識をマーケティングに活用するためのお話でした。 一番のポイントとしては、他者に影響を与えるインフルエンサを見つけ,市場を自社のサービスでロックインすることができれば,市場を勝ち取ることができるということでした。

行動経済学のように、様々な学問でデータ分析はされているので、そういった知見を利用することが非常に重要であることを感じました。 経済学のオススメの書籍を知りたいですね。


3. dwh/sql入門
日本GMAP株式会社 中川帝人 様

下記のスライドは当日の発表スライドではありませんが,当日のSQLの説明スライドと同様なためリンクのみ掲載致します。

http://www.slideshare.net/sleipnir002/japanr-2

当日の発表では、エンタープライズのデータベース構造やPosgreSQLについての話でした。 SQLについては発表時間の都合で省略されていましたが,上記スライドでチェックして頂ければと思います。

おすすめの書籍を紹介されていました。

トーマス・H・ダベンポート
分析力を駆使する企業
豊田秀樹
データマイニング入門

中川さんは、データ分析にはPosgreSQLを推されていました。 理由として、MySQLとPostgerSQLのそれぞれのメリットについて述べられていました。

MySQL
ストレージエンジンが変更可能
PostgreSQL
ストレージエンジンが一つ
ウィンドウ関数が利用可能
Rank関数が利用可能
PostGIS(地図データ)の読み込み可能

DWH(DataWareHouse)のデザインでは、元々二つの流れがあったそうです。 一つは、データウェアハウスの父と言われるビル・インモンさんが提案した方法、 もう一つは、ラルフ・キンボールさんが提案したスタースキーマ構造のDWHだったそうです。 そして、現在はスタースキーマ構造がDWHの主流となっているそうです。 しかし、ビル・インモンさんがDWHの理論のについて書いたコーポレート・インフォメーション・ファクトリーという書籍を読むことも勧められていました。

その他、BUGS/stan勉強会を開催するそうなので、ご興味があれば参加してみてはいかがでしょうか。 ちなみにBUGSとstanとは、ベイズ推定を行うためのパラメータ算出をモデルベースで作成できるソフトのようです。


4. 大事な話は他の人に譲ってReproducible Researchの話
株式会社サイバーエージェント 和田計也 様

Reproducible Researchという再現性のある分析を行うことを奨められていました。 そのためには、Rではknitrを使い,RPubsで公開すると良いとのことです。

Reproducible Research
再現可能な研究
データ分析者にとっては、分析条件の確認や追試が後々できるように、データ・分析内容・結果を再現可能にしてデータ分析を行う事
knitr
Rのレポート結果をhtmlで出力するツール
RPubs
Rのレポートを公開し、知識を共有するためのサイト

今度リリースされるRevolution R Enterprise 7では、ロジスティック回帰などの分析がHadoop上でできるようになるそうです。


5. ドリコムの分析環境とデータサイエンス活用事例
株式会社ドリコム 里洋平 様

当日の発表資料を公開して下さっているので掲載致します。

ドリコムさんでは、Hadoopによる大規模データマイニング基盤を自前で構築して,各サービスDBと行動ログをHadoopに集約し,Rで分析して活用しているそうです。 また、RでHDFSからアクションログを1行で取得できるようにライブラリを整備しているそうです。 ライブラリを使えば、インターンで来た学生が,1日でデータの取得・分析・レポート出力までできたそうです。

分析については、基本的なKPIはHTMLメールで閲覧し、ドリルダウンにはShinyを利用しているとのことです。 あと、里さんはTokyo.RというRについての人気の勉強会の主催者だそうです。私も一度参加したいと思っていたのですが、満員でなかなか難しいんですよね。

Shiny
サーバ側の処理も、ブラウザのUIも、JavascriptやHTMLやCSSを書かずに、Rだけで分析Webアプリケーションを作成可能なツール


勉強会で話を伺って思い出したので、私が大学院時の研究室とつながりがあったATR研究所で行っていた研究の動画を紹介します(多少古いかもしれません)。この動画では、カメラではなく、レーザレンジファインダーという人の行動の軌跡のみを計測する装置を用いて、店舗内外での人行動を分析し、その分析結果からロボットが人にサービスを提供し、人の購買を促進させることを目指しています。

今後もセミナや勉強会などには積極的に参加して、色々ディスカッションなどもできたらいいなと個人的には思っています。 @siosbiddataアカウントを使った参加登録をしていないので分からないかとは思いますが、サイオスの髙橋をどこかの会場で見つけたら、お声掛け頂けると嬉しいです。 以上で終わります。

執筆:髙橋@SSTD