life x web Technology Design

コミュニケーションとテクノロジーを考えるブログ

[ #HCJ11F] レポート:リクルート式Hadoopの使い方

TAGS: None

Hadoop Conference 2011 Fall

日時:2011/09/26
場所:ベルサール汐留

イベントの詳細:
http://hadoop-conference-japan-2011-fall.eventbrite.com/
【重要】イベントのアーカイブ
http://mit.recruit.co.jp/hadoop/conference2011fall/info/archive.html
———————


『リクルート式Hadoopの使い方』
リクルート 石川 信行



□Hadoop活用に向けた課題
△現行システムに影響出したくない
△開発工数掛けたくない

☆Hadoopまわりのエコシステムを活用する
Mahout、Hive、Azkaban…

□Hive
☆リクルート社内ではSQLベース
→Hiveとの親和性高い
・WebHive → 企画職の人もアドホックにデータを出すことが出来る

既存の機能をリプレイスするにあたり
→まずは見立てのためにHiveを利用する
→さらなる高速化などはMapReduceで書き換えを行う

○Hotpepperの事例
・1週間分のログからしかレコメンドを計算できず、8万人にしか送れていなかった
1年半分のデータから20万人のユーザにレコメンドが可能に

・アトリビューション分析

□Sqoop (+Oraoop)
RDBMSとHadoopでデータを共有する
これまでできなかった分析、集計が可能に
○ゼクシィのフェア分析の事例

□Mahout
○ロジックを知らなくても分析できる
△ブラックボックスになりがちなのでデバッグが大変
+要アルゴリズムの勉強

○カーセンサー
レコメンド用途に利用中

□BIツールへの連携
HadoopでBIツール用のデータを作成→PDCAを高速化

□構成について
最小構成 マスター1台+slave 5台
Hiveで基本的な整形
→Java / Mahoutで計算

計10時間の処理

□Azkaban
Tomcat上にwarを置き、Jobフロー作成できる

□速度アップのための工夫
・mapの最大数を2 → 3へ
・priorityを活用

Scoop:map数をCPU負荷を見ながら最大に
日本語長文カラムとってこない
差分だけ入れる

Mahout:Verあげる(新しいほうが処理速度が速い可能性あり)


☆Hadoopは使える
良いところ
try&Errorできる → 分析精度が上がっていく
サンプリングしなくても計算できるので精度は高くなる可能性が高い
開発サイクルの高速化&プロダクトの豊富さによる短期間での知識習得

なにより、
☆Hadoopを使えば今までできなかったことができそう!
という感覚が分析/商品企画する人の意識の中に生まれる

□MapR
・Volumeが作成できるためマルチテナント利用が便利
・速い、、

TAGS: None

One Response to “[ #HCJ11F] レポート:リクルート式Hadoopの使い方”


  1. [ #HCJ11F] [Hadoop] Hadoop Conference 2011 Fallに参加してきました « life x web Technology Design
    on 9月 30th, 2011
    @ 11:58 AM

    [...] wrapper for Hive on Amazon EMR [ #HCJ11F] レポート:(LT) Hadoop and subsystems in livedoor [ #HCJ11F] レポート:リクルート式Hadoopの使い方 [ #HCJ11F] レポート:Hadoop 0.23 and MapReduce v2 [ #HCJ11F] [...]

Leave a Reply

© 2009 life x web Technology Design. All Rights Reserved.

This blog is powered by the Wordpress platform and beach rentals.