Hadoop Conference 2011 Fallに参加してきました
日時:2011/09/26
場所:ベルサール汐留
イベントの詳細:
http://hadoop-conference-japan-2011-fall.eventbrite.com/
【重要】イベントのアーカイブ
http://mit.recruit.co.jp/hadoop/conference2011fall/info/archive.html
最近さらに注目を集めているHadoopのイベントで、ユーザー会のイベントは思えない規模(1000人over)、リクルートさん協賛による無料イベントとは思えない会場・お昼ごはん・飲み物・アーカイブの提供、非常に豪華なスピーカーの方々などかなり満足度の高いイベントでした。
スライドなどはリクルートさんがなんとこのために作成したというQ&Aサイト「Question VOTE!!」に随時反映されていくようですが、参加したセッションに関してはメモを取りましたのでそれぞれ別エントリーで公開します。
[ #HCJ11F] レポート:The role of the Distribution in the Apache Hadoop Ecosystem
[ #HCJ11F] レポート:Apache HBase: an Introduction
[ #HCJ11F] レポート:(LT) Lightweight wrapper for Hive on Amazon EMR
[ #HCJ11F] レポート:(LT) Hadoop and subsystems in livedoor
[ #HCJ11F] レポート:リクルート式Hadoopの使い方
[ #HCJ11F] レポート:Hadoop 0.23 and MapReduce v2
[ #HCJ11F] レポート:MapReduceによる大規模データ処理 at Yahoo! JAPAN
[ #HCJ11F] レポート:(Lunch LT) Hadoopログを全員で使う方法と課題
[ #HCJ11F] レポート:(Lunch LT) パネルログ分析(仮)
ちなみに今回はセッション後の懇親会にも参加させていただきました。いろいろな話ができて楽しかったです。
- Author: Hideya Kato
- Published: 9月 30th, 2011
- Category: Hadoop, イベント
- Comments: None
[ #HCJ11F] [Hadoop] Hadoop Conference 2011 Fallに参加してきました
- Author: Hideya Kato
- Published: 9月 30th, 2011
- Category: Hadoop, イベント
- Comments: 1
[ #HCJ11F] レポート:(Lunch LT) パネルログ分析(仮)
Hadoop Conference 2011 Fall
日時:2011/09/26
場所:ベルサール汐留
イベントの詳細:
http://hadoop-conference-japan-2011-fall.eventbrite.com/
【重要】イベントのアーカイブ
http://mit.recruit.co.jp/hadoop/conference2011fall/info/archive.html
———————
(ランチタイムLT)
『パネルログ分析(仮)』
ブレインパッド 小林 隆
□パネルログとは?
・Webログ → 通常のログ(Apacheなど)
・パネルログ → 「パネル=人」ユーザーごとの行動ログ
パネルログを分析することで誰がどこに遷移したのか、
その前の行動はなんだったのか、など追うことが出来る。
主に広告代理店などに提供
□構成
AmazonEMRとHadoopMRを併用
☆Hive,PigとAsakusaの中間のフレームワークがほしい、、、。
Hive,Pigは多段になりがちでパフォーマンスの懸念がある。
ひとつのジョブに多くの処理を詰め込んで段数を減らしている(で、結構大変)
- Author: Hideya Kato
- Published: 9月 30th, 2011
- Category: Hadoop, イベント
- Comments: None
[ #HCJ11F] レポート:(Lunch LT) Hadoopログを全員で使う方法と課題
Hadoop Conference 2011 Fall
日時:2011/09/26
場所:ベルサール汐留
イベントの詳細:
http://hadoop-conference-japan-2011-fall.eventbrite.com/
【重要】イベントのアーカイブ
http://mit.recruit.co.jp/hadoop/conference2011fall/info/archive.html
———————
(ランチタイムLT)
『Hadoopログを全員で使う方法と課題』
株式会社ディー・エヌ・エー 宵 勇樹
・Mobageではデータ解析を用いて常にチューニングを行なっている。
データマイニングチームだけではなく一般部署への展開も行っているが、
・分析ニーズの拡大
・短期間の納期のものが増大
↓
・マイニングエンジニアだけでは手が足りない
・業務内容に関する知識が必要
→Pig,Hiveなどを使ってもいいのではないか?
→データマイニングエンジニアじゃなくても作業できるように
△課題
担当する人によって見たいところ、見せていいところが違う
→アクセス制限の機構が必要
○Hueの活用
LDAPを実装し、アクセス制限付きで実行出来るようにした
△課題
・Hueのためのプラグインを作るのが若干面倒
・Pigのユーザについてはshellがそのユーザで使えるようになっている必要あり
・Hiveのグループ機能はnamenodeの再起動が必要 →LDAPで対応
- Author: Hideya Kato
- Published: 9月 30th, 2011
- Category: Hadoop, イベント
- Comments: 1
[ #HCJ11F] レポート:MapReduceによる大規模データ処理 at Yahoo! JAPAN
Hadoop Conference 2011 Fall
日時:2011/09/26
場所:ベルサール汐留
イベントの詳細:
http://hadoop-conference-japan-2011-fall.eventbrite.com/
【重要】イベントのアーカイブ
http://mit.recruit.co.jp/hadoop/conference2011fall/info/archive.html
———————
『MapReduceによる大規模データ処理 at Yahoo! JAPAN』
ヤフー, 角田 直行 吉田 一星
■Yahoo! JAPANでの事例
・Yahoo!検索 リアルタイム検索
Twitter社が提供したリアルタイムのツイートデータをABYSS側に送ってインデクシング
・Yahoo!オークション
レコメンデーションプラットフォームからHadoopで解析したデータを送信
■MapReduceによるアルゴリズムデザイン
○空間解析
リバースジオコーダー:位置取得
☆GeoHash
○検索インデックス生成
検索インデックス=本の索引
サイト(URL)ごとにキーワードを出す
↓
キーワードごとにサイト(URL)を出せるように【転置】を行う
Mapper
URLとページの内容を入力として単語を抽出
Reducer
集計
・課題
インデクスには複数のフィールドがある
フィールドごとに単語を分割する方法が違う
URL→完全一致
タイトル→2Gram
内容→形態素解析
ユニークな文書番号を付与し、文書番号でソートする
文書内での単語のポジションや頻度を考慮する
TFIDFの計算のために単語ごとの文書数と文書ごとの単語数を計算する
○機械学習
データの中で見えているものを手がかりに見えないモノを予測する
ページの内容がアダルトかどうか判定する
自分のプロフィールと条件にあったお見合い相手を探す
検索結果を様々な指標にあわせてランキング
・機械学習によるランキング
検索結果を機械学習でランキングする
・仕組み
Webページの様々な仕様を考える
それぞれの素性に対して予め学習済みの重みが与えられているとする
かけ合わせたものをスコアとして検索結果をランキングする
重みと素性の値を単純にかけ合わせてスコアを推定する形を線形回帰
・重みの学習
重みをどう学習するかがポイント
予め素性とスコアのペアを用意しておく
正解データをもとに重みを算出する
・重みの学習
・オンライン学習
正解データを一見ずつ見て行って重みを更新する
実装が容易
ノイズが含まれていたり素性が多い場合に有効
・バッチ学習
すべての正解データを見て重みを更新する
実装が難解
情報量が多いので精度が高くなるケースが多い
・Iterative Parameter Mixing
→MapReduceでは効率は良くないが、現状だとこれしかない
・Gradient Boosted Decision Tree
- Author: Hideya Kato
- Published: 9月 30th, 2011
- Category: Hadoop, イベント
- Comments: None
[ #HCJ11F] レポート:Hadoop 0.23 and MapReduce v2
Hadoop Conference 2011 Fall
日時:2011/09/26
場所:ベルサール汐留
イベントの詳細:
http://hadoop-conference-japan-2011-fall.eventbrite.com/
【重要】イベントのアーカイブ
http://mit.recruit.co.jp/hadoop/conference2011fall/info/archive.html
———————
『Hadoop 0.23 and MapReduce v2』
HortonWorks, Owen O’Malley
□Current Hadoop Branches
0.21はstableじゃないから使っちゃダメ
・0.20.203.0
added security
MapReduce job limits
Performance work
・0.20.204.0
fail in place
RPM & Debian package
・0.20.205.0
HBase support
・0.23
Expected to become the next stable release
a community effort from
cloudera, ebay, hortonworks, yahoo…
includes many new features:
– Hdfs federation
— a solution to HDFS Namenode scaling
— Entire HDFS namespace kept in NameNode’s RAM
– hdfs write-pipeline improvements with support for HBase supports
shuffle optimized by 30%
small mapreduece jobs optimization
Current Limitations
– Scalability
– SPOF
– Restart is very tricky due to complex state
– Hard Partition of resources into map and reduce slots
– Lacks support for alternate paradigms(Iterative applications ex. K-means, PageRank)
– Lack of wire-compatible(need to be same versions)
Design
- cluster resource management
- application life-cycle management
Improvements
- NO SPOF state saved in ZooKeeper
複数のバージョンのMapReduceが動く
決まった数のmapとreduceの設定の廃止
グラフ構造など次世代の処理に対応
(これまではイテレーションによる段数のコストが大きかったため)
status
ベータ版は2011年Q4
https://developer.yahoo.com/blogs/hadoop/posts/2011/02/mapreduce-nextgen
- Author: Hideya Kato
- Published: 9月 30th, 2011
- Category: Hadoop, イベント
- Comments: 1
[ #HCJ11F] レポート:リクルート式Hadoopの使い方
Hadoop Conference 2011 Fall
日時:2011/09/26
場所:ベルサール汐留
イベントの詳細:
http://hadoop-conference-japan-2011-fall.eventbrite.com/
【重要】イベントのアーカイブ
http://mit.recruit.co.jp/hadoop/conference2011fall/info/archive.html
———————
『リクルート式Hadoopの使い方』
リクルート 石川 信行
□Hadoop活用に向けた課題
△現行システムに影響出したくない
△開発工数掛けたくない
☆Hadoopまわりのエコシステムを活用する
Mahout、Hive、Azkaban…
□Hive
☆リクルート社内ではSQLベース
→Hiveとの親和性高い
・WebHive → 企画職の人もアドホックにデータを出すことが出来る
既存の機能をリプレイスするにあたり
→まずは見立てのためにHiveを利用する
→さらなる高速化などはMapReduceで書き換えを行う
○Hotpepperの事例
・1週間分のログからしかレコメンドを計算できず、8万人にしか送れていなかった
1年半分のデータから20万人のユーザにレコメンドが可能に
・アトリビューション分析
□Sqoop (+Oraoop)
RDBMSとHadoopでデータを共有する
これまでできなかった分析、集計が可能に
○ゼクシィのフェア分析の事例
□Mahout
○ロジックを知らなくても分析できる
△ブラックボックスになりがちなのでデバッグが大変
+要アルゴリズムの勉強
○カーセンサー
レコメンド用途に利用中
□BIツールへの連携
HadoopでBIツール用のデータを作成→PDCAを高速化
□構成について
最小構成 マスター1台+slave 5台
Hiveで基本的な整形
→Java / Mahoutで計算
計10時間の処理
□Azkaban
Tomcat上にwarを置き、Jobフロー作成できる
□速度アップのための工夫
・mapの最大数を2 → 3へ
・priorityを活用
Scoop:map数をCPU負荷を見ながら最大に
日本語長文カラムとってこない
差分だけ入れる
Mahout:Verあげる(新しいほうが処理速度が速い可能性あり)
☆Hadoopは使える
良いところ
try&Errorできる → 分析精度が上がっていく
サンプリングしなくても計算できるので精度は高くなる可能性が高い
開発サイクルの高速化&プロダクトの豊富さによる短期間での知識習得
なにより、
☆Hadoopを使えば今までできなかったことができそう!
という感覚が分析/商品企画する人の意識の中に生まれる
□MapR
・Volumeが作成できるためマルチテナント利用が便利
・速い、、
- Author: Hideya Kato
- Published: 9月 30th, 2011
- Category: Hadoop, イベント
- Comments: None
[ #HCJ11F] レポート:(LT) Hadoop and subsystems in livedoor
Hadoop Conference 2011 Fall
日時:2011/09/26
場所:ベルサール汐留
イベントの詳細:
http://hadoop-conference-japan-2011-fall.eventbrite.com/
【重要】イベントのアーカイブ
http://mit.recruit.co.jp/hadoop/conference2011fall/info/archive.html
———————
(LTセッション)
『Hadoop and subsystems in livedoor』
ライブドア 田籠 聡 (tagomoris)
□ライブドア
2800+ サーバ
3200+ ホスト
530+ ウェブサーバ
現在15Gbps (10Gbps + CDN 5Gbps)のサービス規模
□Hadoopについて
10ノード(1マスタ+9)
36コア 32TB HDFS
・利用中
CDH3b2
Hive 0.6.0
☆主にレポート作成目的
→super large scale ‘sed | grep | wc’
・構成
WebServers → Scribe → Streaming (Perl) → load insert → Hive
Servers
↓↓↓ ログ
[deliver] : scribed
↓
[central] : scribed
↓
[backup] : scribed
→HDFS
→生ログバックアップ
☆scribeline
→ 簡単にscribedにログを転送するためのエージェント
→ http://d.hatena.ne.jp/tagomoris/20110428/1303981573
☆shib
→ Hive Client Webアプリケーション
→ http://d.hatena.ne.jp/tagomoris/20110927/1317103849
- Author: Hideya Kato
- Published: 9月 30th, 2011
- Category: Hadoop, イベント
- Comments: None
[ #HCJ11F] レポート:(LT) Lightweight wrapper for Hive on Amazon EMR
Hadoop Conference 2011 Fall
日時:2011/09/26
場所:ベルサール汐留
イベントの詳細:
http://hadoop-conference-japan-2011-fall.eventbrite.com/
【重要】イベントのアーカイブ
http://mit.recruit.co.jp/hadoop/conference2011fall/info/archive.html
———————
(LTセッション)
『Lightweight wrapper for Hive on Amazon EMR』
はてな 田中 慎司
□EMR
どんどん増やせる
必要なとき必要な文だけ
△課題
1.データをS3にいれないといけない
2.バッチにするの大変
□解決案
1 → 1時間に1回S3に送るスクリプトを実装
ログフォーマット → 独自SerDe実装
Wrapper → Net::Amazon::EMR::Wrapper
(PerlにNet::Amazon::EMRがないためRubyのクラスをさらにWrap)
□良い点
・Perlで書ける
・アプリエンジニアにもらくらく
・cron
・HiveQLの恩恵
□大変なところ
・クラスタ管理が不完全
・S3にデータ展開が大変
・複雑な処理は大変
- Author: Hideya Kato
- Published: 9月 30th, 2011
- Category: Hadoop, イベント
- Comments: 1
[ #HCJ11F] レポート:Apache HBase: an Introduction
Hadoop Conference 2011 Fall
日時:2011/09/26
場所:ベルサール汐留
イベントの詳細:
http://hadoop-conference-japan-2011-fall.eventbrite.com/
【重要】イベントのアーカイブ
http://mit.recruit.co.jp/hadoop/conference2011fall/info/archive.html
———————
『Apache HBase: an Introduction』
Cloudera Inc, Todd Lipcon
□HBaseについて
・オープンソース:Apache 2.0ライセンス
・distributed:1−1000台のコモディティサーバーで稼働
・ZooKeeperによるフェイルオーバー
・サーバーの追加によるリニアなスケーリング
・Map datastore
・not relational
・row key
・like Map
・Rows are stored in sorted order

□カラムファミリについて
・HDFS上で別のファイルとして格納される
異なる特徴やアクセスパターンのデータに適用
・設定
・圧縮
・バージョンをいくつ残すかの設定
・キャッシュポリシー
□アクセス方法
・Java API
・REST/HTTP
・Apache Thrift
・Hive / Pig (for analytics)

□HBaseAPI
・get(row)
・put(row, Map
・scan(key range, filter)
・increment(row, columns)
…etc…(checkAndPut, Delete…)
・MapReduce / Hive
□用語
・Region : subset of rows (like range partition)
・RegionServer : Serves data
・Master : coordinate slaves

□HBase vs Others
○HBase vs HDFS

○HBase vs RDBMS

○HBase vs Other NoSQL
・Favor Consistency
・Great Hadoop Integration
・Ordered range partitions
・Auto shards / scales
□ケーススタディ
・Firefox Crash Reports
・Facebook Analytics
・OpenTSDB
- Author: Hideya Kato
- Published: 9月 30th, 2011
- Category: Hadoop, イベント
- Comments: 1
[ #HCJ11F] レポート:The role of the Distribution in the Apache Hadoop Ecosystem
Hadoop Conference 2011 Fall
日時:2011/09/26
場所:ベルサール汐留
イベントの詳細:
http://hadoop-conference-japan-2011-fall.eventbrite.com/
【重要】イベントのアーカイブ
http://mit.recruit.co.jp/hadoop/conference2011fall/info/archive.html
———————
『The role of the Distribution in the Apache Hadoop Ecosystem』
Cloudera Inc, Todd Lipcon
□Hadoopについて
Hadoop → HDFS(Scalable FS)+ MapReduce(Distributed Processing)
・巨大かつ複雑なタイプのデータに対しても柔軟に保存、マイニングできる
・経済的にスケール出来る
□なぜHadoopなのか?
・ここ10年でデータは巨大かつ様々なタイプに
→さらに柔軟でスケーラブルな解決策が求められた
→☆大きなデータを扱うことは困難をもたらしたが、同時にデータの活用という【新たな可能性】を生み出した
□利用用途
1.高度な分析目的 (Webの例:ソーシャルネットワークの分析)
2.データ処理 (Webの例:クリックなどの集計処理)
□Clouderaについて
・CDH
→最も使われているdistribution
→安定かつ信頼性は高い(サービス群の依存などもきちんとテストしてある)
→オープンソース
・SCM Express(Service and Configuration Manager Express)
http://www.cloudera.com/products-services/scm-express/
→CDHを簡単にインストール
→WebUIでHadoopの設定を行える
→(Expressでは)50ノードまで設定可能
→無料!!!
□導入の流れ
Hadoopの良さを理解してもらう
↓
SCM Expressでインストール、利用する
↓
規模に応じてCloudera Enterpriseへ
□Cloudera Enterprise
・Cloudera Management Suite
・Activity Monitor
・Service & Configuration Monitor
・Resource Manager
・Authorization Manager
・Cloudera Support
日本語でも!


