life x web Technology Design

コミュニケーションとテクノロジーを考えるブログ

[HCJ2011レポート] Asakusa Enterprise Batch Framework for Hadoop #hcj2011

TAGS: None

Hadoop Conference Japan 2011
日本Hadoopユーザ会

日時:2011/02/22 11:15〜
場所:NTTデータ

http://www.eventbrite.com/event/1278974447/efblike
——-


Asakusa Enterprise Batch Framework for Hadoop

ウルシステムズ
神林飛志


・Asakusa
期間バッチ処理をHadoop上で開発・実行・運用すること

・バッチ処理時間の短縮
基幹バッチを
1.今まで時間的な制約でできなかった処理をなんども行うことができる
2.時間的に処理が不能であったデータも処理できる
これまで12ヶ月だったものを1000ヶ月とかで処理
3.無駄な時間がなくなり、運用のコストが劇的に下がる
夜間バッチはやめたい、、、。

・特にHadoopがよく使われるBI処理との比較でいうと
データの種類が多い
処理の組み合わせは単純
データフローが複雑
処理の責任

・Hadoopには何が足らないのか?
そもそも大規模開発の手法がない
MRやWritableの実装が職人芸
テストツールが貧弱
運用のことは考えていない

→Asakusa!

・Asakusaの位置づけ
HadoopCoreの上にのるもの:Pigなどと同じ位置づけ

・Asakusaの構成:フルスタックのフレームワーク
DAGベースの多層DSL構造
構造化を行う多層管理DSL
ビルディングブロックの構成により処理フローの記述
トランザクション管理〜ロールバック制御

MRコンパイラ
Ashigelコンパイラ
Made by @ashigeru
Pig/Hiveと比べて遜色がない
ステージングコンパイラ

ModelGenerator
HadoopIOは結構めんどくさい

テスト
テストシートが自動作成される

外部との一体統合
外部のAPIとか

・Asakusaで何が嬉しいのか
基幹バッチがホイホイかける
なんといってもお金になる

Asakusaのターゲット
・Hackerななひと
・業務屋のひと
・SIなひと

TAGS: None

Leave a Reply

© 2009 life x web Technology Design. All Rights Reserved.

This blog is powered by the Wordpress platform and beach rentals.