Hadoop Conference Japan 2011
日本Hadoopユーザ会
日時:2011/02/22 11:15〜
場所:NTTデータ
http://www.eventbrite.com/event/1278974447/efblike
——-
Asakusa Enterprise Batch Framework for Hadoop
ウルシステムズ
神林飛志
・Asakusa
期間バッチ処理をHadoop上で開発・実行・運用すること
・バッチ処理時間の短縮
基幹バッチを
1.今まで時間的な制約でできなかった処理をなんども行うことができる
2.時間的に処理が不能であったデータも処理できる
これまで12ヶ月だったものを1000ヶ月とかで処理
3.無駄な時間がなくなり、運用のコストが劇的に下がる
夜間バッチはやめたい、、、。
・特にHadoopがよく使われるBI処理との比較でいうと
データの種類が多い
処理の組み合わせは単純
データフローが複雑
処理の責任
・Hadoopには何が足らないのか?
そもそも大規模開発の手法がない
MRやWritableの実装が職人芸
テストツールが貧弱
運用のことは考えていない
→Asakusa!
・Asakusaの位置づけ
HadoopCoreの上にのるもの:Pigなどと同じ位置づけ
・Asakusaの構成:フルスタックのフレームワーク
DAGベースの多層DSL構造
構造化を行う多層管理DSL
ビルディングブロックの構成により処理フローの記述
トランザクション管理〜ロールバック制御
MRコンパイラ
Ashigelコンパイラ
Made by @ashigeru
Pig/Hiveと比べて遜色がない
ステージングコンパイラ
ModelGenerator
HadoopIOは結構めんどくさい
テスト
テストシートが自動作成される
外部との一体統合
外部のAPIとか
・Asakusaで何が嬉しいのか
基幹バッチがホイホイかける
なんといってもお金になる
Asakusaのターゲット
・Hackerななひと
・業務屋のひと
・SIなひと
- Author: Hideya Kato
- Published: 2月 23rd, 2011
- Category: Hadoop
- Comments: None


