<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>life x web Technology Design</title>
	<atom:link href="http://www.lifexweb.com/tech/feed/" rel="self" type="application/rss+xml" />
	<link>http://www.lifexweb.com/tech</link>
	<description>コミュニケーションとテクノロジーを考えるブログ</description>
	<lastBuildDate>Fri, 18 Nov 2011 00:59:56 +0000</lastBuildDate>
	<language>ja</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.2.1</generator>
		<item>
		<title>[ #HCJ11F] [Hadoop] Hadoop Conference 2011 Fallに参加してきました</title>
		<link>http://www.lifexweb.com/tech/2011/09/hcj11f-hadoop-hadoop-conference-2011-fall/</link>
		<comments>http://www.lifexweb.com/tech/2011/09/hcj11f-hadoop-hadoop-conference-2011-fall/#comments</comments>
		<pubDate>Fri, 30 Sep 2011 02:57:57 +0000</pubDate>
		<dc:creator>Hideya Kato</dc:creator>
				<category><![CDATA[Hadoop]]></category>
		<category><![CDATA[イベント]]></category>

		<guid isPermaLink="false">http://www.lifexweb.com/tech/?p=612</guid>
		<description><![CDATA[Hadoop Conference 2011 Fallに参加してきました 日時：2011/09/26 場所：ベルサール汐留 イベントの詳細： http://hadoop-conference-japan-2011-fall.eventbrite.com/ 【重要】イベントのアーカイブ http://mit.recruit.co.jp/hadoop/conference2011fall/info/archive.html 最近さらに注目を集めているHadoopのイベントで、ユーザー会のイベントは思えない規模（1000人over）、リクルートさん協賛による無料イベントとは思えない会場・お昼ごはん・飲み物・アーカイブの提供、非常に豪華なスピーカーの方々などかなり満足度の高いイベントでした。 スライドなどはリクルートさんがなんとこのために作成したというQ&#38;Aサイト「Question VOTE!!」に随時反映されていくようですが、参加したセッションに関してはメモを取りましたのでそれぞれ別エントリーで公開します。 [ #HCJ11F] レポート：The role of the Distribution in the Apache Hadoop Ecosystem [ #HCJ11F] レポート：Apache HBase: an Introduction [ #HCJ11F] レポート：(LT) Lightweight wrapper for Hive on Amazon EMR [ #HCJ11F] レポート：(LT) Hadoop and subsystems in livedoor [ #HCJ11F] レポート：リクルート式Hadoopの使い方 [ #HCJ11F] レポート：Hadoop [...]]]></description>
			<content:encoded><![CDATA[<p>
Hadoop Conference 2011 Fallに参加してきました<br />
<br />
日時：2011/09/26<br />
場所：ベルサール汐留<br />
<br />
イベントの詳細：<br />
<a href="http://hadoop-conference-japan-2011-fall.eventbrite.com/" target="_blank">http://hadoop-conference-japan-2011-fall.eventbrite.com/</a><br />
【重要】イベントのアーカイブ<br />
<a href="http://mit.recruit.co.jp/hadoop/conference2011fall/info/archive.html" target="_blank">http://mit.recruit.co.jp/hadoop/conference2011fall/info/archive.html</a><br />
<br />
最近さらに注目を集めているHadoopのイベントで、ユーザー会のイベントは思えない規模（1000人over）、リクルートさん協賛による無料イベントとは思えない会場・お昼ごはん・飲み物・アーカイブの提供、非常に豪華なスピーカーの方々などかなり満足度の高いイベントでした。<br />
<br />
スライドなどはリクルートさんがなんとこのために作成したというQ&amp;Aサイト「Question VOTE!!」に随時反映されていくようですが、参加したセッションに関してはメモを取りましたのでそれぞれ別エントリーで公開します。<br />
<br />
<a href="http://www.lifexweb.com/tech/2011/09/hcj2011f-cloudera1/" target="_blank">[ #HCJ11F] レポート：The role of the Distribution in the Apache Hadoop Ecosystem</a><br />
<a href="http://www.lifexweb.com/tech/2011/09/hcj11f-hbase-intro/" target="_blank">[ #HCJ11F] レポート：Apache HBase: an Introduction</a><br />
<a href="http://www.lifexweb.com/tech/2011/09/hcj11f-lt-hatena/" target="_blank">[ #HCJ11F] レポート：(LT) Lightweight wrapper for Hive on Amazon EMR</a><br />
<a href="http://www.lifexweb.com/tech/2011/09/hcj11f-lt-livedoor/" target="_blank">[ #HCJ11F] レポート：(LT) Hadoop and subsystems in livedoor</a><br />
<a href="http://www.lifexweb.com/tech/2011/09/hcj11f-recruit/" target="_blank">[ #HCJ11F] レポート：リクルート式Hadoopの使い方</a><br />
<a href="http://www.lifexweb.com/tech/2011/09/hcj11f-mapreducev2/" target="_blank">[ #HCJ11F] レポート：Hadoop 0.23 and MapReduce v2</a><br />
<a href="http://www.lifexweb.com/tech/2011/09/hcj11f-yahoo/" target="_blank">[ #HCJ11F] レポート：MapReduceによる大規模データ処理 at Yahoo! JAPAN</a><br />
<a href="http://www.lifexweb.com/tech/2011/09/hcj11f-dena/" target="_blank">[ #HCJ11F] レポート：(Lunch LT) Hadoopログを全員で使う方法と課題</a><br />
<a href="http://www.lifexweb.com/tech/2011/09/hcj11f-brainpad/" target="_blank">[ #HCJ11F] レポート：(Lunch LT) パネルログ分析(仮)</a><br />
<br />
ちなみに今回はセッション後の懇親会にも参加させていただきました。いろいろな話ができて楽しかったです。</p>
]]></content:encoded>
			<wfw:commentRss>http://www.lifexweb.com/tech/2011/09/hcj11f-hadoop-hadoop-conference-2011-fall/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>[ #HCJ11F] レポート：(Lunch LT) パネルログ分析(仮)</title>
		<link>http://www.lifexweb.com/tech/2011/09/hcj11f-brainpad/</link>
		<comments>http://www.lifexweb.com/tech/2011/09/hcj11f-brainpad/#comments</comments>
		<pubDate>Fri, 30 Sep 2011 02:52:29 +0000</pubDate>
		<dc:creator>Hideya Kato</dc:creator>
				<category><![CDATA[Hadoop]]></category>
		<category><![CDATA[イベント]]></category>

		<guid isPermaLink="false">http://www.lifexweb.com/tech/?p=667</guid>
		<description><![CDATA[Hadoop Conference 2011 Fall 日時：2011/09/26 場所：ベルサール汐留 イベントの詳細： http://hadoop-conference-japan-2011-fall.eventbrite.com/ 【重要】イベントのアーカイブ http://mit.recruit.co.jp/hadoop/conference2011fall/info/archive.html &#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212; （ランチタイムLT） 『パネルログ分析(仮)』 ブレインパッド 小林 隆 Hadoop Conference Japan 2011 Fall View more presentations from Ryu Kobayashi □パネルログとは？ ・Webログ　→　通常のログ（Apacheなど） ・パネルログ　→　「パネル＝人」ユーザーごとの行動ログ パネルログを分析することで誰がどこに遷移したのか、 その前の行動はなんだったのか、など追うことが出来る。 主に広告代理店などに提供 □構成 AmazonEMRとHadoopMRを併用 ☆Hive,PigとAsakusaの中間のフレームワークがほしい、、、。 Hive,Pigは多段になりがちでパフォーマンスの懸念がある。 ひとつのジョブに多くの処理を詰め込んで段数を減らしている（で、結構大変）]]></description>
			<content:encoded><![CDATA[<p>
 Hadoop Conference 2011 Fall<br />
<br />
日時：2011/09/26<br />
場所：ベルサール汐留<br />
<br />
イベントの詳細：<br />
<a href="http://hadoop-conference-japan-2011-fall.eventbrite.com/" target="_blank">http://hadoop-conference-japan-2011-fall.eventbrite.com/</a><br />
【重要】イベントのアーカイブ<br />
<a href="http://mit.recruit.co.jp/hadoop/conference2011fall/info/archive.html" target="_blank">http://mit.recruit.co.jp/hadoop/conference2011fall/info/archive.html</a><br />
&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;<br />
<br />
（ランチタイムLT）<br />
<br />
<strong>『パネルログ分析(仮)』<br />
ブレインパッド 小林 隆</strong><br />
<br />
<div style="width:425px" id="__ss_9452714"> <strong style="display:block;margin:12px 0 4px"><a href="http://www.slideshare.net/ryukobayashi/hadoop-conference-japan-2011-fall-9452714" title="Hadoop Conference Japan 2011 Fall" target="_blank">Hadoop Conference Japan 2011 Fall</a></strong> <iframe src="http://www.slideshare.net/slideshow/embed_code/9452714" width="425" height="355" frameborder="0" marginwidth="0" marginheight="0" scrolling="no"></iframe> <div style="padding:5px 0 12px"> View more <a href="http://www.slideshare.net/" target="_blank">presentations</a> from <a href="http://www.slideshare.net/ryukobayashi" target="_blank">Ryu Kobayashi</a> </div> </div>
<br />
□パネルログとは？<br />
     ・Webログ　→　通常のログ（Apacheなど）<br />
     ・パネルログ　→　「パネル＝人」ユーザーごとの行動ログ<br />
<br />
     パネルログを分析することで誰がどこに遷移したのか、<br />
     その前の行動はなんだったのか、など追うことが出来る。<br />
<br />
     主に広告代理店などに提供<br />
<br />
□構成<br />
     AmazonEMRとHadoopMRを併用<br />
<br />
     ☆Hive,PigとAsakusaの中間のフレームワークがほしい、、、。<br />
     Hive,Pigは多段になりがちでパフォーマンスの懸念がある。<br />
     ひとつのジョブに多くの処理を詰め込んで段数を減らしている（で、結構大変）<br />
</p>
]]></content:encoded>
			<wfw:commentRss>http://www.lifexweb.com/tech/2011/09/hcj11f-brainpad/feed/</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>[ #HCJ11F] レポート：(Lunch LT) Hadoopログを全員で使う方法と課題</title>
		<link>http://www.lifexweb.com/tech/2011/09/hcj11f-dena/</link>
		<comments>http://www.lifexweb.com/tech/2011/09/hcj11f-dena/#comments</comments>
		<pubDate>Fri, 30 Sep 2011 02:48:40 +0000</pubDate>
		<dc:creator>Hideya Kato</dc:creator>
				<category><![CDATA[Hadoop]]></category>
		<category><![CDATA[イベント]]></category>

		<guid isPermaLink="false">http://www.lifexweb.com/tech/?p=664</guid>
		<description><![CDATA[Hadoop Conference 2011 Fall 日時：2011/09/26 場所：ベルサール汐留 イベントの詳細： http://hadoop-conference-japan-2011-fall.eventbrite.com/ 【重要】イベントのアーカイブ http://mit.recruit.co.jp/hadoop/conference2011fall/info/archive.html &#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212; （ランチタイムLT） 『Hadoopログを全員で使う方法と課題』 株式会社ディー・エヌ・エー　宵 勇樹 ・Mobageではデータ解析を用いて常にチューニングを行なっている。 データマイニングチームだけではなく一般部署への展開も行っているが、 ・分析ニーズの拡大 ・短期間の納期のものが増大 ↓ ・マイニングエンジニアだけでは手が足りない ・業務内容に関する知識が必要 →Pig,Hiveなどを使ってもいいのではないか？ →データマイニングエンジニアじゃなくても作業できるように △課題 担当する人によって見たいところ、見せていいところが違う →アクセス制限の機構が必要 ○Hueの活用 LDAPを実装し、アクセス制限付きで実行出来るようにした △課題 ・Hueのためのプラグインを作るのが若干面倒 ・Pigのユーザについてはshellがそのユーザで使えるようになっている必要あり ・Hiveのグループ機能はnamenodeの再起動が必要　→LDAPで対応]]></description>
			<content:encoded><![CDATA[<p>
 Hadoop Conference 2011 Fall<br />
<br />
日時：2011/09/26<br />
場所：ベルサール汐留<br />
<br />
イベントの詳細：<br />
<a href="http://hadoop-conference-japan-2011-fall.eventbrite.com/" target="_blank">http://hadoop-conference-japan-2011-fall.eventbrite.com/</a><br />
【重要】イベントのアーカイブ<br />
<a href="http://mit.recruit.co.jp/hadoop/conference2011fall/info/archive.html" target="_blank">http://mit.recruit.co.jp/hadoop/conference2011fall/info/archive.html</a><br />
&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;<br />
<br />
（ランチタイムLT）<br />
<br />
<strong>『Hadoopログを全員で使う方法と課題』<br />
株式会社ディー・エヌ・エー　宵 勇樹</strong><br />
<br />
・Mobageではデータ解析を用いて常にチューニングを行なっている。<br />
データマイニングチームだけではなく一般部署への展開も行っているが、<br />
     ・分析ニーズの拡大<br />
     ・短期間の納期のものが増大<br />
     ↓<br />
     ・マイニングエンジニアだけでは手が足りない<br />
     ・業務内容に関する知識が必要<br />
<br />
     →Pig,Hiveなどを使ってもいいのではないか？<br />
          →データマイニングエンジニアじゃなくても作業できるように<br />
<br />
△課題<br />
     担当する人によって見たいところ、見せていいところが違う<br />
     →アクセス制限の機構が必要<br />
<br />
○Hueの活用<br />
     LDAPを実装し、アクセス制限付きで実行出来るようにした<br />
<br />
     △課題<br />
     ・Hueのためのプラグインを作るのが若干面倒<br />
     ・Pigのユーザについてはshellがそのユーザで使えるようになっている必要あり<br />
     ・Hiveのグループ機能はnamenodeの再起動が必要　→LDAPで対応<br />
</p>
]]></content:encoded>
			<wfw:commentRss>http://www.lifexweb.com/tech/2011/09/hcj11f-dena/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>[ #HCJ11F] レポート：MapReduceによる大規模データ処理 at Yahoo! JAPAN</title>
		<link>http://www.lifexweb.com/tech/2011/09/hcj11f-yahoo/</link>
		<comments>http://www.lifexweb.com/tech/2011/09/hcj11f-yahoo/#comments</comments>
		<pubDate>Fri, 30 Sep 2011 02:44:53 +0000</pubDate>
		<dc:creator>Hideya Kato</dc:creator>
				<category><![CDATA[Hadoop]]></category>
		<category><![CDATA[イベント]]></category>

		<guid isPermaLink="false">http://www.lifexweb.com/tech/?p=660</guid>
		<description><![CDATA[Hadoop Conference 2011 Fall 日時：2011/09/26 場所：ベルサール汐留 イベントの詳細： http://hadoop-conference-japan-2011-fall.eventbrite.com/ 【重要】イベントのアーカイブ http://mit.recruit.co.jp/hadoop/conference2011fall/info/archive.html &#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212; 『MapReduceによる大規模データ処理 at Yahoo! JAPAN』 ヤフー, 角田 直行 吉田 一星 ■Yahoo! JAPANでの事例 ・Yahoo!検索　リアルタイム検索 Twitter社が提供したリアルタイムのツイートデータをABYSS側に送ってインデクシング ・Yahoo!オークション レコメンデーションプラットフォームからHadoopで解析したデータを送信 ■MapReduceによるアルゴリズムデザイン ○空間解析 リバースジオコーダー：位置取得 ☆GeoHash ○検索インデックス生成 検索インデックス＝本の索引 サイト（URL）ごとにキーワードを出す ↓ キーワードごとにサイト（URL）を出せるように【転置】を行う Mapper URLとページの内容を入力として単語を抽出 Reducer 集計 ・課題 インデクスには複数のフィールドがある フィールドごとに単語を分割する方法が違う URL→完全一致 タイトル→2Gram 内容→形態素解析 ユニークな文書番号を付与し、文書番号でソートする 文書内での単語のポジションや頻度を考慮する TFIDFの計算のために単語ごとの文書数と文書ごとの単語数を計算する ○機械学習 データの中で見えているものを手がかりに見えないモノを予測する ページの内容がアダルトかどうか判定する 自分のプロフィールと条件にあったお見合い相手を探す 検索結果を様々な指標にあわせてランキング ・機械学習によるランキング 検索結果を機械学習でランキングする [...]]]></description>
			<content:encoded><![CDATA[<p>
 Hadoop Conference 2011 Fall<br />
<br />
日時：2011/09/26<br />
場所：ベルサール汐留<br />
<br />
イベントの詳細：<br />
<a href="http://hadoop-conference-japan-2011-fall.eventbrite.com/" target="_blank">http://hadoop-conference-japan-2011-fall.eventbrite.com/</a><br />
【重要】イベントのアーカイブ<br />
<a href="http://mit.recruit.co.jp/hadoop/conference2011fall/info/archive.html" target="_blank">http://mit.recruit.co.jp/hadoop/conference2011fall/info/archive.html</a><br />
&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;<br />
<br />
<strong>『MapReduceによる大規模データ処理 at Yahoo! JAPAN』<br />
ヤフー, 角田 直行  吉田 一星</strong><br />
<br />
■Yahoo! JAPANでの事例<br />
<br />
・Yahoo!検索　リアルタイム検索<br />
Twitter社が提供したリアルタイムのツイートデータをABYSS側に送ってインデクシング<br />
<br />
・Yahoo!オークション<br />
レコメンデーションプラットフォームからHadoopで解析したデータを送信<br />
<br />
<br />
■MapReduceによるアルゴリズムデザイン<br />
<br />
○空間解析<br />
リバースジオコーダー：位置取得<br />
☆GeoHash<br />
<br />
○検索インデックス生成<br />
検索インデックス＝本の索引<br />
<br />
サイト（URL）ごとにキーワードを出す<br />
↓<br />
キーワードごとにサイト（URL）を出せるように【転置】を行う<br />
<br />
Mapper<br />
URLとページの内容を入力として単語を抽出<br />
<br />
Reducer<br />
集計<br />
<br />
・課題<br />
インデクスには複数のフィールドがある<br />
フィールドごとに単語を分割する方法が違う<br />
     URL→完全一致<br />
     タイトル→2Gram<br />
     内容→形態素解析<br />
<br />
ユニークな文書番号を付与し、文書番号でソートする<br />
文書内での単語のポジションや頻度を考慮する<br />
TFIDFの計算のために単語ごとの文書数と文書ごとの単語数を計算する<br />
<br />
<br />
○機械学習<br />
データの中で見えているものを手がかりに見えないモノを予測する<br />
<br />
ページの内容がアダルトかどうか判定する<br />
自分のプロフィールと条件にあったお見合い相手を探す<br />
検索結果を様々な指標にあわせてランキング<br />
<br />
・機械学習によるランキング<br />
     検索結果を機械学習でランキングする<br />
<br />
・仕組み<br />
Webページの様々な仕様を考える<br />
それぞれの素性に対して予め学習済みの重みが与えられているとする<br />
かけ合わせたものをスコアとして検索結果をランキングする<br />
重みと素性の値を単純にかけ合わせてスコアを推定する形を線形回帰<br />
<br />
・重みの学習<br />
重みをどう学習するかがポイント<br />
予め素性とスコアのペアを用意しておく<br />
正解データをもとに重みを算出する<br />
<br />
・重みの学習<br />
     ・オンライン学習<br />
正解データを一見ずつ見て行って重みを更新する<br />
実装が容易<br />
ノイズが含まれていたり素性が多い場合に有効<br />
<br />
     ・バッチ学習<br />
すべての正解データを見て重みを更新する<br />
実装が難解<br />
情報量が多いので精度が高くなるケースが多い<br />
<br />
<br />
・Iterative Parameter Mixing<br />
→MapReduceでは効率は良くないが、現状だとこれしかない<br />
<br />
・Gradient Boosted Decision Tree<br />
</p>
]]></content:encoded>
			<wfw:commentRss>http://www.lifexweb.com/tech/2011/09/hcj11f-yahoo/feed/</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>[ #HCJ11F] レポート：Hadoop 0.23 and MapReduce v2</title>
		<link>http://www.lifexweb.com/tech/2011/09/hcj11f-mapreducev2/</link>
		<comments>http://www.lifexweb.com/tech/2011/09/hcj11f-mapreducev2/#comments</comments>
		<pubDate>Fri, 30 Sep 2011 02:41:10 +0000</pubDate>
		<dc:creator>Hideya Kato</dc:creator>
				<category><![CDATA[Hadoop]]></category>
		<category><![CDATA[イベント]]></category>

		<guid isPermaLink="false">http://www.lifexweb.com/tech/?p=656</guid>
		<description><![CDATA[Hadoop Conference 2011 Fall 日時：2011/09/26 場所：ベルサール汐留 イベントの詳細： http://hadoop-conference-japan-2011-fall.eventbrite.com/ 【重要】イベントのアーカイブ http://mit.recruit.co.jp/hadoop/conference2011fall/info/archive.html &#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212; 『Hadoop 0.23 and MapReduce v2』 HortonWorks, Owen O&#8217;Malley □Current Hadoop Branches 0.21はstableじゃないから使っちゃダメ ・0.20.203.0 added security MapReduce job limits Performance work ・0.20.204.0 fail in place RPM &#038; Debian package ・0.20.205.0 HBase support ・0.23 Expected to become the next stable release a community effort from cloudera, [...]]]></description>
			<content:encoded><![CDATA[<p>
 Hadoop Conference 2011 Fall<br />
<br />
日時：2011/09/26<br />
場所：ベルサール汐留<br />
<br />
イベントの詳細：<br />
<a href="http://hadoop-conference-japan-2011-fall.eventbrite.com/" target="_blank">http://hadoop-conference-japan-2011-fall.eventbrite.com/</a><br />
【重要】イベントのアーカイブ<br />
<a href="http://mit.recruit.co.jp/hadoop/conference2011fall/info/archive.html" target="_blank">http://mit.recruit.co.jp/hadoop/conference2011fall/info/archive.html</a><br />
&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;<br />
<br />
<strong>『Hadoop 0.23 and MapReduce v2』<br />
HortonWorks, Owen O&#8217;Malley</strong><br />
<br />
□Current Hadoop Branches<br />
0.21はstableじゃないから使っちゃダメ<br />
<br />
・0.20.203.0<br />
added security<br />
MapReduce job limits<br />
Performance work<br />
<br />
・0.20.204.0<br />
fail in place<br />
RPM &#038; Debian package<br />
<br />
・0.20.205.0<br />
HBase support<br />
<br />
・0.23<br />
Expected to become the next stable release<br />
<br />
a community effort from <br />
cloudera, ebay, hortonworks, yahoo&#8230;<br />
<br />
includes many new features:<br />
     &#8211; Hdfs federation<br />
          &#8212; a solution to HDFS Namenode scaling<br />
               &#8212; Entire HDFS namespace kept in NameNode&#8217;s RAM<br />
<br />
     &#8211; hdfs write-pipeline improvements with support for HBase supports<br />
shuffle optimized by 30%<br />
small mapreduece jobs optimization<br />
<br />
<br />
<br />
Current Limitations<br />
     &#8211; Scalability<br />
     &#8211; SPOF<br />
     &#8211; Restart is very tricky due to complex state<br />
     &#8211; Hard Partition of resources into map and reduce slots<br />
     &#8211; Lacks support for alternate paradigms(Iterative applications ex. K-means, PageRank)<br />
     &#8211; Lack of wire-compatible(need to be same versions)<br />
<br />
<br />
Design<br />
- cluster resource management<br />
- application life-cycle management<br />
<br />
<br />
Improvements<br />
- NO SPOF state saved in ZooKeeper<br />
<br />
複数のバージョンのMapReduceが動く<br />
決まった数のmapとreduceの設定の廃止<br />
<br />
グラフ構造など次世代の処理に対応<br />
（これまではイテレーションによる段数のコストが大きかったため）<br />
<br />
<br />
status<br />
ベータ版は2011年Q4<br />
<br />
<a href="https://developer.yahoo.com/blogs/hadoop/posts/2011/02/mapreduce-nextgen" target="_blank">https://developer.yahoo.com/blogs/hadoop/posts/2011/02/mapreduce-nextgen</a><br />
</p>
]]></content:encoded>
			<wfw:commentRss>http://www.lifexweb.com/tech/2011/09/hcj11f-mapreducev2/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>[ #HCJ11F] レポート：リクルート式Hadoopの使い方</title>
		<link>http://www.lifexweb.com/tech/2011/09/hcj11f-recruit/</link>
		<comments>http://www.lifexweb.com/tech/2011/09/hcj11f-recruit/#comments</comments>
		<pubDate>Fri, 30 Sep 2011 02:37:26 +0000</pubDate>
		<dc:creator>Hideya Kato</dc:creator>
				<category><![CDATA[Hadoop]]></category>
		<category><![CDATA[イベント]]></category>

		<guid isPermaLink="false">http://www.lifexweb.com/tech/?p=653</guid>
		<description><![CDATA[Hadoop Conference 2011 Fall 日時：2011/09/26 場所：ベルサール汐留 イベントの詳細： http://hadoop-conference-japan-2011-fall.eventbrite.com/ 【重要】イベントのアーカイブ http://mit.recruit.co.jp/hadoop/conference2011fall/info/archive.html &#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212; 『リクルート式Hadoopの使い方』 リクルート　石川 信行 リクルート式Hadoopの使い方 View more presentations from Nobuyuki Ishikawa □Hadoop活用に向けた課題 △現行システムに影響出したくない △開発工数掛けたくない ☆Hadoopまわりのエコシステムを活用する Mahout、Hive、Azkaban&#8230; □Hive ☆リクルート社内ではSQLベース →Hiveとの親和性高い ・WebHive　→　企画職の人もアドホックにデータを出すことが出来る 既存の機能をリプレイスするにあたり →まずは見立てのためにHiveを利用する →さらなる高速化などはMapReduceで書き換えを行う ○Hotpepperの事例 ・1週間分のログからしかレコメンドを計算できず、8万人にしか送れていなかった 1年半分のデータから20万人のユーザにレコメンドが可能に ・アトリビューション分析 □Sqoop (+Oraoop) RDBMSとHadoopでデータを共有する これまでできなかった分析、集計が可能に ○ゼクシィのフェア分析の事例 □Mahout ○ロジックを知らなくても分析できる △ブラックボックスになりがちなのでデバッグが大変 ＋要アルゴリズムの勉強 ○カーセンサー レコメンド用途に利用中 □BIツールへの連携 HadoopでBIツール用のデータを作成→PDCAを高速化 □構成について 最小構成　マスター1台＋slave 5台 Hiveで基本的な整形 →Java [...]]]></description>
			<content:encoded><![CDATA[<p>
 Hadoop Conference 2011 Fall<br />
<br />
日時：2011/09/26<br />
場所：ベルサール汐留<br />
<br />
イベントの詳細：<br />
<a href="http://hadoop-conference-japan-2011-fall.eventbrite.com/" target="_blank">http://hadoop-conference-japan-2011-fall.eventbrite.com/</a><br />
【重要】イベントのアーカイブ<br />
<a href="http://mit.recruit.co.jp/hadoop/conference2011fall/info/archive.html" target="_blank">http://mit.recruit.co.jp/hadoop/conference2011fall/info/archive.html</a><br />
&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;<br />
<br />
<br />
<strong>『リクルート式Hadoopの使い方』<br />
リクルート　石川 信行</strong><br />
<br />
<div style="width:425px" id="__ss_9440739"> <strong style="display:block;margin:12px 0 4px"><a href="http://www.slideshare.net/Nobuyuki_Ishikawa/hadoop-9440739" title="リクルート式Hadoopの使い方" target="_blank">リクルート式Hadoopの使い方</a></strong> <iframe src="http://www.slideshare.net/slideshow/embed_code/9440739" width="425" height="355" frameborder="0" marginwidth="0" marginheight="0" scrolling="no"></iframe> <div style="padding:5px 0 12px"> View more <a href="http://www.slideshare.net/" target="_blank">presentations</a> from <a href="http://www.slideshare.net/Nobuyuki_Ishikawa" target="_blank">Nobuyuki Ishikawa</a> </div> </div>
<br />
□Hadoop活用に向けた課題<br />
     △現行システムに影響出したくない<br />
     △開発工数掛けたくない<br />
<br />
     ☆Hadoopまわりのエコシステムを活用する<br />
          Mahout、Hive、Azkaban&#8230;<br />
<br />
□Hive<br />
     ☆リクルート社内ではSQLベース<br />
     →Hiveとの親和性高い<br />
     ・WebHive　→　企画職の人もアドホックにデータを出すことが出来る<br />
<br />
     既存の機能をリプレイスするにあたり<br />
     →まずは見立てのためにHiveを利用する<br />
     →さらなる高速化などはMapReduceで書き換えを行う<br />
<br />
     ○Hotpepperの事例<br />
     ・1週間分のログからしかレコメンドを計算できず、8万人にしか送れていなかった<br />
     1年半分のデータから20万人のユーザにレコメンドが可能に<br />
<br />
     ・アトリビューション分析<br />
<br />
□Sqoop (+Oraoop)<br />
     RDBMSとHadoopでデータを共有する<br />
     これまでできなかった分析、集計が可能に<br />
     ○ゼクシィのフェア分析の事例<br />
<br />
□Mahout<br />
     ○ロジックを知らなくても分析できる<br />
     △ブラックボックスになりがちなのでデバッグが大変<br />
          ＋要アルゴリズムの勉強<br />
<br />
     ○カーセンサー<br />
          レコメンド用途に利用中<br />
<br />
□BIツールへの連携<br />
     HadoopでBIツール用のデータを作成→PDCAを高速化<br />
<br />
□構成について<br />
     最小構成　マスター1台＋slave 5台<br />
     Hiveで基本的な整形<br />
          →Java / Mahoutで計算<br />
<br />
     計10時間の処理<br />
<br />
□Azkaban<br />
     Tomcat上にwarを置き、Jobフロー作成できる<br />
<br />
□速度アップのための工夫<br />
     ・mapの最大数を2 → 3へ<br />
     ・priorityを活用<br />
<br />
     Scoop：map数をCPU負荷を見ながら最大に<br />
               日本語長文カラムとってこない<br />
               差分だけ入れる<br />
<br />
     Mahout：Verあげる（新しいほうが処理速度が速い可能性あり）<br />
<br />
<br />
☆Hadoopは使える<br />
     良いところ<br />
          try＆Errorできる　→　分析精度が上がっていく<br />
          サンプリングしなくても計算できるので精度は高くなる可能性が高い<br />
          開発サイクルの高速化＆プロダクトの豊富さによる短期間での知識習得<br />
<br />
     なにより、<br />
          ☆Hadoopを使えば今までできなかったことができそう！<br />
              という感覚が分析／商品企画する人の意識の中に生まれる<br />
<br />
□MapR<br />
     ・Volumeが作成できるためマルチテナント利用が便利<br />
     ・速い、、<br />
</p>
]]></content:encoded>
			<wfw:commentRss>http://www.lifexweb.com/tech/2011/09/hcj11f-recruit/feed/</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>[ #HCJ11F] レポート：(LT) Hadoop and subsystems in livedoor</title>
		<link>http://www.lifexweb.com/tech/2011/09/hcj11f-lt-livedoor/</link>
		<comments>http://www.lifexweb.com/tech/2011/09/hcj11f-lt-livedoor/#comments</comments>
		<pubDate>Fri, 30 Sep 2011 02:26:00 +0000</pubDate>
		<dc:creator>Hideya Kato</dc:creator>
				<category><![CDATA[Hadoop]]></category>
		<category><![CDATA[イベント]]></category>

		<guid isPermaLink="false">http://www.lifexweb.com/tech/?p=644</guid>
		<description><![CDATA[Hadoop Conference 2011 Fall 日時：2011/09/26 場所：ベルサール汐留 イベントの詳細： http://hadoop-conference-japan-2011-fall.eventbrite.com/ 【重要】イベントのアーカイブ http://mit.recruit.co.jp/hadoop/conference2011fall/info/archive.html &#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212; （LTセッション） 『Hadoop and subsystems in livedoor』 ライブドア　田籠 聡 (tagomoris) Hadoop and subsystems in livedoor #Hcj11f View more presentations from tagomoris □ライブドア 2800+　サーバ 3200+　ホスト 530+　ウェブサーバ 現在15Gbps (10Gbps + CDN 5Gbps)のサービス規模 □Hadoopについて 10ノード（1マスタ＋9） 36コア　32TB　HDFS ・利用中 CDH3b2 Hive 0.6.0 ☆主にレポート作成目的 →super large scale &#8216;sed &#124; grep &#124; [...]]]></description>
			<content:encoded><![CDATA[<p>
 Hadoop Conference 2011 Fall<br />
<br />
日時：2011/09/26<br />
場所：ベルサール汐留<br />
<br />
イベントの詳細：<br />
<a href="http://hadoop-conference-japan-2011-fall.eventbrite.com/" target="_blank">http://hadoop-conference-japan-2011-fall.eventbrite.com/</a><br />
【重要】イベントのアーカイブ<br />
<a href="http://mit.recruit.co.jp/hadoop/conference2011fall/info/archive.html" target="_blank">http://mit.recruit.co.jp/hadoop/conference2011fall/info/archive.html</a><br />
&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;<br />
<br />
（LTセッション）<br />
<br />
<strong>『Hadoop and subsystems in livedoor』<br />
ライブドア　田籠 聡 (tagomoris)</strong><br />
<br />
<div style="width:425px" id="__ss_9419455"> <strong style="display:block;margin:12px 0 4px"><a href="http://www.slideshare.net/tagomoris/hadoop-and-subsystems-in-livedoor-hcj11f" title="Hadoop and subsystems in livedoor #Hcj11f" target="_blank">Hadoop and subsystems in livedoor #Hcj11f</a></strong> <iframe src="http://www.slideshare.net/slideshow/embed_code/9419455" width="425" height="355" frameborder="0" marginwidth="0" marginheight="0" scrolling="no"></iframe> <div style="padding:5px 0 12px"> View more <a href="http://www.slideshare.net/" target="_blank">presentations</a> from <a href="http://www.slideshare.net/tagomoris" target="_blank">tagomoris</a> </div> </div>
<br />
□ライブドア<br />
     2800+　サーバ<br />
     3200+　ホスト<br />
     530+　ウェブサーバ<br />
現在15Gbps (10Gbps + CDN 5Gbps)のサービス規模<br />
<br />
□Hadoopについて<br />
     10ノード（1マスタ＋9）<br />
     36コア　32TB　HDFS<br />
<br />
     ・利用中<br />
          CDH3b2<br />
          Hive 0.6.0<br />
<br />
     ☆主にレポート作成目的<br />
          →super large scale &#8216;sed | grep | wc&#8217;<br />
     <br />
    ・構成<br />
     WebServers　→　Scribe　→　Streaming (Perl)　→　load insert　→ Hive<br />
<br />
     Servers<br />
     ↓↓↓ ログ<br />
     [deliver] : scribed<br />
     ↓<br />
     [central] : scribed<br />
     ↓<br />
     [backup] : scribed<br />
     →HDFS<br />
     →生ログバックアップ<br />
<br />
     ☆scribeline<br />
     →　簡単にscribedにログを転送するためのエージェント<br />
     →　<a href="http://d.hatena.ne.jp/tagomoris/20110428/1303981573" target="_blank">http://d.hatena.ne.jp/tagomoris/20110428/1303981573</a><br />
<br />
     ☆shib<br />
     →　Hive Client Webアプリケーション<br />
     →　<a href="http://d.hatena.ne.jp/tagomoris/20110927/1317103849" target="_blank">http://d.hatena.ne.jp/tagomoris/20110927/1317103849</a><br />
</p>
]]></content:encoded>
			<wfw:commentRss>http://www.lifexweb.com/tech/2011/09/hcj11f-lt-livedoor/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>[ #HCJ11F] レポート：(LT) Lightweight wrapper for Hive on Amazon EMR</title>
		<link>http://www.lifexweb.com/tech/2011/09/hcj11f-lt-hatena/</link>
		<comments>http://www.lifexweb.com/tech/2011/09/hcj11f-lt-hatena/#comments</comments>
		<pubDate>Fri, 30 Sep 2011 02:22:05 +0000</pubDate>
		<dc:creator>Hideya Kato</dc:creator>
				<category><![CDATA[Hadoop]]></category>
		<category><![CDATA[イベント]]></category>

		<guid isPermaLink="false">http://www.lifexweb.com/tech/?p=641</guid>
		<description><![CDATA[Hadoop Conference 2011 Fall 日時：2011/09/26 場所：ベルサール汐留 イベントの詳細： http://hadoop-conference-japan-2011-fall.eventbrite.com/ 【重要】イベントのアーカイブ http://mit.recruit.co.jp/hadoop/conference2011fall/info/archive.html &#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212; （LTセッション） 『Lightweight wrapper for Hive on Amazon EMR』 はてな　田中 慎司 Lightweight wrapper for Hive on Amazon EMR View more presentations from Shinji Tanaka □EMR どんどん増やせる 必要なとき必要な文だけ △課題 1．データをS3にいれないといけない 2．バッチにするの大変 □解決案 1　→　1時間に1回S3に送るスクリプトを実装 ログフォーマット　→　独自SerDe実装 Wrapper　→ Net::Amazon::EMR::Wrapper (PerlにNet::Amazon::EMRがないためRubyのクラスをさらにWrap) □良い点 ・Perlで書ける ・アプリエンジニアにもらくらく ・cron ・HiveQLの恩恵 □大変なところ ・クラスタ管理が不完全 ・S3にデータ展開が大変 ・複雑な処理は大変]]></description>
			<content:encoded><![CDATA[<p>
 Hadoop Conference 2011 Fall<br />
<br />
日時：2011/09/26<br />
場所：ベルサール汐留<br />
<br />
イベントの詳細：<br />
<a href="http://hadoop-conference-japan-2011-fall.eventbrite.com/" target="_blank">http://hadoop-conference-japan-2011-fall.eventbrite.com/</a><br />
【重要】イベントのアーカイブ<br />
<a href="http://mit.recruit.co.jp/hadoop/conference2011fall/info/archive.html" target="_blank">http://mit.recruit.co.jp/hadoop/conference2011fall/info/archive.html</a><br />
&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;<br />
<br />
<br />
（LTセッション）<br />
<br />
<strong>『Lightweight wrapper for Hive on Amazon EMR』<br />
はてな　田中 慎司</strong><br />
<br />
<div style="width:425px" id="__ss_9418985"> <strong style="display:block;margin:12px 0 4px"><a href="http://www.slideshare.net/stanaka/lightweight-wrapper-for-hive-on-amazon-emr" title="Lightweight wrapper for Hive on Amazon EMR" target="_blank">Lightweight wrapper for Hive on Amazon EMR</a></strong> <iframe src="http://www.slideshare.net/slideshow/embed_code/9418985" width="425" height="355" frameborder="0" marginwidth="0" marginheight="0" scrolling="no"></iframe> <div style="padding:5px 0 12px"> View more <a href="http://www.slideshare.net/" target="_blank">presentations</a> from <a href="http://www.slideshare.net/stanaka" target="_blank">Shinji Tanaka</a> </div> </div>
<br />
□EMR<br />
     どんどん増やせる<br />
     必要なとき必要な文だけ<br />
<br />
     △課題<br />
     1．データをS3にいれないといけない<br />
     2．バッチにするの大変<br />
<br />
□解決案<br />
     1　→　1時間に1回S3に送るスクリプトを実装<br />
     ログフォーマット　→　独自SerDe実装<br />
<br />
     Wrapper　→ Net::Amazon::EMR::Wrapper<br />
     (PerlにNet::Amazon::EMRがないためRubyのクラスをさらにWrap)<br />
<br />
□良い点<br />
     ・Perlで書ける<br />
     ・アプリエンジニアにもらくらく<br />
     ・cron<br />
     ・HiveQLの恩恵<br />
<br />
□大変なところ<br />
     ・クラスタ管理が不完全<br />
     ・S3にデータ展開が大変<br />
     ・複雑な処理は大変<br />
</p>
]]></content:encoded>
			<wfw:commentRss>http://www.lifexweb.com/tech/2011/09/hcj11f-lt-hatena/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>[ #HCJ11F] レポート：Apache HBase: an Introduction</title>
		<link>http://www.lifexweb.com/tech/2011/09/hcj11f-hbase-intro/</link>
		<comments>http://www.lifexweb.com/tech/2011/09/hcj11f-hbase-intro/#comments</comments>
		<pubDate>Fri, 30 Sep 2011 02:19:42 +0000</pubDate>
		<dc:creator>Hideya Kato</dc:creator>
				<category><![CDATA[Hadoop]]></category>
		<category><![CDATA[イベント]]></category>

		<guid isPermaLink="false">http://www.lifexweb.com/tech/?p=630</guid>
		<description><![CDATA[Hadoop Conference 2011 Fall 日時：2011/09/26 場所：ベルサール汐留 イベントの詳細： http://hadoop-conference-japan-2011-fall.eventbrite.com/ 【重要】イベントのアーカイブ http://mit.recruit.co.jp/hadoop/conference2011fall/info/archive.html &#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212; 『Apache HBase: an Introduction』 Cloudera Inc, Todd Lipcon □HBaseについて ・オープンソース：Apache 2.0ライセンス ・distributed：1−1000台のコモディティサーバーで稼働 ・ZooKeeperによるフェイルオーバー ・サーバーの追加によるリニアなスケーリング ・Map datastore ・not relational ・row key ・like Map ・Rows are stored in sorted order □カラムファミリについて ・HDFS上で別のファイルとして格納される 異なる特徴やアクセスパターンのデータに適用 ・設定 ・圧縮 ・バージョンをいくつ残すかの設定 ・キャッシュポリシー □アクセス方法 ・Java API ・REST/HTTP ・Apache Thrift ・Hive / Pig [...]]]></description>
			<content:encoded><![CDATA[<p>
 Hadoop Conference 2011 Fall<br />
<br />
日時：2011/09/26<br />
場所：ベルサール汐留<br />
<br />
イベントの詳細：<br />
<a href="http://hadoop-conference-japan-2011-fall.eventbrite.com/" target="_blank">http://hadoop-conference-japan-2011-fall.eventbrite.com/</a><br />
【重要】イベントのアーカイブ<br />
<a href="http://mit.recruit.co.jp/hadoop/conference2011fall/info/archive.html" target="_blank">http://mit.recruit.co.jp/hadoop/conference2011fall/info/archive.html</a><br />
&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;<br />
<br />
<br />
<strong>『Apache HBase: an Introduction』<br />
Cloudera Inc, Todd Lipcon</strong><br />
<br />
□HBaseについて<br />
     ・オープンソース：Apache 2.0ライセンス<br />
     ・distributed：1−1000台のコモディティサーバーで稼働<br />
          ・ZooKeeperによるフェイルオーバー<br />
          ・サーバーの追加によるリニアなスケーリング<br />
     ・Map datastore<br />
          ・not relational<br />
          ・row key<br />
          ・like Map<byte[], byte[]><br />
          ・Rows are stored in sorted order<br />
<br />
<a href="http://www.lifexweb.com/tech/wp-content/uploads/IMG_1021.jpg"><img src="http://www.lifexweb.com/tech/wp-content/uploads/IMG_1021-300x225.jpg" alt="" title="IMG_1021" width="300" height="225" class="aligncenter size-medium wp-image-632" /></a><br />
<br />
□カラムファミリについて<br />
     ・HDFS上で別のファイルとして格納される<br />
          異なる特徴やアクセスパターンのデータに適用<br />
     ・設定<br />
          ・圧縮<br />
          ・バージョンをいくつ残すかの設定<br />
          ・キャッシュポリシー<br />
<br />
□アクセス方法<br />
     ・Java API<br />
     ・REST/HTTP<br />
     ・Apache Thrift<br />
     ・Hive / Pig (for analytics)<br />
<br />
<a href="http://www.lifexweb.com/tech/wp-content/uploads/IMG_1022.jpg"><img src="http://www.lifexweb.com/tech/wp-content/uploads/IMG_1022-300x225.jpg" alt="" title="IMG_1022" width="300" height="225" class="aligncenter size-medium wp-image-634" /></a><br />
<br />
□HBaseAPI<br />
     ・get(row)<br />
     ・put(row, Map<column, value>) <br />
     ・scan(key range, filter)<br />
     ・increment(row, columns)<br />
     <br />
     &#8230;etc&#8230;(checkAndPut, Delete&#8230;)<br />
     <br />
     ・MapReduce / Hive<br />
<br />
□用語<br />
     ・Region : subset of rows (like range partition)<br />
     ・RegionServer : Serves data<br />
     ・Master : coordinate slaves<br />
<br />
<a href="http://www.lifexweb.com/tech/wp-content/uploads/IMG_1023.jpg"><img src="http://www.lifexweb.com/tech/wp-content/uploads/IMG_1023-300x225.jpg" alt="" title="IMG_1023" width="300" height="225" class="aligncenter size-medium wp-image-635" /></a><br />
<br />
□HBase vs Others<br />
     ○HBase vs HDFS<br />
<br />
<a href="http://www.lifexweb.com/tech/wp-content/uploads/IMG_1024.jpg"><img src="http://www.lifexweb.com/tech/wp-content/uploads/IMG_1024-300x225.jpg" alt="" title="IMG_1024" width="300" height="225" class="aligncenter size-medium wp-image-636" /></a><br />
<br />
     ○HBase vs RDBMS<br />
<br />
<a href="http://www.lifexweb.com/tech/wp-content/uploads/IMG_1025.jpg"><img src="http://www.lifexweb.com/tech/wp-content/uploads/IMG_1025-300x225.jpg" alt="" title="IMG_1025" width="300" height="225" class="aligncenter size-medium wp-image-637" /></a><br />
<br />
     ○HBase vs Other NoSQL<br />
          ・Favor Consistency<br />
          ・Great Hadoop Integration<br />
          ・Ordered range partitions<br />
          ・Auto shards / scales<br />
 <br />
□ケーススタディ<br />
     ・Firefox Crash Reports<br />
     ・Facebook Analytics<br />
     ・OpenTSDB<br />
                                                                                                                                                                                                                                                                                                          </p>
]]></content:encoded>
			<wfw:commentRss>http://www.lifexweb.com/tech/2011/09/hcj11f-hbase-intro/feed/</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>[ #HCJ11F] レポート：The role of the Distribution in the Apache Hadoop Ecosystem</title>
		<link>http://www.lifexweb.com/tech/2011/09/hcj2011f-cloudera1/</link>
		<comments>http://www.lifexweb.com/tech/2011/09/hcj2011f-cloudera1/#comments</comments>
		<pubDate>Fri, 30 Sep 2011 02:02:34 +0000</pubDate>
		<dc:creator>Hideya Kato</dc:creator>
				<category><![CDATA[Hadoop]]></category>
		<category><![CDATA[イベント]]></category>

		<guid isPermaLink="false">http://www.lifexweb.com/tech/?p=616</guid>
		<description><![CDATA[Hadoop Conference 2011 Fall 日時：2011/09/26 場所：ベルサール汐留 イベントの詳細： http://hadoop-conference-japan-2011-fall.eventbrite.com/ 【重要】イベントのアーカイブ http://mit.recruit.co.jp/hadoop/conference2011fall/info/archive.html &#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212; 『The role of the Distribution in the Apache Hadoop Ecosystem』 Cloudera Inc, Todd Lipcon □Hadoopについて Hadoop　→　HDFS（Scalable FS）＋　MapReduce（Distributed Processing） ・巨大かつ複雑なタイプのデータに対しても柔軟に保存、マイニングできる ・経済的にスケール出来る □なぜHadoopなのか？ ・ここ10年でデータは巨大かつ様々なタイプに →さらに柔軟でスケーラブルな解決策が求められた →☆大きなデータを扱うことは困難をもたらしたが、同時にデータの活用という【新たな可能性】を生み出した □利用用途 1．高度な分析目的　（Webの例：ソーシャルネットワークの分析） 2．データ処理　（Webの例：クリックなどの集計処理） □Clouderaについて ・CDH →最も使われているdistribution →安定かつ信頼性は高い（サービス群の依存などもきちんとテストしてある） →オープンソース ・SCM Express（Service and Configuration Manager Express） http://www.cloudera.com/products-services/scm-express/ →CDHを簡単にインストール →WebUIでHadoopの設定を行える →（Expressでは）50ノードまで設定可能 →無料！！！ □導入の流れ [...]]]></description>
			<content:encoded><![CDATA[<p>
 Hadoop Conference 2011 Fall<br />
<br />
日時：2011/09/26<br />
場所：ベルサール汐留<br />
<br />
イベントの詳細：<br />
<a href="http://hadoop-conference-japan-2011-fall.eventbrite.com/" target="_blank">http://hadoop-conference-japan-2011-fall.eventbrite.com/</a><br />
【重要】イベントのアーカイブ<br />
<a href="http://mit.recruit.co.jp/hadoop/conference2011fall/info/archive.html" target="_blank">http://mit.recruit.co.jp/hadoop/conference2011fall/info/archive.html</a><br />
&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;<br />
<br />
<strong>『The role of the Distribution in the Apache Hadoop Ecosystem』<br />
Cloudera Inc, Todd Lipcon</strong><br />
<br />
□Hadoopについて<br />
     Hadoop　→　HDFS（Scalable FS）＋　MapReduce（Distributed Processing）<br />
<br />
     ・巨大かつ複雑なタイプのデータに対しても柔軟に保存、マイニングできる<br />
     ・経済的にスケール出来る<br />
<br />
□なぜHadoopなのか？<br />
     ・ここ10年でデータは巨大かつ様々なタイプに<br />
          →さらに柔軟でスケーラブルな解決策が求められた<br />
          →☆大きなデータを扱うことは困難をもたらしたが、同時にデータの活用という【新たな可能性】を生み出した<br />
<br />
□利用用途<br />
     1．高度な分析目的　（Webの例：ソーシャルネットワークの分析）<br />
     2．データ処理　（Webの例：クリックなどの集計処理）<br />
<br />
□Clouderaについて<br />
     ・CDH<br />
          →最も使われているdistribution<br />
          →安定かつ信頼性は高い（サービス群の依存などもきちんとテストしてある）<br />
          →オープンソース<br />
<br />
     ・SCM Express（Service and Configuration Manager Express）<br />
<br />
http://www.cloudera.com/products-services/scm-express/<br />
<br />
          →CDHを簡単にインストール<br />
          →WebUIでHadoopの設定を行える<br />
          →（Expressでは）50ノードまで設定可能<br />
          →無料！！！<br />
<br />
□導入の流れ<br />
     Hadoopの良さを理解してもらう<br />
     ↓<br />
     SCM Expressでインストール、利用する<br />
     ↓<br />
     規模に応じてCloudera Enterpriseへ<br />
<br />
□Cloudera Enterprise<br />
     ・Cloudera Management Suite<br />
          ・Activity Monitor<br />
          ・Service &#038; Configuration Monitor<br />
          ・Resource Manager<br />
          ・Authorization Manager<br />
     ・Cloudera Support<br />
          日本語でも！<br />
</p>
]]></content:encoded>
			<wfw:commentRss>http://www.lifexweb.com/tech/2011/09/hcj2011f-cloudera1/feed/</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
	</channel>
</rss>

