<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>life x web Technology Design &#187; イベント</title>
	<atom:link href="http://www.lifexweb.com/tech/tag/%e3%82%a4%e3%83%99%e3%83%b3%e3%83%88/feed/" rel="self" type="application/rss+xml" />
	<link>http://www.lifexweb.com/tech</link>
	<description>コミュニケーションとテクノロジーを考えるブログ</description>
	<lastBuildDate>Fri, 18 Nov 2011 00:59:56 +0000</lastBuildDate>
	<language>ja</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.2.1</generator>
		<item>
		<title>[HCJ2011レポート] Hadoopと分析統計ソフトKNIMEを用いた効率的データ活用 #hcj2011</title>
		<link>http://www.lifexweb.com/tech/2011/02/hcj2011_6/</link>
		<comments>http://www.lifexweb.com/tech/2011/02/hcj2011_6/#comments</comments>
		<pubDate>Wed, 23 Feb 2011 06:57:13 +0000</pubDate>
		<dc:creator>Hideya Kato</dc:creator>
				<category><![CDATA[Hadoop]]></category>
		<category><![CDATA[イベント]]></category>

		<guid isPermaLink="false">http://www.lifexweb.com/tech/?p=565</guid>
		<description><![CDATA[Hadoop Conference Japan 2011 日本Hadoopユーザ会 日時：2011/02/22 11:15〜 場所：NTTデータ http://www.eventbrite.com/event/1278974447/efblike &#8212;&#8212;- Hadoopと分析統計ソフトKNIMEを用いた効率的データ活用 リクルート 中野 猛 Hadoop環境 余剰サーバで検証、最近 ・Hiveは利用開始 ・HBaseも利用準備中 半リアルタイムなデータ集計 カスタマの行動ログを格納 データ設計が肝 ・これまでの活動から 主に8つの取組みを行い中 メルマガ用リコメンド計算バッチ処理時間短縮 相場表型のクロス分析　など、、、 分類 1．既存の処理（バチ）を高速化する 2．今不可能とされていんた処理を実現する 3．新しい取り組み 分析屋さんとシステム屋さんの間のやりとりの効率化 ・ひとのはなし：視線を合わせる 分析屋さん＋システム屋さん（別G） 正義は微妙に異なる（目的は同じ・視座が異なる） SQL的orR的 ・もののはなし：道具を共通化する →商用ツールをみんなで導入するわけには、、、 →でもつかってみないとね、、、 →KNIME ・KNIMEとは 処理ロジックは以下のようなノード（150以上の種類あり）をつなぐことで組み立てる アニメーションでの状況確認 ノード間をデータが繊維 結果は随時ツール上で確認可能 主な利用者 製薬系の研究所→サービス企業へ アクティブユーザは全世界で6000人ぐらい 類似にはSpoon（Pentaho)・Orangeなど SpoonかKNIMEか？ 統計／マイニングの統合／充実度からKNIME ・KNIMEの検討 良いところ クラスタリング等マイニング系には妙に充実 処理をJavaでスクリプト的にも追加できる 悪いところ SQL的な考えだと面倒なところがある [...]]]></description>
			<content:encoded><![CDATA[<p>
Hadoop Conference Japan 2011<br />
日本Hadoopユーザ会<br />
<br />
日時：2011/02/22 11:15〜<br />
場所：NTTデータ<br />
<br />
<a href="http://www.eventbrite.com/event/1278974447/efblike" target="_blank">http://www.eventbrite.com/event/1278974447/efblike</a><br />
&#8212;&#8212;-<br />
<br />
Hadoopと分析統計ソフトKNIMEを用いた効率的データ活用<br />
<br />
リクルート<br />
中野 猛<br />
<span id="more-565"></span><br />
Hadoop環境<br />
余剰サーバで検証、最近<br />
<br />
・Hiveは利用開始<br />
・HBaseも利用準備中<br />
半リアルタイムなデータ集計<br />
カスタマの行動ログを格納<br />
データ設計が肝<br />
<br />
・これまでの活動から<br />
主に8つの取組みを行い中<br />
メルマガ用リコメンド計算バッチ処理時間短縮<br />
相場表型のクロス分析　など、、、<br />
<br />
分類<br />
1．既存の処理（バチ）を高速化する<br />
2．今不可能とされていんた処理を実現する<br />
3．新しい取り組み<br />
<br />
分析屋さんとシステム屋さんの間のやりとりの効率化<br />
・ひとのはなし：視線を合わせる<br />
分析屋さん＋システム屋さん（別G）<br />
正義は微妙に異なる（目的は同じ・視座が異なる）<br />
SQL的orR的<br />
<br />
・もののはなし：道具を共通化する<br />
→商用ツールをみんなで導入するわけには、、、<br />
→でもつかってみないとね、、、<br />
→KNIME<br />
<br />
・KNIMEとは<br />
処理ロジックは以下のようなノード（150以上の種類あり）をつなぐことで組み立てる<br />
アニメーションでの状況確認<br />
ノード間をデータが繊維<br />
結果は随時ツール上で確認可能<br />
<br />
主な利用者<br />
製薬系の研究所→サービス企業へ<br />
アクティブユーザは全世界で6000人ぐらい<br />
<br />
類似にはSpoon（Pentaho)・Orangeなど<br />
SpoonかKNIMEか？<br />
統計／マイニングの統合／充実度からKNIME<br />
<br />
・KNIMEの検討<br />
良いところ<br />
クラスタリング等マイニング系には妙に充実<br />
処理をJavaでスクリプト的にも追加できる<br />
<br />
悪いところ<br />
SQL的な考えだと面倒なところがある<br />
英語<br />
<br />
・HadoopとKNIME<br />
狙いたい分析設計<br />
分析の前処理自体はサーバ環境で<br />
一箇所に集まったデータを即座に利用<br />
非力なPCでやることもしばしば<br />
サーバ環境とのデータ転送は最小限に<br />
<br />
Hiveとの連携<br />
<br />
・その他<br />
大規模での試行錯誤に同対応するか？<br />
RESTを使ったシステム連携に使えるらしい<br />
AWS使えるらしい<br />
<br />
</p>
]]></content:encoded>
			<wfw:commentRss>http://www.lifexweb.com/tech/2011/02/hcj2011_6/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>[HCJ2011レポート] マルチユーザーでHadoop環境を利用するためのポイント #hcj2011</title>
		<link>http://www.lifexweb.com/tech/2011/02/hcj2011_5/</link>
		<comments>http://www.lifexweb.com/tech/2011/02/hcj2011_5/#comments</comments>
		<pubDate>Wed, 23 Feb 2011 06:44:44 +0000</pubDate>
		<dc:creator>Hideya Kato</dc:creator>
				<category><![CDATA[Hadoop]]></category>
		<category><![CDATA[イベント]]></category>

		<guid isPermaLink="false">http://www.lifexweb.com/tech/?p=561</guid>
		<description><![CDATA[Hadoop Conference Japan 2011 日本Hadoopユーザ会 日時：2011/02/22 11:15〜 場所：NTTデータ http://www.eventbrite.com/event/1278974447/efblike &#8212;&#8212;- マルチユーザーでHadoop環境を利用するためのポイント NTTデータ 山下真一 Hadoopに関するエピソード 1．ヒープメモリ枯渇 空ファイルや小さなファイルを置かない 見積もりは大切 モニタリングする仕組みは重要 2．ライブラリ起因による処理の不整合 とあるライブラリが起因して出力ファイルの一部が消失 →Hadoopno 投機的実行による同じ処理の多重実行が起因 重複実行→不整合な状況になって発生 3．Hadoopクラスタ利用活用の拡大 ・せっかくの計算資源だからもっといろいろな用途で利用したいね ・社内の複数の部門の人達でそれぞれのデータを利用して処理したいね &#8230; Hadoopクラスタを複数の目的やユーザで使う場合の注意点 ・複数の利用者や目的で動作させるHadoopクラスタ Hadoopクラスタにアクセスする環境を限定する HDFSの構造を意識させない Hadoopのコマンドを直接実行させない Hadoopクライアントを介さないとHadoopクラスタにアクセス出来ない &#8230; ・気をつけるべきポイント HDFS ・パーミッションのユーザ／グループを明確に定義する ・その他の利用者はアクセス不可（750，640） ・クオータ ファイル数やディレクトリ数を設定 格納できるサイズを設定 （最大レプリケーション数・最小ブロックサイズ） ・HDFSの内部通信に関するポリシー（クライアントで制限させる） ・認証・認可（Kerberos&#8230;）（HUEなどによりクラスタ前面で制限） MapReduce ・スケジューラによる複数ユーザのジョブの制御 CapacityTaskSceduler キュー単位のリソース配分　FIFOのため大規模ジョブに占有される可能性あり FireScheduler　プール単位のリソース配分　設定によっては公平に割り当て →デフォルトのスケジューラよりスループットが劣っている、、、？ ・MapReduceの内部通信に関するポリシー ・MapReduceに関するACL設定 →FairSchedulerには設定できない、、、。 ・もっと上手に象に乗るために、、、 ChildプロセスのJVMオプション制御 [...]]]></description>
			<content:encoded><![CDATA[<p>
Hadoop Conference Japan 2011<br />
日本Hadoopユーザ会<br />
<br />
日時：2011/02/22 11:15〜<br />
場所：NTTデータ<br />
<br />
<a href="http://www.eventbrite.com/event/1278974447/efblike" target="_blank">http://www.eventbrite.com/event/1278974447/efblike</a><br />
&#8212;&#8212;-<br />
<br />
<br />
マルチユーザーでHadoop環境を利用するためのポイント<br />
<br />
NTTデータ<br />
山下真一<br />
<br />
<span id="more-561"></span><br />
Hadoopに関するエピソード<br />
1．ヒープメモリ枯渇<br />
     空ファイルや小さなファイルを置かない<br />
     見積もりは大切<br />
     モニタリングする仕組みは重要<br />
<br />
2．ライブラリ起因による処理の不整合<br />
     とあるライブラリが起因して出力ファイルの一部が消失<br />
     →Hadoopno 投機的実行による同じ処理の多重実行が起因<br />
     重複実行→不整合な状況になって発生<br />
<br />
3．Hadoopクラスタ利用活用の拡大<br />
     ・せっかくの計算資源だからもっといろいろな用途で利用したいね<br />
     ・社内の複数の部門の人達でそれぞれのデータを利用して処理したいね<br />
     &#8230;<br />
     Hadoopクラスタを複数の目的やユーザで使う場合の注意点<br />
<br />
・複数の利用者や目的で動作させるHadoopクラスタ<br />
     Hadoopクラスタにアクセスする環境を限定する<br />
     HDFSの構造を意識させない<br />
     Hadoopのコマンドを直接実行させない<br />
     Hadoopクライアントを介さないとHadoopクラスタにアクセス出来ない<br />
     &#8230;<br />
<br />
・気をつけるべきポイント<br />
     HDFS<br />
          ・パーミッションのユーザ／グループを明確に定義する<br />
          ・その他の利用者はアクセス不可（750，640）<br />
          ・クオータ<br />
                    ファイル数やディレクトリ数を設定<br />
                    格納できるサイズを設定<br />
          （最大レプリケーション数・最小ブロックサイズ）<br />
          ・HDFSの内部通信に関するポリシー（クライアントで制限させる）<br />
          ・認証・認可（Kerberos&#8230;）（HUEなどによりクラスタ前面で制限）<br />
<br />
     MapReduce<br />
          ・スケジューラによる複数ユーザのジョブの制御<br />
               CapacityTaskSceduler キュー単位のリソース配分　FIFOのため大規模ジョブに占有される可能性あり<br />
               FireScheduler　プール単位のリソース配分　設定によっては公平に割り当て<br />
          →デフォルトのスケジューラよりスループットが劣っている、、、？<br />
          ・MapReduceの内部通信に関するポリシー<br />
          ・MapReduceに関するACL設定<br />
                    →FairSchedulerには設定できない、、、。<br />
<br />
・もっと上手に象に乗るために、、、<br />
     ChildプロセスのJVMオプション制御<br />
          想定しないオプションで起動させない<br />
          統一した設定値の提供     <br />
     スケジューラ改良<br />
          ジョブ有せどの柔軟な制御（ユーザレベルの設定を制限）     <br />
     専有資源と共有資源の制御<br />
          HDFSないでの共有領域<br />
          誰でも利用出来るタスク処理スロットの確保<br />
     物理ディスク対策<br />
          データの暗号化     <br />
     ユーザとグループ<br />
          roleのようなもの？　or LDAPのようなもの？<br />
<br />
     →利用するひとのルールを決めるのも大事！<br />
<br />
・まとめ<br />
     出来ること<br />
          ユーザ、グループの管理、<br />
          パーミッション<br />
          クオータ<br />
          クライアントークラスタ間の内部通信制御<br />
          ジョブスケジューリング<br />
          ジョブ単位のアクセスコントロール<br />
          クライアントークラスタ間の内部通信<br />
          認証／認可<br />
<br />
     今後に期待<br />
          スケジューラの改良<br />
          パーミッションの細かな制御<br />
          リミッタの追加／改良（HDFS/MapReduceともに）<br />
          専有資源と共有資源の考え方</p>
]]></content:encoded>
			<wfw:commentRss>http://www.lifexweb.com/tech/2011/02/hcj2011_5/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>[HCJ2011レポート] モバゲーの大規模データマイニング基盤におけるHadoop活用 #hcj2011</title>
		<link>http://www.lifexweb.com/tech/2011/02/hcj2011_3/</link>
		<comments>http://www.lifexweb.com/tech/2011/02/hcj2011_3/#comments</comments>
		<pubDate>Wed, 23 Feb 2011 05:57:02 +0000</pubDate>
		<dc:creator>Hideya Kato</dc:creator>
				<category><![CDATA[Hadoop]]></category>
		<category><![CDATA[イベント]]></category>

		<guid isPermaLink="false">http://www.lifexweb.com/tech/?p=547</guid>
		<description><![CDATA[Hadoop Conference Japan 2011 日本Hadoopユーザ会 日時：2011/02/22 11:15〜 場所：NTTデータ http://www.eventbrite.com/event/1278974447/efblike &#8212;&#8212;- モバゲーの大規模データマイニング基盤におけるHadoop活用 株式会社ディー・エヌ・エー 濱田晃一 ソーシャルメディアのデータマイニング活用 モバゲー 有効会員数2300万人以上 1日20億以上の行動 facebook：リアルな人間関係の枠内でゲームを楽しむ傾向 モバゲー：ゲームの中で新しい友だちを拡大していく傾向 Data Mining Infrastructure Hadoop：全行動ログを同じ形式でHadoopで突っ込んでいる ・Hadoopチューニング ・Pigチューニング 独自UDFの実装による1次実装の簡易化 汎用：日次処理、文字列処理 ソーシャル用：独自Map ・1日20億超の行動情報 統計的優位 多くのひとへの還元 ・感情がわかる詳細行動情報 楽しさのマイニング ・データマイニング・機械学習活用 楽しさの行動パターン 夢中になるキッカケ 夢中になる体験をしてもらう 楽しんでサービス継続している行動特徴 楽しさのパターンを高頻度発生。よりたのしいサービス体験 楽しさのパターンをサービス初期で体験。楽しさを理解。 やめてしまう状況パターン 飽き始めるキッカケ・不快な状況 やめるキッカケを発生させないようにする 飽き始めたユーザーの予測・判別 新鮮／斬新な体験を提供する 他の楽しみ方の提供 興味のあるゲーム・ユーザーと出会えるプラットフォームへ ゲームレコメンデーション ユーザーレコメンデーション ソーシャルグラフ解析、機械学習、最適化を組み合わせた推薦 健全なプラットフォームへ 不正書き込み判別 年齢詐称の判別 ユーザーの声による ソーシャルコミュニケーションのテキストマイニング [...]]]></description>
			<content:encoded><![CDATA[<p>
Hadoop Conference Japan 2011<br />
日本Hadoopユーザ会<br />
<br />
日時：2011/02/22 11:15〜<br />
場所：NTTデータ<br />
<br />
<a href="http://www.eventbrite.com/event/1278974447/efblike" target="_blank">http://www.eventbrite.com/event/1278974447/efblike</a><br />
&#8212;&#8212;-<br />
<br />
<br />
モバゲーの大規模データマイニング基盤におけるHadoop活用<br />
<br />
株式会社ディー・エヌ・エー<br />
濱田晃一<br />
<br />
ソーシャルメディアのデータマイニング活用<br />
<br />
<span id="more-547"></span><br />
モバゲー<br />
有効会員数2300万人以上<br />
1日20億以上の行動<br />
<br />
facebook：リアルな人間関係の枠内でゲームを楽しむ傾向<br />
モバゲー：ゲームの中で新しい友だちを拡大していく傾向<br />
<br />
<br />
Data Mining Infrastructure<br />
     Hadoop：全行動ログを同じ形式でHadoopで突っ込んでいる<br />
<br />
・Hadoopチューニング<br />
・Pigチューニング<br />
     独自UDFの実装による1次実装の簡易化<br />
          汎用：日次処理、文字列処理<br />
          ソーシャル用：独自Map<br />
<br />
<br />
・1日20億超の行動情報<br />
     統計的優位<br />
     多くのひとへの還元<br />
<br />
・感情がわかる詳細行動情報<br />
     楽しさのマイニング<br />
<br />
・データマイニング・機械学習活用<br />
     楽しさの行動パターン<br />
          夢中になるキッカケ<br />
               夢中になる体験をしてもらう<br />
          楽しんでサービス継続している行動特徴<br />
               楽しさのパターンを高頻度発生。よりたのしいサービス体験<br />
               楽しさのパターンをサービス初期で体験。楽しさを理解。<br />
<br />
     やめてしまう状況パターン<br />
          飽き始めるキッカケ・不快な状況<br />
               やめるキッカケを発生させないようにする<br />
          飽き始めたユーザーの予測・判別<br />
               新鮮／斬新な体験を提供する<br />
               他の楽しみ方の提供<br />
<br />
     興味のあるゲーム・ユーザーと出会えるプラットフォームへ<br />
          ゲームレコメンデーション<br />
          ユーザーレコメンデーション<br />
          ソーシャルグラフ解析、機械学習、最適化を組み合わせた推薦<br />
     <br />
     健全なプラットフォームへ<br />
          不正書き込み判別<br />
          年齢詐称の判別<br />
<br />
     ユーザーの声による<br />
          ソーシャルコミュニケーションのテキストマイニング<br />
<br />
・迅速なサービス洗練<br />
     解析結果を反映した数時間〜数日スパンで迅速なサービス洗練<br />
<br />
・統一行動記述<br />
     Logの形式を統一してHadoop等による解析がしやすいように。<br />
<br />
     大規模サービスでよく生じる課題<br />
          ・サービスごとにログフォーマットが異なる<br />
          ・ログの場所がバラバラ・分散されている<br />
     →データマイニング・機械学習よりもログ収集・基礎集計作業がメイン<br />
     データマイニング・機械学習活用までできない<br />
<br />
     統一行動記述での解決<br />
          ・統一スキーマ<br />
          ・Hadoopにすべてのログがある<br />
     →大規模データ処理技術<br />
     →データマイニング・機械学習それぞれの技術が活用できる<br />
</p>
]]></content:encoded>
			<wfw:commentRss>http://www.lifexweb.com/tech/2011/02/hcj2011_3/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>[HCJ2011レポート] MapReduceによる大規模データを利用した機械学習 #hcj2011</title>
		<link>http://www.lifexweb.com/tech/2011/02/hcj2011_2/</link>
		<comments>http://www.lifexweb.com/tech/2011/02/hcj2011_2/#comments</comments>
		<pubDate>Wed, 23 Feb 2011 05:52:30 +0000</pubDate>
		<dc:creator>Hideya Kato</dc:creator>
				<category><![CDATA[Hadoop]]></category>
		<category><![CDATA[イベント]]></category>

		<guid isPermaLink="false">http://www.lifexweb.com/tech/?p=542</guid>
		<description><![CDATA[Hadoop Conference Japan 2011 日本Hadoopユーザ会 日時：2011/02/22 11:15〜 場所：NTTデータ http://www.eventbrite.com/event/1278974447/efblike &#8212;&#8212;- MapReduceによる大規模データを利用した機械学習 株式会社Preferred Infrastructure フェロー、研究開発チームリーダー 岡野原　大輔 ・専門分野 自然言語処理 ■MapReduceと機械学習 データから有用な規則、ルール、知識表現、判断基準などを抽出する ・様々な分野の問題に利用可能 レコメンデーション、クラスタリング、分類、市場予測、評判分析、情報抽出、文字分析 ・普及の要因 タスクと手法の分離 各タスク固有の問題を、抽象化し、学習手法とタスクを分離することができた ・解析対象データの急激な増加 解析アルゴリズムが追いつかないくらい急激にデータが増加している →機械学習処理の分散並列化は必須 ・MapReduce上で機械学習を行う 分散並列システムを1からつくり直すよりははるかに生産的 データ毎に求まる関数値の和を求める問題に帰着 ・Apache Mahout Hadoop上でうごく機械学習ライブラリ スケーラブルであることを最優先 Apacheプロジェクトにおいて開発、盛んに新しい手法が取り込まれている サポートする手法 クラスタリング パターンマイニング 文字列データ処理 分類　ロジスティック回帰、単純ベイズ法、ランダムフォレスト、、、 行列演算　特異値分解、主成分分析、独立成分分析、、、 実行感想 数台から100台強での実験結果：パフォーマンスに大きな問題なし EC2で実行 各挙動についてドキュメントは不足している ■大規模分散処理の最前線 Y!、Google、MSなどのを中心に大規模分散処理による機械学習がすすむ グラフィカルモデルと分散最適化 グラフィカルモデル 確率変数を頂点、変数間の依存関係を枝としたグラフ構造 ベイジアンネットワーク、MRF、CRF、HMM MAP推定（確率が最大になる変数割り当て） 言語処理、情報抽出、音声認識、画像解析、遺伝子解析、構造予測で利用 グラフィカルモデルの推論は一般に困難 様々な並列化アルゴリズムが提案されつつある [...]]]></description>
			<content:encoded><![CDATA[<p>
Hadoop Conference Japan 2011<br />
日本Hadoopユーザ会<br />
<br />
日時：2011/02/22 11:15〜<br />
場所：NTTデータ<br />
<br />
<a href="http://www.eventbrite.com/event/1278974447/efblike" target="_blank">http://www.eventbrite.com/event/1278974447/efblike</a><br />
&#8212;&#8212;-<br />
<br />
<br />
MapReduceによる大規模データを利用した機械学習<br />
<br />
株式会社Preferred Infrastructure<br />
フェロー、研究開発チームリーダー<br />
岡野原　大輔<br />
<br />
<span id="more-542"></span><br />
・専門分野<br />
自然言語処理<br />
<br />
■MapReduceと機械学習<br />
データから有用な規則、ルール、知識表現、判断基準などを抽出する<br />
<br />
・様々な分野の問題に利用可能<br />
レコメンデーション、クラスタリング、分類、市場予測、評判分析、情報抽出、文字分析<br />
<br />
・普及の要因<br />
タスクと手法の分離<br />
     各タスク固有の問題を、抽象化し、学習手法とタスクを分離することができた<br />
<br />
・解析対象データの急激な増加<br />
解析アルゴリズムが追いつかないくらい急激にデータが増加している<br />
     →機械学習処理の分散並列化は必須<br />
<br />
・MapReduce上で機械学習を行う<br />
     分散並列システムを1からつくり直すよりははるかに生産的<br />
<br />
     データ毎に求まる関数値の和を求める問題に帰着<br />
<br />
・Apache Mahout<br />
     Hadoop上でうごく機械学習ライブラリ<br />
     スケーラブルであることを最優先<br />
     Apacheプロジェクトにおいて開発、盛んに新しい手法が取り込まれている<br />
<br />
     サポートする手法<br />
          クラスタリング<br />
          パターンマイニング<br />
          文字列データ処理<br />
          分類　ロジスティック回帰、単純ベイズ法、ランダムフォレスト、、、<br />
          行列演算　特異値分解、主成分分析、独立成分分析、、、<br />
<br />
     実行感想<br />
          数台から100台強での実験結果：パフォーマンスに大きな問題なし<br />
          EC2で実行<br />
          各挙動についてドキュメントは不足している<br />
<br />
<br />
■大規模分散処理の最前線<br />
Y!、Google、MSなどのを中心に大規模分散処理による機械学習がすすむ<br />
<br />
グラフィカルモデルと分散最適化<br />
<br />
     グラフィカルモデル<br />
          確率変数を頂点、変数間の依存関係を枝としたグラフ構造<br />
               ベイジアンネットワーク、MRF、CRF、HMM<br />
               MAP推定（確率が最大になる変数割り当て）<br />
          言語処理、情報抽出、音声認識、画像解析、遺伝子解析、構造予測で利用<br />
<br />
          グラフィカルモデルの推論は一般に困難<br />
          様々な並列化アルゴリズムが提案されつつある<br />
            <br />
     数値最適化<br />
          多くの機械学習は数値最適化問題に帰着<br />
          MapReduceを使えば簡単？<br />
               データを分割して求め、それらの結果の平均取るか<br />
               購買情報だけを分割して求まるか<br />
          どれも同じように見えるが実は精度に大きな違いがあり、<br />
          Interative Parameter Mixtureが一番良い<br />
     <br />
     <br />
■今後注目の技術<br />
     Dremel<br />
     対話的な大規模データ解析基盤<br />
          1兆のデータに対するアドホッククエリのけっかが数秒で得られる<br />
               MRと比べて低レイテンシ、簡単なて凹形処理のみ<br />
          クエリ言語はSQL<br />
               top-k, joinなど従来の操作を容易に利用出来る<br />
<br />
     列指向のデータ格納<br />
          列指向DBの考えを木構造に応用<br />
     圧縮レコードの復元<br />
          クエリに関係するフィールドだけを復元する<br />
     クエリー処理アーキテクチャ<br />
<br />
     実験<br />
          各単語の出現回数を数える<br />
               850億レコード、87TB、270フィールド、3000ノード<br />
               MR行指向　約3000秒<br />
               MR列指向　約1000秒<br />
               Dremel　約10秒</p>
]]></content:encoded>
			<wfw:commentRss>http://www.lifexweb.com/tech/2011/02/hcj2011_2/feed/</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>[HCJ2011レポート] Hadoop on クラウド / Amazon Elastic MapReduceの真価 #hcj2011</title>
		<link>http://www.lifexweb.com/tech/2011/02/hcj2011_1/</link>
		<comments>http://www.lifexweb.com/tech/2011/02/hcj2011_1/#comments</comments>
		<pubDate>Wed, 23 Feb 2011 05:37:06 +0000</pubDate>
		<dc:creator>Hideya Kato</dc:creator>
				<category><![CDATA[Hadoop]]></category>
		<category><![CDATA[イベント]]></category>

		<guid isPermaLink="false">http://www.lifexweb.com/tech/?p=534</guid>
		<description><![CDATA[Hadoop Conference Japan 2011 日本Hadoopユーザ会 日時：2011/02/22 11:15〜 場所：NTTデータ http://www.eventbrite.com/event/1278974447/efblike &#8212;&#8212;- ■Hadoop on クラウド / Amazon Elastic MapReduceの真価 （Amazon Web Service, Jeff Barr） Webサービスのエバンジェリスト 著作：「Host Your Web Site in the Cloud」（日本語版も発売中） ・BigDataとは？ 単に大きなデータという意味ではない。 データのボリューム、データの構成、利用方法の「組み合わせ」を迅速に BigDataはデータの本質を見極めた上で ・Elastic MapReduceについて EC2などの上に乗っている仕組み。安全かつコスト効率の高い仕組みでデータを処理できる。 ・用意されているツール AWS Management Console Command Line interface REST API ・処理のフロー 1：S3にアップロード 2：EMRでJobFlowを作成 3：実行し、結果を取得 ・なぜAmazonElasticMapReduceなのか？ MUCK（ぬかるんだ感じ） ・クラスターの管理 ・Hadoopのチューニング ・JobFlow処理のモニタリング [...]]]></description>
			<content:encoded><![CDATA[<p>
Hadoop Conference Japan 2011<br />
日本Hadoopユーザ会<br />
<br />
日時：2011/02/22 11:15〜<br />
場所：NTTデータ<br />
<br />
<a href="http://www.eventbrite.com/event/1278974447/efblike" target="_blank">http://www.eventbrite.com/event/1278974447/efblike</a><br />
&#8212;&#8212;-<br />
<br />
■Hadoop on クラウド / Amazon Elastic MapReduceの真価<br />
（Amazon Web Service, Jeff Barr）<br />
<br />
<span id="more-534"></span><br />
Webサービスのエバンジェリスト<br />
著作：「Host Your Web Site in the Cloud」（日本語版も発売中）<br />
<br />
・BigDataとは？<br />
単に大きなデータという意味ではない。<br />
データのボリューム、データの構成、利用方法の「組み合わせ」を迅速に<br />
BigDataはデータの本質を見極めた上で<br />
<br />
・Elastic MapReduceについて<br />
EC2などの上に乗っている仕組み。安全かつコスト効率の高い仕組みでデータを処理できる。<br />
<br />
     ・用意されているツール<br />
     AWS Management Console<br />
     Command Line interface<br />
     REST API<br />
<br />
     ・処理のフロー<br />
     1：S3にアップロード<br />
     2：EMRでJobFlowを作成<br />
     3：実行し、結果を取得<br />
<br />
・なぜAmazonElasticMapReduceなのか？<br />
     MUCK（ぬかるんだ感じ）<br />
     ・クラスターの管理<br />
     ・Hadoopのチューニング<br />
     ・JobFlow処理のモニタリング<br />
     などなど大変な部分を解決<br />
<br />
・クライアントの課題解決のための手段<br />
     ターゲティング広告・クリック分析など<br />
     データウェアハウス<br />
     遺伝子工学<br />
     金融市場予測<br />
     ファイルデータの一括大量処理<br />
     webのインデックス<br />
     データマイニングとBI<br />
     などで利用されている<br />
<br />
・利用方法によるハードウェアの選択<br />
     データまたはI/O中心の利用(m1/m2 instances)<br />
     &#8211; データウェアハウス<br />
     &#8211; データマイニング<br />
         クリックデータ、ログ、イベント<br />
<br />
     ☆BestBuyの例<br />
     Razorfishの広告ターゲティング<br />
     3.5billion records 71 million unique cookies, 1.7 mil targeted ads required per day<br />
<br />
     AWS and elastic MapReduce<br />
     &#8211; 1000ノードクラスターをオンデマンドで利用出来る<br />
     &#8211; 処理時間が2日間以上かかっていたものが8時間に<br />
     &#8211; ROASは500%に<br />
<br />
・MapReduceモデルについて<br />
・Elastic MapReduceの使い方<br />
<br />
現在独自にhbaseを利用しているが将来的にはAWSでhBaseをサポートするらしい</p>
]]></content:encoded>
			<wfw:commentRss>http://www.lifexweb.com/tech/2011/02/hcj2011_1/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>[event] DeskTopLive.xnaにいってきました！</title>
		<link>http://www.lifexweb.com/tech/2009/09/eventdesktoplivexna%e3%81%ab%e3%81%84%e3%81%a3%e3%81%a6%e3%81%8d%e3%81%be%e3%81%97%e3%81%9f%ef%bc%81/</link>
		<comments>http://www.lifexweb.com/tech/2009/09/eventdesktoplivexna%e3%81%ab%e3%81%84%e3%81%a3%e3%81%a6%e3%81%8d%e3%81%be%e3%81%97%e3%81%9f%ef%bc%81/#comments</comments>
		<pubDate>Sun, 13 Sep 2009 11:35:10 +0000</pubDate>
		<dc:creator>Hideya Kato</dc:creator>
				<category><![CDATA[xna]]></category>
		<category><![CDATA[イベント]]></category>
		<category><![CDATA[テクノロジ]]></category>
		<category><![CDATA[デザイン]]></category>
		<category><![CDATA[プログラミング]]></category>
		<category><![CDATA[DeskTopLive]]></category>
		<category><![CDATA[エンジニア]]></category>
		<category><![CDATA[ゲーム]]></category>
		<category><![CDATA[開発]]></category>

		<guid isPermaLink="false">http://www.lifexweb.com/tech/?p=309</guid>
		<description><![CDATA[昨日はちょっと技術よりのイベント「DeskTopLive.xna」に行ってきました。 会場であるsuperdeluxeのサイトを引用すると 「プログラミング環境 (言語)・デザイン環境をテーマにしつつも、プロ向けではなく、デザイン・プログラミングに興味のある方なら誰でも楽しめ「自分もやってみたい」と思っていただけるようなエンターテインメント性の高い場を提供することを目的としています。 難しいことはヌキにして&#8221;神&#8221;の生プログラミングにドキドキしながら、楽しくお酒でも飲みませんか。という会です。 」 ということで普段のセミナーとかと違って、ライブスペースを貸し切ってプログラマーなどが集まり、プログラムに関連したコンテンツをお酒を楽しみながら、という一風変わったイベント。 コンテンツとしてはそんなに数は多くなくて、いくつかのプレゼンと、ライブプログラミング。 この「ライブプログラミング」というのがすごい。その道の「神」というひとが制限時間内（昨日は２時間半）でお題にそったプログラムをその場でつくっていき、その様子がひたすらプロジェクターで映されるというもの。（解説もあります。） ↑工芸大学の学生チーム ↑「神」ABAさん 今回はxnaというXboxのゲーム開発の統合環境についてで、マイクロソフトさんが協賛だったのでなんとXboxエリートが４台プレゼント！ということでお題は「当選者４人を当てるゲームをつくる」でした。 人がプログラミングをし続けているのを見るというのはあまり機会が無いのですごく刺激的。開発する時の裏話なんかもきけちゃってすごくおもしろかったです。 プログラミングってクリエイティブだと思っているので、たまにはこうやって勉強勉強していない「空気感で伝えるプログラミング」のイベントって必要だと思うんですよね。 僕もいつかは開発系のイベントとかしてみたいなーと思います。 おすすめの詳細レポート！ ■「プログラミング」で「ライブ」するイベント、「DeskTopLive.xna」に行ってきたよ！（小太郎ぶろぐ） □Ustreamによる録画 desktoplive.xna #1 desktoplive.xna #2 desktoplive.xna #3 desktoplive.xna #4 desktoplive.xna #5 desktoplive.xna #6 desktoplive.xna #7 desktoplive.xna #8 desktoplive.xna #9]]></description>
			<content:encoded><![CDATA[<p>
<img class="alignnone size-medium wp-image-311" title="090912_1912541" src="http://www.lifexweb.com/tech/wp-content/uploads/090912_1912541-265x300.jpg" alt="090912_1912541" width="265" height="300" />
<br />
昨日はちょっと技術よりのイベント「DeskTopLive.xna」に行ってきました。<br />
会場であるsuperdeluxeのサイトを引用すると<br />
</p>
<blockquote><p>「プログラミング環境 (言語)・デザイン環境をテーマにしつつも、プロ向けではなく、デザイン・プログラミングに興味のある方なら誰でも楽しめ「自分もやってみたい」と思っていただけるようなエンターテインメント性の高い場を提供することを目的としています。<br />
難しいことはヌキにして&#8221;神&#8221;の生プログラミングにドキドキしながら、楽しくお酒でも飲みませんか。という会です。 」</p></blockquote>
<p>
ということで普段のセミナーとかと違って、ライブスペースを貸し切ってプログラマーなどが集まり、プログラムに関連したコンテンツをお酒を楽しみながら、という一風変わったイベント。<br />
<br />
コンテンツとしてはそんなに数は多くなくて、いくつかのプレゼンと、ライブプログラミング。<br />
<br />
<img class="alignnone size-medium wp-image-312" title="090912_212853" src="http://www.lifexweb.com/tech/wp-content/uploads/090912_212853-300x225.jpg" alt="090912_212853" width="300" height="225" />
<br />
この「ライブプログラミング」というのがすごい。その道の「神」というひとが制限時間内（昨日は２時間半）でお題にそったプログラムをその場でつくっていき、その様子がひたすらプロジェクターで映されるというもの。（解説もあります。）<br />
<br />
<img class="alignnone size-medium wp-image-313" title="090912_212813" src="http://www.lifexweb.com/tech/wp-content/uploads/090912_212813-300x225.jpg" alt="090912_212813" width="300" height="225" />
<br />
↑工芸大学の学生チーム<br />
<br />
<img class="alignnone size-medium wp-image-314" title="090912_202308" src="http://www.lifexweb.com/tech/wp-content/uploads/090912_202308-300x225.jpg" alt="090912_202308" width="300" height="225" />
<br />
↑「神」ABAさん<br />
<br />
今回はxnaというXboxのゲーム開発の統合環境についてで、マイクロソフトさんが協賛だったのでなんとXboxエリートが４台プレゼント！ということでお題は「当選者４人を当てるゲームをつくる」でした。<br />
<br />
人がプログラミングをし続けているのを見るというのはあまり機会が無いのですごく刺激的。開発する時の裏話なんかもきけちゃってすごくおもしろかったです。<br />
<br />
プログラミングってクリエイティブだと思っているので、たまにはこうやって勉強勉強していない「空気感で伝えるプログラミング」のイベントって必要だと思うんですよね。<br />
僕もいつかは開発系のイベントとかしてみたいなーと思います。<br />
<br />
おすすめの詳細レポート！<br />
<a href="http://www.kotaro269.com/archives/50909193.html" target="_blank">■「プログラミング」で「ライブ」するイベント、「DeskTopLive.xna」に行ってきたよ！（小太郎ぶろぐ）</a><br />
<br />
□Ustreamによる録画<br />
<a href="http://www.ustream.tv/recorded/2148064" target="_blank">desktoplive.xna #1</a><br />
<br />
<a href="http://www.ustream.tv/recorded/2148105" target="_blank">desktoplive.xna #2</a><br />
<br />
<a href="http://www.ustream.tv/recorded/2148156" target="_blank">desktoplive.xna #3</a><br />
<br />
<a href="http://www.ustream.tv/recorded/2148240" target="_blank">desktoplive.xna #4</a><br />
<br />
<a href="http://www.ustream.tv/recorded/2148303" target="_blank">desktoplive.xna #5</a><br />
<br />
<a href="http://www.ustream.tv/recorded/2148384" target="_blank">desktoplive.xna #6</a><br />
<br />
<a href="http://www.ustream.tv/recorded/2148426" target="_blank">desktoplive.xna #7</a><br />
<br />
<a href="http://www.ustream.tv/recorded/2148502" target="_blank">desktoplive.xna #8</a><br />
<br />
<a href="http://www.ustream.tv/recorded/2148682" target="_blank">desktoplive.xna #9</a></p>
]]></content:encoded>
			<wfw:commentRss>http://www.lifexweb.com/tech/2009/09/eventdesktoplivexna%e3%81%ab%e3%81%84%e3%81%a3%e3%81%a6%e3%81%8d%e3%81%be%e3%81%97%e3%81%9f%ef%bc%81/feed/</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
	</channel>
</rss>

