life x web Technology Design

コミュニケーションとテクノロジーを考えるブログ

[ #HCJ11F] レポート:MapReduceによる大規模データ処理 at Yahoo! JAPAN

TAGS: None

Hadoop Conference 2011 Fall

日時:2011/09/26
場所:ベルサール汐留

イベントの詳細:
http://hadoop-conference-japan-2011-fall.eventbrite.com/
【重要】イベントのアーカイブ
http://mit.recruit.co.jp/hadoop/conference2011fall/info/archive.html
———————

『MapReduceによる大規模データ処理 at Yahoo! JAPAN』
ヤフー, 角田 直行 吉田 一星


■Yahoo! JAPANでの事例

・Yahoo!検索 リアルタイム検索
Twitter社が提供したリアルタイムのツイートデータをABYSS側に送ってインデクシング

・Yahoo!オークション
レコメンデーションプラットフォームからHadoopで解析したデータを送信


■MapReduceによるアルゴリズムデザイン

○空間解析
リバースジオコーダー:位置取得
☆GeoHash

○検索インデックス生成
検索インデックス=本の索引

サイト(URL)ごとにキーワードを出す

キーワードごとにサイト(URL)を出せるように【転置】を行う

Mapper
URLとページの内容を入力として単語を抽出

Reducer
集計

・課題
インデクスには複数のフィールドがある
フィールドごとに単語を分割する方法が違う
URL→完全一致
タイトル→2Gram
内容→形態素解析

ユニークな文書番号を付与し、文書番号でソートする
文書内での単語のポジションや頻度を考慮する
TFIDFの計算のために単語ごとの文書数と文書ごとの単語数を計算する


○機械学習
データの中で見えているものを手がかりに見えないモノを予測する

ページの内容がアダルトかどうか判定する
自分のプロフィールと条件にあったお見合い相手を探す
検索結果を様々な指標にあわせてランキング

・機械学習によるランキング
検索結果を機械学習でランキングする

・仕組み
Webページの様々な仕様を考える
それぞれの素性に対して予め学習済みの重みが与えられているとする
かけ合わせたものをスコアとして検索結果をランキングする
重みと素性の値を単純にかけ合わせてスコアを推定する形を線形回帰

・重みの学習
重みをどう学習するかがポイント
予め素性とスコアのペアを用意しておく
正解データをもとに重みを算出する

・重みの学習
・オンライン学習
正解データを一見ずつ見て行って重みを更新する
実装が容易
ノイズが含まれていたり素性が多い場合に有効

・バッチ学習
すべての正解データを見て重みを更新する
実装が難解
情報量が多いので精度が高くなるケースが多い


・Iterative Parameter Mixing
→MapReduceでは効率は良くないが、現状だとこれしかない

・Gradient Boosted Decision Tree

TAGS: None

One Response to “[ #HCJ11F] レポート:MapReduceによる大規模データ処理 at Yahoo! JAPAN”


  1. [ #HCJ11F] [Hadoop] Hadoop Conference 2011 Fallに参加してきました « life x web Technology Design
    on 9月 30th, 2011
    @ 12:08 PM

    [...] [ #HCJ11F] レポート:Hadoop 0.23 and MapReduce v2 [ #HCJ11F] レポート:MapReduceによる大規模データ処理 at Yahoo! JAPAN [ #HCJ11F] レポート:(Lunch LT) Hadoopログを全員で使う方法と課題 [ #HCJ11F] [...]

Leave a Reply

© 2009 life x web Technology Design. All Rights Reserved.

This blog is powered by the Wordpress platform and beach rentals.