by shigemk2

当面は技術的なことしか書かない

ambdaで作るクローラー/スクレイピング #LambdaMeetup

http://www.nri-net.com/

サーバ不要でイベントドリブンなプログラム実行基盤

  • インフラのありかたを根底から変えるかもしれん
  • S3のオブジェクトに対してのイベントを検知

クローラー/スクレイピング

  • クローラー 巡回
  • スクレイピング データ抜き出し(正規表現 vs データ解析)

Lambdaクローラー

クローリング部分とスクレイピング部分

クローラー実装

  1. キック
  2. httpリクエストダウンロードをlambda
  3. html保存

スクレイピング実装

  1. S3 Event call
  2. S3 GetObject
  3. Scrape

実行元のサーバ

実行のたびに違うサーバが呼ばれるのか

考察

  • Lambdaは自動的にスケールアウト
  • スケールアウトの時間は数秒
  • タスクの分割と追跡性を工夫すればHadoopぽくできる

感想

  • Lambda導入
  • スケールジョブ制御システムが必要
  • その部分は現状自前
  • AWSによるサービス希望
  • もしかしたらサードパーティ製が必要になるかも

教訓

  • Lambdaは簡単に暗黒面に落ちる
  • 強力すぎる仕組みなので使い方
  • バグって無限循環したらどうやって止めるんだろう(Functionを消す)