サーバ不要でイベントドリブンなプログラム実行基盤
- インフラのありかたを根底から変えるかもしれん
- S3のオブジェクトに対してのイベントを検知
クローラー/スクレイピング
- クローラー 巡回
- スクレイピング データ抜き出し(正規表現 vs データ解析)
Lambdaクローラー
クローリング部分とスクレイピング部分
クローラー実装
- キック
- httpリクエストダウンロードをlambda
- html保存
スクレイピング実装
- S3 Event call
- S3 GetObject
- Scrape
実行元のサーバ
実行のたびに違うサーバが呼ばれるのか
考察
- Lambdaは自動的にスケールアウト
- スケールアウトの時間は数秒
- タスクの分割と追跡性を工夫すればHadoopぽくできる
感想
- Lambda導入
- スケールジョブ制御システムが必要
- その部分は現状自前
- AWSによるサービス希望
- もしかしたらサードパーティ製が必要になるかも
教訓
- Lambdaは簡単に暗黒面に落ちる
- 強力すぎる仕組みなので使い方
- バグって無限循環したらどうやって止めるんだろう(Functionを消す)