by shigemk2

当面は技術的なことしか書かない

memo Cloud TPU #gcpug

memo Cloud TPU #gcpug

  • TPUとは は省略
  • TPU のアップデート

GPU

  • ディープラーニング GPU
    • 金かかる
    • CPUの性能→ムーアの法則の限界
    • 鈍化してる

domain specific hardware

  • ソフトウェアだけじゃなくてハードウェアの最適化も必要
  • gpu fgpa tpa
    • いろいろ頑張ってる

BQ

  • BQのハードウェアアクセラレーション
  • ハードウェアが刺さている

TPU

  • いろんなチップが開発
  • Googleもがんばって自前で開発
  • 豊富な計算資源がないと機械学習できない
  • GPUは電力

GoogleのTPUって結局どんなもの? 日本法人が分かりやすく説明:CPU、GPUとの違いとは? - @IT

  • 今回のIOででたのはTPU v3
  • TPUブースに出すデモの開発

デモ

  • MNIST画像認識
    • ニューラルネットワーク データに対する掛け算と足し算

TPU v1

  1. CPU レジスタで計算した結果を計算結果をメモリに書き戻すのを繰り替えす ノイマン
  2. GPU 小さなCPUが並列で並んでいる ノイマン 電力が超倍々
  3. TPU メモリ領域を共有し、レジスタでの計算を手分けしてやる はやい! 電力もそんな使わない
    • ニューラルネットワークの演算だけに特化したもの
    • エクセルとかの処理は難しい

TPU v2

  • ベータ版に比べて値段は低め
  • 例によってUSのほうが安い
  • 定期的に止まるような感じにするとさらに安い
    • 5倍おためしできる可能性
  • DAWNBench

TPU Pod

  • TPU v2 pod google HPC
  • TPU 3.0 Pod v2の8倍はやい

  • GRPC ボトルネック
    • TPU v2 pod 30分で計算が終わる最速
  • 初期投資ゼロなのに100倍早い

  • AIスパコンのレンタルを初期投資ゼロで

TPU API

  • TPUEstimator
  • Keras
    • おてがる使いたい
  • tpuおためし CrossShardOptimizer をつかうだけ
    • GPU CPUだと実装がクソだるい
    • スパコン
  • TPU Pod お値段は時価

memo BigQuery New Feature #gcpug

BigQuery New Feature #gcpug

発表内容

  • BQML
  • GIS
  • Clustered Tables
    • 事前
    • 割愛

BQML

  • BQのなかだけで機械学習
    • 線形回帰
    • ロジスティック回帰
    • 増える予定

線形回帰

  • 長くなるんで省略
    • 聞いて
  • 点打って、近い感じの線をかく
    • actual サンプルデータ
    • (来店客数を予測する)
    • 何によって来店客数が上下するのか
      • 気温 天気 祝日など
      • 印象を与え、学習すること

クエリ

CREATE MODEL
xxxxx
OPTIONS
(model_type='liner_reg')
AS SELECT
aaa,
bbb,
ccc,
...,
zzz,
actual AS LABEL
FROM
ccccc

これでモデルをつくる

  • ハイパーパラメーターチューニングとかはクエリで頑張ってくれる
  • モデルの型
  • 予測に対するキー

↓来店客数を予測するクエリ

select
key,
predicted_label as predicted_cust_num
from
ml.predict(
model `model`
table `cust_num`
  • まずは線形回帰
  • 晴れのときは重みが高いとか見れる
  • 線形回帰だと見やすい
    • ML専門家からするとまさかり飛んできそうだけど

ロジスティック回帰

  • やっぱり省略
  • ページビューなどの行動履歴からから商品を買うかどうか予測する

    • 自傷のデータをあたえる
  • クエリはcreate modelをベースにしてる model_type=logistic_reg なのもいっしょ

  • ↑予測のクエリも線形回帰のときとほぼ一緒(ちょっと複雑なだけ)
    • フルビジターID でユーザーを捕捉
    • フルビジターIDごとに1ヶ月でいくつ商品を買うかを予測できる
  • 費用 モデルにたいするデータ容量 + クエリ実行 + 学習させるためのデータに課金

  • tensorflow とか機械学習モデル

    • BQに入ってたらエクスポートの必要がない
    • いろんなオプション
    • データの選択

GIS

できること

  • GIS
    • 半径何メートルとか距離データをクエリで抽出 + 地図
    • postgis
    • wkt geojson
      • shapefileは変換して
  • わからんワードが出現
    • 詳細は省略
    • 国勢調査 日本を□に切ってますますで調査
    • 緯度経度の情報だけでもなんとかなりそう
    • 緯度経度の型とかほしいけどwkt geojson
    • ST_* geogpoint as wktでいけそう
  • デモ
    • 緯度経度データをJSON形式に変換
    • 自転車レンタルの履歴データから、どこのレンタサイクルが多く使われているかが分かる
    • タブローぽいことをBQでできる
    • アルファ版なので価格体系は不明
    • メッシュ ポリゴンなど点のつなぎ合わせもできる

Clustered Tables

  • スキップ

awscli 1.15.80

  • api-change discovery Update discovery command to latest version
  • api-change mediaconvert Update mediaconvert command to latest version
  • api-change ec2 Update ec2 command to latest version
  • api-change ssm Update ssm command to latest version
  • api-change redshift Update redshift command to latest version

Release 1.15.80 · aws/aws-cli · GitHub

増えているのを感じる https://raw.githubusercontent.com/boto/botocore/c3e0cdfea99ffda3490e02ab5ef80032063f8441/botocore/data/ec2/2016-11-15/service-2.json