by shigemk2

当面は技術的なことしか書かない

memo BigQuery New Feature #gcpug

BigQuery New Feature #gcpug

発表内容

  • BQML
  • GIS
  • Clustered Tables
    • 事前
    • 割愛

BQML

  • BQのなかだけで機械学習
    • 線形回帰
    • ロジスティック回帰
    • 増える予定

線形回帰

  • 長くなるんで省略
    • 聞いて
  • 点打って、近い感じの線をかく
    • actual サンプルデータ
    • (来店客数を予測する)
    • 何によって来店客数が上下するのか
      • 気温 天気 祝日など
      • 印象を与え、学習すること

クエリ

CREATE MODEL
xxxxx
OPTIONS
(model_type='liner_reg')
AS SELECT
aaa,
bbb,
ccc,
...,
zzz,
actual AS LABEL
FROM
ccccc

これでモデルをつくる

  • ハイパーパラメーターチューニングとかはクエリで頑張ってくれる
  • モデルの型
  • 予測に対するキー

↓来店客数を予測するクエリ

select
key,
predicted_label as predicted_cust_num
from
ml.predict(
model `model`
table `cust_num`
  • まずは線形回帰
  • 晴れのときは重みが高いとか見れる
  • 線形回帰だと見やすい
    • ML専門家からするとまさかり飛んできそうだけど

ロジスティック回帰

  • やっぱり省略
  • ページビューなどの行動履歴からから商品を買うかどうか予測する

    • 自傷のデータをあたえる
  • クエリはcreate modelをベースにしてる model_type=logistic_reg なのもいっしょ

  • ↑予測のクエリも線形回帰のときとほぼ一緒(ちょっと複雑なだけ)
    • フルビジターID でユーザーを捕捉
    • フルビジターIDごとに1ヶ月でいくつ商品を買うかを予測できる
  • 費用 モデルにたいするデータ容量 + クエリ実行 + 学習させるためのデータに課金

  • tensorflow とか機械学習モデル

    • BQに入ってたらエクスポートの必要がない
    • いろんなオプション
    • データの選択

GIS

できること

  • GIS
    • 半径何メートルとか距離データをクエリで抽出 + 地図
    • postgis
    • wkt geojson
      • shapefileは変換して
  • わからんワードが出現
    • 詳細は省略
    • 国勢調査 日本を□に切ってますますで調査
    • 緯度経度の情報だけでもなんとかなりそう
    • 緯度経度の型とかほしいけどwkt geojson
    • ST_* geogpoint as wktでいけそう
  • デモ
    • 緯度経度データをJSON形式に変換
    • 自転車レンタルの履歴データから、どこのレンタサイクルが多く使われているかが分かる
    • タブローぽいことをBQでできる
    • アルファ版なので価格体系は不明
    • メッシュ ポリゴンなど点のつなぎ合わせもできる

Clustered Tables

  • スキップ