同期できる状態で新APIの提供
- 1処理で大量のcommitする場合はズレに注意する事
  - 最終的に整合性あえばよい
- 循環同期
  - 更新者を明示してクエリの更新を止め、循環しないようにする
データの矛盾確認
- マッピングに従って同期するだけ
- データに矛盾がないか分からない
- codeception(PHP)でテストを生成
vert.x

2017-05-22

memo オンプレからAWS移行で変えた3つの意識 #datamigrationnight

AWS

atnd.org

CyberZ

ターゲット

クラウド使ったことない人
AWS以外のクラウド環境を使ってる人
データマイグレーションを考えてる人

FOXとは

サードパーティトラッキングツール
- アプリとユーザーをサーバーで繋いで効果を計測する
- 7/24/365連続可用性

なぜクラウド環境を利用するのか

流行
ランニングコストを最小限で始める
アプリケーション開発に集中

3つの意識

コスト意識
AWSオペレーション意識
システムダウン意識

今回は事例を述べる

コスト形態

オンプレミス資産(減価償却している)
クラウド経費
- 運用コストと機能追加の際の追加コストの把握が必要
コストレビューの実施
- プロダクト単位じゃなくてtプロジェクお単位でのコストを算出する
  - コスト増加が想定通りか
  - 規模にあったコストになっているか
  - サーバーやDBを統合するなどアプリの改修も含めてコストカットする

事例

キャパシティ不足
- リザーブドインスタンス
  - 高割引な一括支払いによるコスト削減
  - キャパシティの確保
    - 対象AZでのインスタンスには在庫が存在するので、インスタンスが作れないという事案が発生する
    - RIで予約するひつようがある

AWSオペレーション意識

アプリケーションエンジニア
- アプリに関わる作業の専任
インフラエンジニア
- インフラ専任
- 撤廃
- インフラ構築や監視はアプリケーションエンジニアがやる
アプリケーションエンジニアに権限を移譲
インフラに関する知識の向上
- 人に合わせて教育
オペミスが発生しない状況の作成
- IAMでアクセスは制御

事例

発展運用プロジェクト
- AWSの新機能の調査
- 運用効率化
- 底上げサブプロジェクト
DynamicTag
- アタッチしたEBSに同じタグを登録
DynamicDNS
- インスタンス作成時にRoute53に自動登録

システムダウン意識

オンプレ
- サーバーをダウンさせない
クラウド
- サーバーがダウンしても復帰すること

方針

マネージドサービスの積極的採用(EMR/RDS/Lambda)
クリティカルな部分は最低限修正してEC2上で構築し移行

事例 RDS再起動

Required/Available
- Requiredメンテナンスの場合は設定デフォルトだと自動アップデートがかかる
- RDSにダウンタイム

まとめ

クラウド環境は新しいサービスがでる
意識やアーキテクチャーを変えるのが クラウドの醍醐味

2017-05-22

memo ChatWorkがデータマイグレーションに使った技術の話 #datamigrationnight

AWS

atnd.org

マイグレーションしたらsparkの処理速度が3倍になった

チャットワークとは

説明不要
国内最大手

データマイグレーション

システムマイグレーションに付随
- メッセージングシステム部分の大刷新
- 並列分散システム化
- トランザクションに依存しない
- HBase(RDBMS to NoSQL)
- ScalaMatsuriでシステムマイグレーションのお話をした
アーキテクチャ
- akka(spallowforwarder readAPI writeAPI updater)
- kafka
- HBase
今回の話は、AuroraからHBaseへのマイグレーション
17億メッセージデータ
新たに「ルームで何番目の発言か」をフィールド上で算出(計算)
工数書けない
Spark
- MR
- エキスパートの存在と安定性が理由でSparkをとった
- SparkからHBaseへのバルクロードが可能
- 大量データアップロードはバルクロード一択
EMR
- Spark実行環境
- 試験用環境
- Auroraのバイナリログを読むためのmysql-binlog-connector-java
concourse
- jenkinsみたいなもの

柔軟で安全なマイグレーションのために

戦略

基本マイグレーション
- 全件のマイグレーション
差分マイグレーション
- 前回以後の差分をマイグレーション
基本 + 差分のコンボ
Spark
- HBase-Sparkで書き込み
- binlogからメッセージテーブルへ
  - 直接イベントとして取得する
定期 or 手動でスナップショットをとる
復元してマイグレーションと差分検証する。Productionへの負荷はない
Auroraのbinlogを使うときは復元するときにrotateする
rotate以外にも本番とその復元DBとでやりたいことに差がでないか検証する
EMRを使うと、スケールアップ/スケールアウトが簡単札束で殴ればなんとかなる

安心安全なマイグレーションのために

メトリクスをしっかりとる
- DBの急激な変化に気をつける
- マイグレーションできてもDBの異常は検知する

Sparkアプリケーションの高速化

Sparkの仕様への理解
- shuffleは高コストなので避ける
- RDDのPartitionを意識する
  - Custom Partitioner
  - RDD#mapPartitionsメソッド
  - Partionerの保持
  - RDDでゴリゴリやるのが適してた

データの特性の把握

基本マイグレーションPartition戦略最適化
- データがどのノードにあるのかを意識する
- ナイーブな実装 one Partition one Room
  - データのソートとカウントすればRoom単位の処理になる
  - 粒度が細かい→Auroraの読み込みスループットが上がらない
- one partition n room
  - 複数のルームがはいる
  - roomIdでgroup byするとシャッフルが発生する→無駄
- one partition n room
  - ソートとカウントしたあとで、データをregion単位でrepartitionする
  - HBaseContext.scala:791 repartitionAndSortWithinPartitions
  - 分散配置のルールに従って移動する必要がある
  - SparkのパーティショニングをHBaseと揃える
  - 1ノードにつき1RegionServer
  - 1 partitionあたり1 regionにするとshuffleするけど軽い
  - (RDDの型がPair型じゃないといけないので、Valueに適当なダミーを割り当てる必要がある)
負荷の偏りをかいけつする
- 基本マイグレーションの高速化はそれなりでよい
- データ分布に基づくケアでバランスを取る
事前パーティショニングが検証時に活躍
- HBase/Auroraの突き合わせ
- Aurora HBaseのデータが同じパーティションに配置されるようなCustomPartitionerを最適化
そのほかこまいこと
- HBaseはpre-splitしていること
- Region数が少ないとSparkクラスタサイズを大きく出来ない
- ルーム分布のケースなので必ずしも汎用的じゃない

まとめ

Shuffleを減らす or 軽くする
- Partitionの単位を工夫
- Custom Partitionerの全体ロジックを検討
各ワーカーの負荷を均等に
binlogによるストリーミングマイグレーションとかはやりたかった

トラブル

copyがタイムアウトでひたすらリトライ→権限付与で解決
HBaseのレアなバグ
- 大きいデータを使うと踏む
- 1.2.1で修正されていたバグ

2017-05-22

kuroko2にプルリク出した

Ruby on Rails

RubyMineでソースコードを斜め読みしていたらtypoを発見したので直した。

なんかテストの実行結果が毎回同じじゃないのはなんなのだ。

github.com

2017-05-21

intellij cdi

IntelliJ

View | Tool Windows | Project
モジュールのところを右クリックしてAdd Frameworks Support dialog
CDI: Context and Dependency Injection にチェックを入れる
ダウンロードなど任意のものを選ぶ

IntelliJ IDEA 2017.1 Help :: Context and Dependency Injection (CDI)

2017-05-21

rubymine debug

rspecを使っているなら、ruby-ideとかのインストールして、debug実行したら良い

f:id:shigemk2:20170521123051p:plain

www.jetbrains.com qiita.com

2017-05-21

digdag 0.9.12

digdag

bq_loadのYYYYMMDDテーブルサポート
digdag_uiのmaven repositoy

Release 0.9.12 — Digdag 0.9.5 documentation

2017-05-20

digdag echo

digdag

ログを出す

echo>: Shows a message — Digdag 0.9.5 documentation

2017-05-20

Java EE8 and its latest topics memo #jjug_ccc

Java

Java EE8のはなし

まだ完全に決まってないので、変更の余地はある

現行Javaは、Java EE 7

Java EE 8について

なにをやろうとしているか新しいAPIについて

JAX-RS 2.1

ractive client api(非同期 + リアクティブ)
server-sent events
hypermedia API enhancements
JAX-RS 2.0は
- EE 7については、クライアントサイドの実装があった
- ClientBuilder.newClinet()
- 使いたいリクエストを構築する
- 非同期機能はあった
- 非同期メソッド
JAX-RS 2.1
- RXをつかって最初のリクエスト
- ２回めのリクエスト
- 組みあわせが可能になる
- Sync/Async/RXの3つのAPIが存在する
- 全部OK
  - perfomance and scalability
  - easy to develop and maintain
  - complex workflow
  - error handling
  - leverage new Java SE feature
- server-sent events
- clinet server api
- 新しいAPIがサーバー側クライアント側にも入る
  - SSE
  - payloadを送る
  - SseEventSource
JSON-P 1.1
- JSON-Pointer IETF RFC 6901
- JSON-Patch IETF RFC 6902
- Patch is a JSON document
  - ドキュメントの修正
- https://triple-underscore.github.io/RFC6901-ja.html
- https://triple-underscore.github.io/RFC6902-ja.html
- パッチをその場で作ることができる
JSON-B 1.0
- JAXB-like API
JSON-B 1.0 Customizations
- Jsonb APIはスタンダードなAPI
- ソリューション上
Servlet 4.0
- support http2
- http2
  - binary framing(TCPのレイテンシーを抑える)
  - preserve http semantic(フィジカルコネクションのオープンな状況)
Servlet 4.0
- server push
JSF 2.3
- better CDI integration
- way more thins are injectable
- finally marking legacy managed beans as deprecated
CDI 2.0
- http://qiita.com/opengl-8080/items/431de9175dca33a09ba8
- http://www.oracle.com/technetwork/jp/java/javaee/overview/index.html
- 非同期イベントができるようになった
- sync observer
bean validatoin 2.0
- SE 8
- support for new Date/Time API
- constraints applied to collection elements
- optional wrappers
- repeatable annotations
- introduce new constraints
  - notempty notblank
security api for java ee
- よりシンプルにセキュリティまわりを使う
- 認証メカニズム
- 複雑なAPIだったのが課題
- よりシンプルなAPIを目指す
- jaspic
wrap up(まとめ)
- work in progress
- final relase july 2017
- open source reference javaee https://github.com/javaee
- contribute!
- https://blogs.oracle.com/theaquarium/

2017-05-20

memo 非機能要件とSprint Boot #jjug_ccc

ツイートメモ(途中から)

passey
— shigemk2 (@shigemk2) 2017年5月20日

ぱっせー
— shigemk2 (@shigemk2) 2017年5月20日

OAuth
— shigemk2 (@shigemk2) 2017年5月20日

アクセス利用制限
— shigemk2 (@shigemk2) 2017年5月20日

パスワード誤入力防止
— shigemk2 (@shigemk2) 2017年5月20日

tevasoluna
— shigemk2 (@shigemk2) 2017年5月20日

nttから
— shigemk2 (@shigemk2) 2017年5月20日

left right operator
— shigemk2 (@shigemk2) 2017年5月20日

コントローラーの変更なしでパスワード誤入力を実装
— shigemk2 (@shigemk2) 2017年5月20日

アカウントロック非機能要求
— shigemk2 (@shigemk2) 2017年5月20日

springのイベントリスナー
— shigemk2 (@shigemk2) 2017年5月20日

イベントリスナーの注釈で認証イベントをキャッチ
— shigemk2 (@shigemk2) 2017年5月20日

spring security
— shigemk2 (@shigemk2) 2017年5月20日

コンストラクタ
— shigemk2 (@shigemk2) 2017年5月20日

DIコンテナ
— shigemk2 (@shigemk2) 2017年5月20日

DIコンテナに登録して、spring securityに自動適用
— shigemk2 (@shigemk2) 2017年5月20日

アカウントロック状態ではパスワードが正しくてもログインできない
— shigemk2 (@shigemk2) 2017年5月20日

機密情報の暗号化も重要
SHAは止めよう
— shigemk2 (@shigemk2) 2017年5月20日

クラッカーがレインボーテーブルを作りやすい
— shigemk2 (@shigemk2) 2017年5月20日

多少遅くても安全なアルゴリズムを使うのが業界標準
— shigemk2 (@shigemk2) 2017年5月20日

jasypt
— shigemk2 (@shigemk2) 2017年5月20日

平文は止めようね
— shigemk2 (@shigemk2) 2017年5月20日

不正追跡監視
— shigemk2 (@shigemk2) 2017年5月20日

てらそるなのトラッキングログ機能
— shigemk2 (@shigemk2) 2017年5月20日

MDCにユーザーidを設定
— shigemk2 (@shigemk2) 2017年5月20日

filter実装クラス
— shigemk2 (@shigemk2) 2017年5月20日

不正追跡監視
— shigemk2 (@shigemk2) 2017年5月20日

コントローラーを叩いた時間
— shigemk2 (@shigemk2) 2017年5月20日

ログレベルをtraceに設定
— shigemk2 (@shigemk2) 2017年5月20日

spring data ipaによる監視ログ
— shigemk2 (@shigemk2) 2017年5月20日

親クラスを作って集約すると便利
— shigemk2 (@shigemk2) 2017年5月20日

web対策
— shigemk2 (@shigemk2) 2017年5月20日

セッション管理
spring securityを使えば簡単
— shigemk2 (@shigemk2) 2017年5月20日

xss
— shigemk2 (@shigemk2) 2017年5月20日

セキュリティヘッダー
— shigemk2 (@shigemk2) 2017年5月20日

spring securityを使わないと自前で実装しないといけない
— shigemk2 (@shigemk2) 2017年5月20日

アクセス制限
データの秘匿
不正追跡
web対策
— shigemk2 (@shigemk2) 2017年5月20日

非機能要求グレードの活用
spring boot actuator 運用保守
spring security
— shigemk2 (@shigemk2) 2017年5月20日

便利ライブラリがないと、自前実装に鳴るのでちょっとしんどい。

2017-05-19

innodb_read_only

MySQL

読み取り専用オプション read_onlyとの違いは謎。

nulab-inc.com

MySQL :: MySQL 5.6 リファレンスマニュアル :: 14.12 InnoDB の起動オプションおよびシステム変数

2017-05-19

拡張モニタリング

AWS

docs.aws.amazon.com

CloudWatch は DB インスタンスのハイパーバイザーから CPU 使用率のメトリクスを収集し、拡張モニタリングはインスタンス上のエージェントからそのメトリクスを収集します。そのため、ハイパーバイザーレイヤーで少量の処理が実行されるため、測定値間に違いが見つかることがあります