by shigemk2

当面は技術的なことしか書かない

システムはなぜダウンするのか

システムがダウンする原因は、機械の故障、ソフトウエアの不具合、操作ミス、アクセス量の急増などさまざまです。しかもたいていは、1つの不具合が別の不具合を引き起こし、複数の不測の事象が数珠つなぎに発生します。

これはわかる。

ダウンの根本原因を突きとめるには、ハードウエアやソフトウエア、ネットワーク、アプリケーションといったシステム全体の構成を理解していなければなりません。直前にシステムを変更したか、運用操作に誤りはなかったかなど、運用・保守の進行状況もおさえる必要があります。ハードウエアやソフトウエアの構成が完全に同じシステムは世界中に2つと存在しません。システムという「オーダーメイド品」を隅から隅まで知りつくす必要があるのです。

システムというか、作品というか、機能というか、やっぱり、

ソースコードを読むための技術

これかな。

どんな大規模なダウンでも、元をたどると、たった1つの異常にたどり着きます。発生した事象から原因を素早く突きとめて1秒でも早くシステムを復旧させ、さらに再発防止の手を打ちシステムの信頼性向上につなげるには、どうすればいいのでしょうか。

それには、なるべく多くのダウンを経験するのが一番です。ですが、1人の技術者がダウンに直面する機会は、それほど多くありません。そこで本書では、過去数年間にわたって、実際に発生したダウンの事例のなかから、日経コンピュータ誌をはじめ、雑誌や新聞などで原因が詳しく報じられたケースを取り上げ(略)

これが第1章。あとはケーススタディとみた。