がじぇ

お金と家電とプログラミングのブログ

インフラ作業手順書の作り方

こんにちわ

がじぇったー (@hackmylife7) | Twitter


です。

自分がいつも作成しているインフラ作業の手順書の骨子を公開します。




TL;DR(要約)

  • 曖昧な内容を排除すること
  • 後から読んで誰がいつ何の作業をどのようにやったかが明確にすること
  • 用意しなかったら後で刺されます。自分を守るためにしっかり書きましょう

手順書の内容

だいたいWikiやConfluenceで手順書を作成することが多いです。
具体的には以下の内容を記載していきます。

作業概要

作業概要には以下の項目を記載します。

  • 想定作業時間: ○分
  • 作業前提条件: ○○を作業可能な権限を保有していること。作業対象インスタンスSSH可能なこと
  • ステータス: (設計中、レビュー中、完成)
  • 担当者
    • アプリ: Aさん
    • インフラ: Bさん

作業対象

作業日時

作業日時: 2020/02/15 14:00分

作業時間の見積り

  • 作業時間 (1.0 h)

サービス影響

そのサービスを使っているお客様の視点で、作業が失敗した場合にどのような影響がある

  • 影響なし
  • 影響あり: 作業の順番を間違えた場合、アクセス中のリクエストが5xxにふられる

作業手順

作業手順の詳細を記載する。基本的に手順書に載っていること以外は作業しては行けない。
ポイントは

  • 関係者への作業開始、終了連絡も手順に含めること
  • 重要なポイントは画面イメージを用いわかりやすく説明されていること
  • 確認ポイントはチェックボックスなどを用いること
  • 作業影響の確認方法も記載していること
    • 例: graylogでログを確認すること

コンティンジェンシープラン(不足の事態が起きたときの対応方針)

作業により予期せぬ影響が起こった場合にとる行動を書いておきます


例: もし切り戻し設定がうまくいかなかった場合、関係者に連絡し今後の対応を検討する

リカバリ手順

切り戻し手順を記載する
作業手順のレベルで用意すること。
ここができているかできていないかで作業影響による切り戻しスピードが変わります


↓↓↓↓↓↓↓↓↓↓↓↓AWSの本のなかで一番オススメ