オンコール対応のトレーニング環境を構築した話
旅行プラットフォーム事業部エンジニア2年目の籏野です。
フォルシアでは常に2名のエンジニアがオンコール対応を行えるように体制を整えています。
ほとんどのエンジニアが持ち回りで担当するのですが、入社後誰もがすぐにオンコールとしての対応を行うことはできません。
そこで、フォルシアに入社したエンジニアに対して、オンコール対応のためのトレーニングを実施しています。
昨年、私はこのトレーニング用の環境を整備しました。
今回はこの環境整備の話をしつつ、実際にどのようなトレーニングを行っているのかを紹介したいと思います。
トレーニング環境整備
フォルシアにはオンコール対応のトレーニング環境は元々存在していたのですが、構成情報などがあまり管理されていない状態でした。これではトレーニング中に何か起こった時に元に戻すのが大変です。
そこで今回、Ansibleを用いてトレーニング環境の構成情報を管理するようにしました。
フォルシアでは近年Ansibleを用いて各環境を構築しており、必要なミドルウェアやツール群を入れるための設定が多く用意されています。
これらを利用することによって、当時1年目の私でもまっさらな状態のサーバー上にトレーニング用の環境を構築することができました。また、Ansibleを用いたことで、私以外の社員でもコマンド一つでトレーニング環境を構築し直すことができます。
フォルシアが導入したAnsibleの話は12日に公開予定のアドベントカレンダーの記事でも紹介する予定ですのでそちらもご覧ください。
トレーニングの様子
オンコールトレーニングは社内で構築されたトレーニング用環境で行われており、ここでトレーナーが様々なアラートを発生させます。
アラート発生時にはSlackに通知が流れるようになっています。
これは本番環境でのアラート時も同様で、トレーナー/トレーニーが本番環境さながらの状態でやり取り・対応を行っていきます。
全ての対応を終え、最後にスレッド内で「対応完了」とつぶやくことでトレーニングが完了します。
このつぶやきに反応して、社内botが「おつかれ」のスタンプと社内チケットの自動起票を行ってくれます。
※本番環境ではこのチケットを元に月次のアラート発生件数の確認や恒久対応の必要なチケットの選別を行います。
アラートと言ってもその内容はさまざまであり、初めのうちはその原因調査や対応内容の判断に時間がかかってしまうことも多くあります。
しかし、このようなトレーニングを繰り返し行うことで、実際のオンコール対応時に落ち着いて対応を行うことができるようになるのです。
最後に
今回紹介した「オンコールトレーニング」はフォルシアに入社した際に受ける研修の一つです。
このトレーニング以外にもフォルシアでは様々な研修を用意しており、(特に新卒入社社員のような)経験の少ないエンジニアも安心して業務に取り組めるような環境を用意しています。
少しでもフォルシアに興味のある方はぜひこちらへ!
籏野 拓
2018年度新卒入社。現在は福利厚生会社を主に担当。
自動化、効率化って楽しい。