サーバエンジニアになると、日々サーバにログオンしては設定を確認したり、出力されたログをチェックする機会が増えていきます。最初はひとつの操作もままならないため、手順書を確認したり先輩に教えてもらったりするのですが、操作に慣れてしまうとちょっとした操作でミスをしてしまう事が増えてきます。
だからミスをしないように、次に挙げる項目をしっかり守って安全にサーバの操作を行うようにしましょう。

サーバで設定確認をする時は「キャンセル」をクリックするのが当たり前

サーバエンジニアとしてサーバの設定を確認する作業など、当たり前のように増えてきます。サーバにログオンして様々な画面を開き、チェックをして閉じるという何気ない操作になりますが、実は最も注意しなくてはならないことがあります。

それは、必ず「キャンセル」か、画面右上にある「×」ボタンで閉じてください。

自分が使っているパソコンの話であれば、画面を閉じる方法はどれを選んでも良いと思います。ただ、サーバになると話が変わります。

もしも、サーバの設定を確認している最中に、操作をしていた人が意図しない箇所の設定を変更していたとしたら、いったいどうなるのかを考えて下さい。

特に、Windows OSのようなGUI(Graphical User Interfaceの略)を採用しているOSであれば、CUI(Character User Interfaceの略)で作業をするLinuxのように、専門的な知識があまりなくてもWindows Serverを操作することが可能です。

CUIの場合は最もコマンドが間違っていればエラーとなりますし、もし設定するのであれば、作業前のファイルは必ずバックアップを作成してから設定変更を行います。また、重要なファイルを閲覧する時は「読み取り」専用でファイルを開くため、気がついたらファイルを書き換えて居たと言うことは起こりにくくなっています。

ですが、GUIの場合は違います。
画面上のちょっとした設定の一部を確認中に、チェックを取り消したりラジオボタンの選択箇所を変えてしまったり、気がつかないうちに設定を変えてしまっていることがあるからです。

そうなると、作業をしていた人も意識して設定を変更したわけではないため、どこの設定をどのように変更したか覚えていないでしょう。
それでも、最後の砦である「OK」と「キャンセル」ボタンで、キャンセルをクリックしておけば、どこの設定を変更しようがチェックしてきた画面上では設定が有効にはなりません。
ですが、「OK」ボタンをクリックしてしまうと、設定が変更され最悪な場合、サービス提供中止やサーバの再起動など、重大事故といわれてしまうようなことが発生してしまいます。

原因と状況を把握し、多くの人が復旧に向けて動き出します。ここにかかる時間とお金はとても莫大なものです。お金や時間のダメージも大きいかもしれませんが、それ以上に大きな「お客様との信頼関係」に亀裂が入り大切な顧客を失ってしまうのです。
失った信頼はそう簡単に取り戻す事はできません。だからこそ、「確認作業時はすべてキャンセルで作業を終わらせる」事をしっかり頭にたたき込んでください。

ここまで読んでいた中で「そんなこと起こるのか」と思った人ほど、作業時は注意が必要です。ここでの話は実際に私が経験してきた現場で、過去に本当に起きた話だからです。

作業者の本当に些細な作業ミスだったかもしれません。その設定確認作業でサーバシャットダウンが発生して、サービス提供ができなくなってしまった事例はいくつもあります。

だからこそ、「たかがキャンセルボタン」と侮らず「ちゃんとキャンセル」ボタンをクリックするようにしましょう。

実際に私もサーバの設定確認箇所をチェックしていた時、設定を変更するつもりは全くなかったのですが、作業後報告メールを作成中にお客様から連絡が入り「かってに設定を変更するな」とお叱りを受けた事があります。
その時はファイルサーバのアクセス権が変更されてしまい、多くの利用者がサーバ上においてあるファイルを閲覧できなくなってしまったという事象でした。この時も間違えて確認作業後に「OK」ボタンをクリックしていたのです。

ちょっとした事でも、この様なトラブルを自らが作ってしまう事はあります。だからこそ口を酸っぱくして言い聞かせているし、この様なルールが各現場で生まれてくるのです。

「設定確認作業時は必ず”キャンセル”を選択」することです。キャンセルをクリックすれば、間違えて変更してしまった設定も有効になりません。

 

確認作業って1回でいいの?正解は3回確認が必要です!

サーバの設定を変更した時、「変更したから作業終了」ではありません。
1つの設定作業を実施する時は、3回の確認が必要になります。

どのようなタイミングなのかを考えて見てください
まず1つめの確認ポイントは「作業をする対象」です。
サーバといっても、まったく違った機能やサービスを提供しているサーバから、まったく同じ機能を複数台に渡って提供しているサーバなどがあることは以前お話しました。
そんな数多くのサーバにリモート接続したら、同じような画面しか出てきません。最初にリモート接続してログオンしたサーバは、これから設定を実施するサーバであっているかどうかの確認こそが第一の確認作業です。実際にログオンしてサーバのホスト名を確認する作業は、設定作業をするサーバを間違えないようにするためです。
万が一、違うサーバに設定を実施した場合、本来提供されるはずのサービスが提供されず、利用者に迷惑をかけてしまうのは火を見るより明らかです。また、ネットワークに関係するサーバであれば、インターネットに接続できなくなったり、パソコンにログオンすることができないなど、やはり大きな影響を与えてしまいます。

第一の確認は「作業する対象機器はあっているか」をチェックして、しっかり作業を実施しましょう
2つめの確認ポイントは「設定を実施する箇所」です。
それぞれの機能を有効にするための設定箇所は、提供される機能によって様々です。サーバの動作に必要なファイルを書き換えたり、プロパティの値を変更したり、その設定を有効にする場所はこの画面でよいのかを再度チェックする必要があるのです。
似たような画面がたくさんあるWindows Serverでは、今からどのような変更を加えるのか、その変更箇所は今見ている画面であっていることを、手順書または作業チェック表、一緒に作業をする再鑑者に確認しましょう。
こうしていくつもの確認項目から、これから設定変更を行う箇所は今見ている画面であっていることを明確にして作業を実施します。
第二の確認は「設定を変更する箇所はあっているか」という観点で、チェックする必要があります。

似たような画面で「ここだろう」と設定をしたことによって、社内全体でインターネットが利用できなくなったという事がありました。作業者から見れば、ちょっとした変更かもしれませんが、その影響範囲をちゃんと考えて行動すれば未然に防げた事故だったかもしれません
3つめの確認ポイントは「設定が反映された事」です。
作業の目的は、今まで利用できなかったサービスを使えるようにしたり、データベースでの検索時間を短縮したり、快適にネットワークが使えるようにするためです。変更した設定が反映されているか、確認しないで作業を終えてしまうのは無責任というものです。
そこで必ず設定した内容が反映されていることを確認して、作業を終了するようにしましょう。チェックボックスにつけたチェックが、次に同じ画面を開いてもチェックされていることや入力した文字が残っていることなど作業に応じた確認方法を実施します。中には、Windows OSのプログラム自体の設定値を見る「レジストリ」を確認したり、実際にコマンドを実行して出力された結果があっているかを確認したりします。
第三の確認は、設定がシステム全体に反映されている事と他のサーバへの影響も確認するという事です。設定したサーバだけ正常に動作していても、他のサーバから異常アラートがあがっては意味がありません。

全体的にエラーが発生していないことを確認して作業終了となることを念頭に入れておきましょう。

この考え方は、作業をする時も必要ですが「手順書」を作成する時にも必要な考え方になります。1つの設定毎に「作業対象機器の確認」、「作業箇所の確認」、「設定変更作業後の全体確認」を手順書に組み込めれば、品質の高い手順書となり作業ミスを減少させることが可能です。

最初は作業ばかりをさせられてしまうかもしれませんが、将来は手順を作って後輩といっしょに作業をする事になります。この考え方をしっかり後輩にも伝えられるように、マスターしていきましょう

 

作業時は必ず証跡を残せ!

前章の確認にあわせて、次の事も必ず実践するようにしてください。そうしないとあなたが実施した作業自体が「疑われてしまう」可能性が出てくるからです。サーバで作業した手順を記録するように、スクリーンショットを取って残すようにしましょう。

これがエビデンスとなって、手順書通り作業をしたことを証明することになります。

設定後にサーバが正常に動作しなくなってしまうことがあり、たいていは作業者のミスだったりするのですが、その中でも、サーバ用OSのバグが原因で正常に動作しないことがあります。
そういった場合、自分の作業ミスはどうしても疑われてしまいます。

でも、エビデンスをちゃんと取得して、手順を証明できれば疑いを晴らすことができます。しかも、エビデンスを残す時ですが、スクリーンショットを取ったかを忘れてしまう事があります。
そんな時は「取っただろう」といって、スクリーンショットを取らずに作業を進めるのは絶対NGです。取り過ぎてもかまわないので必ずエビデンスを残すようにしましょう。取り過ぎたスクリーンショットは、後から削除すればいいだけです。

でも、取得していなかったら、もう二度とスクリーンショットを取ることはできません。設定後に取ったとしても、それは作業を行った証拠にはなりません。
こういった偽装は時計の部分を見ればわかってしまいますので、取り忘れてしまったことは必ずリーダーや上司に報告し指示を仰ぐようにしましょう。もしここであなたが何かを隠すような行動を取ったなら、あなたの信用もなくなってしまいます。

取らないと怒られてしまう事がありますが、取り過ぎて怒られることはありませんから。

 

悩むなら触るな!わからなかったら調べろ!


サーバの設定作業中に操作方法や設定箇所がわからなくなってしまった場合、再鑑者に指示を仰ぐようにしましょう。もし、再鑑者もわからないような場合は、有識者に確認が取れるまで作業を中断してください。

わからないまま「こうだろう」といって設定を実施してしまった時に、サーバに異常が起こってしまうと、その責任を問われてしまう事があります。

なぜ手順書やチェックシート、エビデンスを取得してまで作業をする必要があるのかというと、単純に作業の内容を記録しておくという意味でも重要ですが、手順書に乗っていない作業を勝手な判断で実行していないかを確認するためのものになります。

そして、勝手な作業をしていた場合「責任追及」されてしまうのです。最悪なケースの場合は、個人にも追求されるようになってしまうので、手順書にない勝手な作業は絶対しないでください。

そして、もしわからない時は、Googleで検索してみましょう。

Windows OSの場合、たいていの事は検索すると出てきます。ただ、情報の中にはWEBサイトを公開している人しか読み取れないような書き方のサイトが多く存在します。
Googleで検索してヒットした内容だけを鵜呑みにせず、複数のサイトや有識者に確認をして作業をするようにしましょう。

どうしても作業に自信が持てない時は、有識者に「こういう設定をする時に、この方法であっていますか?」と確認をしましょう。そして、自分の作業があっていることを、確認した上で作業を進めるようにしてください。

このようにして、自分の知識を増やして、今度はあなたが有識者として頼られるようになりましょう。