不安定で信頼性の低い IT 環境をデバッグして防止するにはどうすればよいでしょうか?

不安定で信頼性の低い IT 環境をデバッグして防止するにはどうすればよいでしょうか?

私は IT 管理者ではなく、ソフトウェア開発者 (Microsoft スタック) であり、顧客の IT 環境の何が問題なのかを理解しようとしています。

弊社は、クライアント/サーバー ソリューションを中規模企業に導入しました。問題は、顧客の IT 環境 (主に、SQL サーバー、SharePoint、Lync、IIS サーバーなど、さまざまな種類の Microsoft サーバー) が非常に混沌としていて不安定であるように見えることです。管理者がサーバー上で何かを再構成し、そのサーバー上で実行されている弊社のソフトウェアに影響を及ぼしたために、常に何らかのシステムで障害が発生しているようです。管理者がサーバー上の設定を変更したことが、弊社のソフトウェアに直接関係するものではなく、弊社のソリューションに影響を及ぼしていることを突き止めるために、サポートに多大な時間がかかっています。

これは当社のソフトウェアだけではなく、すべてのシステムで発生しているようで、管理者は絶えず対応に追われているようです。ドミノ倒しが全部立ち上がったと思ったら、誰かが何かを変えて、また 1 つ倒れてしまいます...

私は彼らの IT マネージャーと話をするつもりですが、IT 管理の実践についてあまり詳しくありません。

何を検討または質問する必要がありますか? IT 管理者の世界では、これに対処できるベスト プラクティスやプロセスはありますか? 他に提案はありますか?

答え1

一般的に、IT における信頼性は、次のようないくつかの異なるプラクティスによって実現されます。

  • アクセス制御
  • 変更管理
  • 構成管理
  • リビジョン管理
  • 秘密のソース

アクセス制御は、重要なシステムや本番システムに変更を加えることができるユーザーを制限するだけです。変更管理は、通常、アクセス制御とチケット システムを通じて処理されます。変更を行う前に、上位の人物からリクエストが承認される必要があります。構成管理は、外部ツールを使用してすべての構成パラメータを厳密に制御することにより、システムの一貫性を確保します。これは通常、グループ ポリシーまたは Puppet/Chef などの他のツールによって実現されます。リビジョン管理は、構成の履歴を提供します。

秘密のソースとは、何をしているのかを熟知している IT チームです。世の中のあらゆるプロセスやプロトコルをもってしても、誤った判断や経験不足/才能のないエンジニアを補うことはできません。

答え2

従うべき最善のプロセスは、私の意見では「有能な人を雇う」ことです。システム管理チームが常に問題解決に追われ、環境を構造的に改善する努力をしていないのであれば、そのチームはその仕事に適していないとみなします。

答え3

気まぐれではない、信頼できるスタッフを雇う。他に方法はありません。

管理者が無能なようです。管理者は単に働き過ぎで、テストをせず、途中でミスを犯しているのかもしれません。

彼らの管理を買うこともできるシステムとネットワーク管理の実践または、このことをすでに知っている人を雇うこともできます。

関連情報