私たちは最近ちょっとした問題があったネットワークでは、複数のサーバーが断続的にネットワーク接続を失い、解決が非常に困難になります (ハード リブートが必要)。この問題は、異なるサーバーで約 2 週間にわたってランダムに発生しています。特定のパターンは確認できませんでした。
少し調べてみると、スイッチが問題のあるポートに対して 100 Mbps を報告していることがわかりました。
これはジョエル・スポルスキーの記事で起こったことと非常によく似ている。5つのなぜ
Michael は事後分析に時間を費やし、問題はスイッチの単純な構成の問題であることを発見しました。スイッチが通信に使用できる速度は複数あります (10、100、または 1000 メガビット/秒)。速度を手動で設定することも、スイッチが自動的にネゴシエートして双方が使用できる最高速度を決定することもできます。故障したスイッチは自動ネゴシエーションに設定されていました。これは通常は機能しますが、常に機能するわけではなく、1 月 10 日の朝は機能しませんでした。
私たちは今自動ネゴシエーションを無効にしましたネットワーク ハードウェアで、固定速度を 1000 Mbps (ギガビット) に設定します。
サーバー ハードウェア ネットワークの専門知識を持つ方々への質問:
- 現代のネットワーク ハードウェアでは、自動ネゴシエーションの問題はどの程度一般的ですか?
- ネットワークを設定するときに、自動ネゴシエーションを無効にして固定速度を設定することは、適切な標準的なネットワーク手法と考えられますか?
答え1
ネットワーク速度の自動ネゴシエーションに関する問題で、(a) リンクの一方の端での手動ともう一方の端での自動の不一致、または (b) リンクのコンポーネント (ケーブル、ポートなど) の障害が原因でない問題は、まだ見たことがありません。
これは管理者によって異なりますが、私の経験では、リンク速度とデュプレックス設定を手動で指定すると、速度の不一致に必ず遭遇することがわかりました。なぜでしょうか? スイッチとサーバー間のさまざまな接続を文書化し、変更を行うときにその文書に従うことはほぼ不可能だからです。私が見たほとんどの失敗は 1(a) が原因で、速度/デュプレックス設定を手動で設定し始めたときにのみ、その状況に陥ります。
前述の通り、Cisco ドキュメント:
自動ネゴシエーションを無効にすると、リンク ドロップやその他の物理層の問題が隠されます。ギガビット自動ネゴシエーションをサポートしていない古いギガビット NIC などのエンド デバイスに対してのみ、自動ネゴシエーションを無効にしてください。絶対に必要な場合を除き、スイッチ間の自動ネゴシエーションを無効にしないでください。物理層の問題が検出されず、スパニング ツリー ループが発生する可能性があります。
速度/デュプレックス (フロー制御も忘れずに) の検証を必要とするネットワーク変更用の変更管理システムを設定する準備ができていない場合、またはすべてのネットワーク デバイスでこれらの設定を手動で指定することによって発生する不一致に対処する意思がない限り、自動/自動のデフォルト設定を使用してください。
今後は、スイッチポートのエラーを次のように監視することを検討してください。MRTG問題が発生する前にこれらの問題を見つけることができます。
編集:古い機器でのネゴシエーションの失敗について言及している人はたくさんいます。確かにこれは、標準が作成されたずっと昔の問題であり、すべてのデバイスが標準に準拠していたわけではありません。NIC とスイッチは 10 年未満ですか? そうであれば、これは問題にはなりません。
答え2
非常によくあることですが、私は長年にわたりさまざまな種類のハードウェアで数多くの問題を抱えてきました。
私の意見では、セットアップが静的 (つまり、サーバー ラック) で、変更される可能性がないと思われる場合は、速度とデュプレックスを手動で設定することをお勧めします。将来の問題を回避できるように、十分に文書化されている限りは。
編集:
念のため言っておきますが、ネットワーク全体で手動の速度設定を推奨しているわけではありません。95% のケースでは自動/自動設定が適切だと考えています。デュプレックス/速度に問題があり、ネットワークの一部 (サーバー ラックの 1 つなど) ではほとんどが手動設定になっていると言っているだけです。私たちは、使用されていないポートをシャットダウンし、ほとんどのポートに MAC フィルターを適用して、非常に厳密に制御された LAN を運用しているので、速度を追跡することはそれほど難しくありません。
答え3
自動ネゴシエーションが 1 日 1 時間または 1 か月間動作していて、その後何らかの理由で「何かが起こり」、リンクを固定速度に設定すると「問題が解決する」場合、問題は解決されるのではなく、回避されることになります。リンクを固定に設定することは、実際の問題が修正されるまでの一時的な解決策であると私は考えています。
答え4
私が(他の数人とともに)担当しているネットワークは、約 40 台のサーバー、1000 台以上のワークステーション(かなり広いキャンパスに分散)、そして約 1000 台の WAP で構成されており、ネットワーク機器の種類や古さもさまざまです。
dimitri.p が言ったように、何かが突然自動ネゴシエーションを停止できなくなる場合、通常は別の問題があることを示しています。ポートを手動で設定することは、腹部を刺された人に絆創膏を貼るようなものです。出血は止まるかもしれませんが、その下には確実に損傷があります。
私のいつものチェックリスト:
- マシン上で何か変更がありましたか? ドライバー? OS レベルまたは BIOS レベルの設定? OS で autoneg が無効になっている可能性がありますか?
- パッチケーブルを交換しましたか?検証済みケーブルの配線(1 つのラックよりも長い配線の場合)
- スイッチ ポートが不良または故障していないかどうかをテストしましたか?
- NIC が故障している可能性がありますか?
私たちは、原則として、一度もないサーバー (またはデータ センター内の他のもの) の autoneg は、他の考えられる原因がすべて排除され、スイッチ ポートを移動し、ケーブルを変更し、NIC をテストするなどして他に選択肢がない状況でない限り、無効にしてください。その場合、それは徹底的に文書化されます。これは非常にまれにしか発生せず、通常は BIOS と OS の設定を確認するためにアクセスできないアプライアンスで発生します。
一方、ワークステーションと AP は別の話です。オートネゴシエーションの失敗はケーブル配線の不良の典型的な兆候であり、多くの場合、壁内に新しいケーブルを配線する夏季が来るまで、速度とデュプレックスを手動で設定する必要があります。