サーバーマザーボード CPU あたりのメモリ

Question 1

デュアルソケットボードは、各ソケットに関連付けられたメモリスロットを含む 2 つの CPU システムで構成されます。メモリバンクが 2 つある場合、それぞれが CPU スロットに接続されます。メモリバンクは、他のスロットでは直接使用できません。

つまり、72GBの容量を持つマザーボードはCPUスロットあたり36GBの容量があることになります。
ただし、DIMMが図のように非対称に設定されている場合、このインテルボードおそらく、
1 つの CPU に 24GB、もう 1 つの CPU に 48GB が搭載されると思いますが、確認する必要があります。

Nehalemベースの1366ボード、CPUスロットごとに3つのメモリスロットが設定されます。3xDDR3メモリCPU あたりのメモリを取得します。

Nehalemアーキテクチャは、他のスロットバンクからのメモリアクセスをより良くします。非均一メモリアーキテクチャ (NUMA)。

NUMA は、各プロセッサに個別のメモリを提供することでこの問題に対処し、複数のプロセッサが同じメモリをアドレス指定しようとしたときにパフォーマンスが低下するのを回避します。分散データ (サーバーや同様のアプリケーションで一般的) に関する問題の場合、NUMA は単一の共有メモリよりもプロセッサ数 (または個別のメモリバンク) の数にほぼ比例してパフォーマンスを向上させることができます。

もちろん、すべてのデータが単一のタスクに限定されるわけではありません。つまり、複数のプロセッサが同じデータを必要とする場合があります。このようなケースに対処するために、NUMA システムには、バンク間でデータを移動するための追加のハードウェアまたはソフトウェアが含まれています。この操作により、それらのバンクに接続されたプロセッサの速度が低下するため、NUMA による全体的な速度の向上は、特定の時点でシステムで実行されるタスクの正確な性質に大きく依存します。

Nehalem NUMAを使用していない場合、古いスキームは異なる動作をします。違いは次のように視覚的に示されます。ArsTechnicaの記事ページ基本的に、すべてにおいて最悪のアクセス時間が発生します (マルチウェイアクセスの完全なコストを伴うマルチソケットメモリアクセス)。

NUMA 技術により、バンク間のアクセス時間が短縮されます。特に各プロセッサスロットのデータがバンク内にローカライズされている場合、最終的な結果としてメモリスループットが向上します。

この回答のすべての点についてまだ自信がないので、他の意見も聞きたいです。

Answer

デュアルソケットボードは、各ソケットに関連付けられたメモリスロットを含む 2 つの CPU システムで構成されます。メモリバンクが 2 つある場合、それぞれが CPU スロットに接続されます。メモリバンクは、他のスロットでは直接使用できません。

つまり、72GBの容量を持つマザーボードはCPUスロットあたり36GBの容量があることになります。
ただし、DIMMが図のように非対称に設定されている場合、このインテルボードおそらく、
1 つの CPU に 24GB、もう 1 つの CPU に 48GB が搭載されると思いますが、確認する必要があります。

Nehalemベースの1366ボード、CPUスロットごとに3つのメモリスロットが設定されます。3xDDR3メモリCPU あたりのメモリを取得します。

Nehalemアーキテクチャは、他のスロットバンクからのメモリアクセスをより良くします。非均一メモリアーキテクチャ (NUMA)。

NUMA は、各プロセッサに個別のメモリを提供することでこの問題に対処し、複数のプロセッサが同じメモリをアドレス指定しようとしたときにパフォーマンスが低下するのを回避します。分散データ (サーバーや同様のアプリケーションで一般的) に関する問題の場合、NUMA は単一の共有メモリよりもプロセッサ数 (または個別のメモリバンク) の数にほぼ比例してパフォーマンスを向上させることができます。

もちろん、すべてのデータが単一のタスクに限定されるわけではありません。つまり、複数のプロセッサが同じデータを必要とする場合があります。このようなケースに対処するために、NUMA システムには、バンク間でデータを移動するための追加のハードウェアまたはソフトウェアが含まれています。この操作により、それらのバンクに接続されたプロセッサの速度が低下するため、NUMA による全体的な速度の向上は、特定の時点でシステムで実行されるタスクの正確な性質に大きく依存します。

Nehalem NUMAを使用していない場合、古いスキームは異なる動作をします。違いは次のように視覚的に示されます。ArsTechnicaの記事ページ基本的に、すべてにおいて最悪のアクセス時間が発生します (マルチウェイアクセスの完全なコストを伴うマルチソケットメモリアクセス)。

NUMA 技術により、バンク間のアクセス時間が短縮されます。特に各プロセッサスロットのデータがバンク内にローカライズされている場合、最終的な結果としてメモリスループットが向上します。

この回答のすべての点についてまだ自信がないので、他の意見も聞きたいです。

Question 2

論理オペレーティングシステムの観点から見ると、各コアは完全な RAM にアクセスできます。

パフォーマンスの観点からは、メモリの場所とチップの物理的なレイアウトに応じて違いがあります。メモリアクセスは必要なパスを経由してルーティングされ、場所によってはパフォーマンスが低下する可能性があります。

Nehalem タイプのボードを見ると、3 つの RAM スロット (またはその倍数) のパックが個々の CPU チップに接続されています。Quickpath 相互接続により、他の CPU がそのメモリにアクセスできるようになります。

したがって、最適なパフォーマンスを得るには、numactl のトリックがいくつか必要になります。たとえば、あるタスクの共有メモリがメモリ内の 1 か所にある場合、異なるスレッドのアクセス速度が異なります。

RAM スロットの数はこれとほとんど関係ありません。

Intelには素晴らしいドキュメントがあります。詳しく知りたい場合は、http://www.intel.com/technology/quickpath/index.htm等々

Answer