¿Los procesadores caché L1, L2 y L3 están hechos de SRAM?

Question

En generalTodos están implementados con SRAM.

(Los chips POWER y zArchitecture de IBM usan memoria DRAM para L3. Esto se llama DRAM integrada porque se implementa en el mismo tipo de tecnología de proceso que la lógica, lo que permite integrar una lógica rápida en el mismo chip que la DRAM. Para POWER4, el apagado- el chip L3 usó eDRAM; POWER7 tiene el L3 en el mismo chip que los núcleos de procesamiento).

Aunque usan SRAM, no todos usan elmismoDiseño SRAM. SRAM para L2 y L3 están optimizadas paratamaño(para aumentar la capacidad dado el tamaño limitado del chip fabricable o reducir el costo de una capacidad determinada), mientras que es más probable que SRAM para L1 esté optimizada para la velocidad.

Más importante aún, el tiempo de acceso está relacionado con el tamaño físico del almacenamiento. Con un diseño bidimensional se puede esperar que la latencia de acceso físico seaapenasproporcional a la raíz cuadrada de la capacidad. (La arquitectura de caché no uniforme aprovecha esto para proporcionar un subconjunto de caché con menor latencia. Los segmentos L3 de los procesadores Intel recientes tienen un efecto similar; un impacto en el segmento local tiene una latencia significativamente menor). Este efecto puede hacer que un caché DRAM sea más rápido. que una caché SRAM a altas capacidades porque la DRAM es físicamente más pequeña.

Otro factor es que la mayoría de las cachés L2 y L3 utilizan acceso en serie a etiquetas y datos, mientras que la mayoría de las cachés L1 acceden a etiquetas y datos en paralelo. Esta es una optimización de energía (las tasas de pérdida de L2 son más altas que las tasas de pérdida de L1, por lo que es más probable que el acceso a los datos sea un trabajo desperdiciado; el acceso a los datos de L2 generalmente requiere más energía (relacionada con la capacidad) y las cachés L2 generalmente tienen una mayor asociatividad. lo que significa que habría que leer más entradas de datos de forma especulativa). Obviamente, tener que esperar a que la etiqueta coincida antes de acceder a los datos aumentará el tiempo necesario para recuperar los datos. (El acceso a L2 normalmente solo comienza después de que se confirma un fallo de L1, por lo que la latencia de la detección de fallo de L1 se agrega a latotallatencia de acceso de L2.)

Además, la caché L2 está físicamente más alejada del motor de ejecución. Colocar el caché de datos L1 cerca del motor de ejecución (para que el caso común de acierto de L1 sea rápido) generalmente significa que L2 debe colocarse más lejos.

Answer 1

En generalTodos están implementados con SRAM.

(Los chips POWER y zArchitecture de IBM usan memoria DRAM para L3. Esto se llama DRAM integrada porque se implementa en el mismo tipo de tecnología de proceso que la lógica, lo que permite integrar una lógica rápida en el mismo chip que la DRAM. Para POWER4, el apagado- el chip L3 usó eDRAM; POWER7 tiene el L3 en el mismo chip que los núcleos de procesamiento).

Aunque usan SRAM, no todos usan elmismoDiseño SRAM. SRAM para L2 y L3 están optimizadas paratamaño(para aumentar la capacidad dado el tamaño limitado del chip fabricable o reducir el costo de una capacidad determinada), mientras que es más probable que SRAM para L1 esté optimizada para la velocidad.

Más importante aún, el tiempo de acceso está relacionado con el tamaño físico del almacenamiento. Con un diseño bidimensional se puede esperar que la latencia de acceso físico seaapenasproporcional a la raíz cuadrada de la capacidad. (La arquitectura de caché no uniforme aprovecha esto para proporcionar un subconjunto de caché con menor latencia. Los segmentos L3 de los procesadores Intel recientes tienen un efecto similar; un impacto en el segmento local tiene una latencia significativamente menor). Este efecto puede hacer que un caché DRAM sea más rápido. que una caché SRAM a altas capacidades porque la DRAM es físicamente más pequeña.

Otro factor es que la mayoría de las cachés L2 y L3 utilizan acceso en serie a etiquetas y datos, mientras que la mayoría de las cachés L1 acceden a etiquetas y datos en paralelo. Esta es una optimización de energía (las tasas de pérdida de L2 son más altas que las tasas de pérdida de L1, por lo que es más probable que el acceso a los datos sea un trabajo desperdiciado; el acceso a los datos de L2 generalmente requiere más energía (relacionada con la capacidad) y las cachés L2 generalmente tienen una mayor asociatividad. lo que significa que habría que leer más entradas de datos de forma especulativa). Obviamente, tener que esperar a que la etiqueta coincida antes de acceder a los datos aumentará el tiempo necesario para recuperar los datos. (El acceso a L2 normalmente solo comienza después de que se confirma un fallo de L1, por lo que la latencia de la detección de fallo de L1 se agrega a latotallatencia de acceso de L2.)

Además, la caché L2 está físicamente más alejada del motor de ejecución. Colocar el caché de datos L1 cerca del motor de ejecución (para que el caso común de acierto de L1 sea rápido) generalmente significa que L2 debe colocarse más lejos.

¿Los procesadores caché L1, L2 y L3 están hechos de SRAM?

Respuesta1

información relacionada