프로세서 캐시 L1, L2 및 L3은 모두 SRAM으로 만들어졌습니까? 사실이라면 L1이 L2보다 빠르고 L2가 L3보다 빠른 이유는 무엇입니까? 저는 이 부분을 읽으면서 이해가 되지 않았습니다.
답변1
일반적으로그것들은 모두 SRAM으로 구현됩니다.
(IBM의 POWER 및 zArchitecture 칩은 L3에 DRAM 메모리를 사용합니다. 이는 로직과 동일한 유형의 프로세스 기술로 구현되어 빠른 로직을 DRAM과 동일한 칩에 통합할 수 있기 때문에 임베디드 DRAM이라고 합니다. POWER4의 경우 오프- 칩 L3은 eDRAM을 사용하고, POWER7은 처리 코어와 동일한 칩에 L3을 가지고 있습니다.
SRAM을 사용하지만 모두 SRAM을 사용하는 것은 아닙니다.같은스램 디자인. L2 및 L3용 SRAM은 다음에 최적화되어 있습니다.크기(제한된 제조 가능 칩 크기를 고려하여 용량을 늘리거나 주어진 용량의 비용을 줄이기 위해) L1용 SRAM은 속도에 최적화될 가능성이 더 높습니다.
더 중요한 것은 액세스 시간이 스토리지의 물리적 크기와 관련이 있다는 것입니다. 2차원 레이아웃을 사용하면 물리적 액세스 대기 시간이 다음과 같이 예상될 수 있습니다.대충용량의 제곱근에 비례합니다. (비균일 캐시 아키텍처는 이를 활용하여 더 낮은 대기 시간으로 캐시 하위 집합을 제공합니다. 최근 Intel 프로세서의 L3 슬라이스도 비슷한 효과를 가지며 로컬 슬라이스에 적중하면 대기 시간이 상당히 낮아집니다.) 이 효과는 DRAM 캐시를 더 빠르게 만들 수 있습니다. DRAM이 물리적으로 더 작기 때문에 고용량에서는 SRAM 캐시보다 좋습니다.
또 다른 요인은 대부분의 L2 및 L3 캐시가 대부분의 L1 캐시가 태그와 데이터에 병렬로 액세스하는 태그와 데이터의 직렬 액세스를 사용한다는 것입니다. 이는 전력 최적화입니다(L2 미스 비율은 L1 미스 비율보다 높으므로 데이터 액세스는 작업 낭비가 될 가능성이 높습니다. L2 데이터 액세스에는 일반적으로 용량과 관련하여 더 많은 에너지가 필요하며 L2 캐시는 일반적으로 더 높은 연관성을 가집니다. 이는 더 많은 데이터 항목을 추론적으로 읽어야 함을 의미합니다. 분명히 데이터에 액세스하기 전에 태그 일치를 기다려야 하면 데이터를 검색하는 데 필요한 시간이 추가됩니다. (L2 액세스도 일반적으로 L1 누락이 확인된 후에만 시작되므로 L1 누락 감지 대기 시간이총L2의 액세스 지연 시간.)
또한 L2 캐시는 실행 엔진과 물리적으로 더 멀리 떨어져 있습니다. L1 데이터 캐시를 실행 엔진 가까이에 배치한다는 것은(일반적인 L1 적중 사례가 빠르도록) 일반적으로 L2를 더 멀리 배치해야 함을 의미합니다.