AI 훈련/추론과 관련하여 다양한 유형의 프로세서 간의 차이점에 대해 알아보려고 합니다.
내가 이해하는 한: 대규모 AI/NN 시스템에는 기본적으로 엄청난 양의 행렬 곱셈(곱셈/누적)이 필요합니다.
- CPU에는 van Neumann 병목 현상(한 번에 1개의 ALU가 메모리에 액세스함)으로 인해 큰 단점이 있습니다.
- GPU는 방정식에 추가 CUDA/텐서 코어를 추가하여 이 문제를 부분적으로 해결하지만 Van Neumann 병목 현상은 근본적으로 여전히 존재합니다.
- Google의 TPU는 ALU를 매트릭스로 연결하여 이러한 병목 현상을 해결합니다. 이 동일한 논리로 다른 모든 NPU의 기능을 알 수 있습니다.
프로세서 매트릭스로 인해 TPU가 클록 주기당 더 많은 작업을 수행할 수 있는 방법은 분명합니다.
-현재 2개의 스타트업: Mythic과 Synthic은 훨씬 더 빠르고 효율적일 것으로 예상되는 새로운 아날로그 매트릭스 프로세서를 시장에 출시했습니다.
물리적 신호는 본질적으로 극도로 정확하기 때문에 아날로그 시스템이 에너지 효율적일 수 있다고 들었습니다. 하지만 이 효과가 잡음으로 인해 손상되지는 않을까요? 그리고 정확도가 높은 계산에만 더 효율적이지 않을까요?
내 질문은 다음과 같습니다. 아날로그 매트릭스 프로세서(예: Mythic)가 기존 TPU보다 어떻게 향상됩니까?
답변1
내 이해는 이러한 프로세서가마르틱스 프로세서이러한 작업에 매우 잘 적용 가능하며 구현합니다.SIMD 프로세서 아키텍처. 예를 들어, 이러한 프로세서는 n 단계에 대해서만 n 미지수(복잡도 n**3)에서 n 방정식의 선형 시스템을 풀 수 있습니다.