
Temos um problema de otimização de sistema que requer um fluxo de trabalho claro de execução de uma CPU. Como uma CPU moderna (por exemplo, Intel Xeon) com vários níveis de cache executa um programa originalmente armazenado no disco rígido de um computador?
Eu sei que aproximadamente o programa é carregado primeiro na memória e, em seguida, a CPU decodifica as instruções e obtém os dados necessários da memória. Mas, qual é o fluxo de trabalho detalhado de uma CPU carregando instruções da DRAM com todos os níveis possíveis de caches envolvidos (talvez da DRAM para o cache L3, cache L2 e cache de instruções L1 ou diretamente da DRAM para o cache de instruções L1), e o fluxo de trabalho detalhado de dados de carregamento da CPU (de DRAM para L3->L2->L1D?).