A saída lspci -vvv CorrErr e UnCorrErr muda com o tempo

Question 1

O link de outra postagem deste tópico "cirrascale.com/blog/index.php/pci-debugging-101/" não funciona mais em 2019. Porém encontrei o artigo arquivado em:

https://intrepid.warped.com/~scotte/OldBlogEntries/web/index-5.html

Aqui está um trecho do artigo vinculado:

especificar o dispositivo específico (desta vez “0000:02:00.0“) nos fornecerá detalhes.

# lspci -s 0000:02:00.0 -vvv

Dando a saída:

02:00.0 Serial Attached SCSI controller: LSI Logic / Symbios Logic SAS2008 PCI-Express Fusion-MPT SAS-2 [Falcon] (rev 03)

...

DevSta: CorrErr+ UncorrErr- FatalErr- UnsuppReq+ AuxPwr- TransPend-

...

CESta: RxErr- BadTLP- BadDLLP- Rollover- Timeout- NonFatalErr+

CEMsk: RxErr+ BadTLP+ BadDLLP+ Rollover+ Timeout+ NonFatalErr+

Podemos ver nos registros de status do dispositivo (“DevSta“) que o dispositivo apresentou algum tipo de erro corrigível (“CorrErr+“).

Como o erro era um erro corrigível (“CorrErr”), a parte interessante da saída AER é o status do erro corrigível (“CESta”). Nenhum dos bits é definido, exceto o bit de erro não fatal (“NoNFatalErr+“). Pelo nome disso (é um erro, mas não fatal... e foi corrigível!), isso não parece nada com que realmente se preocupar. Verificar se o erro está mascarado ou não (“ CEMsk “) mostra que o fornecedor do dispositivo optou por mascarar esse erro (“ NonFatalErr + “), então eles não acharam que era algo que deveria ser enganado na cadeia de dispositivos PCIe e tratado também . Na verdade, o PCI-SIG define erros não fatais corrigíveis como erros de “aviso” e observe que isso deve ser usado como uma indicação de um problema de software, não como um indicativo de um problema com a integridade ou funcionalidade do barramento PCIe.

Como provavelmente é óbvio, geralmente não há muita necessidade de observar dispositivos PCIe incorporados em uma placa-mãe comum, mas as etapas para descobrir onde um determinado dispositivo reside em um barramento PCIe e como ele está se comportando são as mesmas para quase todos os dispositivos. dispositivo. Um caso mais comum hoje em dia, como mencionei anteriormente, é ajudar clientes e parceiros a seguirem esses mesmos passos para produtos como o nosso GB5400.

Answer

O link de outra postagem deste tópico "cirrascale.com/blog/index.php/pci-debugging-101/" não funciona mais em 2019. Porém encontrei o artigo arquivado em:

https://intrepid.warped.com/~scotte/OldBlogEntries/web/index-5.html

Aqui está um trecho do artigo vinculado:

especificar o dispositivo específico (desta vez “0000:02:00.0“) nos fornecerá detalhes.

# lspci -s 0000:02:00.0 -vvv

Dando a saída:

02:00.0 Serial Attached SCSI controller: LSI Logic / Symbios Logic SAS2008 PCI-Express Fusion-MPT SAS-2 [Falcon] (rev 03)

...

DevSta: CorrErr+ UncorrErr- FatalErr- UnsuppReq+ AuxPwr- TransPend-

...

CESta: RxErr- BadTLP- BadDLLP- Rollover- Timeout- NonFatalErr+

CEMsk: RxErr+ BadTLP+ BadDLLP+ Rollover+ Timeout+ NonFatalErr+

Podemos ver nos registros de status do dispositivo (“DevSta“) que o dispositivo apresentou algum tipo de erro corrigível (“CorrErr+“).

Como o erro era um erro corrigível (“CorrErr”), a parte interessante da saída AER é o status do erro corrigível (“CESta”). Nenhum dos bits é definido, exceto o bit de erro não fatal (“NoNFatalErr+“). Pelo nome disso (é um erro, mas não fatal... e foi corrigível!), isso não parece nada com que realmente se preocupar. Verificar se o erro está mascarado ou não (“ CEMsk “) mostra que o fornecedor do dispositivo optou por mascarar esse erro (“ NonFatalErr + “), então eles não acharam que era algo que deveria ser enganado na cadeia de dispositivos PCIe e tratado também . Na verdade, o PCI-SIG define erros não fatais corrigíveis como erros de “aviso” e observe que isso deve ser usado como uma indicação de um problema de software, não como um indicativo de um problema com a integridade ou funcionalidade do barramento PCIe.

Como provavelmente é óbvio, geralmente não há muita necessidade de observar dispositivos PCIe incorporados em uma placa-mãe comum, mas as etapas para descobrir onde um determinado dispositivo reside em um barramento PCIe e como ele está se comportando são as mesmas para quase todos os dispositivos. dispositivo. Um caso mais comum hoje em dia, como mencionei anteriormente, é ajudar clientes e parceiros a seguirem esses mesmos passos para produtos como o nosso GB5400.

Question 2

Não, rastrear erros corrigíveis mascarados geralmente só faz sentido se estiver impactando materialmente o desempenho dos dispositivos PCIe.

http://www.cirrascale.com/blog/index.php/pci-debugging-101/

Answer

Não, rastrear erros corrigíveis mascarados geralmente só faz sentido se estiver impactando materialmente o desempenho dos dispositivos PCIe.

http://www.cirrascale.com/blog/index.php/pci-debugging-101/

A saída lspci -vvv CorrErr e UnCorrErr muda com o tempo

Responder1

Responder2

informação relacionada