Os trabalhos SSIS/ETL falham com erros relacionados à rede, quando a rede está OK

Os trabalhos SSIS/ETL falham com erros relacionados à rede, quando a rede está OK

Temos uma instância do SQL Server 2012 que é nosso principal servidor ETL/DW. Os trabalhos diários consistem em mais de 40 processos ETL consultando outras fontes de dados, atualizando o DataMart, processos ETL padrão e BI.

Nas últimas semanas, muitos trabalhos falharam devido a erros relacionados à rede. A maioria desses erros consiste em:
"Não foi possível concluir o processo de login devido ao atraso na abertura da conexão do servidor"
"O tempo limite de login expirou"
"Ocorreu um erro relacionado à rede ou específico da instância ao estabelecer uma conexão com o SQL Server. Servidor não encontrado ou não acessível. Verifique se o nome da instância está correto e se o SQL Server está configurado para permitir conexões remotas."

Todas as contas de fonte de dados, permissões e disponibilidade foram verificadas como funcionando, e o login e a execução manual dos pacotes ETL funcionaram sem problemas. O único problema de recursos que temos é a alta CPU, entre 90-99%, durante o processamento diário do trabalho, que é quando esses erros surgem.

As falhas não são consistentes, mas geralmente uma vez por semana ou mais, obtemos um grande número em um dia, quando todo o resto está funcionando bem.

Onde mais eu poderia procurar a origem desses problemas? A alta utilização da CPU está causando longas esperas, que se manifestam como erros de rede?

Responder1

Pode muito bem ser a alta CPU no servidor SSIS. Se as CPUs estiverem muito ocupadas no cliente (neste caso, o servidor SSIS), o cliente poderá esperar muito tempo para processar a resposta do SQL Server. Você precisará reduzir a carga de trabalho na caixa SSIS ou otimizar algumas coisas para que a carga da CPU diminua para que as conexões funcionem sem problemas.

informação relacionada