Armazenando centenas de milhões de registros

Question 1

Minha experiência em conjuntos de dados desse tamanho é limitada ao MSSQL, mas ele definitivamente pode lidar com dados desse tamanho.

Minha primeira preocupação é o tamanho dos dados. 300 milhões de registros a 150 GB equivalem a cerca de 500 KB por linha - e isso é uma grande linha. Uma briga muito, muito grande. Se você puder normalizar para a terceira forma normal, isso poderá ajudar drasticamente (assumindo que haja dados que possam ser normalizados). Se você não vai normalizar (e apenas ter uma tabela única e enorme), então um mecanismo que suporte ISAM será mais rápido que um RDBMS, então MySQL no modo ISAM é a escolha óbvia em vez de MSSQL (desculpe, eu não não tenho nenhuma experiência com Postgre ou Mongo)

Dito isto, o MSSQL pode lidar com uma tabela desse tamanho sem problemas. Ele pode particionar os dados para que diferentes partes residam em discos diferentes, para que você possa manter 1% dos dados atualizados em um disco rápido e manter o restante em um disco mais lento se o orçamento for uma preocupação. Se o seu SGBD preferido suportar isso, então pode ser uma boa opção.

Apenas para referência, certa vez gerenciei um banco de dados que tinha cerca de 200 milhões de linhas em uma única tabela (mas a tabela tinha apenas 20 Gb de tamanho) e com alguma indexação inteligente os tempos de consulta ainda eram medidos em milissegundos. Isso foi normalizado para a terceira forma normal, então havia muitos LOJs para recuperar dados associados também.

Answer

Minha experiência em conjuntos de dados desse tamanho é limitada ao MSSQL, mas ele definitivamente pode lidar com dados desse tamanho.

Minha primeira preocupação é o tamanho dos dados. 300 milhões de registros a 150 GB equivalem a cerca de 500 KB por linha - e isso é uma grande linha. Uma briga muito, muito grande. Se você puder normalizar para a terceira forma normal, isso poderá ajudar drasticamente (assumindo que haja dados que possam ser normalizados). Se você não vai normalizar (e apenas ter uma tabela única e enorme), então um mecanismo que suporte ISAM será mais rápido que um RDBMS, então MySQL no modo ISAM é a escolha óbvia em vez de MSSQL (desculpe, eu não não tenho nenhuma experiência com Postgre ou Mongo)

Dito isto, o MSSQL pode lidar com uma tabela desse tamanho sem problemas. Ele pode particionar os dados para que diferentes partes residam em discos diferentes, para que você possa manter 1% dos dados atualizados em um disco rápido e manter o restante em um disco mais lento se o orçamento for uma preocupação. Se o seu SGBD preferido suportar isso, então pode ser uma boa opção.

Apenas para referência, certa vez gerenciei um banco de dados que tinha cerca de 200 milhões de linhas em uma única tabela (mas a tabela tinha apenas 20 Gb de tamanho) e com alguma indexação inteligente os tempos de consulta ainda eram medidos em milissegundos. Isso foi normalizado para a terceira forma normal, então havia muitos LOJs para recuperar dados associados também.

Question 2

A maioria dos bancos de dados pode gerenciar facilmente o armazenamento de grandes quantidades; isso realmente depende do que você deseja fazer com os dados depois de carregá-los. É transacional, por isso será consultado e atualizado com frequência? Ou é mais para gerar relatórios apenas com novas informações que chegam todos os dias do sistema transacional?

Answer

A maioria dos bancos de dados pode gerenciar facilmente o armazenamento de grandes quantidades; isso realmente depende do que você deseja fazer com os dados depois de carregá-los. É transacional, por isso será consultado e atualizado com frequência? Ou é mais para gerar relatórios apenas com novas informações que chegam todos os dias do sistema transacional?

Armazenando centenas de milhões de registros

Responder1

Responder2

informação relacionada