Хранение сотен миллионов записей

Question 1

Мой опыт работы с наборами данных такого размера ограничен MSSQL, но эта СУБД определенно может обрабатывать данные такого размера.

Первое, что меня беспокоит, — это размер данных. 300 миллионов записей по 150 ГБ — это около 500 КБ на строку — и это большая строка. Очень, очень большая строка. Если вы можете нормализовать до 3-й нормальной формы, то это может существенно помочь (при условии, что есть данные, которые можно нормализовать). Если вы не собираетесь нормализовать (и у вас просто одна большая таблица), то движок, поддерживающий ISAM, будет быстрее, чем СУРБД, поэтому MySQL в режиме ISAM — очевидный выбор вместо MSSQL (извините, у меня нет никакого опыта работы с Postgre или Mongo)

При этом MSSQL может справиться с таблицей такого размера, не беспокоясь. Он может разбить данные так, чтобы разные части находились на разных дисках, так что вы можете хранить 1% обновленных данных на быстром диске, а остальные — на более медленном, если бюджет вас смущает. Если ваша СУБД поддерживает это, то это может быть разумным решением.

Просто для справки, однажды я управлял базой данных, в которой было около 200 миллионов строк в одной таблице (но таблица была размером всего 20 ГБ), и с некоторой умной индексацией время запроса все еще измерялось в миллисекундах. Это было нормализовано до 3-й нормальной формы, поэтому было много LOJ для извлечения связанных данных.

Answer

Мой опыт работы с наборами данных такого размера ограничен MSSQL, но эта СУБД определенно может обрабатывать данные такого размера.

Первое, что меня беспокоит, — это размер данных. 300 миллионов записей по 150 ГБ — это около 500 КБ на строку — и это большая строка. Очень, очень большая строка. Если вы можете нормализовать до 3-й нормальной формы, то это может существенно помочь (при условии, что есть данные, которые можно нормализовать). Если вы не собираетесь нормализовать (и у вас просто одна большая таблица), то движок, поддерживающий ISAM, будет быстрее, чем СУРБД, поэтому MySQL в режиме ISAM — очевидный выбор вместо MSSQL (извините, у меня нет никакого опыта работы с Postgre или Mongo)

При этом MSSQL может справиться с таблицей такого размера, не беспокоясь. Он может разбить данные так, чтобы разные части находились на разных дисках, так что вы можете хранить 1% обновленных данных на быстром диске, а остальные — на более медленном, если бюджет вас смущает. Если ваша СУБД поддерживает это, то это может быть разумным решением.

Просто для справки, однажды я управлял базой данных, в которой было около 200 миллионов строк в одной таблице (но таблица была размером всего 20 ГБ), и с некоторой умной индексацией время запроса все еще измерялось в миллисекундах. Это было нормализовано до 3-й нормальной формы, поэтому было много LOJ для извлечения связанных данных.

Question 2

Большинство баз данных могут легко управлять хранением таких больших объемов, это действительно зависит от того, что вы хотите делать с данными после их загрузки. Является ли она транзакционной, поэтому она будет часто запрашиваться и обновляться? Или она больше предназначена для отчетности, когда новая информация поступает каждый день из транзакционной системы?

Answer

Большинство баз данных могут легко управлять хранением таких больших объемов, это действительно зависит от того, что вы хотите делать с данными после их загрузки. Является ли она транзакционной, поэтому она будет часто запрашиваться и обновляться? Или она больше предназначена для отчетности, когда новая информация поступает каждый день из транзакционной системы?

Хранение сотен миллионов записей

решение1

решение2

Связанный контент