Недостатки использования ZFS-записи размером 16 КБ вместо 128 КБ

Question 1

Короткий ответ:Это действительно зависит от ожидаемого варианта использования. Как правило, размер записи по умолчанию 128 КБ является хорошим выбором для механических дисков (где задержка доступа определяется временем поиска + задержкой вращения). Для пула из одних SSD я бы, вероятно, использовал 16 КБ или максимум 32 КБ (только если последний вариант обеспечивает значительное повышение эффективности сжатия ваших данных).

Длинный ответ:С пулом HDD я рекомендую придерживаться размера записей по умолчанию 128K для наборов данных и использовать 128K volblocksize для zvol. Обоснование в том, что задержка доступа для HDD 7.2K RPM определяется временем поиска, котороенетмасштабируем с recordsize/volblocksize. Давайте займемся математикой: среднее время поиска жесткого диска 7,2 КБ составляет 8,3 мс, в то время как чтение блока 128 КБ занимает всего ~1 мс. Поэтому команда head seek (с задержкой 8 мс+) для чтения небольших блоков 16 КБ кажется расточительной, особенно учитывая, что для небольших чтений/записей вы все равно страдаете от задержки r/m/w. Более того, небольшой размер записи означает большие накладные расходы на метаданные и худшее сжатие. Таким образом, в то время как InnoDB выдает 16 КБ ввода-вывода, и для выделенного набора данных можно использовать размер записи 16 КБ, чтобы избежать усиления r/m/w и записи, для наборов данных смешанного использования (т. е. тех, которые вы используете не только для самой базы данных, но и для более общих рабочих нагрузок) я бы рекомендовал остановиться на 128 КБ, особенно учитывая влияние сжатия от небольшого размера записи.

Однако для пула SSD я бы использовал гораздо меньший volblocksize/recordsize, возможно, в диапазоне 16-32K. Обоснование в том, что SSD имеют гораздо меньшее время доступа, но ограниченную выносливость, поэтому запись полного блока 128K для небольших записей кажется чрезмерной. Более того, усиление пропускной способности ввода-вывода, вызванное большим размером записей, гораздо более тревожно на устройстве с высоким IOP, чем современные SSD (т. е. вы рискуете перегрузить свою пропускную способностьдо(достижение предела IOP).

Answer

Короткий ответ:Это действительно зависит от ожидаемого варианта использования. Как правило, размер записи по умолчанию 128 КБ является хорошим выбором для механических дисков (где задержка доступа определяется временем поиска + задержкой вращения). Для пула из одних SSD я бы, вероятно, использовал 16 КБ или максимум 32 КБ (только если последний вариант обеспечивает значительное повышение эффективности сжатия ваших данных).

Длинный ответ:С пулом HDD я рекомендую придерживаться размера записей по умолчанию 128K для наборов данных и использовать 128K volblocksize для zvol. Обоснование в том, что задержка доступа для HDD 7.2K RPM определяется временем поиска, котороенетмасштабируем с recordsize/volblocksize. Давайте займемся математикой: среднее время поиска жесткого диска 7,2 КБ составляет 8,3 мс, в то время как чтение блока 128 КБ занимает всего ~1 мс. Поэтому команда head seek (с задержкой 8 мс+) для чтения небольших блоков 16 КБ кажется расточительной, особенно учитывая, что для небольших чтений/записей вы все равно страдаете от задержки r/m/w. Более того, небольшой размер записи означает большие накладные расходы на метаданные и худшее сжатие. Таким образом, в то время как InnoDB выдает 16 КБ ввода-вывода, и для выделенного набора данных можно использовать размер записи 16 КБ, чтобы избежать усиления r/m/w и записи, для наборов данных смешанного использования (т. е. тех, которые вы используете не только для самой базы данных, но и для более общих рабочих нагрузок) я бы рекомендовал остановиться на 128 КБ, особенно учитывая влияние сжатия от небольшого размера записи.

Однако для пула SSD я бы использовал гораздо меньший volblocksize/recordsize, возможно, в диапазоне 16-32K. Обоснование в том, что SSD имеют гораздо меньшее время доступа, но ограниченную выносливость, поэтому запись полного блока 128K для небольших записей кажется чрезмерной. Более того, усиление пропускной способности ввода-вывода, вызванное большим размером записей, гораздо более тревожно на устройстве с высоким IOP, чем современные SSD (т. е. вы рискуете перегрузить свою пропускную способностьдо(достижение предела IOP).

Question 2

Я рекомендую настроитьесли и когдавы столкнулись с проблемой.

По умолчанию в ZFS размер записи составляет 128 КБ, и это приемлемо и допустимо для большинства конфигураций и приложений.

Исключениями из этого правила являются:

определенные приложения баз данных; меньшее значение может быть уместным.
Компромисс в том, что сжатие будет гораздо менее эффективным, что может иметь большее влияние на производительность, чем большее количество транзакций!!
большие рабочие нагрузки мультимедиа (например, редактирование видео); полезно большее значение
определенные рабочие нагрузки, выходящие за рамки обычных вариантов использования ZFS

Если вы считаете, что производительность бенчмарка базы данных лучше при определенном размере записи, используйте его!
Но вы тестировали с реалистичнымне-бенчмаркинграбочей нагрузки, чтобы убедиться, что вы настраиваетесь на правильный путь?

Answer

Я рекомендую настроитьесли и когдавы столкнулись с проблемой.

По умолчанию в ZFS размер записи составляет 128 КБ, и это приемлемо и допустимо для большинства конфигураций и приложений.

Исключениями из этого правила являются:

определенные приложения баз данных; меньшее значение может быть уместным.
Компромисс в том, что сжатие будет гораздо менее эффективным, что может иметь большее влияние на производительность, чем большее количество транзакций!!
большие рабочие нагрузки мультимедиа (например, редактирование видео); полезно большее значение
определенные рабочие нагрузки, выходящие за рамки обычных вариантов использования ZFS

Если вы считаете, что производительность бенчмарка базы данных лучше при определенном размере записи, используйте его!
Но вы тестировали с реалистичнымне-бенчмаркинграбочей нагрузки, чтобы убедиться, что вы настраиваетесь на правильный путь?

Question 3

Если это имеет значение, то в документации zfs рекомендуется установить «recordsize=16K».

https://openzfs.github.io/openzfs-docs/Performance%20and%20Tuning/Workload%20Tuning.html#innodb

EDIT: Я только что вернул эту настройку после того, как изменил ее менее чем на 12 часов на сервере proxmox для виртуального сервера с довольно большой базой данных (>60 ГБ данных). Сервер серьезно отстал в анализе данных. Фактически, 'z_rd_int_' процессы подскочили с низкого уровня использования ЦП до примерно 5% каждый, в то время как 'z_wr_int_' обработано снизилось использование процессора - вероятно, потому, что было обработано меньше данных.

Однако изменение алгоритма хеширования на edonr ( zfs set checksum=edonr vmpool) оказало положительное влияние: perf topбольше не отображается SHA256TransformBlocksкак верхняя функция ядра.

Таким образом, рекомендация не во всех случаях оказывается хорошей — ее можно вернуть к исходному набору.

Answer

Если это имеет значение, то в документации zfs рекомендуется установить «recordsize=16K».

https://openzfs.github.io/openzfs-docs/Performance%20and%20Tuning/Workload%20Tuning.html#innodb

EDIT: Я только что вернул эту настройку после того, как изменил ее менее чем на 12 часов на сервере proxmox для виртуального сервера с довольно большой базой данных (>60 ГБ данных). Сервер серьезно отстал в анализе данных. Фактически, 'z_rd_int_' процессы подскочили с низкого уровня использования ЦП до примерно 5% каждый, в то время как 'z_wr_int_' обработано снизилось использование процессора - вероятно, потому, что было обработано меньше данных.

Однако изменение алгоритма хеширования на edonr ( zfs set checksum=edonr vmpool) оказало положительное влияние: perf topбольше не отображается SHA256TransformBlocksкак верхняя функция ядра.

Таким образом, рекомендация не во всех случаях оказывается хорошей — ее можно вернуть к исходному набору.

Недостатки использования ZFS-записи размером 16 КБ вместо 128 КБ

решение1

решение2

решение3

Связанный контент