ffmpeg framemd5 — как добиться соответствия контрольных сумм между LPCM и FLAC?

Question

Это не имеет никакого отношения к метаданным потока FLAC.

ffmpeg-allна фреймхэше(framemd5 — это вариант framehash):

По умолчанию аудиокадры преобразуются в подписанный 16-битный необработанный звук, а видеокадры — в необработанное видео перед вычислением хэша.

(ПРИМЕЧАНИЕ: в случае более высокой битовой глубины вам необходимо будет указать соответствующуюкодер, например-c:a pcm_s24le после -f framemd5(В обоих случаях «A» и «B» для предотвращения вычисления контрольной суммы на «усеченных» аудиокадрах.)

Таким образом, контрольная сумма всегда выполняется для декодированных (а затем кодированных, несколько «фиктивным» способом, как в случаях PCM или нет) кадров, если только вы не указали что-то вроде -c copy. Таким образом, метаданные не будут «мешать» хешированию здесь.

Настоящая причина проблемы здесь в том, что в отличие от случая с видео, «кадр» в данном случае при применении к аудиопотоку относится не к одному сэмплу, а к сэмплам в целом, которые были сгруппированы в пакет. Пакеты могут иметь разные размеры (количество сэмплов) в зависимости от кодировщика/мультиплексора (значения по умолчанию в их коде) и, возможно, настроек пользователя.

Как видно из выходных строк, каждый пакет во входном аудиопотоке содержит 1024 сэмпла в случае PCM, тогда как в случае FLAC каждый пакет содержит 4608 сэмплов.

TL;DR. Решением здесь будет добавление -frame_size 1024после -c:a flacтого, как вы кодируете «сжатую версию».

PS Я понятия не имею, вызовет ли изменение размера кадра/пакета потока FLAC какие-либо проблемы (например, при воспроизведении) / нежелательные побочные эффекты, и вы можете задаться вопросом, можно ли вместо этого изменить размер кадра/пакета потока PCM. Все, что я могу сказать, это то, что в случае PCM это будет на уровне мультиплексора, а не на уровне кодировщика, как в случае FLAC, ~~что более или менее подразумевает, что это вряд ли будет настраиваемым пользователем~~ .

Хотя это может помочь, а может и нет, вы всегда можете попробовать выполнить мультиплексирование (из файлов необработанного потока или файлов WAVE/AIFF, если это PCM, вместо повторного мультиплексирования файла Matroska, поскольку задействованный процесс может отличаться) с другим мультиплексором Matroska в случае, если размер пакета/кадра PCM-in-Matroksa (т. е. 1024) в ffmpeg не работает должным образом при использовании для FLAC.

ОБНОВЛЕНИЕ: Очевидно, если вы используете WAVE-файл в качестве входных данных, вы можете использовать-max_size демультиплексоропция (WAVE dexmuer) для определения размера каждого пакета, когда поток подается в Matrokska muxer. Обратите внимание, что -max_sizeэто байты, а не образцы. Так что в этом случае вы можете использовать что-то вроде ffmpeg ... -max_size 9216 -i path/to/input.wav ...(убедитесь, что у вас есть-max_size до -i). Кажется, я не вижу подобной опции в демультиплексорах raw PCM (например s16le), поэтому вам сначала нужно будет сделать входной аудиофайл WAVE-файлом, если вы хотите использовать его.

Ссылка (расположение в коде значений по умолчанию):
https://github.com/FFmpeg/FFmpeg/blob/n5.1.2/libavcodec/flacenc.c#L314
https://github.com/FFmpeg/FFmpeg/blob/n5.1.2/libavformat/pcm.c#L27
https://github.com/FFmpeg/FFmpeg/blob/n5.1.2/libavformat/wavdec.c#L76

Answer 1