У меня есть скрипт [1], который выполняется демоном Postgres (архиватором WAL) и завершается с кодом выхода 12; см. [2]. Но если я запускаю тот же скрипт в сеансе терминала/ssh, он завершается успешно; см. [3].
Пользователь BasketCase на IRC-канале freenode #rsync пытался диагностировать проблему, но не смог продвинуться далеко. См. [4] для обсуждения.
Это происходит не на всех машинах, на которых он используется, но я сталкиваюсь с этим уже второй раз.
Любая помощь будет высоко оценена.
Заранее спасибо.
[1] Скрипт архивации WAL
#!/bin/bash
# $1 is the %p substituted by postgres in archive_command
# $2 is the %f substituted by postgres in archive_command
# This script backs up the WAL file to every replica, and
# exits with the last failure code, if any.
final_exit_code=0
replicas=$(grep REPLICA /some/file | sort | uniq | cut -d = -f 2-)
for replica_url in $replicas; do
echo Sending WAL file to $replica_url
rsync --timeout=10 -avz -e 'ssh -o StrictHostKeyChecking=no -o UserKnownHostsFile=/dev/null -o ConnectTimeout=10 -i /opt/PostgresPlus/CloudDB/data/cluster_ssh.key' "$1" root@$replica_url:/mnt/pcs/wal_archive/"$2"
exit_code=$?
if [ $exit_code -ne 0 ] ; then final_exit_code=$exit_code ; fi
done
exit $final_exit_code
[2] Отправка файла WAL на 10.33.177.184 rsync: соединение неожиданно закрыто (пока получено 0 байт) [отправитель] ошибка rsync: ошибка в потоке данных протокола rsync (код 12) в io.c(600) [отправитель=3.0.6] ЖУРНАЛ: команда архивации не выполнена с кодом выхода 12 ПОДРОБНОСТИ: Неудачная команда архивации: ./wal_archive.sh pg_xlog/0000000100000005000000EE 000000100000005000000EE
[3] $ ./wal_archive.sh pg_xlog/0000000100000005000000EE 0000000100000005000000EE Отправка файла WAL на 10.33.177.184 Предупреждение: «10.33.177.184» (RSA) навсегда добавлен в список известных хостов. отправка инкрементного списка файлов 0000000100000005000000EE
отправлено 5180930 байт получено 31 байт 941992.91 байт/сек общий размер 16777216 ускорение 3.24
решение1
Проблема заключалась в LD_LIBRARY_PATH
разнице между терминалом и средой демона Postgres.
Если я использую то же самое LD_LIBRARY_PATH
в терминале, то rsync в терминале тоже не сработает:
$ export LD_LIBRARY_PATH=/opt/PostgresPlus/9.1AS/lib:
$ ./wal_archive.sh pg_xlog/0000000100000005000000EE 0000000100000005000000EE
Sending WAL file to 10.33.177.184
rsync: connection unexpectedly closed (0 bytes received so far) [sender]
rsync error: error in rsync protocol data stream (code 12) at io.c(600) [sender=3.0.6]
ssh
использовал библиотеки из /opt/PostgresPlus/9.1AS/lib
, которые, вероятно, несовместимы с ssh
двоичным кодом.
Вот ldd
вывод ssh
после настройки этого экспортаLD_LIBRARY_PATH
$ ldd `which ssh`
linux-vdso.so.1 => (0x00007fff3fa28000)
libfipscheck.so.1 => /lib64/libfipscheck.so.1 (0x00007fe726907000)
libselinux.so.1 => /lib64/libselinux.so.1 (0x00007fe7266e7000)
libcrypto.so.10 => /usr/lib64/libcrypto.so.10 (0x00007fe72634d000)
libutil.so.1 => /lib64/libutil.so.1 (0x00007fe72614a000)
libz.so.1 => /opt/PostgresPlus/9.1AS/lib/libz.so.1 (0x00007fe725f34000)
libnsl.so.1 => /lib64/libnsl.so.1 (0x00007fe725d1b000)
libcrypt.so.1 => /lib64/libcrypt.so.1 (0x00007fe725ae4000)
libresolv.so.2 => /lib64/libresolv.so.2 (0x00007fe7258c9000)
libgssapi_krb5.so.2 => /opt/PostgresPlus/9.1AS/lib/libgssapi_krb5.so.2 (0x00007fe725690000)
libkrb5.so.3 => /opt/PostgresPlus/9.1AS/lib/libkrb5.so.3 (0x00007fe7253d3000)
libk5crypto.so.3 => /opt/PostgresPlus/9.1AS/lib/libk5crypto.so.3 (0x00007fe7251aa000)
libcom_err.so.2 => /lib64/libcom_err.so.2 (0x00007fe724fa6000)
libnss3.so => /usr/lib64/libnss3.so (0x00007fe724c6a000)
libc.so.6 => /lib64/libc.so.6 (0x00007fe7248d6000)
libplc4.so => /lib64/libplc4.so (0x00007fe7246d1000)
libdl.so.2 => /lib64/libdl.so.2 (0x00007fe7244cd000)
/lib64/ld-linux-x86-64.so.2 (0x00007fe726d76000)
libfreebl3.so => /lib64/libfreebl3.so (0x00007fe72426a000)
libcom_err.so.3 => /opt/PostgresPlus/9.1AS/lib/libcom_err.so.3 (0x00007fe724067000)
libkrb5support.so.0 => /opt/PostgresPlus/9.1AS/lib/libkrb5support.so.0 (0x00007fe723e60000)
libpthread.so.0 => /lib64/libpthread.so.0 (0x00007fe723c42000)
libnssutil3.so => /usr/lib64/libnssutil3.so (0x00007fe723a1c000)
libplds4.so => /lib64/libplds4.so (0x00007fe723818000)
libnspr4.so => /lib64/libnspr4.so (0x00007fe7235da000)
А вот та же команда без LD_LIBRARY_PATH
набора
$ ldd `which ssh`
linux-vdso.so.1 => (0x00007fff941ff000)
libfipscheck.so.1 => /lib64/libfipscheck.so.1 (0x00007f93b2ab2000)
libselinux.so.1 => /lib64/libselinux.so.1 (0x00007f93b2893000)
libcrypto.so.10 => /usr/lib64/libcrypto.so.10 (0x00007f93b24f8000)
libutil.so.1 => /lib64/libutil.so.1 (0x00007f93b22f5000)
libz.so.1 => /lib64/libz.so.1 (0x00007f93b20df000)
libnsl.so.1 => /lib64/libnsl.so.1 (0x00007f93b1ec5000)
libcrypt.so.1 => /lib64/libcrypt.so.1 (0x00007f93b1c8e000)
libresolv.so.2 => /lib64/libresolv.so.2 (0x00007f93b1a74000)
libgssapi_krb5.so.2 => /lib64/libgssapi_krb5.so.2 (0x00007f93b1831000)
libkrb5.so.3 => /lib64/libkrb5.so.3 (0x00007f93b1552000)
libk5crypto.so.3 => /lib64/libk5crypto.so.3 (0x00007f93b1326000)
libcom_err.so.2 => /lib64/libcom_err.so.2 (0x00007f93b1121000)
libnss3.so => /usr/lib64/libnss3.so (0x00007f93b0de5000)
libc.so.6 => /lib64/libc.so.6 (0x00007f93b0a52000)
libplc4.so => /lib64/libplc4.so (0x00007f93b084c000)
libdl.so.2 => /lib64/libdl.so.2 (0x00007f93b0648000)
/lib64/ld-linux-x86-64.so.2 (0x00007f93b2f21000)
libfreebl3.so => /lib64/libfreebl3.so (0x00007f93b03e6000)
libkrb5support.so.0 => /lib64/libkrb5support.so.0 (0x00007f93b01da000)
libkeyutils.so.1 => /lib64/libkeyutils.so.1 (0x00007f93affd7000)
libpthread.so.0 => /lib64/libpthread.so.0 (0x00007f93afdba000)
libnssutil3.so => /usr/lib64/libnssutil3.so (0x00007f93afb93000)
libplds4.so => /lib64/libplds4.so (0x00007f93af98f000)
libnspr4.so => /lib64/libnspr4.so (0x00007f93af752000)