Используйте parallel для разделения множества каталогов на подкаталоги или распараллеливания этой задачи

Question 1

Проблема в том, что существует верхний предел байтов, которые может занять командная строка после расширения оболочки, этот предел зависит от предела системы

getconf ARG_MAX

таким образом, количество аргументов будет mv {}меняться в зависимости от длины имени входного файла всякий раз, когда вы достигаете максимального предела.

Решение обойти это ограничение, не отказываясь от использования параллелизма, состоит в том, чтобы разбить задачу на два этапа.

ls -tr | parallel -N 100000 --pipe -k "mkdir dir_{#}; parallel -X mv -t dir_{#}"

Объяснение

На первом этапе используется возможность --pipeразбить stdin на определенное количествоменьшие стандартные вводы, каждый из которых содержит n строк, как указано в параметре -N. Вы можете наблюдать эффект, используя этот пример
```
seq 1000000 | parallel -N 100000 --pipe wc -l
```
что дает точное разделение на отметке 100000
```
100000
100000
100000
...
```
На втором этапе внутренние параллели принимаютменьшие стандартные вводыв качестве нового стандартного ввода для выполнения заданий -Xопция вставляет столько аргументов, сколько позволяет длина командной строки
```
mkdir dir_{#}; parallel -X mv -t dir_{#}
```

Answer

Проблема в том, что существует верхний предел байтов, которые может занять командная строка после расширения оболочки, этот предел зависит от предела системы

getconf ARG_MAX

таким образом, количество аргументов будет mv {}меняться в зависимости от длины имени входного файла всякий раз, когда вы достигаете максимального предела.

Решение обойти это ограничение, не отказываясь от использования параллелизма, состоит в том, чтобы разбить задачу на два этапа.

ls -tr | parallel -N 100000 --pipe -k "mkdir dir_{#}; parallel -X mv -t dir_{#}"

Объяснение

На первом этапе используется возможность --pipeразбить stdin на определенное количествоменьшие стандартные вводы, каждый из которых содержит n строк, как указано в параметре -N. Вы можете наблюдать эффект, используя этот пример
```
seq 1000000 | parallel -N 100000 --pipe wc -l
```
что дает точное разделение на отметке 100000
```
100000
100000
100000
...
```
На втором этапе внутренние параллели принимаютменьшие стандартные вводыв качестве нового стандартного ввода для выполнения заданий -Xопция вставляет столько аргументов, сколько позволяет длина командной строки
```
mkdir dir_{#}; parallel -X mv -t dir_{#}
```

Question 2

Эта проблема касается тяжелого ввода-вывода. Сомневаюсь, что это parallelдействительно полезно в данной ситуации.

В любом случае я предлагаю вам рассмотреть «традиционный» подход:

 mkdir dir_{1..10}
 ls -tr | nl | \
    awk '$2 !~ /^dir_/ {i=1+int($1/100000); print $2 | "xargs mv -t dir_"i}'

где

ls -tr | nl сортирует каталоги по дате и добавляет вспомогательный номер каталога
$2 !~ /^dir_/используется для пропуска только что созданных папок.
i=1+int($1/100000)вычисляет номер папки на основе dir-number
print $2 | "xargs mv -t dir_"iдвижется без распространения процесса

Если возможно, сравните также соответствующее время: time ....(и поделитесь с нами результатами ☺)

Answer

Эта проблема касается тяжелого ввода-вывода. Сомневаюсь, что это parallelдействительно полезно в данной ситуации.

В любом случае я предлагаю вам рассмотреть «традиционный» подход:

 mkdir dir_{1..10}
 ls -tr | nl | \
    awk '$2 !~ /^dir_/ {i=1+int($1/100000); print $2 | "xargs mv -t dir_"i}'

где

ls -tr | nl сортирует каталоги по дате и добавляет вспомогательный номер каталога
$2 !~ /^dir_/используется для пропуска только что созданных папок.
i=1+int($1/100000)вычисляет номер папки на основе dir-number
print $2 | "xargs mv -t dir_"iдвижется без распространения процесса

Если возможно, сравните также соответствующее время: time ....(и поделитесь с нами результатами ☺)

Используйте parallel для разделения множества каталогов на подкаталоги или распараллеливания этой задачи

решение1

решение2

Связанный контент