У меня есть простой скрипт на Python, который считывает данные со стандартного ввода (одну строку), выполняет некоторую обработку (анализ строк, без использования ввода-вывода) и выводит данные на стандартный вывод.
e.g. python parse.py < in.txt > out.txt
У меня есть in.txt
файл размером около 200 ГБ, и я использую параллельный режим для его ускорения (у меня 8 ядер процессора).
cat in.txt | parallel -j8 -N1 --pipe python parse.py
Я заметил, что процессор не используется полностью, например
%Cpu0 : 9.1 us, 22.7 sy, 0.0 ni, 68.2 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
%Cpu1 : 27.3 us, 13.6 sy, 0.0 ni, 59.1 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
%Cpu2 : 14.3 us, 71.4 sy, 0.0 ni, 14.3 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
%Cpu3 : 14.3 us, 28.6 sy, 0.0 ni, 57.1 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
%Cpu4 : 14.3 us, 38.1 sy, 0.0 ni, 47.6 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
%Cpu5 : 4.8 us, 23.8 sy, 0.0 ni, 71.4 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
%Cpu6 : 15.0 us, 20.0 sy, 0.0 ni, 65.0 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
%Cpu7 : 23.8 us, 19.0 sy, 0.0 ni, 57.1 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
И
ps ax | grep python
я получил
12450 ? S 0:00 /bin/bash -c sh -c 'dd bs=1 count=1 of=/tmp/2NQLo8j4qy.chr 2>/dev/null'; test ! -s "/tmp/2NQLo8j4qy.chr" && rm -f "/tmp/2NQLo8j4qy.chr" && exec true; (cat /tmp/2NQLo8j4qy.chr; rm /tmp/2NQLo8j4qy.chr; cat - ) | (python parse.py);
12453 ? S 0:00 /bin/bash -c sh -c 'dd bs=1 count=1 of=/tmp/zYnfr4Ss8H.chr 2>/dev/null'; test ! -s "/tmp/zYnfr4Ss8H.chr" && rm -f "/tmp/zYnfr4Ss8H.chr" && exec true; (cat /tmp/zYnfr4Ss8H.chr; rm /tmp/zYnfr4Ss8H.chr; cat - ) | (python parse.py);
12456 ? S 0:00 /bin/bash -c sh -c 'dd bs=1 count=1 of=/tmp/wlrI14juYz.chr 2>/dev/null'; test ! -s "/tmp/wlrI14juYz.chr" && rm -f "/tmp/wlrI14juYz.chr" && exec true; (cat /tmp/wlrI14juYz.chr; rm /tmp/wlrI14juYz.chr; cat - ) | (python parse.py);
12459 ? S 0:00 /bin/bash -c sh -c 'dd bs=1 count=1 of=/tmp/cyArLNBTTm.chr 2>/dev/null'; test ! -s "/tmp/cyArLNBTTm.chr" && rm -f "/tmp/cyArLNBTTm.chr" && exec true; (cat /tmp/cyArLNBTTm.chr; rm /tmp/cyArLNBTTm.chr; cat - ) | (python parse.py);
12461 pts/0 S+ 0:00 grep --color=auto python
15211 ? S 144:22 perl /usr/bin/parallel -j8 -N1 --pipe python parse.py
Каждый раз при запуске ps ax | grep python
у меня появляются разные временные файлы, я предполагаю, что процессор тратит силы на обработку этих временных файлов? Или я что-то не так делаю?
решение1
Хотя ответ Марка правильный и полностью поддерживается, вам, возможно, захочется попробовать новую функцию.
cat file | parallel --pipe ...
максимальная скорость составляет около 100 МБ/с.
Новая экспериментальная опция --pipepart обеспечивает скорость > 2 ГБ/с, но требует, чтобы in.txt был реальным (доступным для поиска) файлом:
parallel -a in.txt --block 100M --pipepart python parse.py
решение2
Это -N1
приводит к созданию одного процесса на строку. Вы видите накладные расходы параллельной настройки. Вам следует изменить скрипт python для обработки более одной строки. Затем cat in.txt | parallel --pipe python parse.py
следует полностью использовать процессоры.