Используйте awk для выбора только тех строк, в которых одно поле меньше порогового значения из CSV-файла.

Question 1

Если вы просто хотите отфильтровать все строки, в которых 4-е поле ниже порогового значения, awkподойдет следующая команда:

awk -F',' -v margin=0.2 'FNR==2 {min=$4} FNR>1&&($4<=(1+margin)*min)' input.csv

или, если вы хотите, чтобы заголовок также отображался в отфильтрованном выводе:

awk -F',' -v margin=0.2 'FNR==2 {min=$4} FNR==1||($4<=(1+margin)*min)' input.csv

Это установит разделитель полей на ,(но учтите, что ваш файл нестандартный CSV, поскольку у вас есть дополнительные пробелы, разделяющие поля) и импортирует переменную marginсо значением 0.2в awkпрограмму.

Внутри программы она установит minзначение переменной в значение в 4-м столбце, если мы находимся на строке 2 ( FNR==2). Затем она выведет текущую строку только в том случае, если мы находимся на строке 1 (заголовок — если он вам нужен) или если мы находимся в части данных файла, а 4-е поле меньше, чем 1+marginумноженное на минимальное значение.

Answer

Если вы просто хотите отфильтровать все строки, в которых 4-е поле ниже порогового значения, awkподойдет следующая команда:

awk -F',' -v margin=0.2 'FNR==2 {min=$4} FNR>1&&($4<=(1+margin)*min)' input.csv

или, если вы хотите, чтобы заголовок также отображался в отфильтрованном выводе:

awk -F',' -v margin=0.2 'FNR==2 {min=$4} FNR==1||($4<=(1+margin)*min)' input.csv

Это установит разделитель полей на ,(но учтите, что ваш файл нестандартный CSV, поскольку у вас есть дополнительные пробелы, разделяющие поля) и импортирует переменную marginсо значением 0.2в awkпрограмму.

Внутри программы она установит minзначение переменной в значение в 4-м столбце, если мы находимся на строке 2 ( FNR==2). Затем она выведет текущую строку только в том случае, если мы находимся на строке 1 (заголовок — если он вам нужен) или если мы находимся в части данных файла, а 4-е поле меньше, чем 1+marginумноженное на минимальное значение.

Question 2

Это довольно многословный скрипт - не используйте никаких сокращений и не выводите информацию в stderr. Что касается части sh, вы обычно можете добавить опции для установки значений "Globals" вверху, чтобы можно было вызывать с опциями в дополнение к аргументам. То есть:

my_script --max-factor 0.15 -p 20 --out-file foo.csv *.csv

Итак, с помощью этой фильтрации по rescoredи проценту строк. Подробные части, очевидно, могут быть удалены.

#!/bin/sh

# Globals with defaults set
num_lines=0
max_percent_lines=10
max_factor=0.2

fn_in=""
# Default out. Optionally set to another file.
fn_out=/dev/stdout
# As /dev/null to quiet information
fn_err=/dev/stderr

get_num_lines()
{
    num_lines=$(wc -l< "$1")
}
print_filtered()
{
    awk \
    -v num_lines="$num_lines" \
    -v max_percent_lines="$max_percent_lines" \
    -v max_factor="$max_factor" \
    -v fn_err="$fn_err" \
    '
    BEGIN {
        FS=", "
        # Exclude header
        max_line = (1 + num_lines / 100 * max_percent_lines)
        # Truncate
        max_line -= max_line % 1
        printf "Lines       : %d\n",
            num_lines - 1 >>fn_err
        printf "Line Max    : %d (%d%%)\n",
            max_line, max_percent_lines >>fn_err
    }
    NR == 2 {
        max_rescored = ($4 + $4 * max_factor)
        printf "Rescored Max: %f\n", max_rescored >>fn_err
    }
    NR > 1 {
        print $0
    }
    NR >= max_line {
        printf "Max Line    : %d (Exit)\n", max_line >>fn_err
        exit
    }
    $4 >= max_rescored && NR > 2 {
        printf "Max Rescored: %f (Exit)\n", $4 >>fn_err
        exit
    }
    ' "$fn_in" >>"$fn_out"
}

# Here one could loop multiple input files

Параметры командной строки

Согласно запросу в комментариях.

Для получения опций есть множество способов. Простейшими будут позиционные аргументы. Например:

Usage: script percent margin <files ...>

В сценарии тогда можно было бы сказать:

percent=$1
margin=$2
shift
shift
... loop files ...

Если кто-то хочет быть более нарядным/гибким, то можно сделать что-то вроде этого;

Сначала напишите helpфункцию. Это может быть что-то вроде этого. (Использование basenameand, $0вероятно, можно обсудить):

print_help() {
    printf "Usage: %s [OPTIONS] <FILES ...>\n" "$(basename "$0")"
    printf "\nSome description\n"
    printf "\nOPTIONS\n"
    printf "  -p --percent-lines  V  Print percent of file. Default %s\n" "$max_percent_lines"
    printf "  -r --max-factor     V  Max rescored increase. Default %s\n" "$max_factor"
    printf "  -o --out-file       V  Output file. Default stdout\n"
    printf "  -q --quiet             Silence information\n"
    printf "  -h --help              This help\n"
    printf "  --                     Everything after this is input files\n"
    printf "\nEverything after first unrecognized option is treated as a file.\n"
}

Обычно его вызывают с помощью print_help >&2as для вывода на stderr, а не на stdout.

С helpвышеприведенным вариантом используйте полустандартный способ. Он не принимает -abcили --foo=123, но каждая опция и аргумент должны быть разделены пробелами.

По желанию, без каламбуров, ознакомьтесь с такими постами, как

getopt, getopts или ручной парсинг — что использовать, если я хочу поддерживать как короткие, так и длинные параметры?

Тогда простой способ для остальной части скрипта, с некоторой наивной проверкой ошибок, мог бы быть таким:


# While not empty
while ! [ -z "$1" ]; do
    case "$1" in
    -h|--help)
        print_help >&2
        exit 1
        ;;
    -p|--percent-lines)
        shift
        max_percent_lines="$1"
        ;;
    -r|--max-factor)
        shift
        max_factor="$1"
        ;;
    -o|--out-file)
        shift
        fn_out="$1"
        ;;
    -q|--quiet)
        fn_err="/dev/null"
        ;;
    --)
        break
        ;;
    *)
        break
        ;;
    esac
    # Next argument
    shift
done

if ! [ -r "$1" ]; then
    printf "Unable to read file: \`%s'\n" "$1" >&2
    exit 1
fi

# Print header from first file
head -n 1 "$1" >>"$fn_out"

for fn_in in "$@"; do
    printf "Processing '%s'\n" "$fn_in" >>"$fn_err"
    if ! [ -r "$1" ]; then
        printf "Unable to read file: \`%s'\n" "$1" >&2
        exit 1
    fi
    get_num_lines
    print_filtered
done

Можно было бы реализовать больше проверок вариантов, например, убедиться, что это числа и т. д.

Answer

Это довольно многословный скрипт - не используйте никаких сокращений и не выводите информацию в stderr. Что касается части sh, вы обычно можете добавить опции для установки значений "Globals" вверху, чтобы можно было вызывать с опциями в дополнение к аргументам. То есть:

my_script --max-factor 0.15 -p 20 --out-file foo.csv *.csv

Итак, с помощью этой фильтрации по rescoredи проценту строк. Подробные части, очевидно, могут быть удалены.

#!/bin/sh

# Globals with defaults set
num_lines=0
max_percent_lines=10
max_factor=0.2

fn_in=""
# Default out. Optionally set to another file.
fn_out=/dev/stdout
# As /dev/null to quiet information
fn_err=/dev/stderr

get_num_lines()
{
    num_lines=$(wc -l< "$1")
}
print_filtered()
{
    awk \
    -v num_lines="$num_lines" \
    -v max_percent_lines="$max_percent_lines" \
    -v max_factor="$max_factor" \
    -v fn_err="$fn_err" \
    '
    BEGIN {
        FS=", "
        # Exclude header
        max_line = (1 + num_lines / 100 * max_percent_lines)
        # Truncate
        max_line -= max_line % 1
        printf "Lines       : %d\n",
            num_lines - 1 >>fn_err
        printf "Line Max    : %d (%d%%)\n",
            max_line, max_percent_lines >>fn_err
    }
    NR == 2 {
        max_rescored = ($4 + $4 * max_factor)
        printf "Rescored Max: %f\n", max_rescored >>fn_err
    }
    NR > 1 {
        print $0
    }
    NR >= max_line {
        printf "Max Line    : %d (Exit)\n", max_line >>fn_err
        exit
    }
    $4 >= max_rescored && NR > 2 {
        printf "Max Rescored: %f (Exit)\n", $4 >>fn_err
        exit
    }
    ' "$fn_in" >>"$fn_out"
}

# Here one could loop multiple input files

Параметры командной строки

Согласно запросу в комментариях.

Для получения опций есть множество способов. Простейшими будут позиционные аргументы. Например:

Usage: script percent margin <files ...>

В сценарии тогда можно было бы сказать:

percent=$1
margin=$2
shift
shift
... loop files ...

Если кто-то хочет быть более нарядным/гибким, то можно сделать что-то вроде этого;

Сначала напишите helpфункцию. Это может быть что-то вроде этого. (Использование basenameand, $0вероятно, можно обсудить):

print_help() {
    printf "Usage: %s [OPTIONS] <FILES ...>\n" "$(basename "$0")"
    printf "\nSome description\n"
    printf "\nOPTIONS\n"
    printf "  -p --percent-lines  V  Print percent of file. Default %s\n" "$max_percent_lines"
    printf "  -r --max-factor     V  Max rescored increase. Default %s\n" "$max_factor"
    printf "  -o --out-file       V  Output file. Default stdout\n"
    printf "  -q --quiet             Silence information\n"
    printf "  -h --help              This help\n"
    printf "  --                     Everything after this is input files\n"
    printf "\nEverything after first unrecognized option is treated as a file.\n"
}

Обычно его вызывают с помощью print_help >&2as для вывода на stderr, а не на stdout.

С helpвышеприведенным вариантом используйте полустандартный способ. Он не принимает -abcили --foo=123, но каждая опция и аргумент должны быть разделены пробелами.

По желанию, без каламбуров, ознакомьтесь с такими постами, как

getopt, getopts или ручной парсинг — что использовать, если я хочу поддерживать как короткие, так и длинные параметры?

Тогда простой способ для остальной части скрипта, с некоторой наивной проверкой ошибок, мог бы быть таким:


# While not empty
while ! [ -z "$1" ]; do
    case "$1" in
    -h|--help)
        print_help >&2
        exit 1
        ;;
    -p|--percent-lines)
        shift
        max_percent_lines="$1"
        ;;
    -r|--max-factor)
        shift
        max_factor="$1"
        ;;
    -o|--out-file)
        shift
        fn_out="$1"
        ;;
    -q|--quiet)
        fn_err="/dev/null"
        ;;
    --)
        break
        ;;
    *)
        break
        ;;
    esac
    # Next argument
    shift
done

if ! [ -r "$1" ]; then
    printf "Unable to read file: \`%s'\n" "$1" >&2
    exit 1
fi

# Print header from first file
head -n 1 "$1" >>"$fn_out"

for fn_in in "$@"; do
    printf "Processing '%s'\n" "$fn_in" >>"$fn_err"
    if ! [ -r "$1" ]; then
        printf "Unable to read file: \`%s'\n" "$1" >&2
        exit 1
    fi
    get_num_lines
    print_filtered
done

Можно было бы реализовать больше проверок вариантов, например, убедиться, что это числа и т. д.

Используйте awk для выбора только тех строк, в которых одно поле меньше порогового значения из CSV-файла.

решение1

решение2

Параметры командной строки

Связанный контент