按列查找文字文件

Question 1

好的，如果列的長度未知，我會切換到比 bash 更強大的語言：

#!/usr/bin/perl
use warnings;
use strict;

my $string = shift;
open my $FH, '<', '1.txt' or die $!;
my $first_line = <$FH>;
my ($before, $name) = $first_line =~ /(.* )(NAME *)/;
my $column = length $before;
$string .= ' ' x (length($name) - length $string);     # adjust the length of $string
while (<$FH>) {
    if ($column == index $_, $string, $column) {
        /^\[([0-9]+)\]/ and print "$1\n";
    }
}

Answer

好的，如果列的長度未知，我會切換到比 bash 更強大的語言：

#!/usr/bin/perl
use warnings;
use strict;

my $string = shift;
open my $FH, '<', '1.txt' or die $!;
my $first_line = <$FH>;
my ($before, $name) = $first_line =~ /(.* )(NAME *)/;
my $column = length $before;
$string .= ' ' x (length($name) - length $string);     # adjust the length of $string
while (<$FH>) {
    if ($column == index $_, $string, $column) {
        /^\[([0-9]+)\]/ and print "$1\n";
    }
}

Question 2

如果欄位寬度是恆定的 - 即您顯示的文件格式與您擁有的欄位寬度處於最大值 - 您可以使用 GNU awk ( gawk(1)) 並將FIELDWIDTHS變數設定為使用固定寬度解析：

gawk -v searchstr="Ideas worth zero" -- '
    BEGIN { FIELDWIDTHS="6 15 27 5" }  # assuming the final field width is 5
    # Pre-process data
    {
        gsub(/[^[:digit:]]/, "", $1)  # strip out non-numbers
        for (i = 2; i <= NF; i++)
            gsub(/[[:space:]]*$/, "", $i)  # strip trailing whitespace
    }
    # match here
    $3 == searchstr { print $1 }
' file.txt

您可以將其包裝在 shell 腳本或函數中並進行參數化searchstr( -v searchstr="$1")。

但是，如果欄位的寬度可變 - 即如果資料發生變化，欄位的寬度可能會發生變化 - 您需要更聰明一點，並透過檢查第一行來動態確定欄位寬度。鑑於一個欄位被稱為OWNER_NAME，使用下劃線，我假設欄位名稱中不存在空格，因此我可以假設空格分隔欄位名稱。

定義後，您可以BEGIN...用以下程式碼替換該行：

NR == 1 {
    for (i = 2; i <= NF; i++)
        FIELDWIDTHS=FIELDWIDTHS index($0" ", " "$i" ")-index($0" ", " "$(i-1)" ") " "
    FIELDWIDTHS=FIELDWIDTHS "5"  # assuming 5 is the width of the last field
    next
}

這將查看第一行上的字段，並透過計算第二個到最後一個字段的後續字段的位置之間的差異來計算字段寬度。我假設最後一個字段的寬度是 5，但我認為你可以在那裡放一個大數字，它將與剩餘的內容一起使用。

我們需要在名稱之前和之後查找空格，以確保我們找不到NAME內部OWNER_NAME（或者如果有一個名為的字段OWNER），而是匹配整個字段（我們還需要附加一個空格以$0確保我們可以匹配即使末尾沒有空格）。

您可以更喜歡，以便可以按字段名稱查詢而不是僅匹配$3，但我將把它留給您。

Answer

如果欄位寬度是恆定的 - 即您顯示的文件格式與您擁有的欄位寬度處於最大值 - 您可以使用 GNU awk ( gawk(1)) 並將FIELDWIDTHS變數設定為使用固定寬度解析：

gawk -v searchstr="Ideas worth zero" -- '
    BEGIN { FIELDWIDTHS="6 15 27 5" }  # assuming the final field width is 5
    # Pre-process data
    {
        gsub(/[^[:digit:]]/, "", $1)  # strip out non-numbers
        for (i = 2; i <= NF; i++)
            gsub(/[[:space:]]*$/, "", $i)  # strip trailing whitespace
    }
    # match here
    $3 == searchstr { print $1 }
' file.txt

您可以將其包裝在 shell 腳本或函數中並進行參數化searchstr( -v searchstr="$1")。

但是，如果欄位的寬度可變 - 即如果資料發生變化，欄位的寬度可能會發生變化 - 您需要更聰明一點，並透過檢查第一行來動態確定欄位寬度。鑑於一個欄位被稱為OWNER_NAME，使用下劃線，我假設欄位名稱中不存在空格，因此我可以假設空格分隔欄位名稱。

定義後，您可以BEGIN...用以下程式碼替換該行：

NR == 1 {
    for (i = 2; i <= NF; i++)
        FIELDWIDTHS=FIELDWIDTHS index($0" ", " "$i" ")-index($0" ", " "$(i-1)" ") " "
    FIELDWIDTHS=FIELDWIDTHS "5"  # assuming 5 is the width of the last field
    next
}

這將查看第一行上的字段，並透過計算第二個到最後一個字段的後續字段的位置之間的差異來計算字段寬度。我假設最後一個字段的寬度是 5，但我認為你可以在那裡放一個大數字，它將與剩餘的內容一起使用。

我們需要在名稱之前和之後查找空格，以確保我們找不到NAME內部OWNER_NAME（或者如果有一個名為的字段OWNER），而是匹配整個字段（我們還需要附加一個空格以$0確保我們可以匹配即使末尾沒有空格）。

您可以更喜歡，以便可以按字段名稱查詢而不是僅匹配$3，但我將把它留給您。

Question 3

可能最簡單的方法是先透過「想法價值為零，然後丟掉行」...或更多」來過濾行：

grep 'Ideas worth zero' | grep -v 'Ideas worth zero or more'

並從該管道中取得數字，輸入：

cut -d' ' -f1 | tr -d ']['

這會剪切第一個欄位（由空格分隔）並刪除方括號。

最好的是，如果您可以稍微更改文件格式，使其帶有適當的欄位分隔符號。

Answer