¿Cómo puedo extraer datos basados en ciertos indicadores para filas de datos y crear un nuevo archivo con ellos?

Question 1

Usando Raku (anteriormente conocido como Perl6)

~$ raku -ne '.trim-leading.put if .words[0].grep(rx/"**"? <(254 | 1 | 3 | 9)> /) | (.words[0].grep("4" | "**4") && .words[1].grep(rx/1000 | 925 | 850 /)) ;' UABalloon.txt
**254     12      1      JAN    2002
1  94703  72501  40.87N 72.87W    20   1116**
**3           OKX                32767     ms**
**9   1014     20   -105   -130    310      5**
**4   1000    131    -45    -95    315     20**
**4    925    741    -75   -155     20     36**
**4    850   1393   -117   -197    290     56**
254      0      2      JAN    2002
1  94703  72501  40.87N 72.87W    20   2305
3           OKX                32767     ms
9   1016     20    -13   -113    320     36
4   1000    150    -13   -123    320     72
4    925    764    -71   -141    320    144
4    850   1416   -125   -185    340    164

El .grepcódigo anterior se basa en la función de Raku .words, que se divide en espacios en blanco. Se incluye código para capturar líneas que comienzan con " **". El .trim-leadingmétodo elimina los espacios en blanco iniciales de la salida.

Puede ver que esta solución se desarrolla en dos pasos. Para recortar los asteriscos iniciales y terminales, ejecute el código anterior, guárdelo en un archivo tmp_file.txty luego ejecute el código siguiente:

~$ raku -pe 's:g/ \** (.+?) \** /$0/;' tmp.txt
254     12      1      JAN    2002
1  94703  72501  40.87N 72.87W    20   1116
3           OKX                32767     ms
9   1014     20   -105   -130    310      5
4   1000    131    -45    -95    315     20
4    925    741    -75   -155     20     36
4    850   1393   -117   -197    290     56
254      0      2      JAN    2002
1  94703  72501  40.87N 72.87W    20   2305
3           OKX                32767     ms
9   1016     20    -13   -113    320     36
4   1000    150    -13   -123    320     72
4    925    764    -71   -141    320    144
4    850   1416   -125   -185    340    164

HTH.

https://raku.org

Answer

Usando Raku (anteriormente conocido como Perl6)

~$ raku -ne '.trim-leading.put if .words[0].grep(rx/"**"? <(254 | 1 | 3 | 9)> /) | (.words[0].grep("4" | "**4") && .words[1].grep(rx/1000 | 925 | 850 /)) ;' UABalloon.txt
**254     12      1      JAN    2002
1  94703  72501  40.87N 72.87W    20   1116**
**3           OKX                32767     ms**
**9   1014     20   -105   -130    310      5**
**4   1000    131    -45    -95    315     20**
**4    925    741    -75   -155     20     36**
**4    850   1393   -117   -197    290     56**
254      0      2      JAN    2002
1  94703  72501  40.87N 72.87W    20   2305
3           OKX                32767     ms
9   1016     20    -13   -113    320     36
4   1000    150    -13   -123    320     72
4    925    764    -71   -141    320    144
4    850   1416   -125   -185    340    164

El .grepcódigo anterior se basa en la función de Raku .words, que se divide en espacios en blanco. Se incluye código para capturar líneas que comienzan con " **". El .trim-leadingmétodo elimina los espacios en blanco iniciales de la salida.

Puede ver que esta solución se desarrolla en dos pasos. Para recortar los asteriscos iniciales y terminales, ejecute el código anterior, guárdelo en un archivo tmp_file.txty luego ejecute el código siguiente:

~$ raku -pe 's:g/ \** (.+?) \** /$0/;' tmp.txt
254     12      1      JAN    2002
1  94703  72501  40.87N 72.87W    20   1116
3           OKX                32767     ms
9   1014     20   -105   -130    310      5
4   1000    131    -45    -95    315     20
4    925    741    -75   -155     20     36
4    850   1393   -117   -197    290     56
254      0      2      JAN    2002
1  94703  72501  40.87N 72.87W    20   2305
3           OKX                32767     ms
9   1016     20    -13   -113    320     36
4   1000    150    -13   -123    320     72
4    925    764    -71   -141    320    144
4    850   1416   -125   -185    340    164

HTH.

https://raku.org

Question 2

$ awk '$1 ~ /^(254|1|3|9)$/ || ($1 == 4 && $2 ~ /^(1000|925|850)$/)' input.txt  
254     12      1      JAN    2002
  1  94703  72501  40.87N 72.87W    20   1116
  3           OKX                32767     ms
  9   1014     20   -105   -130    310      5
  4   1000    131    -45    -95    315     20
  4    925    741    -75   -155     20     36
  4    850   1393   -117   -197    290     56
254      0      2      JAN    2002
  1  94703  72501  40.87N 72.87W    20   2305
  3           OKX                32767     ms
  9   1016     20    -13   -113    320     36
  4   1000    150    -13   -123    320     72
  4    925    764    -71   -141    320    144
  4    850   1416   -125   -185    340    164

Esto imprime las líneas de entrada donde:

$1 es uno de los valores permitidos (254, 1, 3 o 9)
$1 es 4y$2 son 1000, 925 u 850.

Todas las demás líneas se ignoran.

NOTA: Esto no coincide exactamente con su resultado de muestra porque a) su resultado de muestra no coincide con la descripción de lo que desea (*) y b) su comentario decía que no desea líneas que comiencen con 2.

(*) Al menos, lo mejor que puedo entender. Su descripción es muy confusa y difícil de analizar... me tomó varios minutos descifrarla y todavía no estoy seguro de que sea correcta. O lo que quieres es mucho más complicado de lo que parece, o lo has escrito de una manera extrañamente complicada.

Answer

$ awk '$1 ~ /^(254|1|3|9)$/ || ($1 == 4 && $2 ~ /^(1000|925|850)$/)' input.txt  
254     12      1      JAN    2002
  1  94703  72501  40.87N 72.87W    20   1116
  3           OKX                32767     ms
  9   1014     20   -105   -130    310      5
  4   1000    131    -45    -95    315     20
  4    925    741    -75   -155     20     36
  4    850   1393   -117   -197    290     56
254      0      2      JAN    2002
  1  94703  72501  40.87N 72.87W    20   2305
  3           OKX                32767     ms
  9   1016     20    -13   -113    320     36
  4   1000    150    -13   -123    320     72
  4    925    764    -71   -141    320    144
  4    850   1416   -125   -185    340    164

Esto imprime las líneas de entrada donde:

$1 es uno de los valores permitidos (254, 1, 3 o 9)
$1 es 4y$2 son 1000, 925 u 850.

Todas las demás líneas se ignoran.

NOTA: Esto no coincide exactamente con su resultado de muestra porque a) su resultado de muestra no coincide con la descripción de lo que desea (*) y b) su comentario decía que no desea líneas que comiencen con 2.

(*) Al menos, lo mejor que puedo entender. Su descripción es muy confusa y difícil de analizar... me tomó varios minutos descifrarla y todavía no estoy seguro de que sea correcta. O lo que quieres es mucho más complicado de lo que parece, o lo has escrito de una manera extrañamente complicada.

¿Cómo puedo extraer datos basados en ciertos indicadores para filas de datos y crear un nuevo archivo con ellos?

Respuesta1

Respuesta2

información relacionada