Unir dos archivos CSV basados ​​en datos de columnas coincidentes

Unir dos archivos CSV basados ​​en datos de columnas coincidentes

Me gustaría unir datos de dos archivos CSV según la información de la columna coincidente. Los datos que deben coincidir provienen de la columna 5 de File1.csv y de la columna 1 de File2, y quiero agregar la información de la columna 2 de File2 al coincidir y, si no hay coincidencia, deje comillas dobles vacías.

Archivo1.csv

"Z","P","W","K","1","1.18.24.59"
"S","K","D","X","9","1.14.19.238"
"R","M","P","Y","8","1.15.11.21"
"B","D","0","U","5","1.9.20.159"
"R","E","W","Q","6","135.0.0.1"
"K","D","K","R","9","1.9.74.13"

Archivo2.csv

"65.9.7.19","374 22 53"
"1.9.74.13","123 256 51"
"1.18.24.59","23 25 41"
"1.15.11.21","98 77 8291"
"1.14.19.238","8827 145 8291"
"1.9.20.159","283 1 5734"

Salida deseada

"Z","P","W","K","1","1.18.24.59","23 25 41"
"S","K","D","X","9","1.14.19.238","8827 145 8291"
"R","M","P","Y","8","1.15.11.21","98 77 8291"
"B","D","0","U","5","1.9.20.159","283 1 5734"
"R","E","W","Q","6","135.0.0.1",""
"K","D","K","R","9","1.9.74.13","123 256 51"

Respuesta1

Aquí hay una solución, usando awk. Probado en GNU awk 4.1.3.

$ awk -F, 'NR==FNR{a[$1]=$2}NR!=FNR{print $0","(a[$6]?a[$6]:"\"\"")}' file2.csv file1.csv
"Z","P","W","K","1","1.18.24.59","23 25 41"
"S","K","D","X","9","1.14.19.238","8827 145 8291"
"R","M","P","Y","8","1.15.11.21","98 77 8291"
"B","D","0","U","5","1.9.20.159","283 1 5734"
"R","E","W","Q","6","135.0.0.1",""
"K","D","K","R","9","1.9.74.13","123 256 51"
$
  • Coincide NR==FNR{a[$1]=$2con las líneas del archivo 2 y las agrega a una matriz, ingresada en el campo n.° 1.
  • Luego NR!=FNRcoincide con las líneas del archivo1.
  • print $0","imprime la línea completa del archivo1 seguida de una coma.
  • (a[$6]?a[$6]:"\"\"")imprime el contenido correspondiente de la matriz creada anteriormente, pero sólo ""si no se encuentra ninguna entrada.

Respuesta2

Esto resultó ser más difícil de lo que esperaba, pero con las herramientas de la csvkitversión 1.0.2 basada en Python:

$ csvjoin -HI -c 6,1 --left File1.csv File2.csv 2>/dev/null | csvformat -K1 -U1
"Z","P","W","K","1","1.18.24.59","23 25 41"
"S","K","D","X","9","1.14.19.238","8827 145 8291"
"R","M","P","Y","8","1.15.11.21","98 77 8291"
"B","D","0","U","5","1.9.20.159","283 1 5734"
"R","E","W","Q","6","135.0.0.1",""
"K","D","K","R","9","1.9.74.13","123 256 51"

( -IParece ser necesario para evitar csvjoinadivinar que los campos separados por puntos son fechas y horas, al menos en mi ubicación).

Respuesta3

for i in `cat file2.csv | awk -F "," '{print $1}'| sed 's/"//g'`; do j=`sed -n '/'$i'/p' file2.csv| awk -F "," '{print $2}'| sed 's/"//g'`;awk -v i="$i" -v j="$j" -F "," '$NF==i{$7=j;print $0}' file1.csv; done| sed 's/ /","/g'| sed 's/^/"/g'| sed 's/$/"/g'

producción

"Z","P","W","K","1","1.18.24.59","23 25 41"
"S","K","D","X","9","1.14.19.238","8827 145 8291"
"R","M","P","Y","8","1.15.11.21","98 77 8291"
"B","D","0","U","5","1.9.20.159","283 1 5734"
"R","E","W","Q","6","135.0.0.1",""
"K","D","K","R","9","1.9.74.13","123 256 51"

información relacionada