¿Cómo almacenar información de archivos en una matriz?

Question 1

Primero,no lo hagasfor file in $(find …). Eso es muy frágil.

Ahora, puedes simplificar un poco tu código haciendo que find imprima los nombres de archivos y los tamaños juntos, usando -printf:

find . -type f -printf '%s.%f/'

Luego, puede utilizar awkpara procesar esta salida para obtener tamaños acumulativos por extensión. Tenga en cuenta que solía .separar el nombre del archivo ( %f) del tamaño ( %s), y agregué un /después de eso. Por lo tanto, puedo usarlo .como separador de campos en awk. Y dado que los únicos caracteres no permitidos en los nombres de archivos son /ASCII NUL, puedo usarlos de forma segura /como separador de registros.

Entonces:

awk -F. -v RS=/ 'NF > 2 {size[$NF] += $1; next}
  {size["/"] += $1}
END {for (i in size) {print i,"/",size[i]}'

Aquí, lo estoy usando /como índice si no hay extensión.

Conjunto:

$ find . -type f -printf '%s.%f/' | awk -F. -v RS=/ 'NF > 2 {size[$NF] += $1; next}
{size["/"] += $1}
END {for (i in size) {printf "%s/%d\n", i, size[i]}}'
h/780
md/2509
tex/23961
c/13557
//5109
txt/2349291
sh/1166
py/12248

Ahora, si tus extensiones no contienen espacios, puedes simplemente hacer:

my_array=( $(find . -type f -printf '%s.%f/' | awk -F. -v RS=/ 'NF > 2 {size[$NF] += $1; next} {size["/"] += $1} END {for (i in size) {printf "%s/%d\n", i, size[i]}}') )

O puede utilizar la sustitución de procesos y leer cada entrada en:

my_arr=()
while IFS='' read -r entry
do
    my_arr+=( "$entry" )
done < <(find . -type f -printf '%s.%f/' | awk -F. -v RS=/ 'NF > 2 {size[$NF] += $1; next} {size["/"] += $1} END {for (i in size) {printf "%s/%d\n", i, size[i]}}')

Como antes:

$ printf "%s\n" "${my_arr[@]}"
h/780
md/2509
tex/23961
c/13557
//5109
txt/2349291
sh/1166
py/12248

Answer