Almacenamiento para millones de archivos de audio con accesibilidad de búsqueda (si es posible)

Almacenamiento para millones de archivos de audio con accesibilidad de búsqueda (si es posible)

Estaba buscando una solución para este problema que tengo con el almacenamiento de archivos de 7 TB, todos ellos son archivos de audio, estos archivos son grabaciones del servidor freepbx basado en asterisco.

Al principio, lo que hice fue instalar proxmox en el servidor con ssd para un acceso más rápido y luego nextcloud para acceder a archivos a través de la web (este servidor solo sirve en la red local, por lo que la seguridad no es el problema aquí) mientras sigo subiendo los archivos, me di cuenta de que esto es malo. Idea, ya que lleva mucho tiempo buscar un archivo específico y solo tengo 2 TB de uso. He estado jugando con la siguiente nube por un tiempo y sé que puedo buscar a través de ssh o webdav, pero también lleva mucho tiempo. porque es necesario acceder a estos archivos con regularidad con varios usuarios.

Así que estoy buscando una solución para este problema, ya que todavía tengo 5 TB de datos y estoy buscando acceso web o cualquier otra forma de encontrar y recuperar datos del almacenamiento fácilmente o un sistema operativo/servidor web completamente nuevo que pueda ayudar a almacenar y acceder a los archivos.

lo que tengo es un ssd para arranque y unidades de 4x4tb para almacenamiento en raid5 con tarjeta lan gigabit 2x en ese servidor para acceder con proxmox instalado y ejecutando algunas máquinas virtuales, los datos están estructurados como año>mes>fecha>1000s de archivos con número de teléfono encendido Hay nombre para identificación.

Gracias, mis mejores deseos,

Respuesta1

También estoy trabajando con toneladas de archivos de audio.

La mejor manera que he encontrado para manejar esto es:

  • Utilice discos SSD y espejo RAID1/ZFS para acelerar el acceso.
  • No se ocupe de archivos, pero trabaje en el nombre del archivo y los metadatos: cree un índice de búsqueda simple y ligero. Una base de datos, ElasticSearch, funciona bien pero consume RAM, PostgreSQL con columnas de campos indexados también puede hacer el trabajo.
  • Simplemente use un enlace a la ruta del archivo cuando se active el acceso.

Mi flujo de trabajo es:

  1. Explore árboles y nombres de archivos basados ​​en texto desde una página web simple (hecha en casa)
  2. Haga clic para acceder al archivo
  3. La página web recupera el archivo según la ruta y se lo entrega al usuario (en la LAN o a través de Internet).

Por cierto, con este tipo de volumen, será interesante echar un vistazo a las herramientas utilizadas por los acumuladores de datos, como

información relacionada