Speicher für Millionen von Audiodateien mit Suchzugriff (falls möglich)

Speicher für Millionen von Audiodateien mit Suchzugriff (falls möglich)

Ich suchte nach einer Lösung für dieses Problem, das ich mit der Speicherung von 7 TB an Dateien habe. Dabei handelt es sich ausschließlich um Audiodateien, bei diesen Dateien handelt es sich um Aufnahmen des Asterisk-basierten Servers Freepbx.

Als Erstes habe ich Proxmox auf einem Server mit SSD für schnelleren Zugriff installiert und dann Nextcloud für den Dateizugriff über das Internet (dieser Server dient nur dem lokalen Netzwerk, Sicherheit ist hier also nicht das Problem). Als ich die Dateien hochlud, wurde mir klar, dass das keine gute Idee ist, da die Suche nach einer bestimmten Datei sehr zeitaufwändig ist und ich nur 2 TB Speicherplatz verwende. Ich habe eine Weile mit Nextcloud herumprobiert und weiß, dass ich über SSH oder WebDAV suchen kann, aber das kostet auch sehr viel Zeit, weil mehrere Benutzer regelmäßig auf diese Dateien zugreifen müssen.

also suche ich nach einer Lösung für dieses Problem, da ich immer noch Daten im Wert von 5 TB habe und entweder nach Webzugriff oder einer anderen Möglichkeit suche, Daten einfach zu finden und im Speicher abzurufen, oder nach einem völlig neuen Betriebssystem/Webserver, der beim Speichern und Zugreifen auf die Dateien helfen kann.

was ich habe, ist eine SSD zum Booten und 4x4-TB-Laufwerke zur Speicherung auf RAID 5 mit 2x Gigabit-LAN-Karte auf diesem Server für den Zugriff mit installiertem Proxmox und einigen laufenden virtuellen Maschinen, die Daten sind strukturiert als Jahr>Monat>Datum>1000e von Dateien mit Telefonnummern im Namen zur Identifizierung.

Vielen Dank Mit freundlichen Grüßen,

Antwort1

Ich arbeite auch mit unzähligen Audiodateien.

Der beste Weg, damit umzugehen, ist meiner Meinung nach:

  • Verwenden Sie SSD-Festplatten und RAID1-/ZFS-Spiegel, um den Zugriff zu beschleunigen.
  • Beschäftigen Sie sich nicht mit Dateien, sondern arbeiten Sie an Dateinamen und Metadaten: Erstellen Sie einen einfachen und leicht durchsuchbaren Index. Eine Datenbank wie ElasticSearch funktioniert gut, verbraucht aber RAM. PostgreSQL mit indizierten Feldspalten kann die Aufgabe auch erledigen.
  • Verwenden Sie einfach einen Link zum Dateipfad, wenn der Zugriff ausgelöst wird.

Mein Arbeitsablauf ist:

  1. Durchsuchen Sie textbasierten Baum und Dateinamen von einer einfachen Webseite aus (selbstgemacht)
  2. Klicken Sie hier, um auf die Datei zuzugreifen
  3. Die Webseite ruft die Datei basierend auf dem Pfad ab und stellt sie dem Benutzer zur Verfügung (im LAN oder über das Internet).

Bei diesem Datenvolumen wäre es übrigens interessant, einen Blick auf die von Datensammlern verwendeten Tools zu werfen, wie zum Beispiel

verwandte Informationen