Das richtige Storage-Design für Machine Learning wählen

Auch Machine Learning braucht Storage und stellt hohe Anforderungen an Durchsatz und Latenz – das stresst den Storage zugleich durch viele Metadatenoperationen.

Artikel verschenken

2

22.03.2024, 07:00 Uhr

Lesezeit: 20 Min.

iX Magazin

Von

Daniel Menzel

Das richtige Storage-Design für Machine Learning wählen
- Den Kompromiss finden zwischen HDDs und All-Flash
Kein NVMe ohne viele PCIe-Lanes
Neue Formfaktoren für mehr Speicherdichte
Mit Redundanz umgehen und RAID
Fazit

Artikel in iX 4/2024 lesen

Will man verstehen, welche Anforderungen Machine Learning insbesondere in der Trainingsphase an Storage stellt, muss man sich dessen Lese- und Schreibprofile vor Augen führen. Die erste und profanste Erkenntnis aus dem Artikel "Von HPC lernen – ML im Rechenzentrum" sollte sein: Für Machine Learning gilt "Viel hilft viel". Es gibt keinen Punkt, an dem ein Modell "fertig" ist; ständig kann man es weiter trainieren – sei es für eine weitere Verfeinerung, sei es, weil neue Datensätze vorliegen. Ein Storage fürs Machine Learning sollte also groß sein – bis in den PByte-Bereich hinein.

Die zweite Prämisse lautet: Es werden fast immer erheblich mehr Daten in Form von Rohdaten gelesen als in Form von Modellen geschrieben. Die dritte Prämisse besagt, dass die Rohdaten in jedem Anwendungsfall anders sein können. Mal sind es unstrukturierte Dateien, mal handelt es sich um Datenbanken, seltener liegen sie in Blöcken und Objekten vor. Darüber hinaus sind die Rohdaten manchmal öffentlich, manchmal höchst vertraulich.

Daniel Menzel ist Geschäftsführer der Menzel IT GmbH aus Berlin und baut mit seinem Team HPC-, ML- und Private-Cloud-Computing-Cluster.

Aus den drei Prämissen ergibt sich: Den einen "One size fits all"-Machine-Learning-Storage gibt es nicht – ganz gleich, was Hersteller in ihren Hochglanzprospekten postulieren. Und je besser die Infrastrukturverantwortlichen den Bedarf der Forschenden verstehen, desto besser können sie den Storage dafür zuschneiden.

Immer mehr Wissen. Das digitale Abo für IT und Technik.

Papierloses Büro: Wie man mit paperless-ngx die Dokumentenverwaltung optimiert

Mit der Open-Source-Anwendung paperless-ngx auf einem Server, Raspi oder NAS sowie einem Einzugscanner gehört Dokumentenchaos der Vergangenheit an.

Custom-ROM "GrapheneOS" vorgestellt: Android ganz privat

GrapheneOS ist eine besondere Android-Spielart. Seine Bandbreite reicht von "sicher wie Fort Knox" bis "komfortabel vernetzt wie ein Google-Phone".

Elektroauto MG4 Trophy im Test: Bestseller mit Batterie-Upgrade

Der MG4 ist das meistverkaufte Elektroauto aus China. Mit der größeren Batterie wird es deutlich teurer, doch wie viel weiter kommt man nach dem Upgrade?

Smart-Home-Zentralen im Vergleich: Amazons Echo Hub gegen Home Assistant

Wir zeigen, welche Smart-Home-Lösung sich für wen lohnt: Amazons Echo Hub für 200 Euro oder die kostenlose Smart-Home-Software Home Assistant.

Wärmepumpe simpel und effektiv: Über die Rolle von Dämmung, Solar und Co.

Eine unkomplizierte Heranführung an Wärmepumpen-Nutzung: Was brauchen Sie? Was ist wichtig? Und wie können Sie das einigermaßen simpel halten?

Split-Klimaanlage als Alternative

Proxmox VE: Was es kann und was man dafür braucht

Proxmox VE ist eine Linux-Distribution für Server- und Desktop-Virtualisierung, die viel Platz sparen kann.

Immer mehr Wissen. Das digitale Abo für IT und Technik.

Papierloses Büro: Wie man mit paperless-ngx die Dokumentenverwaltung optimiert

Mit der Open-Source-Anwendung paperless-ngx auf einem Server, Raspi oder NAS sowie einem Einzugscanner gehört Dokumentenchaos der Vergangenheit an.

Custom-ROM "GrapheneOS" vorgestellt: Android ganz privat

GrapheneOS ist eine besondere Android-Spielart. Seine Bandbreite reicht von "sicher wie Fort Knox" bis "komfortabel vernetzt wie ein Google-Phone".

Elektroauto MG4 Trophy im Test: Bestseller mit Batterie-Upgrade

Der MG4 ist das meistverkaufte Elektroauto aus China. Mit der größeren Batterie wird es deutlich teurer, doch wie viel weiter kommt man nach dem Upgrade?

Smart-Home-Zentralen im Vergleich: Amazons Echo Hub gegen Home Assistant

Wir zeigen, welche Smart-Home-Lösung sich für wen lohnt: Amazons Echo Hub für 200 Euro oder die kostenlose Smart-Home-Software Home Assistant.

Wärmepumpe simpel und effektiv: Über die Rolle von Dämmung, Solar und Co.

Eine unkomplizierte Heranführung an Wärmepumpen-Nutzung: Was brauchen Sie? Was ist wichtig? Und wie können Sie das einigermaßen simpel halten?

Split-Klimaanlage als Alternative

Proxmox VE: Was es kann und was man dafür braucht

Proxmox VE ist eine Linux-Distribution für Server- und Desktop-Virtualisierung, die viel Platz sparen kann.

nach oben

Alle Angebote

Newsletter heise-Bot Push Push-Nachrichten

${intro} ${title}

${intro} ${title}

Das richtige Storage-Design für Machine Learning wählen

Immer mehr Wissen. Das digitale Abo für IT und Technik.

Papierloses Büro: Wie man mit paperless-ngx die Dokumentenverwaltung optimiert

Custom-ROM "GrapheneOS" vorgestellt: Android ganz privat

Elektroauto MG4 Trophy im Test: Bestseller mit Batterie-Upgrade

Smart-Home-Zentralen im Vergleich: Amazons Echo Hub gegen Home Assistant

Wärmepumpe simpel und effektiv: Über die Rolle von Dämmung, Solar und Co.

Proxmox VE: Was es kann und was man dafür braucht

Immer mehr Wissen. Das digitale Abo für IT und Technik.

Papierloses Büro: Wie man mit paperless-ngx die Dokumentenverwaltung optimiert

Custom-ROM "GrapheneOS" vorgestellt: Android ganz privat

Elektroauto MG4 Trophy im Test: Bestseller mit Batterie-Upgrade

Smart-Home-Zentralen im Vergleich: Amazons Echo Hub gegen Home Assistant

Wärmepumpe simpel und effektiv: Über die Rolle von Dämmung, Solar und Co.

Proxmox VE: Was es kann und was man dafür braucht

Spiele

Für alle unter 30: heise+ mit 50% Rabatt

Das digitale Abo für IT und Technik.