Das richtige Storage-Design für Machine Learning wählen

Auch Machine Learning braucht Storage und stellt hohe Anforderungen an Durchsatz und Latenz – das stresst den Storage zugleich durch viele Metadatenoperationen.

Artikel verschenken
In Pocket speichern vorlesen Druckansicht 2 Kommentare lesen
Lesezeit: 20 Min.
Von
  • Daniel Menzel
Inhaltsverzeichnis

Will man verstehen, welche Anforderungen Machine Learning insbesondere in der Trainingsphase an Storage stellt, muss man sich dessen Lese- und Schreibprofile vor Augen führen. Die erste und profanste Erkenntnis aus dem Artikel "Von HPC lernen – ML im Rechenzentrum" sollte sein: Für Machine Learning gilt "Viel hilft viel". Es gibt keinen Punkt, an dem ein Modell "fertig" ist; ständig kann man es weiter trainieren – sei es für eine weitere Verfeinerung, sei es, weil neue Datensätze vorliegen. Ein Storage fürs Machine Learning sollte also groß sein – bis in den PByte-Bereich hinein.

Die zweite Prämisse lautet: Es werden fast immer erheblich mehr Daten in Form von Rohdaten gelesen als in Form von Modellen geschrieben. Die dritte Prämisse besagt, dass die Rohdaten in jedem Anwendungsfall anders sein können. Mal sind es unstrukturierte Dateien, mal handelt es sich um Datenbanken, seltener liegen sie in Blöcken und Objekten vor. Darüber hinaus sind die Rohdaten manchmal öffentlich, manchmal höchst vertraulich.

Mehr zu Rechenzentren
Daniel Menzel

Daniel Menzel ist Geschäftsführer der Menzel IT GmbH aus Berlin und baut mit seinem Team HPC-, ML- und Private-Cloud-Computing-Cluster.

Aus den drei Prämissen ergibt sich: Den einen "One size fits all"-Machine-Learning-Storage gibt es nicht – ganz gleich, was Hersteller in ihren Hochglanzprospekten postulieren. Und je besser die Infrastrukturverantwortlichen den Bedarf der Forschenden verstehen, desto besser können sie den Storage dafür zuschneiden.