www.konstruktion-industrie.com

Referenzarchitekturen für KI-Rechenzentren im Gigawattmaßstab

Schneider Electric entwickelt gemeinsam mit NVIDIA Infrastruktur-Designframeworks für skalierbare KI-Rechenzentren mit Simulation, digitalen Zwillingen und Energieoptimierung.

  www.se.com
Referenzarchitekturen für KI-Rechenzentren im Gigawattmaßstab

Die zunehmende Skalierung von KI-Recheninfrastrukturen erhöht die Komplexität der Anforderungen an Stromversorgung, Kühlung und Betrieb von Rechenzentren. In diesem Zusammenhang stellte Schneider Electric gemeinsam mit NVIDIA und AVEVA neue Infrastruktur-Designframeworks für die Planung und den Betrieb großskaliger KI-Rechenzentren vor.

Infrastrukturdesign für großskalige KI-Rechenumgebungen
Die Entwicklungen konzentrieren sich auf validierte Infrastruktur-Blueprints zur Unterstützung von Planung, Simulation, Bau und Betrieb von KI-Rechenzentren im Gigawattbereich. Der Ansatz kombiniert elektrische Infrastrukturplanung, Thermomanagement und digitale Engineering-Werkzeuge, um die Vorhersagbarkeit und Betriebseffizienz in hochverdichteten Rechenumgebungen zu verbessern.

Die Ankündigung umfasst drei zentrale Entwicklungen: eine Referenzarchitektur für NVIDIA-Vera-Rubin-Systeme, eine Lifecycle-Digital-Twin-Architektur auf Basis der NVIDIA-Omniverse-Umgebung sowie erste Tests eines agentenbasierten KI-Ansatzes für das Alarmmanagement im Betrieb.

Stromversorgungs- und Kühlkonzepte für GPU-Cluster der nächsten Generation
Eine Referenzarchitektur wurde für NVIDIA Vera Rubin NVL72 Rack-Scale-Systeme entwickelt, mit Fokus auf die Integration von Stromverteilung und Kühlungsinfrastruktur.

Das Design umfasst eine 480-V-AC-Stromverteilungsarchitektur, die den steigenden Leistungsdichteanforderungen in KI-Clustern Rechnung trägt. Zu den Kühlparametern gehört eine Vorlauftemperatur von 45 °C im Kühlkreislauf zur Steigerung der Effizienz bei hoher Rechenlast.

Die Architektur definiert zudem IT-Raumkonzepte mit Clusterstrukturen von KI-Racks, die Netzwerk-, Speicher-, CPU- und Support-Racks gemeinsam nutzen, während für GPU-Systeme separate Hochspannungsversorgungen bereitgestellt werden. Dieser Ansatz soll die Stromversorgung großer GPU-Cluster optimieren.

Die Leistungsoptimierung berücksichtigt außerdem verschiedene GPU-Betriebsmodi wie MaxP und MaxQ, wodurch Betreiber Leistungsziele und Energieverbrauch ausbalancieren können. Unter bestimmten Randbedingungen kann der MaxQ-Modus die Token-Effizienz pro Watt erhöhen.

Die Validierung des Referenzdesigns erfolgte unter anderem durch elektrische Systemmodellierung mit ETAP sowie Layout- und Luftstromsimulationen mittels ITD-CFD-Modellen.

Digitale Zwillinge für Engineering und Betriebsplanung
Parallel dazu stellten AVEVA und NVIDIA eine Lifecycle-Digital-Twin-Architektur vor, die die Planung und den Betrieb von KI-Infrastrukturen durch simulationsgestützte Engineering-Workflows unterstützen soll.

Der Ansatz kombiniert SimReady-Assets von Schneider Electric mit der NVIDIA-Omniverse-Umgebung sowie Engineering-Software von AVEVA. Innerhalb dieses Frameworks können Infrastrukturdesigns modelliert, simuliert und vor der physischen Umsetzung validiert werden.

Multidomänen-Simulationen ermöglichen die Bewertung von Stromverteilung, thermischem Verhalten, Luftströmungen und Steuerungssystemen innerhalb eines einheitlichen digitalen Modells. Dadurch lassen sich alternative Infrastrukturkonfigurationen vergleichen und Leistungsparameter bereits vor dem Bau validieren.

Solche Lifecycle-Digital-Twin-Ansätze werden zunehmend im Engineering digitaler Infrastrukturen eingesetzt, um Inbetriebnahmerisiken zu reduzieren und die Umsetzungsgenauigkeit durch virtuelle Validierung zu verbessern.

Tests von agentenbasierter KI für das Alarmmanagement
Schneider Electric hat zudem NVIDIA Nemotron zur Unterstützung agentenbasierter KI-Funktionen für das Alarmmanagement im Rechenzentrumsbetrieb getestet.

Der Ansatz nutzt Echtzeit-IoT-Datenströme aus verschiedenen Infrastruktursystemen, um Alarme nicht isoliert, sondern im Systemkontext zu analysieren. Ziel ist es, Ursachen schneller zu identifizieren und geeignete Gegenmaßnahmen abzuleiten.

Diese Form KI-gestützter Betriebsprozesse soll unnötige manuelle Eingriffe reduzieren, die Reaktionszeiten bei der Fehlersuche verkürzen und die Betriebsstabilität in komplexen digitalen Infrastrukturen erhöhen.

Redigiert von der Industriejournalistin Aishwarya Mambet, mit KI-Unterstützung.

www.se.com

  Fordern Sie weitere Informationen an…

LinkedIn
Pinterest

Nehmen Sie an unseren 155000 IMP Followern teil