Filter - Success Stories

GPU-power on demand: CampusCloud mit Proxmox VE optimiert

Wenn Studierende und Forschende gleichzeitig GPU-Rechenleistung benötigen, stoßen klassische Ansätze schnell an ihre Grenzen: GPU Rechenleistung ist teuer, die Nachfrage schwankt und fixe Zuweisung blockiert oft ungenutzte Ressourcen. An der University of Applied Sciences St. Pölten (USTP) entstand eine Lösung, die lokale KI-Workloads planbar macht und die Bereitstellung stark beschleunigt.

Im Department Informatik und Security der University of Applied Sciences St. Pölten (USTP) wird KI nicht nur im Skriptum behandelt, sondern auch praxisnah unterrichtet. In Lehre und Forschung werden GPU-gestützte Systeme für Large Language Models (LLMs), KI-Assistenten, Hate-Speech-Erkennung, klassische Machine-Learning-Algorithmen und Reinforcement Learning genutzt, zum Beispiel für Computer-Vision-Anwendungen mit AWS DeepRacer Fahrzeugen. Ein großer Teil der GPU-Hardware läuft im Umfeld des Projekts AI RealLabor, in dem KI-gestützte Methoden erprobt und weiterentwickelt werden.

GPU-beschleunigte Workloads sind an der USTP seit rund acht Jahren fester Bestandteil des Studiengangs Data Science and Artificial Intelligence. Bereits davor wurden GPUs im IT-Security-Kontext genutzt. Die Herausforderung lag nicht allein in der Rechenleistung, sondern in der fairen Verteilung: Da GPU-Kapazitäten deutlich kostspieliger und knapper als CPU-Ressourcen sind, wurde eine effiziente Orchestrierung zwischen den Nutzergruppen zum entscheidenden Faktor.

Stabil trennen, ohne Ressourcen zu blockieren

Anfänglich arbeiteten mehrere Nutzergruppen direkt auf Bare-Metal-Servern – ein Modell, das in der Praxis schnell an Grenzen stieß. Fehlende Ressourcen-Trennung und gegenseitige Beeinträchtigungen gefährdeten nicht nur die Datenintegrität, sondern die Stabilität des gesamten Systems. Der Wechsel zur Virtualisierung war der logische Schritt für mehr Sicherheit.

Mit Proxmox VE und PCIe-Passthrough gelang zwar die saubere Isolation der Nutzer, doch ein neues Problem entstand: Die GPUs waren starr an einzelne VMs gebunden. Im dynamischen Hochschulbetrieb führte das zu teurem Leerlauf – wertvolle Ressourcen blieben blockiert, selbst wenn sie gerade nicht genutzt wurden.

Der Durchbruch kam Ende 2024 mit NVIDIA Time-Sliced vGPUs. Durch die offizielle Proxmox-Unterstützung lässt sich der VRAM nun flexibel über Profile aufteilen. Das Ergebnis: Die Hardware wird massiv besser ausgelastet, da Rechenleistung bedarfsgerecht verteilt wird, statt in ungenutzten VMs festzuhängen. Eine produktionsreife Umgebung, die perfekt mit schwankenden Workloads skaliert.

Self-Service statt manueller Provisionierung

Der zweite Meilenstein ist die zentrale Orchestrierung über die eigenentwickelte Plattform CampusCloud. Über die Proxmox API steuert das System den gesamten Cluster: Mitarbeitende und Studierende erstellen eigenständig Webhosting-Umgebungen (PHP/NodeJS) oder leistungsstarke VMs mit GPU-Beschleunigung.

Der Geschwindigkeitsvorteil ist massiv:

  • Webhosting: In unter einer Minute bereit – inklusive Reverse Proxy und TLS-Zertifikat.
  • VMs: Zugriff in weniger als zwei Minuten nach Freigabe.

Früher bremsten langwierige Prozesse wie manuelles Klonen, IP-Zuweisungen und Firewall-Konfigurationen den Workflow. Heute sorgt eine intelligente, zeitlich limitierte GPU-Zuteilung für maximale Stabilität und faire Auslastung, selbst bei Spitzenlasten von 200 gleichzeitigen Nutzern innerhalb der 1.200 Personen starken User-Basis.

GPU-Spitzenklasse plus solide Compute-Basis

Die CampusCloud basiert auf einer Hardwareplattform, die sowohl High-End-GPU-Workloads als auch klassische Compute-Aufgaben zuverlässig abdeckt:

GPU-Cluster (High-End KI-Workloads)

  • Dell PowerEdge R760XA: 2× Intel Xeon Platinum 8452Y, 512 GB DDR5 RAM, 4× NVIDIA H100
  • Dell PowerEdge XE9680: 2× Intel Xeon Gold 6542Y, 1,5 TB DDR5 RAM, 8× NVIDIA H200
  • 2× Dell PowerEdge XE7740: je 2× Intel Xeon 6747P, 1 TB DDR5 RAM, 8× NVIDIA RTX PRO 6000 Blackwell Server Edition

GPU via PCIe-Passthrough

  • Supermicro SuperServer 4029GP-TRT2: 8× NVIDIA GTX 1080 Ti
  • 4× HPE ProLiant ML110 Gen10: je 2× NVIDIA RTX 4060 Ti

CPU-Compute (klassische Workloads)

  • 3× Cisco UCS C240 M5S: je 2× Intel Xeon Gold 6248, 256 GB DDR4 RAM

Damit steht je nach Anwendungsfall genau die passende Mischung aus GPU-Power und CPU-Kapazität zur Verfügung, ohne dass Ressourcen unnötig brachliegen.

Open Source statt Vendor Lock-in

Der Wechsel zu einer reinen Proxmox-Umgebung war auch eine strategische Entscheidung. Während parallel betriebene VMware-ESXi-Cluster durch die Broadcom-Übernahme und neue Lizenzmodelle wirtschaftlich unattraktiv wurden, setzt die IT Abteilung des Departments konsequent auf Open Source.

Für das Team ist das gelebte Praxis: Mit Linux, TrueNAS Scale und ZFS basiert die Infrastruktur auf offenen Standards. Der Vorteil:

  • Kein Vendor Lock-in: Durch den Einsatz von Standardkomponenten wie QEMU, KVM und LXC bleibt die technologische Freiheit gewahrt.
  • Budget-Effizienz: Eingesparte Lizenzkosten fließen direkt in leistungsstärkere Hardware – ein entscheidender Faktor bei begrenzten Budgets.

Mehr Leistung, weniger Betriebslast

Die Synergie aus vGPU-Technologie und der CampusCloud transformiert den Alltag: GPUs sind nicht mehr starr reserviert, sondern werden dynamisch geteilt. Das erhöht die Auslastung massiv, während die Virtualisierung für die notwendige Stabilität und Sicherheit zwischen den Nutzergruppen sorgt.

Durch die Verbindung von Enterprise-Hardware mit professioneller Open-Source-Virtualisierung schaffen wir optimale Rahmenbedingungen. So unterstützen wir Studierende und Forschende bestmöglich im KI-Bereich und holen das Maximum aus unserer Infrastruktur heraus.
Raphael Schrittwieser, IT-Verantwortlicher, Department Informatik und Security

Automatisierung und Next-Gen GPU-Sharing

Die nächste Ausbaustufe steht kurz bevor: Ein vollautomatisiertes Buchungssystem. Nutzer wählen Zeitslots im Kalender; das System verschiebt die VM via Ansible auf den passenden Node, konfiguriert die vGPU und installiert die Treiber. Nach Ablauf des Slots wird die Ressource sofort wieder für das nächste Projekt frei. Zusätzlich steht der Test von NVIDIA Multi-Instance GPU (MIG) auf den neuen XE7740-Systemen an. Ziel ist eine noch striktere Trennung der GPU-Ressourcen, um gegenseitige Beeinflussung komplett zu eliminieren.

So entsteht Schritt für Schritt eine Infrastruktur, die Rechenleistung genau dort verfügbar macht, wo sie gebraucht wird: schnell, kontrolliert und hocheffizient.

Raphael Schrittwieser

IT-Verantwortlicher für die Labore des Departments Informatik und Security


Über USTP

Die University of Applied Sciences St. Pölten, ist eine österreichische Hochschule mit starkem Praxisbezug, die Studium, Forschung und Wirtschaft eng miteinander verbindet. Sie bietet Studiengänge in mehreren Bereichen von Informatik und KI über Security, Digitale Technologien, Medien, Kommunikation und Management bis hin zu Gesundheit, Soziales und Bahntechnologie. Im Mittelpunkt steht dabei Know-how nicht nur theoretisch zu vermitteln, sondern in Projekten, Laboren und Kooperationen so anzuwenden, dass Studierende und Forschungsteams an realen Fragestellungen arbeiten können.

Kontakt

Stadt:
St. Pölten
Land:
Österreich
Webseite: