ZIDline
Vienna Scientific Cluster in Betrieb
Ernst Haunschmid, Peter Berger und Herbert Störi
Nach einer arbeitsintensiven Installations-, Test- und Abnahmephase ist der Vienna Scientific Cluster, der gemeinsame Hochleistungsrechner der Universität Wien, der TU Wien und der Universität für Bodenkultur Wien nunmehr in der Phase des Benutzertestbetriebs. Der reguläre Betrieb, der sich im Wesentlichen von der jetzigen Situation durch stringentere Zugangsregeln unterscheidet, startet am 1. Jänner 2010.

Einleitung

Der Vienna Scientific Cluster (VSC) wurde als gemeinsamer Hochleistungsrechner der drei Universitäten Universität Wien (UNI), Universität für Bodenkultur Wien (BOKU) und  Technische Universität Wien (TU) am 29. Jänner 2009 europaweit ausgeschrieben. Wie in der ZIDline 20 (Juni 2009) berichtet, erhielt die Firma IPS mit einem Angebot für ein System von SUN Microsystems am 8. Mai den Zuschlag.

Installation

Voraussetzung für die Installation waren umfangreiche Vorarbeiten im Rechenraum, die mit tatkräftiger Unterstützung von BIG (Bundesimmobiliengesellschaft) und GUT (Gebäude und Technik) durchgeführt wurden. Die sichtbarste Aktivität war die Neuinstallation einer Kühlwasserleitung Nennweite 150 mm von der Kältezentrale im 11. Stock des Freihauses bis in den Rechenraum im 2. Obergeschoß. Daneben musste der Doppelboden saniert und verstärkt werden. Einige Kühl-Installationen, die noch von den CDC-CYBER-Maschinen, die hier von 1987 bis 1992 standen, stammten, mussten entfernt werden. Zum Teil waren die Leitungen noch mit Wasser und Glykol gefüllt.

Für die Elektroinstallation konnten vorhandene Hauptkabel vom EDV-Transformator im 1. Untergeschoß  bis in den Rechenraum verwendet werden. Allerdings mussten die Verteiler und Messeinrichtungen neu gebaut werden.

Die eigentliche Hardware-Installation fand vom 22. Juni bis zum 11. August statt und war eine logistische Herausforderung. Es wurden insgesamt ca. 2000 Kartons angeliefert, ausgepackt und wieder abtransportiert. Erst nach Lieferung und Anschluss der 6 CoolLoops konnte das System in Betrieb genommen werden.

Nach Abschluss der grundlegenden Hard- und Software- installation wurde das Infiniband Network von Qlogic installiert und optimiert; die nötigen Arbeiten wurden von einem zweiköpfigen Technikerteam direkt vor Ort durchgeführt. Im Zuge der Validierung des Infiniband-Netzwerks wurden nur marginale Probleme festgestellt.

In den darauffolgenden Wochen traten jedoch massive Probleme auf (einzelne Switches separierten sich vom Rest des Netzwerks, MPI Kommunikationsprobleme beim Aufsetzen von MPI Jobs), die aber durch Firmware Updates der Switches bzw. neuere, noch nicht offiziell freigegebene Versionen der Infiniband und MPI Software behoben werden konnten.

Bei der Inbetriebnahme stellte sich heraus, dass einiges Tuning erforderlich war, um das System in die Nähe der versprochenen Leistung zu bringen. Wesentlicher Punkt war die Optimierung des Infiniband-Netzwerks durch einen Spezialisten von Qlogic, dem Hersteller der Netzwerk-Komponenten. Es ist wohl kein Wunder, dass bei völlig neuen Komponenten im Lauf der Zeit einige Firmware-Updates erforderlich waren, was bei der Zahl der Komponenten doch zu größeren Aktionen ausartet.

Abnahme

Leistungstests

Die Intel Xeon 55xx Prozessoren (Nehalem EP) bieten neben anderen Erweiterungen die Möglichkeit, einzelne CPUs () zu übertakten (Turbo Mode). Bei den im VSC eingesetzten Intel Xeon 5550 Prozessoren mit einer Nennfrequenz von 2.67 GHz kann der CPU-Takt um bis zu 2 Geschwindigkeitsstufen (à 133 MHz) auf bis zu 2.93 GHz erhöht werden.

Alle aktiven eines Prozessors werden immer mit dem gleichen Takt betrieben. Während der Übertaktung werden Systemtemperatur und Stromaufnahme überwacht und gegebenenfalls wieder auf den Nominaltakt zurückgeschaltet.

Die Leistungssteigerungen im Turbo-Mode lagen bei den getesteten Applikationen zwischen 3 und 7 %, wobei serielle Applikationen deutlich stärker vom Turbo-Mode profitieren. Die Tests zeigten weiters, dass es beim Übertaktungspotenzial eine relative breite Streuung gibt: Einzelne Knoten können beliebig lang alle mit 2.93 GHz betreiben, während andere Knoten kaum über 2.80 GHz  hinauskommen.

Im Turbo-Mode erhöht sich der Stromverbrauch um etwa 15-20%.

Da zum Zeitpunkt der Ausschreibung die anbietenden Firmen noch nicht über Systeme mit Nehalem-Prozessoren verfügten, wurden die im Rahmen der Ausschreibung verlangten Benchmarks vom INTEL-Benchmarkzentrum im Auftrag diverser Anbieter durchgeführt. Es stellte sich erst auf Rückfrage heraus, dass dabei der „Turbo-Mode“ aktiviert war. Daher konnten erst mit aktiviertem Turbo-Mode alle bei der Ausschreibung versprochenen Benchmark-Ergebnisse erreicht werden. Anzumerken wäre hier, dass bei einigen Benchmarks die inzwischen stattgefundene Weiterentwicklung von Libraries und Compilern dazu führte, dass die versprochenen Leistungsdaten deutlich übertroffen wurden.

Benchmark für TOP500

Um die Einreichfrist für die November-Ausgabe der TOP500 Liste (1. Oktober 2009) einhalten zu können, wurde der HPL (Linpack) Benchmark noch vor dem Dauertest durchgeführt. Dafür standen inklusive Vorbereitungsarbeiten nur zwei Tage zur Verfügung. Da ein Testlauf etwa 8 Stunden dauert, konnten nur einige ausgewählte Parameterkombinationen getestet werden. Im letzten Testlauf konnten 35,48 TFlop erreicht werden; in der TOP500 Liste konnte damit Platz 156 belegt werden. Das ist das beste Ranking, das in Österreich je für Maschinen im akademischen Bereich erzielt wurde. Ähnliche Werte gab es nur 1995 und 2003 an der Universität Wien. Die gemessene Linpack-Leistung des VSC entspricht 91 % der theoretisch erreichbaren Leistung; der VSC zählt somit zu den effizientesten Clustersystemen in der TOP500 Liste.

Dauertest

In der ersten Tagen der Dauertests (und in kleinerem Umfang auch schon vorher) kam es zu vorerst nicht erklärbaren Störungen einzelner Knoten. Das Problem wurde zunächst im Infiniband-Bereich vermutet (einige Knoten zeigten sehr degradierte Infiniband-Performance); Qlogic konnte jedoch in konkreten Fällen nachweisen, dass die Ursache der beobachteten Störungen auf Fehler im Hauptspeicher zurückzuführen ist. Gleichzeitig zeigten Nach-forschungen von SUN, dass ein Teil der im VSC verbauten DDR3 Speichermodule einer bestimmten Charge eines Herstellers eine erhöhte Fehleranfälligkeit aufweist. (Diese Fehler traten weltweit bei diesen Memory-Modulen auf.) Nach dem Austausch der entsprechenden Module konnte der Dauertest am 19. Oktober erfolgreich beendet werden.

Software

Anwendersoftware: GAUSSIAN 09, R, MATLAB, Mathematica, HDF5, Global Arrays

Compiler: Intel Fortran & C Compilers (ver. 10.1, 11.0, 11.1), GNU Fortran Compiler g77, gfortran, gcc, Portland Group Compiler, Glasgow Haskell Compiler (GHC)

Debugging: gdb, idb

Libraries: FFTW, Intel MKL (versions 11.0, 11.1), GotoBLAS (libgoto)

Parallel Programming Tools: QLogic MPI 0.1.0, OpenMPI 1.3.2

Netzzugang über das ACOnet

Eine technische Herausforderung war die Lösung der Fragestellung, wie der Zugang zum VSC von den Partneruniversitäten möglichst einfach, aber mit hoher Bandbreite realisiert werden kann.

Dazu wurde ein „Modell des verteilten Zugangs“ gewählt, d. h. jede Universität verfügt über einen eigenen Zugangsknoten (ein Ausbau ist bei Engpässen vorgesehen), der logisch im Netzwerk der jeweiligen Universität liegt. Es war daher notwendig, VLANs der Partneruniversitäten über das ACOnet bis an die jeweiligen Zugangsknoten zu spannen. Diese Konstruktion ermöglicht einerseits die direkte Anbindung der Ethernet-Switches an das ACOnet mit 10Gbit/s sowie eine einfache softwaretechnische Nutzung von Applikationen, die Lizenzserver der jeweiligen Universitäten benötigen.

Der VSC ist daher unter folgenden Adressen erreichbar:

vsc.tuwien.ac.at
vsc.univie.ac.at
vsc.boku.ac.at

Diese Netzwerk-Topologie wurde im Oktober 2009 nach der Lieferung der erforderlichen Switches und Glasfaser-Komponenten realisiert, die Abbildung zeigt die Netzwerk-Struktur:

Vergabe von Benutzer-Accounts

Die Vergabe der Benutzerberechtigungen obliegt dem Steering Committee (SC), in welchem Vertreter von UNI, TU und BOKU sitzen. Grundsätzlich werden Projekte genehmigt und diesen werden Ressourcen zugewiesen. Die Vergabe von einzelnen persönlichen Benützer-Berechtigungen (Accounts) obliegt dann dem jeweiligen Projektleiter. Zur Beantragung von Projekten und Einrichtung von Accounts wurde im Web ein Vergabeassistent eingerichtet.

Nach einer kurzen technischen Prüfung durch die Systemadministratoren erfolgt die Genehmigung durch das SC dann im Umlaufweg. Nähere Details finden sich auf der Website des VSC (www.vsc.ac.at). Wesentlicher Punkt ist, dass Projekte per Peer-review vergeben werden, wobei aber Projekte mit einer Peer-review seitens des Fördergebers (etwa FWF) nicht nochmals begutachtet werden.

Zusagen über die Bereitstellung von Ressourcen zum Zweck der Projekteinreichung bei einem anerkannten Fördergeber, z. B. FWF, werden bis zu 300.000 Core-Stunden/Jahr (1% der Kapazität des VSC) im kurzen Weg vom zuständigen ZID-Leiter gegeben. Der Antrag erfolgt ebenfalls über die Webseite.

Daneben gibt es „Test-Projekte“ mit limitierten Ressourcen (2 Monate, 30.000 -Stunden), die von den Systemadministratoren ohne Befassung des SC freigegeben werden.

Benutzertestbetrieb

Um Verzögerungen zu vermeiden, gilt der Zeitraum bis Jahresende als Benutzer-Testbetrieb. Das bedeutet, dass nach erfolgreicher technischer Prüfung alle beantragten Projekte sofort mit Ablaufdatum 31. 12. 2009 freigegeben werden. Die Entscheidung des SC, welche bis dahin vorliegen sollte, gilt dann ab 1. 1. 2010.

Erste Ergebnisse mit einem hochparallelen Programm demonstrieren die Leistungsfähigkeit des Systems. Das Programm aus dem Institut für Theoretische Physik (Prof. Burgdörfer) berechnet die Wechselwirkung eines Helium-Atoms mit ultrakurzen Laser-Pulsen, wobei die Schrödingergleichung für das Zweielektronen-System exakt, d. h. ohne die sonst üblichen Näherungen, numerisch gelöst wird. Das Diagramm zeigt, dass die verwendeten Intel i7 (Nehalem) Cores für den konkreten Fall etwa doppelt so schnell sind wie die Cores diverser anderer getester Systeme und dass die Laufzeit zumindest bis 800 Cores einwandfrei skaliert.

Hardware-Erweiterung

Nach der erfolgreichen Installation und Abnahme der VSC-Hardware (Clusterknoten, Zugangsknoten, Fileserver und Netzwerkkomponenten) zeigte sich sehr rasch, dass eine Erweiterung mit den vorhandenen Serverschränken und den Kühlkapazitäten nicht möglich ist.

Da von Seiten der zentralen Kälteversorgung ausreichend Kaltwasser zur Verfügung steht, wird noch im Dezember 2009 ein Ausbau der Kühlkapazitäten (2 zusätzliche CoolLoops) und eine Erweiterung der Serverschränke (2 zusätzliche Serverschränke) durchgeführt.

Im kommenden Jahr ist sowohl ein Ausbau der bestehenden Fileserver-Infrastruktur wie auch die Aufstockung um zusätzliche Nodes geplant. Derzeit wird der Einsatz eines Clusterfilesystems evaluiert, entsprechende Tests mit Lustre oder GPFS sind in Vorbereitung.

Die Abbildung zeigt den Aufstellungsplan des VSC, die geplanten Erweiterungen sind bereits eingezeichnet (rechte Seite).