ZIDline
Vienna Scientific Cluster News
Peter Berger, Jan Zabloudil
Der Vienna Scientific Cluster (VSC) ist der leistungsstärkste Supercomputer, der jemals in Österreich zu wissenschaftlichen Forschungszwecken errichtet wurde. Nur durch die gemeinsamen Anstrengungen der Universität Wien, der Universität für Bodenkultur und der Technischen Universität Wien, an der der Rechner beherbergt und gewartet wird, war es möglich, ein derartiges Projekt umzusetzen. Die Installation und Inbetriebnahme des Clusters erfolgte im Sommer/Herbst 2009 und der reguläre Betrieb läuft seit 1. 1. 2010.

Zugang

Um Zugang zur Rechenleistung des VSC zu erhalten, ist es notwendig, eine wissenschaftliche Position an einer der drei beteiligten Universitäten innezuhaben und Leiter eines Projekts, welches ein so genanntes „Peer Review“ Verfahren durchlaufen hat, zu sein. Über die Einhaltung der Zugangsregelungen wacht das Steering Committee des VSC, das sich aus Vizerektoren und ZID-Leitern der Universität Wien, TU Wien und Universität für Bodenkultur, Dekan Christoph Dellago und Prof. Herbert Störi, dem wissenschaftlichen Leiter des VSC Projekts, zusammensetzt.

Ausbau

Seit der Aufnahme des Produktionsbetriebs wurden über 60 wissenschaftliche Projektanträge von den drei Partneruniversitäten eingereicht, es wurden insgesamt über 25 Mio. CPU-Stunden an Rechenzeit vergeben.

In der 5. Sitzung des Steering Committees wurde ein Ausbau des VSC (TU Wien, Freihaus) beschlossen, weiters wurde von den Universitäten „grünes Licht“ für eine Neuplanung eines zusätzlichen „Wiener Höchstleistungsrechners“ gegeben. Vorbehaltlich der Zustimmung der Rektorate wurde eine Arbeitsgruppe mit der Durchführung der Planung eines neuen Standortes sowie der Erstellung einer EU-weiten Ausschreibung für dieses Höchstleistungs-Clustersystem beauftragt.

Die Realisierung soll in drei Schritten erfolgen: In der ersten Phase wird noch heuer der bestehende Cluster (VSC-1) aufgestockt; die zweite Phase wird mit der Installation eines neuen Clustersystems (VSC-2) im Frühjahr 2011 erfolgen, für Mitte 2012 ist die dritte Ausbauphase (VSC-3) vorgesehen. VSC-2 und VSC-3 werden an einem eigenen Standort aufgebaut und parallel zum VSC-1 betrieben. Die Rechenleistung des VSC-2 soll 2-2,5 mal so hoch sein wie die des VSC-1 (abhängig vom Kostenrahmen für den Standort). Die erforderlichen budgetären Mittel wurden den Universitäten im Zuge der Leistungsvereinbarungen vom Wissenschaftsministerium zur Verfügung gestellt.

Ausbauplanung VSC-1 (TU Wien, Freihaus)

In den nächsten Monaten werden drei Erweiterungen am bestehenden Cluster vorgenommen:

  • Ausbau um zusätzlich 40 Nodes (gleichartige Systeme, keine Änderung in der InfiniBand Fabric)
    Termin: Juni 2010 (abhängig vom Beschaffungsvorgang und von den Lieferzeiten)
  • Aufbau eines parallelen Filesystems (basierend auf Lustre) mit ca. 100 TB, vor allem als schnelles tmp-Filesystem.
    Termin: Sommer 2010
  • Installation eines Test- und Evaluierungssystems, das mit Grafikprozessoren (GPUs) ausgestattet ist („GPU-Cluster“, bestehend aus 4 Nodes mit je 2 „Tesla-GPUs“)
    Termin: voraussichtlich Herbst 2010

Auslastung

Die Forschungsvorhaben, die von der Rechenleistung des VSC profitieren, kommen unter anderem aus Bereichen der computergestützten Materialphysik, Chemie, Mathematik, Biomechanik, Neurobiologie, Astronomie/Astrophysik, Gravitationsphysik, Verfahrenstechnik, Quantenoptik, Meteorologie und Genetik. Genauso breit gestreut wie diese Forschungsbereiche sind dann auch die am VSC verwendeten Programme: Neben einer Menge vorwiegend selbst geschriebener Codes wird Gebrauch von einer Reihe weit verbreiteter Software aus dem Bereich der Elektronenstrukturrechnungen (VASP, Wien2k, FLAIR, LAMMPS), der Mathematik/Statistik (Mathematica, Matlab, R, GAMS), der Chemie (Gaussian, Turbomole, DFTB+, CHARMM), Meteorologie (MM5, WRF) und vieler anderer gemacht.

Derzeit werden 64 Projekte mit über 180 Benutzern durch Wissenschafter aller drei Universitäten durchgeführt. Arbeitsgruppen der Universität Wien haben dabei 11.329.039 Core-h für das Jahr 2010 beantragt und davon bis Ende April 3.503.904 Core-h verbraucht. Von Forschern der TU Wien und der Universität für Bodenkultur zusammen wurden von 10.729.248 beantragten Core-h bereits 4.066.745 genutzt. Die Auslastung des VSC bewegt sich im Schnitt bei 78% der tatsächlich verfügbar gewesenen Rechenzeit. Letztere hängt von verschiedenen Faktoren ab, wie beispielsweise die Anzahl deaktivierter – z. B. aus Wartungsgründen – und somit nicht für die Benutzer verfügbarer Knoten oder Ressourcenreservierungen durch das Queueing System (Sun Grid Engine) für parallele Jobs. Die genauen Daten zur Auslastung des VSC in den ersten vier Monaten des Jahres 2010 sind in Abbildung 1 dargestellt. Es zeigt sich, dass nach einer hohen Auslastung im Jänner der Bedarf an Rechenzeit in der Semesterpause im Februar leicht rückläufig war. Seit Anfang März stiegen die Auslastung des VSC und in weiterer Folge die Queue-Wartezeiten jedoch stark an. Zu bedenken ist, dass immer ein gewisser Teil des Systems von der Grid Engine blockiert wird, um Jobs mit höherer Parallelisierung starten zu können. Für den April 2010 wurde dieser Wert durch Auswertung der Logfiles exemplarisch mit 11,4% der theoretischen Kapazität bestimmt. Dies ist ein Indikator für die stark gestiegene Auslastung in diesem Zeitraum. Derzeit ist die Situation so, dass zu jedem Zeitpunkt Jobs in der Warteschleife stehen und auf frei werdende Cores warten. Seitens der Systemadministration wurde versucht, die Queuewartezeiten durch Kommunikation des so genannten „Backfillings“ an die Benutzer zu reduzieren. Mittels Angabe eines Rechenzeitlimits für single Core oder gering parallele Jobs, das (deutlich) unter 72h – der Maximallaufzeit eines Jobs – liegt, ist es möglich, in einem Zeitfenster zu rechnen, während ein hochparalleler Job auf frei werdende Ressourcen wartet. Von dieser Möglichkeit wird nun von vielen Benutzern bereits Gebrauch gemacht.

Betrachtet man die Verteilung der verbrauchten Rechenzeiten, zeigt sich, dass die Universität Wien und die TU Wien einen etwa gleich großen Anteil von 46,3% bzw. 47,5% für sich verbuchten, während der Anteil der Universität für Bodenkultur bis Ende April durchschnittlich 6,2% ausmachte. Tendenziell war der Rechenzeitverbrauch der Universität für Bodenkultur seit Jahresbeginn stark ansteigend, während die Anteile der TU und Universität Wien in einem relativ konstanten Verhältnis zueinander standen.

Es ist interessant zu analysieren, wie hoch der Parallelisierungsgrad jener am VSC verwendeten Codes ist, die den größten Rechenzeitanteil hatten. Abbildung 2 weist eine solche Statistik anhand der 12 Projekte mit dem höchsten Core-h Verbrauch aus. Daraus ist ersichtlich, dass ca. die Hälfte der Zeit (3.035.251) von Jobs genutzt wurde, die zwischen 128 und 512 Cores anforderten. Single Core Jobs haben einen Anteil von etwa 10% der von den Top 12 Projekten verbrauchten Ressourcen. Zusammengerechnet nutzten diese Projekte mehr als 60% der verfügbaren und beinahe 80% der tatsächlich verbrauchten Rechenzeit.

Erfahrungsberichte

Die Rückmeldungen der Benutzer bezüglich der Performance ihrer Codes am VSC sind durchwegs sehr positiv gewesen. Einerseits stellt die Möglichkeit hoher Parallelisierung über das Infiniband-Netzwerk für Programme, die gut mit der Anzahl der Prozessor-Cores skalieren, einen sehr großen Fortschritt dar und andererseits bietet die hohe Leistungsfähigkeit der Intel Nehalem Prozessoren auch seriellen Jobs deutliche Laufzeitreduktionen.

Im Folgenden beschreiben zwei Arbeitsgruppen die mit ihren jeweils verwendeten Programmcodes bisher am VSC gemachten Erfahrungen.

The Vienna Ab initio Simulation Package at the VSC

The HiRmod project