TU Wien | ZID | ZIDline 11 | ZIDcluster2004
Der ZID wird für das numerisch intensive Rechnen ein neues Clustersystem betreiben. Die Nutzung soll durch begutachtete Projekte mit Kostenbeteiligung erfolgen.
Bereits im Jahre 2003 wurden umfangreiche Diskussionen und Gespräche mit der Universitätsleitung und den Hauptbenutzergruppen der TU Wien zum Themenschwerpunkt "Numerisch intensives Rechnen auf zentralen Hochleistungsservern" durchgeführt. Die Fragestellung, ob und in welcher Dimensionierung ein Nachfolgesystem für die bestehenden, nicht mehr zeitgemäßen Systeme (unser "schnellstes System", die IBM SP (hal.zserv) wurde Mitte 2001 in Betrieb genommen) ausgeschrieben werden kann, wurde unter der Bedingung eines Rückfinanzierungsmodells positiv entschieden. Als maximaler Finanzrahmen für ein Hochleistungs-Clustersystem wurden uns für dieses Projekt EUR 350.000,- zur Verfügung gestellt.
Nach der Erarbeitung der technischen Anforderungen wurden in Zusammenarbeit mit den Nutzern die Spezifikationen für eine EU-weite, öffentliche Ausschreibung für ein Clustersystem erstellt. Diese Ausschreibung wurde von der Bundesbeschaffung GmbH im Auftrag des ZID durchgeführt. Von sieben Firmen wurden Angebote abgegeben, die Anbotseröffnung erfolgte am 28. September 2004.
Nach einer intensiven Prüfung der Angebote wurde am 10. November 2004 der Zuschlag der Firma Siemens Business Services GmbH für ein Clustersystem hpcLine von Fujitsu-Siemens für folgende Systemkomponenten erteilt:
![]() |
50 Stück Clusterknoten bestehend aus 2 Prozessoren AMD Opteron 250 (2,4 GHz) 4 GByte Hauptspeicher 1 Platte SATA 120GB 1 CDROM-Laufwerk 2 Gigabit-Ethernet-Adapter (auf Mainboard) 1 Myrinet-Adapter (Hochgeschwindigkeits-Netzwerk, 2Gbit/s) 1 Management-Board
2 Stück Zugangsknoten bestehend aus:
Hochgeschwindigkeits-Netzwerk:
Filetransfer-Netzwerk: 2 Systemschränke (19 Zoll) |
Das bestellte Clustersystem verfügt pro Clusterknoten über 2 Gigabit-Ethernet-Anschlüsse, die über 2 Stück Gigabit-Switches (über 10 GB/s uplink gekoppelt) zusammengeschaltet werden und für das NFS-Netzwerk und das Clustermanagement zur Verfügung stehen.
Die Kopplung der Clusterknoten für die Parallelisierung wird über ein Myrinet-Hochgeschwindigkeitsnetzwerk realisiert.
Die Leistungsmerkmale von Myrinet-2000:
full-duplex 2+2 Gb/s Datenrate
flow control, error control und "heartbeat"
zur Überwachung aller Links
hohe Bandbreite bei geringer Latenz:
Sustained
one-way data rate for large messages 495 MByte/s
Sustained two-way data rate
for large messages 770 MByte/s
Latency for short messages 5.71 ms
low level
message-passing protocol (GM oder MX)
Glasfaserverbindungen zu den Hostadaptern
Jeder Clusterknoten wird mit einer Myrinet/PCI-X Interfacekarte ausgestattet (PCI-X 64 bit 133 MHz, 2MB local memory, single-port, LC optical connector, low- profile).
Ein Myrinet-2000-Switch für maximal 64 Hostports wird für die Verbindung der Clusterknoten untereinander eingesetzt, in unserer Konfiguration bestehend aus 7 Line-Cards mit je 8 Fiberanschlüssen.
Um bei maximal 64 Hosts optimale Verbindungen zwischen den Hosts herzustellen, wird eine "Clos Network Topologie" (Charles Clos veröffentlichte 1953 ein Papier "A Study of Non-Blocking Switching Networks") eingesetzt. Kern dieser Technologie ist ein 16-Port Myrinet Crossbar Switch (Xbar16 single chip), der jeweils die 8 Hostports mit der Backplane verbindet, auf der sich wiederum "spine switches" befinden.
Das PGI Cluster Development Kit (CDK) enthält die gesamte Software, die für Software-Entwicklung und Cluster-Verwaltung benötigt wird:
MPICH ist eine (vom Argonne National Laboratory entwickelte) Open-Source-Implementierung des Message-Passing-Interface(MPI-)-Standards. MPICH enthält eine voll- ständige Implementierung der Version 1.2 des MPI-Standards sowie signifikante Teile von MPI-2, speziell im Bereich der parallelen I/O-Unterstützung.
Torque ist ein Resource und Queue Management System, das auf OpenPBS basiert. Gegenüber OpenPBS wurden zahlreiche Verbesserungen und Erweiterungen eingebaut.
Jeder Clusterknoten ist mit einem Management-Board (Qlogic Zircon) ausgestattet, das über das "Intelligent Platform Management Interface" (IPMI) und das "Remote Management and Control Protocol" (RMCP) das Management und die Überwachung der Clusterknoten ermöglicht.
Da es nicht sinnvoll erscheint, als Maßeinheit für massiv parallele Jobs die CPU-Zeiten der Clusterknoten zu verrechnen, wird jene Zeitspanne als "Verrechnungseinheit" herangezogen, in der der Job die angeforderten CPUs blockiert, d. h. wenn er in der Queue den Status run erhält, bis zum Job-Ende.
Als Verrechnungseinheiten dienen "Clusterstunden" für 32, 64 oder 100 Prozessoren, die tatsächlichen Kosten werden in allen Fällen projektspezifisch abzustimmen sein.
Für die Programmentwicklung und für die Lehre wird sicherlich ein Sockelbetrag ohne Verrechnung von Kosten zur Verfügung stehen.
Wir sind zurzeit dabei, die erforderlichen Feinabstimmungen vorzunehmen und werden die Installation, die Abnahme und die Aufnahme des Produktionsbetriebs so rasch wie möglich durchführen.