Der neue Applikationsserver Freie Programmierung
IBM RS/6000 SP Hochleistungsserver

Peter Berger

Im Sommer 2000 wurde mit den Vorbereitungsarbeiten für eine Ausschreibung eines neuen Applikationsservers "Freie Programmierung" als Ersatz für den über 4 Jahre alten NEC-Vektorrechner (Applikationsserver "Lineare Algebra") begonnen. Eine Arbeitsgruppe unter der Leitung des ZID, bestehend aus Vertretern der Hauptbenutzer der Applikationsserver "Freie Programmierung" und "Lineare Algebra", erarbeitete die Spezifikationen und stellte Benchmarkprogramme zur Verfügung.

Am 3. Oktober 2000 wurde eine EU-weite öffentliche Ausschreibung für dieses Hochleistungs-Serversystem veröffentlicht. Als maximaler Finanzrahmen standen ATS 8,5 Mio (aufgeteilt auf zwei Teilzahlungen, 2001 und 2002) zur Verfügung. Die Ausschreibung wurde von 21 Firmen abgeholt, von 5 Firmen wurden Angebote bis zur Anbotseröffnung am 23. 11. 2000 abgegeben.

Nach einer intensiven Evaluierungsphase wurde am 15. 2. 2001 der Zuschlag der Firma IBM für ein System IBM RS/6000 SP 9070-550, bestehend aus 3 Knoten SMP High Node (je 16 Prozessoren Power3, 375 MHz, Nighthawk2), erteilt.

Ein Blick in die Vergangenheit der SP-Systeme

In den späten 80er-Jahren gründete IBM ein Labor, The High Performance Supercomputer System Development Laboratory (HPSSDL), um eine Supercomputer-Technologie zu entwickeln, die möglichst auf weit verbreitete, nicht exotische Architekturen aufsetzt und skalierbar in Leistung und Preis war.

1990 veröffentlichte die IBM Advanced Workstation Division in Austin, Texas, die RISC-Systemfamilie (RS/6000) auf UNIX-Basis (Betriebssystem AIX). Diese RISC-Workstations wurden von HPSSDL in "Nodes" gepackt und in "Frames" zusammengefasst.

Zur gleichen Zeit wurde ein High-Speed Switch (Code-Name Vulcan) entwickelt, der die Zusammenschaltung von 16 Stück RS/6000 Systemen in einem Frame ermöglichte. Verbunden über ESCON-Adapter und eine entsprechende Management-Software war dieses System der erste Schritt zur SP-Serie.

1993 kam dieses System als SP1 (Scalable Parallel System) auf den Markt, die Anzahl von Knoten betrug max. 512 (gleichzusetzen mit max. 512 Prozessoren), als Management-Software wurde PSSP (Parallel System Support Program) entwickelt und eingesetzt.

1994 wurde die SP2 vorgestellt, ausgestattet mit unterschiedlichen Knoten und Prozessoren (Power2 und Power PC).

1996 wurde die SP-Serie als Top-End der RS/6000 Produktserie angekündigt, die Knoten unterstützen SMP-Architektur (Symmetric Multiprocessor), die Kopplung der Knoten erfolgt entweder über den Hochleistungs-Switch oder über einen Gigabit Ethernet Switch.

Die Architektur des neuen Systems IBM RS/6000 SP 9070-550

Das System besteht aus 3 SMP-Knoten (Nighthawk2), die in einem SP-Frame installiert sind. Jeder Knoten verfügt über 16 Prozesssoren, 16 GB Hauptspeicher und 2 lokale 36 GB Platten. Das Massenspeicher-Subsystem besteht aus einem externen SSA-System (IBM 7133/D40 SSA) mit insgesamt 10 SSA-Platten mit je 36 GB, die über SSA-Kabel mit dem ersten und zweiten Knoten verbunden sind. Zur Datensicherung ist ein LTO Ultrium Tape (IBM 3581/H17 LTO, 100/200 GB Speicherkapazität) installiert. Die Kopplung der Knoten erfolgt über Gigabit Ethernet und einen GBit-Switch mit 6 Ports.

Das Management der SP erfolgt über eine Control-Workstation (RS/6000 F50), die über RS232 und einen getrennten Management-LAN (100 MBit/s, Switch) mit den SP-Knoten verbunden ist.

Der Anschluss an das lokale Netz der TU Wien ist mit 2x 100 MBit/s realisiert.

Bei der Erstellung der Spezifikationen für die Ausschreibung wurde von der Arbeitsgruppe gemeinsam mit dem ZID festgelegt, dass bei Clustersystemen die Knoten über mindestens 4 Prozessoren, die auf ein gemeinsames Memory zugreifen (SMP-Architektur), verfügen müssen.

Es war gefordert, dass die Kopplung dieser Knoten für eine Prozessoranzahl von 4 pro Knoten über ein Kopplungsmedium mit einer Bandbreite deutlich größer 1 GBit/s erfolgen muss. Bei Knoten mit mehr als 4 Prozessoren wurde die Bandbreite mit mindestens 1 GBit/s festgelegt.

Der Grund dieser Abstufung ist die Tatsache, dass von Seiten der Institute für die großen Produktionsjobs kein hoher Grad an Parallelisierung verwendet wird. Die Nutzung von CPU-Ressourcen über Knotengrenzen hinaus ist von untergeordneter Bedeutung, wenn eine ausreichende Anzahl von CPUs innerhalb eines Knotens zur Verfügung steht.

Die Kopplung der Knoten über Gigabit-Ethernet ermöglicht (z. B. über MPI) die Nutzung von Ressourcen über Knotengrenzen hinweg, ist aber wesentlich preisgünstiger als die Kopplung über einen Hochleistungs-Switch.

IBM-SP Architektur

Architektur IBM RS/6000 SP 9070-550

IBM-SP Node

Blockdiagramm des 375 MHz Power3 SMP High Node (Nighthawk2)

Hardware:

IBM RS/6000 SP 9070-550 mit
3x        Knoten 375 MHz SMP High Node (Nighthawk2),
            pro Knoten mit
            16x    CPU (Power3-II, 375 MHz, 8 MB Cache)
                16 GB Hauptspeicher
            2x    36 GB interne Platten (LVD)
            1x    Gigabit-Ethernet
            1x    10/100 Ethernet (Management)
            4x    10/100 Ethernet (nur Knoten 1)
            1x    SSA RAID Controller (nur Knoten 1 und 2)
            1x    SCSI (FWD, nur Knoten 1 und 2)

Disk-Subsystem IBM 7133/D40 SSA,
10x 36 GB SSA-Platten
Backup-Subsystem IBM 3581/H17 LTO Ultrium
Gigabit-Switch zur Kopplung der Knoten
100 MBit Switch zur Kopplung des Management-LAN
Control-Workstation IBM 7025/F50

Einige Leistungszahlen:

SPECint95	23.5
SPECfp95	51.3
SPECint2000	252
SPECfp2000	337
Linpack 1000x1000	1208 Mflops (1 Prozessor)

Das Kernstück der SP - der 375 MHz Power3 SMP High Node (Nighthawk2)

Prozessoren:
    16 Prozessoren (Power3-II, 375 MHz, CMOS 7S Kupfertechnik)
    Superskalar-Architektur mit 8 Execution Units
    32 KB Instruction Cache, 64 KB Data Cache, 8MB L2 Cache
    SMP-Architektur

Hauptspeicher:
    16 GB, 4 Memory-Cards mit je 4 GB (max. 64 GB möglich)
    4 Banks mit je 8 DIMM-Slots pro Memory-Card
    4 GB/sec Bandbreite pro CPU-Card, 16 GB/sec Gesamtbandbreite

I/O-Subsystem:
    2 getrennte PCI-Controller, SP-Switch Adapter (500 MB/sec)
    PCI 0: 1x 32-Bit, 2x 64-Bit, Ultra-SCSI, 10/100 Ethernet
    PCI 1: 2x 64-Bit

Disk-Subsystem:
2x interne 36 GB Platten, Ultra-SCSI, 10.000 rpm (Spiegelung)

Das externe Platten-Subsystem

Als externes Storage-Subsystem kommt ein IBM 7133 D40 (SSA-Subsystem), bestehend aus 10x 36 GB SSA-Platten, zum Einsatz. Dieses Subsystem ist über zwei SSA-Loops mit zwei SSA-Adaptern (FC 6230 Advanced SerialRAID Plus Adapter) mit den Knoten verbunden. Mit diesem Controller können die Platten in RAID-Sets (RAID 0, 1, 5) zusammengefasst werden, hot-spare Disks werden natürlich unterstützt.

Serial Storage Architecture (SSA)
ist eine schnelle, hochverfügbare, serielle Verkabelungstechnologie zur Verbindung von Platten und Hostadaptern auf Kupferbasis. SSA ist ein offener Standard (ANSI X3T10.1), der von der SSA Industry Association ent-wickelt wurde.

Die Basis der SSA-Technologie bildet die Loop, eine bidirektionale, im full-duplex Mode arbeitende serielle Verbindung zwischen den Hostadaptern und den Platten. Zwei unabhängige physikalische Pfade zum Lesen und zwei zum Schreiben zu jeder Platte in der Loop ermöglichen den Zugriff auf das Plattensystem auch dann, wenn die Loop an einer Stelle unterbrochen ist (z.B. Ausfall einer Platte oder defektes Kabel). Die maximale Transfer-Rate für jeden Schreib- oder Lesevorgang beträgt 40 MB/s, für die Loop ergibt das eine Bandbreite von maximal 160 MB/s.

Jeder Hostadapter verfügt über 2 Loops, die unabhängig und gleichzeitig lesen und schreiben können. Dadurch können sowohl Konfigurationen mit hoher Verfügbarkeit als auch mit hoher Durchsatzleistung realisiert werden. Die Kabel und Platten sind hot-pluggable, die Loop ist im Fehlerfall self-configuring und self-repairing, maximal 48 Platten sind pro Loop zulässig.

SSA ermöglicht ein Mapping der SCSI-2 Funktionen, aus der Sicht der Hostsoftware ist das Plattensystem ein SCSI-System mit allen Funktionalitäten.

Das Storage-Subsystem IBM 7133 / D40
besteht aus einem Gehäuse (Rackversion) mit 2 unabhängigen Netzteilen, 16 Steckplätzen für SSA-Platten und einer internen Verkabelung, die jeweils 4 Platten in eine Loop zusammenschaltet. Diese Loops sind nach außen geführt und können über SSA-Kabel (max. 25 m Kupfer, max. 10 km Glasfaser) an die Hostadapter angeschlossen werden.

Die Konfiguration am ZID besteht aus 10 SSA-Platten mit je 36 GB, die über 2 Loops mit den RAID-Controllern verbunden sind. Die Platten bilden zwei RAID5- Sets, die über die beiden Loops gleichzeitig angesprochen werden können. Um die Ausfallssicherheit zu erhöhen, wurde in einem anderen Knoten ein zweiter RAID-Controller installiert, der im Normalbetrieb nicht verwendet wird.

Auf dem externen Storage-Subsystem befinden sich die Home-Verzeichnisse der Benutzer, die über NFS an den Knoten zur Verfügung stehen.

Backup-System - IBM 3581 Ultrium Tape
Autoloader

Im Jahr 1997 entwickelten die Firmen IBM, HP und Seagate gemeinsam einen neuen Standard - das Linear Tape-Open (LTO) Program. Ziel von LTO war, offene Spezifikationen für Bandspeichersysteme mit hoher Kapazität und Geschwindigkeit zu entwickeln (http://www.lto-technology.com/).

Zwei unterschiedliche Bandformate wurden definiert, LTO Accelis und Ultrium, wobei das Accelis-Format (Doppelspule, 8 mm Band) für hohe Zugriffsgeschwindigkeit optimiert wurde, das Ultrium-Format (single-reel, ½ Zoll Band) für hohe Speicherkapazitäten gedacht ist.

SSA

Die Basistechnologie von LTO wird als "multi-channel linear serpentine recording" bezeichnet. Die Daten werden auf 384 Spuren geschrieben, die auf 4 Data-Bands zu je 96 Tracks aufgeteilt werden. Ein Schreib/Lesekopf schreibt 8 Spuren gleichzeitig, beginnend vom Bandbeginn zum Bandende. Dann wird die Position innerhalb des Bandes gewechselt und die nächsten 8 Spuren vom Bandende zum Anfang geschrieben. Für die richtige Positionierung des Kopfes sorgen 5 Servo-Bands, die sich zwischen den 4 Data-Bands befinden.

Der LTO Ultrium Tape Autoloader IBM 3581 speichert bis zu 100 GB (200 GB mit 2:1 Komprimierung) auf ein Ultrium-Medium. Die Host-Schnittstelle ist SCSI, die Transferrate beträgt 15 MB/s. Der Autoloader kann 7 Kassetten aufnehmen, das ergibt eine maximale Speicherkapazität von 700 GB (ohne Komprimierung).

Betriebssystem und Applikationssoftware

Software:
        AIX 4.3 (SP-Version und alle Komponenten des TU Campusvertrages)
        PSSP V2.4
        Parallel Environment for AIX V2.3
        C und C++ Compiler
        Fortran77 und Fortran90 Compiler
        HPF V1.3
        PD-Software (tcsh, ssh, …)
        LoadLeveler V2.2

Applikationssoftware:
        ESSL und OSL
        Parallel ESSL und Parallel OSL
        LaPack und ScaLaPack
        NAG Library Mark 19

Die Installation weiterer Softwarekomponenten erfolgt dem Bedarf entsprechend, vor allem der Einsatz von Software, die diese Rechnerarchitektur optimal nützen, ist erforderlich (sowohl scalar wie auch zur Parallelisierung).

Zugang über das TUNET

Der Systemzugang erfolgt ausschließlich über den Knoten 1 (sp01), nur dieser ist an das lokale Netz der TU Wien angeschlossen (Fast Ethernet, 100 MBit/s). Die anderen Knoten und die Control-Workstation sind direkt nicht erreichbar, können aber vom "Zugangsknoten" aus angesprochen werden. Aus Sicherheitsgründen ist der Zugang nur über Secure Shell möglich (telnet und ftp sind nicht offen), ebenso können die Berkeley r-Commands (rlogin, rcp, ...) nicht verwendet werden.

Der Hostname (des Zugangsknotens) ist

hal.zserv.tuwien.ac.at

Betriebskonzept und Betriebsmittelvergabe

Die Abnahme des Gesamtsystems wurde erfolgreich am 27. April 2001 durchgeführt. Das System läuft im Testbetrieb, Anträge für eine Usernummer bitte wie üblich an das Sekretariat des ZID senden. Ein Betriebskonzept mit entsprechenden Batch-Queues wird demnächst zur Verfügung stehen.

Das neue System steht allen Instituten der TU Wien für selbstentwickelte Applikationen (freie Programmierung) mit relativ geringem Parallelisierungsgrad aber mit hohem Ressourcenbedarf (CPU und Speicherzugriffe) zur Verfügung.

Die Systemadministration und die Projektberatung wird von Herrn Dr. Ernst Haunschmid übernommen, für Fragen stehen wir jederzeit gerne zur Verfügung.