Entwicklungen im Netzmanagement des TUNET
Johannes Demel
Ein Network Operation Center, das werktags von 7 Uhr bis 21 Uhr besetzt
ist, und neue Netzüberwachungssysteme werden ab Sommer 2005 der Verbesserung
der Qualität des Datenkommunikationsnetzes dienen.
Network Operation Center (NOC)
Das Datennetz der TU Wien - TUNET - versorgt die Einrichtungen der TU Wien
mit Datenkommunikationsservices, d.h. Verbindung innerhalb der TU Wien,
Anschluss an das Internet, Zugang vom Heimarbeitsplatz zu Services der
TU Wien, Mailservices etc. Dieses Netz wird vom Zentralen Informatikdienst,
Abteilung Kommunikation, betrieben. An dieses Netz sind derzeit über 9000
Rechner angeschlossen.
Weiters wird die Telekommunikationsanlage der TU Wien inklusive aller Telefonapparate
(über 5000 Nebenstellen) betrieben. Die Verfügbarkeit dieser Services ist
eine Notwendigkeit für das Funktionieren einer modernen Universität.
Derzeit gibt es aufgrund der personellen Randbedingungen folgende Problembereiche:
-
Es gibt keine systematische Überwachung des Netzzustands und Erkennen von
Störungen in einem definierten Zeitraum.
-
Größere Arbeiten am Netz, insbesondere in den Bereichen Backbone, Server,
Internet-Anbindung, werden an einem Montag Vormittag einmal im Monat gebündelt.
Die dadurch entstehenden Störungen bedeuten eine Beeinträchtigung für die
Benutzer in der normalen Betriebszeit.
Die Problembereiche konnten in den letzten Jahren zwar durch die systematische
Einführung eines redundanten Versorgungskonzepts in den kritischen Bereichen
entschärft werden, eine Lösung für diesen wichtigen Bereich der Infrastruktur
der TU Wien ist aber weiterhin erforderlich.
Schließlich muss auch bei einer redundanten Konfiguration erkannt werden,
dass ein Gerät oder Service ausgefallen ist, obwohl der Betrieb infolge
Umschaltung auf die redundante Versorgung weiter gewährleistet ist. Ein
Erkennen, wenn bereits auch die redundante Versorgung ausgefallen ist,
wäre zu spät.
Es wurde daher im Zuge einer im Herbst 2004 erfolgten Erstellung eines
Organisationsentwicklungsplans für den gesamten ZID für die nächsten Jahre
beschlossen, ein Network Operation Center (NOC) einzurichten. Das Ziel
ist, eine Erhöhung der Netzqualität zu erreichen und die Verlegung der
Netzwartungen an die Tagesrandzeiten zu ermöglichen.
Daraus resultieren folgende Ziele:
-
Kein Netzwartungstag mehr,
Netzwartungstätigkeiten zu Randzeiten,
-
Erkennen von Störungen,
-
Definierte Erreichbarkeit und Reaktionen bei Störungen,
-
Höhere Verfügbarkeit der Services,
-
Qualitätssteigerung im Bereich des Netzwerkes,
-
Freispielen der Techniker für neue Aufgaben.
Die schrittweise Betriebsaufnahme des NOC soll im Sommer 2005 erfolgen.
Als Betriebszeit ist Montag bis Freitag (werktags) von 7 Uhr bis 21 Uhr
vorgesehen. An Wochenenden und Feiertagen erfolgt eine kurze Überprüfung
des Netzstatus.
Die primären Aufgaben des NOC sind:
-
Überwachen der Verfügbarkeit der Services
-
Überwachen von bestimmten Parametern des Netzwerkes (Performance, Überlast,
...) und Baselining
-
Erkennen von Störungen
-
Erstanalyse der Störung
-
Durchführen einfacher Störungsbehebungen im Netz
-
Bei nicht selbstständig lösbaren Problemen Verständigung eines Technikers
-
Durchführung von komplexeren Störungsbehebungen im Netz unter Anleitung
eines (remote) Technikers
Netzüberwachung
Bisher werden eine Vielzahl von Systemen und Scripts zur Überwachung des
Zustands des Netzes und seiner Services (Verfügbarkeit, Performance) verwendet.
Im Zuge eines im Sommer 2004 begonnenen Projekts soll das Netzmanagement
auf wenige Systeme - es ist illusorisch zu hoffen, dass mit einem einzigen
System wirklich alles abgedeckt werden kann - reduziert werden und gleichzeitig
eine Erneuerung der Überwachungssysteme erfolgen.
Nach einer Anforderungsanalyse und Marktuntersuchung - insbesondere der
Public Domain Lösungen - wurde entschieden, dass als Hauptsystem für die
Überwachung des Netzzustands die Software
Nagios (
www.nagios.org) verwendet
werden soll. Für das Performance Monitoring soll in Zukunft
Cricket eingesetzt
werden (
http://cricket.sourceforce.net/). Für das Konfigurationsmanagement
der Cisco Komponenten - sofern nicht über Command Line - wird
Cisco Works
eingesetzt.
Sowohl Nagios als auch Cricket werden auf zwei redundanten SUN Opteron
Systemen unter Redhat Linux installiert. Zusätzlich gibt es noch weitere
Probe-Systeme, die das Netz von anderen Orten (inklusive Sicht von außen
auf die TU Wien) überwachen sollen.
Derzeit wird die genaue Konfiguration mit Unterstützung einer Firma (www.cubit.at)
erarbeitet und dann die Installation und Konfiguration der Systeme durchgeführt.
Zum Management (Konfiguration, Software-Download, Konfigurationssicherung,
Überwachung, Performance-Messung, ...) der einigen hundert Netzkomponenten
(Switches, Router, Server, Firewalls) gibt es ein eigenes Out-Of-Band Management
Netz, das bisher auf Basis von 10 MBit/s Ethernet funktioniert hat. Bei
der Vielzahl von Komponenten ist diese Technologie jedoch nicht mehr adäquat
und das Service-Netz wurde im Frühjahr 2005 auf eine unabhängige Gigabit-Struktur
zur Verbindung der Gebäude umgestellt. In den einzelnen Gebäuden basiert
dann das Service-Netz zum Anschluss von Servern, Switches, Konsol-Servern
etc. auf 100 MBit/s Ethernet.
Hinter dem Namen Nagios versteckt sich ein höchst erfolgreiches OpenSource
Monitoring-Tool für Netzwerke, Dienste, Applikationen etc.
Entwickelt wurde Nagios von Ethan Galstad, der auch weiterhin die treibende
Kraft hinter der Nagios-Weiterentwicklung ist.
Nagios löst seinen Vorgänger Netsaint - ebenfalls OpenSource - ab und erfreut
sich einer immer größer werdenden Beliebtheit. Weltweit - durch die OpenSource-Initiative ermöglicht - arbeiten Entwickler an neuen Monitoring-Möglichkeiten
und Plug-Ins.
Nagios selbst wurde in der Programmier-Sprache C geschrieben. Funktionserweiternde
Plug-Ins sind in den verschiedensten Variationen - C/C++, Perl, Shell-Skripte,
Python usw. - erhältlich.
Nagios beinhaltet ein Web-Interface, welches mittels in C geschriebenen
CGIs und Apache-Webserver schnell einen Überblick über den gesamten Netzwerk-Zustand
erstellen kann.
Gleichzeitig mit Nagios wird auch Cricket implementiert, da diese zwei
Komponenten eng zusammenarbeiten können. Bei Cricket handelt es sich um
ein Monitoring und Statistik-Tool, welches Daten unter anderem per SNMP
sammelt und verarbeitet und die Möglichkeit bietet, über ein Web-Interface
diese Daten grafisch wiederzugeben.
Cricket wurde entwickelt, um Netzwerk-Traffic auf Leitungen zu überwachen
und die Auslastung grafisch darzustellen.