20 Jahre ETH Jubiläum Thomas Schler

Im Frühjahr 1995 war mein Studium der Geophysik kaum ein Jahr beendet. Ich war beim Geophysikalischen Institut der TU Karlsruhe (heute KIT) befristet zu 50 % angestellt und beschäftigte mich mit theoretischen Vorarbeiten zu tomographischen Untersuchungen der Karpatenregion in Rumänien mithilfe Daten lokaler Erdbeben. Praktische Erfahrungen dazu hatte ich zuvor während meiner Diplomarbeit zu tomographischen Untersuchungen der oberen Erdkruste des Südschwarzwaldes erworben. Mein damaliger Chef kam eines Tages zu mir und sprach einige Sätze, die in der Folge meinem beruflichen Leben eine unerwartet neue Richtung geben sollten. Der Schweizerische Erdbebendienst (SED) in Zürich suchte dringend einen Seismologen, der im Bereich der globalen Überwachung unterirdischer Kernexplosionen arbeiten sollte. Die Stelle war befristet aber zu 100 % zu besetzen. Ob ich interessiert sei, fragte er mich.

Nach zwei Tagen intensiver Überlegungen stellte ich meine Bewerbungsunterlagen zusammen und bewarb mich. Ein Vorstellungsgespräch und etwa zwei Wochen später war das Angebot in meinen Händen. Was folgte, war eines der interessantesten Aufgabenbereiche, die ich mir vorstellen konnte. In einem kleinen Team hochkarätiger Seismologen war ich mit im Boot. Meine Kernaufgaben waren die tägliche Auswertung von Erdbebendaten, die mit dem seismologischen Beobachtungsnetz des SED gewonnen werden, die Mitarbeit im seismologischen 7×24 h Pikettdienst, die Programmierung nützlicher Tools zu Metadaten seismologischer Beobachtungsstationen, die Berechnung systematischer Fehler aufgrund der Verwendung unterschiedlicher Referenzellipsoide bei Berechnungen von geographischen Koordinaten in der Schweiz und vieles mehr.

Vom ersten Tag an neu für mich war, dass ich eine eigene HP-UX Workstation hatte; mit Root-Passwort. Eine HP-UX Workstation hatte ich auch am Geophysikalischen Institut in Karlsruhe zur Verfügung, die war aber administriert gewesen und wurde von mehreren Personen genutzt. Mein damaliger Chef am SED erklärte mir zu meiner „eigenen“ HP-UX Workstation: Für den Geophysiker ist der Computer das wichtigste Werkzeug. Und dieses Werkzeug muss er in allen Belangen beherrschen können. Ein schlagendes Argument, das bei mir im positiven Sinne sofort sass.

UNIX-Systeme

Freude am Umgang mit UNIX-Systemen hatte ich schon im Studium entwickelt, und schnell war ich ein gefragter HP-UX-Spezialist. Am Ende war ich nicht mehr als Seismologe sondern als Systemspezialist und Datenbankentwickler am SED angestellt gewesen. Ich betreute ein HP-UX cluster-System, einzelne HP-UX Workstations, ein (aus heutiger Sicht bescheidenes) Massenspeichersystem mit optischen Wechselplatten und entwickelte unter Oracle eine seismologische Datenbank.

Backup-Service

Backups erstellte ich manuell auf DAT Tapes, die beschriftet wurden und in einem feuerfesten Safe verschwanden. Das machte ich so lange, bis ich von einem zentralen Backup Service erfuhr, der von den Informatikdiensten Netbackup genannt wurde. Nach zwei Sitzungen mit Jan Rozkosny wurde die gesamte HP-UX-Umgebung und sogar das Massenspeichersystem remote per Netbackup gesichert. Dieser Backup-Service war bereits damals ein 1A-Service.

Vom SED zur ID

Beim SED wurde ich von Jahr zu Jahr angestellt. Nach neun Jahren gab es keine Möglichkeit der Verlängerung mehr, so dass ich mich anderweitig umsehen musste. Ich erhielt die Chance, eine Stelle bei den Informatikdiensten im Bereich Netbackup anzunehmen. Das war meine Wunschstelle gewesen und ich freute mich, im Umfeld der ETH wiederum eine der interessantesten Aufgaben übernehmen zu können.

NAS-Service

Die Netbackup-Umgebung war bereits ein sehr gut etablierter zentraler IT-Service. Neu war der NAS-Service hinzugekommen. Gesamthaft konnten wir unseren Kunden aus einer Appliance heraus etwa 20 TB NAS-Speicher anbieten. Backup und NAS wurde von einer Gruppe bestehend aus vier Personen betreut. Der SAN-Bereich, der vorwiegend für ID-interne Kunden gedacht ist, wurde von einer Person betreut. Das Wachstum war allerdings rasant. Etwa drei Jahre später hatten wir bereits zwei produktive NAS Appliances, die wir selbstverständlich auf beide Standorte, ETH-Zentrum und ETH-Hönggerberg, verteilt hatten. Eine dritte NAS Appliance erhielten wir vom Hersteller als Leihgerät, um damit am Beta-Testprogramm teilnehmen zu können. Das war ein enormer Vorteil, konnten wir doch jeweils den neuesten NAS Code bereits viele Wochen vor dessen offiziellem Release ausgiebigst kennenlernen und testen.

Personell wuchsen wir auch, sodass wir die Bereiche Backup und NAS voneinander trennen konnten. Heute besteht die NAS-Gruppe aus fünf Personen. Vier weitere Personen bilden die Backup-Gruppe und zwei Personen die SAN-Gruppe.

Rasanter Anstieg

Von 20 TB NAS in 2004 sind wir inzwischen auf über 2 PB angewachsen. Diese verteilen sich auf vier produktive NAS Appliances zweier Hersteller. Je zwei NAS Appliances verschiedener Hersteller sind an zwei verschiedenen Standorten untergebracht.

Zu meinen Hauptaufgaben zählt die Betreuung aller NAS-Systeme. Die Funktionalität der NAS-Systeme muss überwacht werden. Kommt es zu Problemen, dann melden sich die NAS-Systeme in den meisten Fällen in Form von automatischen E-Mails von selbst oder öffnen eine Call Home-Verbindung zum Support des Herstellers. In einem solchen Fall muss schnell gehandelt werden, um entscheiden zu können, ob das gemeldete Problem demnächst die NAS-Produktion beeinträchtigen könnte oder nicht. Entsprechend schnell muss die Problemlösung erfolgen.

NAS-Kunden

Da wir einen NAS-Service anbieten, gibt es logischerweise auch jene, die unseren NAS-Service nutzen. Typischerweise greifen unsere NAS-Kunden über das CIFS- oder das NFS-Protokoll auf das NAS zu. Das Anforderungsprofil an den NAS-Service ist sehr hoch und breit gefächert. Alle benötigen den permanenten und störungsfreien Datenzugriff. Viele benötigen viel Kapazität, andere haben den Anspruch, sehr schnellen Zugriff auf ihre Daten im NAS zu haben. Die Daten müssen sicher aufgehoben sein. Die logische Sicherheit wird über die Protokollfunktionen und die Netzwerksicherheit (NET) gewährleistet. Die physikalische Sicherheit wird über die Verwendung von RAID-Konfigurationen, Snapshot-Funktionalitäten und die Verwendung unseres zentralen backup-Service zur Sicherung aller NAS-Daten auf Bänder gewährleistet. Zudem stehen die NAS Appliances in abgeschlossenen und nur kontrolliert zugänglichen Computerräumen.

Ab und an muss die NAS-Software aller NAS Appliances wieder einmal auf den neuesten Stand gebracht werden. Damit werden dem Hersteller bekannte Fehler korrigiert oder die Datensicherheit durch Schliessen von bekanntgewordenen Sicherheitslücken erhöht oder neue und sinnvolle Funktionalitäten implementiert. Leider kann ein NAS Code upgrade nicht völlig unterbrechungsfrei erfolgen. Unsere NAS-Kunden werden daher rechtzeitig im Vorfeld über einen bevorstehenden NAS Code Upgrade informiert, damit sie sich in ihrer Arbeitsweise darauf einstellen können. Meine Aufgabe ist es hierbei, jeden NAS Code so vorzubereiten, dass alle Systemkomponenten auch zum Zeitpunkt des NAS Code Upgrade fehlerfrei laufen. Ich kontaktiere den Hersteller-Support, arbeite mit ihm gemeinsam alle Pre Upgrade Checks durch und vereinbare den Termin, an dem der NAS Code upgrade durchgeführt werden soll. Gemeinsam mit dem Support führe ich den NAS Code Upgrade durch, der einige Stunden lang dauern kann, was völlig normal ist. Jeweils gegen Mitternacht sollte der ganze „Zauber“ in der Regel vorbei sein. Manchmal treten aber auch während des laufenden NAS Code upgrade unvorhergesehene Probleme auf, die dann noch ein paar zusätzliche Stunden Arbeit bis in den frühen Morgen hinein bedeuten können. Bislang waren wir aber stets in der Lage, unseren NAS-Kunden rechtzeitig vor Beginn der üblichen Bürozeiten den NAS-Service wie gewohnt bereitzustellen.

Geht einmal seitens unserer NAS-Kunden etwas schief oder bestehen Fragen oder Anforderungen zu zusätzlichem Service, verwenden unsere Kunden das Ticket-System zur Kontaktaufnahme zu uns. Wir bearbeiten im Team alle Kundenanfragen, die über das Ticket-System an uns herangetragen werden.

Kein System lebt ewig und in der IT schon mal gar nicht. Im Laufe des Jahres 2016 wird entschieden werden, welche(s) Nachfolgesystem(e) unsere bestehenden NAS-Systeme ablösen werden/wird. Gemeinsam im Team werden wir Nutzungskonzept, Bereitstellung der neuen NAS-Systeme und die Datenmigrationsphase planen und realisieren. Das Nachfolgesystem muss installiert und konfiguriert werden. Es muss eine Zeit lang parallel gemeinsam mit dem jetzigen NAS-System betrieben werden, damit wir den gesamten Datenbestand im laufenden Betrieb migrieren können. Unsere NAS-Kunden sollen von den Datenmigrationsprozessen möglichst wenig mitbekommen, damit sie in ihrer Arbeit möglichst nicht behindert werden. Das Ziel ist selbstverständlich, den bis anhin gewohnt guten NAS-Service auf hohem Niveau beizubehalten, wenn nicht zu verbessern.

Wegen meines 20-jährigen Dienstjubiläums an der ETH ist dieser Text für meinen Geschmack zu sehr ich-bezogen, aber es scheint wohl kaum anders zu gehen, wenn man gebeten wird, anlässlich eines solchen Jubiläums von sich selbst zu berichten. Es ist aber völlig klar, dass wir im Team arbeiten. Ohne die sehr gute Arbeit jedes einzelnen von uns, wäre es mir gar nicht möglich, selbst sehr gute Leistung zu bringen. Ich bedanke mich bei allen Teams Tilo Steigers und Jürgen Winkelmanns und ihnen selbst für die hervorragende Zusammenarbeit.

Thomas Schler
September, 2015

Thomas_Schler2

Posted on
in News, Passwort, Applikationen, Software, Arbeitsplätze, Speicher, Support, Wissenschaftl. Rechnen Tags: ,