Globus erleichtert den Transfer wissenschaftlicher Daten

Globus: ein neuer Service der HPC-Gruppe von Scientific IT Services (ID SIS).

Globus, als Zürcher denke ich da natürlich zuerst an das Warenhaus an der Bahnhofstrasse. In der Welt des wissenschaftlichen Rechnens steht Globus allerdings für einen Daten-Managementservice, der es erlaubt Terabytes von Daten auf einfache Art weltweit zu transferieren und zu organisieren.

Kurz, Globus wurde entwickelt, um grosse Datenmengen zu managen, die an der ETH Zürich oder an anderen Forschungsinstitutionen auf der ganzen Welt gespeichert sind. Mit Globus können die Benutzenden:

  • Dateien transferieren: Von Kilobytes bis zu Petabytes; mit Globus können Daten effizient, zuverlässig und sicher verschoben werden, innerhalb der ETH Zürich und zwischen den Kontinenten.
  • Daten mit anderen teilen: Alles was es braucht, um Daten mit Kolleginnen oder Kollegen zu teilen, ist eine E-Mail-Adresse – Globus erledigt die Authentifizierung und den Zugang. Und es können auch Daten öffentlich publiziert werden.
  • Apps und Gateways entwickeln: Mit REST APIs und dem Python SDK können auch eigene Datenapplikationen massgeschneidert werden.

Globus wird weltweit von HPC-Zentren benutzt. Der einfach Grund ist: HPC (High Performance Computing) heisst auch oft, dass grosse Datensätze involviert sind. Und es ist üblich, dass Daten zwischen verschiedenen HPC-Zentren ausgetauscht werden; sei es von Benutzenden, die an verschiedenen Orten rechnen oder für die Zusammenarbeit in Forschungsprojekten.

Globus stammt aus der Zeit als Cloud noch Grid hiess

Der Globus-Service baut auf gridFTP auf, welches auf die gute alte FTP-Technologie zurückgeht. Man könnte gridFTP als einen FTP-Service auf Stereoiden und mit zusätzlichen Funktionen bezeichnen. Zum Beispiel die Parallelisierung der Datenströme und einen verschlüsselten Authentifizierungskanal.

Ursprünglich war gridFTP Teil des quellenoffenen Globus-Toolkits, dem Offiziersmesser für Grid-Computing. Grid heisst jetzt Cloud, die Benutzung ist einfacher geworden, und damit auch brauchbar für digital natives. Die grösste Schwierigkeit dieses veralteten Toolkits und damit von gridFTP war der aufwändige Umgang mit den Zertifikaten. Dennoch wurde gridFTP gerne benutzt, um grosse Datenmengen zu kopieren, auch wenn die Vorbereitung oft mehr Zeit beanspruchte als der Transfer.

Der Transfer grosser Datenmengen als Service

Die beiden Hauptschwierigkeiten bei der Benutzung von gridFTP waren der Umgang mit den Zertifikaten, insbesondere der sogenannten short live certificates und das Fehlen eines graphischen Benutzerinterface.

An dieser Stelle übernahmen unsere Kolleginnen und Kollegen der Universität Chicago. Sie bauten ein System, welches den Umgang mit den Zertifikaten, also mit der Benutzer-Authentifizierung, transparent und damit einfach benutzbar für Forschende auf der ganzen Welt gemacht haben. Dabei stützten sie sich auf das Internet2-Netzwerk ab. Das bedeutet Benutzende können mit dem ETH Usernamen bei Globus einloggen und zwar auf die gleiche Art wie bei vielen unserer Webseiten.

Der Globus-Service beinhaltet einen Webbasierten Filemanager, der es einfach macht, grosse Daten Mengen von A nach B zu kopieren, während man selbst an seinem Notebook C sitzt, welcher solche Datenmengen gar nicht speichern könnte.

Eine Globus-Subskription für die ETH Zürich

Ein komplexes System wie Globus zu unterhalten, ist nicht gratis. Deshalb hat die Universität Chicago entschieden, viele Funktionen von Globus nur den Institutionen zugänglich zu machen, welche den Dienst abonnieren.

Um den HPC-Benutzenden das volle Potential von Globus anzubieten, hat sich die HPC-Gruppe dazu entschieden, eine Subskription für Globus zu erwerben, welche für die ganze ETH nutzbar ist. Das heisst alle mit einem ETH-Login können Globus voll benutzen.

Departemente, Institute oder andere Einheiten, welche ihren eigenen Storage direkt mit Globus verbinden wollen, können vom HPC-Team eine kostenpflichtige Subskription erhalten. Mehr Information dazu ist über globus-support@id.ethz.ch erhältlich.

Mit Globus beginnen

Um einen ersten Blick auf Globus zu erhalten, können Benutzende die URL http://app.globus.org in ihrem Browser eingeben. Dann ETH Zürich aus dem Dropdown-Menü auswählen und mit dem ETH Usernamen einloggen. Im Filemanager, der sich dann öffnet, kann nach ETH Zürich oder Euler gesucht werden. Der Euler-Service wird in den nächsten Wochen als produktiver Service erstellt werden. Um auf dem Laufenden zu bleiben, bietet sich die ETH interne HPC-Globus-Mailingliste an.

Detaillierte Anleitungen wie Globus benutzt werden kann, folgen bald auf scicomp.ethz.ch.

Posted on
in IT-Sich, News, Speicher, Support, Wissenschaftl. Rechnen Tags: , , , , , , , , , , ,