Spark Workshop
Workshop zur wissenschaftlichen Datenanalyse mit Apache Spark.
Die im heutigen Forschungsalltag produzierten, wissenschaftlichen Datensätze wachsen rasant und übersteigen mehr und mehr unsere Möglichkeit, diese einfach mit unserem Laptop oder sogar einem leistungsfähigen Arbeitsplatzrechner zu verarbeiten. Es gibt zwar mittlerweile Rechner mit sehr grossen Mengen an Arbeitsspeicher (ca. 1-3 TB); diese sind jedoch extrem teuer und die Datenanalyse bleibt dabei nach wie vor auf einen einzelnen Computer limitiert. Aber eine Einzelplatzlösung skaliert nicht, wenn die Datensätze weiter an Grösse zunehmen. Auf der anderen Seite setzen verteilte, skalierbare Datenanalyseverfahren oft die Kenntnis von komplexen, parallelen Programmier-Tools voraus, welche für viele Wissenschaftler eine zu grosse Herausforderung darstellen, um mit ihren gewaltigen Datenmengen klar zu kommen. Zudem kann die Analyse von grossen Datenmengen sehr viel Rechenzeit in Anspruch nehmen, was einen dynamischen, oder gar interaktiven «data exploration» Ansatz erschwert oder gar verhindert.
In den letzten Jahren ist jedoch ein neues, verteiltes Datenanalyse Framework – «Spark» genannt – erschienen, welches sowohl robuste Skalierbarkeit über hunderte Rechenknoten garantiert, als auch eine einfache Benutzerhandhabung ermöglicht, dank eines high-level Programmier-Interface. Insbesondere erlaubt Spark auch die interaktive Analyse von grossen Datensätzen. Diese Möglichkeit macht Spark für wissenschaftliche Anwendungen sehr attraktiv, bei denen die Ziele einer Analyse nur erreicht werden können, wenn eine effiziente Datenerforschung möglich ist.
Im Verlauf dieses Jahres haben die Scientific IT Services (SIS) die Verwendbarkeit von Spark mit der existierenden, zentralen ETH Recheninfrastruktur (d.h. Euler sowie eines stand-alone Hadoop test clusters) evaluiert. Zusätzlich haben SIS einen Workshop vorbereitet, mit dem Ziel den ETH Wissenschaftlern dieses neue Framework zur Datenanalyse näher zu bringen. Der Workshop vermittelt den Forschenden die Grundlagen des Spark Programmiermodells und gibt ihnen die nötigen Tools, um unmittelbar ihre eigenen Datenanalysen auf der ETH Infrastruktur laufen zu lassen.
Die ersten zwei Workshop-Sessions wurden in den ersten beiden Septemberwochen gehalten und von 25 Wissenschaftlern aus D-GESS, D-BSSE und D-BIOL besucht. Jede Session dauert drei Tage: Der erste Tag gibt eine Einführung in die Herausforderungen der verteilten Datenanalyse und vermittelt einige relevante Programmierkonzepte anhand von praktischen Übungen. Während den darauffolgenden zwei Tagen führen die Teilnehmer ein Mini-Projekt aus, dessen Ziel es ist, eine Pipeline zu entwickeln zur Textanalyse des gesamten Bücherkorpus des Gutenberg Projekts. Ungefähr 75% des Workshops basiert auf hands-on sessions, in welchen den Teilnehmern die Möglichkeit geboten wird, sowohl eine Intuition für Spark als auch für die vorhandene ETH Recheninfrastruktur zu entwickeln. Aufgrund des grossen Interesses am Workshop und den positiven Rückmeldungen der ersten beiden Gruppen, hoffen wir, diesen Kurs im Herbstsemester weiteren Departementen anbieten zu können.
Text & Kontakt
Rok Roskar, Research Informatics, ID Scientific IT Services (ID SIS)
Posted on
in News, Passwort, Applikationen, Software, Arbeitsplätze, Speicher, Support, Wissenschaftl. Rechnen