[:de]Wissenschaftliche Bibliotheken und der Umgang mit Forschungsdaten[:en]Academic libraries and handling research data[:]

[:de]Der Frage “Warum Forschungsdaten ein Thema für wissenschaftliche Bibliotheken sind“, war bereits ein früherer Blogbeitrag gewidmet. In diesem Beitrag befassen wir uns damit, wie Bibliotheken Forschende beim Umgang mit Forschungsdaten unterstützen können.

Dazu zunächst eine grundsätzliche Überlegung. Man kann sich nämlich auch fragen, wie sinnvoll es ist, dass sich einzelne Institutionen mit der Erhaltung ihrer Daten beschäftigen. Ist es nicht effizienter, internationale Datenarchive zu nutzen, idealerweise solche, die fachlich spezialisiert sind?
Tatsächlich sind etablierte fachspezifische Angebote der bevorzugte Ort für einen Teil der Daten. Jedoch gibt es solche Dienste bisher nur für erstaunlich wenige Wissenschaftszweige. Zusätzlich machen diese Datenarchive meist einschränkende Vorgaben zur Art der abzulegenden Daten und zur öffentlichen Freigabe. Das macht es schwierig, zusätzliche oder nicht frei zugängliche Materialien mitzuliefern. Auch Daten nur für eine begrenzte Zeit abzulegen, ist oft nicht möglich. Darum sind ergänzende institutionelle Angebote nötig. Mit ihnen können Hochschulangehörige die Anforderungen der guten wissenschaftlichen Praxis auf unkomplizierte Art erfüllen und bei Bedarf weitergehende Dienstleistungen nutzen.

Welchen Beitrag können wissenschaftliche Bibliotheken als Dienstleister in diesem Kontext erbringen? Beim Aufbau von Angeboten für den digitalen Datenerhalt gilt es, vorhandene Kompetenzen, Prozesse und Strukturen effizient und effektiv zusammenzuführen. So können die Duplizierung vorhandener Infrastrukturen oder ressourcenaufwändige Mehrspurigkeiten vermieden werden, wie z.B. auf der Ebene der Datenspeicherung. Das folgende Diagramm gibt Einblick in eine mögliche Aufgabenverteilung beim langfristigen Erhalt von Forschungsdaten:

[Abbildung 1: Funktionale Ebenen in der Datenerhaltung; M. Töwe, M. Okonnek]

Abbildung 1: Funktionale Ebenen in der Datenerhaltung; Matthias Töwe, Maximiliane Okonnek

Eine wesentliche Herausforderung im Umgang mit Forschungsdaten liegt darin, die dargestellten Einzelaspekte in einer kohärenten Infrastruktur für die Archivierung und – bei Bedarf – für die Veröffentlichung abzubilden. Der Aufbau einer solchen Infrastruktur ist komplex und wird nur unter Kooperation aller betroffenen Akteure und ihrer entsprechenden Kompetenzen gelingen.

Ohne den qualifizierten Input der Forschenden, ihre Dokumentation des Kontextes und ihre Einschätzung der zukünftigen Nutzung kann der Erhalt digitaler Daten kaum Erfolg haben. In der folgenden beispielhaften Darstellung zeigt sich das breite Spektrum an Informationen, die über die eigentlichen Ergebnisdaten hinaus im Prozess wissenschaftlicher Forschung entstehen können und für den sinnvollen Umgang mit den produzierten Daten benötigt werden.

Beispiel einer apparativen Messung – Informationen, die für eine wissenschaftliche Nachnutzung benötigt werden und nur von den Forschenden geliefert werden können

Abbildung 2: Beispiel einer apparativen Messung –
Informationen, die für eine wissenschaftliche Nachnutzung benötigt werden und nur von den Forschenden geliefert werden können

Bibliotheken als Akteure

Eine Fülle an Informationen ist also notwendig, um den wissenschaftlichen Kontext hinreichend für mögliche weiterführende Forschung abzubilden. Und doch reicht diese allein für die langfristige Erhaltung der Daten oft nicht aus. Liegen weitere Angaben vor, kommen daher wissenschaftliche Bibliotheken und Datenarchive ins Spiel. Die Beschreibung von inhaltlichen, administrativen und technischen Eigenschaften mit Hilfe von standardisierten Metadaten gehört zu ihren Kernkompetenzen. Hochschulbibliotheken unterstützen bereits das elektronische Publizieren von Texten: angefangen bei der Vergabe einer ISBN oder eines DOI (Digital Object Identifier) über die Förderung von Open Access mit der Volltextablieferung an ein institutionelles Repositorium bis hin zur Erfassung von Publikationen von Hochschulangehörigen für die Bibliographie und das Reporting der Hochschule. Die Kompetenzen, die bei diesen Dienstleistungen zum Einsatz kommen, sind auch im Umgang mit Forschungsdaten relevant.

Viele Anforderungen an den Umgang mit Forschungsdaten zielen darauf, Datensätze als Begleitmaterial zu formalen Veröffentlichungen bereitzustellen oder sie als eigenständige, gut beschriebene Objekte verfügbar zu machen. So können sie nach Bedarf auf Publikationen verweisen oder von diesen zitiert werden. Es liegt nahe, die Verantwortung für die konvergierenden Abläufe für Publikationen und Forschungsdaten zusammenzuführen. Langfristig soll so die Veröffentlichung von gut beschriebenen Forschungsdatensätzen stärker auch als Bestandteil der Forschungsleistung gewürdigt werden. Unterstützt wird dies z.B. durch die eindeutige Zuordnung zu Autorinnen und Autoren via ORCID, die Open Researcher and Contributor ID (vgl. Blog-Beitrag vom März 2014). Auch hier sind Bibliotheken federführend aktiv.

In letzter Zeit gilt zusätzliche Aufmerksamkeit der Forderung von Förderorganisationen, bei der Antragstellung für ein Forschungsprojekt einen Datenmanagementplan (DMP) mitzuliefern. Dieser beschreibt, welche Daten im Projekt voraussichtlich erzeugt oder erhoben werden und wie mit ihnen umgegangen werden soll (Veröffentlichung, Möglichkeit der Nachnutzung, langfristige Erhaltung, Anonymisierung etc.). Hier können Bibliotheken vor allem dann unterstützen, wenn es im jeweiligen Fach keine klar etablierte Praxis mit anerkannten fachspezifischen Repositorien gibt. Sie können Kriterien für die Bewertung und Auswahl möglicher externer und interner Repositorien liefern und falls nötig bei der Einschätzung von deren Eignung helfen. Auch wenn Bibliotheken hier selbst noch Know-how gewinnen müssen, ist eine Bündelung der entsprechenden Expertise wesentlich effizienter, als diese an verschiedensten Stellen in der Hochschule immer wieder neu aufzubauen.

Die Komplexität von Datenformaten

Grosse Bedeutung hat die Diskussion der geplanten Dateiformate und ihrer Vor- und Nachteile für die spätere Weiterverwendung.  Sie sollte zu einem möglichst frühen Zeitpunkt beginnen.
Die Wahl offener, standardisierter und gut dokumentierter Formate ist vor allem ein Anliegen der unbefristeten Langzeiterhaltung: Bei solchen Formaten besteht eine Aussicht, die entsprechenden Dateien bei Bedarf in aktuellere Nachfolgeformate umwandeln (migrieren) zu können, was bei proprietären Formaten weitgehend ausgeschlossen ist. Bibliotheken als Infrastrukturdienstleister sind in der Lage, ein entsprechendes Monitoring der vorhandenen Datenformate über lange Zeiträume hinweg zu gewährleisten und bei Bedarf Massnahmen in die Wege zu leiten.

Soweit die Theorie. Und was haben die Angehörigen der ETH Zürich in der Praxis davon?
Von 2010 bis 2013 hat die ETH-Bibliothek im Projekt Digitaler Datenerhalt die gleichnamige Fachstelle (www.library.ethz.ch/Digitaler-Datenerhalt) aufgebaut.

Screenshot Microsite „Digitaler Datenerhalt an der ETH Zürich“ im Wissensportal der ETH-Bibliothek

Abbildung 3: Screenshot Microsite “Digitaler Datenerhalt an der ETH Zürich” im Wissensportal der ETH-Bibliothek

Die Fachstelle leistet einen Teil der genannten Unterstützung für den Umgang mit Forschungsdaten. Dabei kooperiert sie eng mit den Informatikdiensten der ETH Zürich. Ihre konkreten Aufgaben und Dienstleistungen werden Thema eines weiteren Blogbeitrages sein.


Dieses Werk unterliegt einer Creative Commons Attribution-ShareAlike 4.0 International Public License.

CC-BY-SA[:en]An earlier post addressed the question of “why research data is a matter for academic libraries“. In this blog entry, we examine how libraries can help researchers handle research data.

Let’s begin with a fundamental consideration. You might also ask how sensible it is for individual institutions to deal with storing their data. Isn’t it more efficient to use international data archives, ideally specialised ones? Sure enough, established subject-specific services are the preferred place for a proportion of the data. So far, however, such services have only existed for astonishingly few branches of science. What’s more, these data archives usually place restrictions on the kind of data to be filed and for public release, which makes it difficult to supply additional material or material that is not freely accessible. Only filing data for a limited amount of time is often not possible. Consequently, supplementary institutional services are required. These enable university members to meet the demands of good scientific practice in an uncomplicated way and, if need be, use additional services.

What contribution can academic libraries make as a service-provider in this context? When developing digital curation services, the key is to combine existing competencies, processes and structures efficiently and effectively. For instance, the duplication of existing infrastructures or resource-intensive multi-tracks can be avoided, e.g. at data storage level. The following diagram offers an insight into a possible distribution of tasks for the long-term curation of research data:

[Abbildung 1: Funktionale Ebenen in der Datenerhaltung; M. Töwe, M. Okonnek]Figure 1: functional levels in data curation; Matthias Töwe, Maximiliane Okonnek

One major challenge in handling research data consists in portraying the individual aspects represented in a coherent infrastructure for archiving and – if need be – publication. The development of such an infrastructure is complex and will only succeed with the cooperation of all those affected and their corresponding skills.

Without the qualified input of the researchers, their documentation of the context and their estimation of future usage, the curation of digital data is unlikely to succeed. The following example illustration reveals the broad spectrum of information that can emerge beyond the actual result data in the process of academic research and is necessary for the sensible handling of the data produced.

Beispiel einer apparativen Messung – Informationen, die für eine wissenschaftliche Nachnutzung benötigt werden und nur von den Forschenden geliefert werden könnenFigure 2: example of an instrument-based measurement –
information that is necessary for academic re-use and can only be provided by the researchers

Libraries as actors

A wealth of information is also necessary to display the scientific context sufficiently for possible further research. And yet it is often not enough for the long-term preservation of the data. If further details are available, academic libraries and data archives come into play. The description of content-related, administrative and technical properties with the aid of standardised metadata is all part and parcel of their core competencies. University libraries already support the electronic publication of texts: starting with the allocation of an ISBN or DOI (Digital Object Identifier) and promoting open access with full-text delivery to an institutional repository all the way to recording publications by university members for the university’s bibliography and reporting. The competencies used for these services are also relevant when handling research data.

Many requirements for handling research data are aimed at providing datasets as supplementary material for formal publications or making them available as independent, well-described objects. For instance, they can refer to publications or be cited by them as required. It makes sense to combine the responsibility for the converging procedures for publications and research data. In the long run, the publication of well-described datasets should thus also be commended more strongly as a component of research achievement. This is supported by the clear attribution to authors via ORCID, the Open Research and Contributor ID (see blog post from March 2014), for instance. Libraries are taking an active lead here, too.

Recently, additional attention has been paid to the requirement of funding organisations to include a data management plan (DMP) in the application for a research project. This describes which data is expected to be generated or gathered in the project and how it should be handled (publication, possibility of re-use, long-term preservation, anonymisation etc.). Libraries can especially offer support here if there is no clearly established practice with recognised specialist repositories in the individual subject. They can provide criteria for the assessment and selection of possible external and internal repositories and, if necessary, help evaluate their suitability. Even if libraries themselves still have some knowhow to gain here, pooling the corresponding expertise is considerably more efficient than to keep starting from scratch again all over the university.

The complexity of data formats

The discussion on the scheduled data formats and their pros and cons for later further use is very important. It should begin as early as possible.

The selection of open, standardised and well-documented formats is primarily a matter of unlimited long-term storage: with such formats, there is a possibility to convert the corresponding files into more current successor formats (migrating), which is largely impossible with proprietary formats. As infrastructure service-providers, libraries are capable of guaranteeing the suitable monitoring of the available data formats for long periods of time and, if need be, initiate measures.

So much for the theory anyway. And what do members of ETH Zurich get out of it in practice? From 2010 to 2013, ETH-Bibliothek set up the specialist office Digital Curation in an eponymous project (www.library.ethz.ch/Digitaler-Datenerhalt).

Screenshot Microsite „Digitaler Datenerhalt an der ETH Zürich“ im Wissensportal der ETH-Bibliothek

Figure 3: screenshot of the microsite “Digital Curation at ETH Zurich” on ETH-Bibliothek’s Knowledge Portal

The specialist office provides a proportion of the aforementioned support in handling research data. In doing so, it cooperates closely with ETH Zurich’s IT Services. Its concrete responsibilities and services will be examined in another blog post.


This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International Public License.
CC-BY-SA[:]