[:de]Persistent Identifiers als Katalysator für offene Forschungsdaten[:en]Persistent identifiers as a catalyst for open research data[:]

[:de]Die Non-Profit-Organisation DataCite engagiert sich seit mehr als fünf Jahren für einen leichteren Zugang zu Forschungsdaten sowie für deren verbesserte Auffindbarkeit [1]. Das Ziel des Vereins ist dabei nicht allein die Sichtbarkeit von Forschungsdaten im Internet zu steigern. Auch ihre Akzeptanz als relevanter, zitierfähiger Bestandteil des wissenschaftlichen Leistungsausweises soll gestärkt werden. Ein Weg, dieses Ziel zu erreichen, führt über die Registrierung von Digital Object Identifiers (DOIs) für Forschungsdaten. DataCite ist eine offizielle Registrierungsagentur der International DOI Foundation. Die derzeit 24 DataCite-Mitglieder, zu denen auch der DOI-Desk der ETH Zürich zählt, ermöglichen es ihren Kunden, den sogenannten Data Centers, DOI-Namen für online zugängliche Forschungsdaten zu registrieren. abbildung-1-doi-desk

Abb. 1: Schritt für Schritt zur DOI-Registrierung (Slides auf Slideshare-Account der ETH-Bibliothek)

Wissenschaftlerinnen und Wissenschaftler erhalten durch eine DOI-Registrierung die Sicherheit, dass die von ihnen publizierten Daten über einen stabilen Identifikator dauerhaft adressierbar bleiben. Sie können die veröffentlichten Forschungsdaten in ihre Literaturliste aufnehmen und ihr so die angemessene Bedeutung in ihrem Leistungsausweis zukommen lassen. Andere Wissenschaftler können den Datensatz zitieren und sich auf die Daten und deren Produzenten berufen. Im optimalen Fall führt die standardisierte Referenz auf einen Datensatz in einer wissenschaftlichen Publikation dazu, dass die Datenproduzenten über Tools wie Google Scholar, den Data Citation Index oder Impactstory auf das neue Zitat aufmerksam werden und so über die Nachnutzung ihrer Daten stets aktuell informiert sind. Soweit die Theorie. In der Praxis stehen wir heute jedoch vor folgenden Herausforderungen:

  • Forschungsdaten sind nach wie vor grösstenteils nicht öffentlich zugänglich
  • Forschungsdaten werden nicht oder uneinheitlich mit Metadaten beschrieben
  • für das Referenzieren und Zitieren von Forschungsdaten hat sich bisher kein Standard durchgesetzt

Aus diesem Grund hat DataCite neben der DOI-Registrierung ein weiteres Handlungsfeld aufgemacht, um seine Anliegen voranzutreiben: die Entwicklung von Standards und Best Practices für die Publikation von Forschungsdaten

Forschungsdaten beschreiben

Für die Beschreibung von Forschungsdaten haben sich bisher nur in wenigen Disziplinen, wie zum Beispiel den Sozialwissenschaften, etablierte Standards herausgebildet. Die Entwicklung eines disziplin-unspezifischen Metadatenschemas für Forschungsdaten war daher nach der Gründung von DataCite Ende 2009 eine der ersten Prioritäten. Ein solches Schema könnte auch für fachspezifische Forschungsdatenarchive als Datenaustauschformat dienen und so deren Interoperabilität verbessern. Das DataCite Metadata Schema, in seiner ersten Version 2011 publiziert, erfüllt diesen Zweck. Das Schema wird von DataCite kontinuierlich weiterentwickelt und hat sich heute als Quasi-Standard für die Beschreibung von Forschungsdaten weitgehend etabliert. abbildung-2-datacite

Abb. 2: obligatorisch anzugebende Metadaten-Eigenschaften innerhalb des DataCite Schemas

Eines seiner wichtigsten Merkmale ist die Möglichkeit, über spezifische Metadatenelemente semantische Beziehungen zwischen Forschungsdatensätzen, deren Versionen oder Bestandteilen, sowie zwischen Publikationen und Forschungsdatensätzen standardisiert zu beschreiben [2].

Forschungsdaten zitieren

Auf Grundlage des DataCite Metadatenschemas empfiehlt DataCite, einen Forschungsdatensatz wie folgt zu zitieren:

Creator (PublicationYear): Title. Version. Publisher. ResourceType. Identifier

Ein praktisches Beispiels macht das noch nachvollziehbarer:

Swaminathan, R., Ramya, T., Karthik, C.S. (2013): Contortrostatin-Reprolysin Domain Structure. Swiss Institute of Bioinformatics. http://doi.org/10.5452/ma-c12zs

Die Bedeutung dieser Empfehlung liegt weniger in der Art und Weise, wie und in welcher Reihenfolge bestimmte Elemente des Zitats aufgeführt werden. Vielmehr liegt sie in der daraus abgeleiteten Forderung, dass Forschungsdaten überhaupt in standardisierter Form auf Webseiten, in Literaturlisten oder in wissenschaftlichen Publikationen zitiert werden sollten. Um dieses Anliegen zu unterstreichen, zählt DataCite auch zu den Unterzeichnern der “Joint Declaration of Data Citation Principles”.

Forschungsdaten publizieren

Für die DataCite-Mitglieder ergibt sich in der Zusammenarbeit mit ihren Kunden, den Betreibern von Forschungsdatenarchiven, oft die Möglichkeit, auf die Durchsetzung wichtiger Standards hinzuwirken und Best-Practice-Beispiele aufzuzeigen. So empfiehlt DataCite zum Beispiel, dass ein DOI-Name nie auf einen Forschungsdatensatz direkt auflösen soll, sondern auf eine sogenannte Landing Page. Abbildung-3-3D

Abb. 3: Beispiel eines publizierten Datensatzes:
Landing Page für ein anatomisches 3D-Modell der IT’IS Foundation, http://doi.org/10.13099/ViP-Thelonious-V2.0

Die Landing Page liefert dem Nutzer beschreibende Informationen zum Datensatz und ermöglicht es ihm dadurch, die Daten inhaltlich einzuordnen und im Sinne der Datenproduzenten nachzunutzen [3]. Auch zu anderen Themen, wie dem Umgang mit sich verändernden, sogenannten “dynamic data sets” hat DataCite Empfehlungen ausgesprochen.

Erfahrungen aus der Praxis

In der Praxis des DOI-Desk der ETH Zürich zeigt sich, dass die Diskussion um die Veröffentlichung von Forschungsdaten in Schweizer Forschungseinrichtungen an Bedeutung gewinnt. An vielen Stellen fehlen jedoch noch die technischen und betrieblichen Voraussetzungen, um umfassende Angebote aufzubauen. Oftmals steht im Erstkontakt mit potentiellen Kunden des DOI-Desk deren Wunsch im Vordergrund, bereits vorhandene Daten mittels DOI zu publizieren und zitierbar zu machen. Die folgenden notwendigen Voraussetzungen auf Kundenseite müssen jedoch oftmals erst geschaffen werden:

  • die Sicherstellung der Persistenz und dauerhaften Verfügbarkeit der digitalen Objekte
  • das Erfassen von Metadaten
  • die Bereitstellung von Landing Pages

So mündet der scheinbar einfache Wunsch nach der Registrierung von DOI-Namen nicht selten in einen länger andauernden Beratungsprozess über die Anforderungen an elektronische Publikationsplattformen für Forschungsdaten und andere nicht-traditionelle Publikationsformate. Im optimalen Fall hat der neue DOI-Kunde am Ende dieses Prozesses einen wichtigen Schritt auf dem Weg zu einem vertrauenswürdigen Forschungsdatenrepositorium gemacht. Und der DOI-Desk hat einen weiteren Kunden gewonnen, dessen Forschungsdaten gut auffindbar sind und einer weltweiten Öffentlichkeit zur Nutzung zur Verfügung stehen.


[1] Jan Brase, Irina Sens, Michael Lautenschlager (2015): “The Tenth Anniversary of Assigning DOI Names to Scientific Data and a Five Year History of DataCite”. D-Lib Magazine 21(1/2). http://doi.org/10.1045/january2015-brase [2] Joan Starr, Angela Gastl (2011). “is CitedBy: A Metadata Scheme for DataCite”. D-Lib Magazine 17(2). http://doi.org/10.1045/january2011-starr. [3] Joan Starr, Eleni Castro, Mercè Crosas u.a. (2015). “Achieving human and machine accessibility of cited data in scholarly publications”. PeerJ Preprints 3:e697v4. http://doi.org/10.7287/peerj.preprints.697v4.


Dieses Werk unterliegt einer Creative Commons Attribution-ShareAlike 4.0 International Public License.

CC-BY-SA
[:en]For more than five years, the non-profit Organisation DataCite has been campaigning for easier access to research data and its improved traceability [1]. The organisation’s aim is not solely to increase the visibility of research data on the internet, but also boost its acceptance as a relevant, citable component of an academic performance record.

One way to achieve this goal is via the registration of Digital Object Identifiers (DOIs) for research data. DataCite is an official registration agency for the International DOI Foundation. The twenty-four current DataCite members, which include ETH-Zurich’s DOI-Desk, enable their customers, so-called data centres, to register DOI names for research data that is accessible online.

abbildung-1-doi-desk

Fig. 1: One step at a time towards DOI registration (slides on ETH-Bibliothek’s Slideshare account)

A DOI registration offers scientists a guarantee that the data they have published will remain permanently addressable via a stable identifier. They can add the published research data to their bibliography and afford it the appropriate significance in their track record. Other scientists are able to cite the dataset and refer to the data and its producer. In the ideal scenario, the standardised reference to a dataset in an academic publication results in the data producer noticing the new citation via tools such as Google Scholar, Data Citation Index or Impactstory and thus constantly being kept up to date with the re-usage of their data.

So much for the theory, anyway. In practice, we currently face the following challenges:

  • The majority of research data is still not publicly accessible
  • Research data is not described uniformly– if at all – using metadata
  • To date, there is no accepted standard for the referencing and citation of research data

For this reason, DataCite has opened up another field of activity besides DOI registration to champion its cause: the development of standards and best practices for the publication of research data.

Describing research data

To date, established standards for the description of research data have only taken shape in a handful of disciplines, such as the social sciences. The development of a cross-discipline metadata scheme for research data was therefore one of the initial priorities upon the foundation of DataCite at the end of 2009. Such a scheme could also serve as a data exchange format for subject-specific research data archives and thus improve their interoperability.

The DataCite Metadata Schema, the first version of which was published in 2011, fulfils this aim. The scheme is honed constantly by DataCite and has largely established itself as a quasi-standard for the description of research data today.

abbildung-2-datacite

Fig. 2: Obligatory metadata to be indicated within the DataCite scheme

One of its most important features is the possibility to describe semantic relationships between research datasets, their versions or components, and between publications and research datasets in a standardised way via specific metadata elements [2].

Citing metadata

Based on the DataCite metadata scheme, DataCite recommends citing a research dataset as follows:

Creator (PublicationYear): Title. Version. Publisher. ResourceType. Identifier

A practical example should make this even clearer:

Swaminathan, R., Ramya, T., Karthik, C.S. (2013): Contortrostatin-Reprolysin Domain Structure. Swiss Institute of Bioinformatics. http://doi.org/10.5452/ma-c12zs

The importance of this recommendation lies less in how and in which order certain elements of the citation are listed than in the resulting demand for research data to even be cited on websites, in bibliographies or in scientific publications in a standardised form at all. In order to underline this matter, DataCite is also one of the signatories of the “Joint Declaration of Data Citation Principles”.

Publishing research data

In the collaboration with their customers, the operators of research data archives, DataCite members often have the possibility to work towards the implementation of important standards and showcase best practice examples. For instance, DataCite recommends that a DOI name should never resolve to a research dataset directly, but rather a so-called landing page.

Abbildung-3-3D

Fig. 3: Example of a published dataset:
landing page for an anatomical 3D model of the IT’IS Foundation, http://doi.org/10.13099/ViP-Thelonious-V2.0

The landing page provides users with descriptive information on the dataset, enabling them to sort the data by content and re-use it in the interests of the data producer [3]. DataCite has also issued recommendations on other topics, such as handling changing, so-called “dynamic data sets”.

Experiences from practice

In practice at ETH Zurich’s DOI-Desk, it is evident that the discussion on the publication of research data in Swiss research facilities is gaining in importance. In many areas, however, the technical and operational prerequisites to develop comprehensive services are still lacking. Often, the desire of potential DOI-Desk customers to publish existing data using DOI and render it citable takes priority in the initial contact. Frequently, however, the following prerequisites on the part of the customer have to be created first:

  • A guarantee of the persistence and permanent availability of the digital objects
  • The recording of metadata
  • The provision of landing pages

As a result, the seemingly straightforward desire for the registration of DOI names frequently results in a longer advisory process about the requirements for electronic publication platforms for research data and other non-traditional publication formats. In an ideal scenario, the new DOI customer will have taken an important step on the path towards a trustworthy research data repository by the end of this process. And the DOI-Desk will have gained another customer, whose research data is easy to find and available for a global public to use.


[1] Jan Brase, Irina Sens, Michael Lautenschlager (2015): “The Tenth Anniversary of Assigning DOI Names to Scientific Data and a Five Year History of DataCite”. D-Lib Magazine 21(1/2). http://doi.org/10.1045/january2015-brase

[2] Joan Starr, Angela Gastl (2011). “is CitedBy: A Metadata Scheme for DataCite”. D-Lib Magazine 17(2). http://doi.org/10.1045/january2011-starr.

[3] Joan Starr, Eleni Castro, Mercè Crosas u.a. (2015). “Achieving human and machine accessibility of cited data in scholarly publications”. PeerJ Preprints 3:e697v4. http://doi.org/10.7287/peerj.preprints.697v4.


This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International Public License.
CC-BY-SA[:]