[:de]Das ‚richtige‘ Dateiformat – und alles ist in Butter?[:en]The “right” file format – and everything’s rosy?[:]

[:de]Ein entscheidender Faktor für den Erhalt von Forschungsdaten ist das Dateiformat. Je nach gewähltem Format muss man damit rechnen, dass die Lesbarkeit der Daten nur für wenige Jahre gesichert ist. Programme, Formate und Betriebssysteme verändern sich im Laufe der Zeit, so dass die Nutzbarkeit der Daten in vielen Fällen nicht gewährleistet werden kann.

Nachdem wir im Blogbeitrag von Februar verschiedene Methoden zur Erstellung von PDF/A-Dokumenten vorgestellt haben, fassen wir im Folgenden einige Kriterien zusammen, die für die Eignung von Dateiformaten für die Langzeitarchivierung eine Rolle spielen.

Anforderungen an Formate für die Langzeitarchivierung

Digitale Langzeitarchive empfehlen ihren Kundinnen und Kunden die Verwendung einer mehr oder weniger kleinen Auswahl von Dateiformaten. Die Liste mit Empfehlungen der Fachstelle Digitaler Datenerhalt differenziert zum Beispiel nach der angestrebten Aufbewahrungsdauer.

Formate für die Langzeitarchivierung sollten einige zentrale Anforderungen erfüllen:

  • Idealerweise entspricht das Format offenen Standards mit vollständiger Dokumentation.
  • Es ist weit verbreitet.
  • Das Format wird möglichst von einer grösseren Zahl von Tools unterstützt, also nicht nur von der spezifischen Software eines Anbieters.
  • Zudem sollten Dateien nicht komprimiert vorliegen oder zumindest mit einer dokumentierten, verlustfreien Methode komprimiert werden.
  • Nach Möglichkeit sollte auf eine Verschlüsselung verzichtet werden.

Einsatz in der Forschung

Es ist klar, dass diese Vorgaben für Dateiformate aus der Sicht der Langzeitarchivierung formuliert sind. Entsprechende Formate stehen nicht für alle Arten von Einsatzzwecken zur Verfügung und in der Forschung ist die konsequente Umsetzung der Anforderungen illusorisch. Die Vorgaben sollten jedoch auch hier die Diskussion darüber anregen, für welchen Zweck welches Format genutzt werden soll. Ist es allenfalls sinnvoll, zusätzlich zu dem herstellerspezifischen Ausgabeformat eines Messgerätes ein weiteres Format zu erzeugen, das sich z.B. besser für den Datenaustausch mit Partnern eignet? Welche Information geht dabei verloren? Bleiben die eigentlichen Daten erhalten?

Validität als Kriterium der Langzeitarchive

Leider ist auch die Wahl eines grundsätzlich geeigneten Dateiformats noch keine Garantie für die Langlebigkeit des einzelnen Files: Digitale Langzeitarchive versuchen daher zu verifizieren, ob das einzelne File auch tatsächlich der jeweiligen Spezifikation entspricht und valid ist. Dabei können Fehler entdeckt werden, die systematisch durch eine bestimmte Applikation bei der Dateierzeugung verursacht werden oder es können Probleme auffallen, die nur bestimmte Files betreffen. Solche Abweichungen können die Nutzbarkeit und den langfristigen Erhalt von Daten gefährden.

Einen Einblick in die praktischen Konsequenzen dieser Analyse gibt das Poster “To Act or Not to Act – Handling File Format Identification and Validiation Issues in Practice” des Teams Digitaler Datenerhalt der ETH-Bibliothek, das Ende 2016 an der 13th International Conferenence on Digital Preservation (iPRES 2016) mit dem Best Poster Award prämiert wurde.

2017-02-09_DID_Poster_File-Formats


Dieses Werk unterliegt einer Creative Commons Attribution-ShareAlike 4.0 International Public License.

CC-BY-SA[:en]One crucial factor in the preservation of research data is the file format. Depending on the format selected, you have to be prepared for the fact that the data might only be legible for a few years. Programmes, formats and operating systems change in the course of time, which means that, in many cases, the usability of the data can’t be guaranteed.

Following on from  February’s blog entry, in which we presented various methods to create PDF/A documents, this time we summarise some of the criteria that play a role in the suitability of file formats for long-term archiving.

Format requirements for long-term archiving

Long-term digital archives recommend their customers use a smallish selection of file formats. The list of recommendations from the Digital Curation office differentiates according to the storage duration, for example.

Formats for long-term archiving ought to meet certain core requirements:

  • Ideally, the format should correspond to open standards with full documentation.
  • It should be widely used.
  • Preferably, the format should be supported by a larger number of tools, i.e. not just by the specific software of one provider.
  • Moreover, files should be available in an uncompressed form, or at least be compressed using a documented, lossless method.
  • If possible, an encryption should be avoided.

Use in research

Obviously, these file format guidelines are formulated from a long-term archiving perspective. Corresponding formats are not available for all purposes, and in research the consistent implementation of the requirements is fanciful. However, the guidelines should also trigger a discussion on what purpose which format is to fulfil here. Does it make sense to create another format in addition to the manufacturer-specific output format of a measuring device that is better suited to exchanging data with partners? What information is lost in the process? Does the actual data remain intact?

Validity as a criterion for long-term archives

Unfortunately, the selection of an essentially suitable file format is no guarantee for the longevity of the individual file. Long-term digital archives therefore try to verify whether the individual file actually conforms to the respective specification and is valid. Errors caused systematically by a particular application while creating the file might be discovered, or problems that only affect certain files may become apparent. Such deviations can jeopardise the usability and long-term preservation of data.

The poster “To Act or Not to Act – Handling File Format Identification and Validation Issues in Practice” by the ETH Library’s Digital Curation team, which won the Best Poster Award at the 13th International Conference on Digital Preservation (iPRES 2016) at the end of 2016, provides an insight into the practical consequences of this analysis.

2017-02-09_DID_Poster_File-Formats


This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International Public License.
CC-BY-SA[:]