Wo publiziere ich meine Daten?

27 October 2021

Torsten Bronger

Zentralbibliothek, Forschungszentrum Jülich

Ziel der Datenveröffentlichung

Für beides ist es nahezu egal, wo man veröffentlicht. Nicht jedoch für die folgenden Ziele:

⇒ Auffindbarkeit und Nachnutzbarkeit maximieren!

2

Aus unseren Leitlinien

Aus den Leitlinien für Forschungsdaten des FZJ (https://go.fzj.de/datenpolicy):

„Forschungsdaten sollten unmittelbar nach ihrer Erstverwertung […] durch die für sie verantwortlichen Wissenschaftler öffentlich zugänglich gemacht werden, sofern dem keine erheblichen Gründe entgegenstehen.“

Was ist die Erstverwertung?

→ Typischerweise eine Textpublikation (oder eine Serie von Textpublikationen) in einer Fachzeitschrift, die auf diesen Daten basiert. Umfang und Dauer der Erstverwertung kann in einem DMP festgelegt werden.

3

Begriffe

Rohdaten

Metadaten

4

Was heißt „veröffentlichen“?

Ein Datensatz ist veröffentlicht, wenn die Metadaten in einem Repositorium, das Zugriff für mindestens 10 Jahre garantiert, per PID (typischerweise DOI) weltweit abrufbar sind.

Insbesondere heißt „veröffentlichen“ nicht zwangsläufig, daß die Rohdaten weltweit abrufbar sind. Ein möglicher Weg für andere Forscher ist:

  1. Forscher findet interessante Forschungsdaten über Suchmaschine.
  2. Forscher klickt auf DOI.
  3. Forscher landet auf Webseite mit den Metadaten, u.a. einer Kontakt-Email-Adresse.
  4. Dahin schickt Forscher eine Anfrage.
  5. Das Institut, daß die Daten erzeugt hat, prüft die Anfrage.
  6. Das Institut gibt die Rohdaten für diesen Forscher frei, u.U. mit Hinweisen, wie sie verwendet werden können (und wie nicht).
5

Unterschiede Rohdaten ↔ Metadaten

Normalerweise werden Roh- und Metadaten an derselben Stelle veröffentlicht. Es kann aber gute Gründe geben, das nicht zu machen:

Ganz generell sollte man hinterfragen, warum Rohdaten überhaupt durch kopieren auf ein Repositorium verdoppelt werden sollen.

6

FAIR-Prinzipien

Findable

Accessible

Interoperable

Reusable

7

Orte der Datenveröffentlichung

Kategorien der Wege einer Datenveröffentlichung:

  1. Datenjournal
  2. Repositorium
  3. das Journal, bei dem auch die Textpublikation veröffentlicht wird
  4. Jülich DATA
8

Datenjournal

Meine Einschätzung: Das wird meist nicht der Plan A sein.

9

Repositorium

Datenbanken, in denen Objekte archiviert, dokumentiert und publiziert werden können.

Ein Repositorium ermöglicht es,

10

Repositorium

Repositorien lassen sich gliedern in

11

Disziplinspezifische Repositorien

⇒ Verwenden Sie es, wenn es eines für Sie gibt!

Beispiel: PANGAEA

12

Generische Repositorien

Beispiel für ein öffentliches generisches Repositorium: Zenodo.

13

Ein Repositorium finden

Empfehlung: Suchen auf dem Repositorien-Verzeichnis re3data. Das enthält mehrere Tausend Repositorien.

Gute Filtermöglichkeiten, zum Beispiel nach

14

Wie kommen die Daten ins Repositorium?

Per Web-Formular: Hochladen der Daten über einen Internetbrowser, Beschreibung per Metadatenformular

→ Geeignet für das gelegentliche Hochladen von kleinen und mittleren Datenmengen

Per REST-API: Automatisiertes Einspielen von Daten und Metadaten

→ Geeignet für häufiges Hochladen oder größere Datenmengen

Per Client-Software: Eigene Software zum Hochladen und Beschreiben der Daten

→ Sicherstellen des Uploads, Wiederaufnahme bei Unterbrechung, Überprüfung der Metadaten

15

Repositorium der Einrichtung

In den letzten Jahren haben sich die meisten Forschungseinrichtungen ein eigenes Repositorium für Forschungsdaten zugelegt.

Diese machen fast die Hälfte aller DOI-vergebenden Repos aus.

Ob diese Zersiedlung und Verdoppelung von Diensten eine gute Idee war, mag bezweifelt werden …

16

Jülich DATA

In Jülich haben wir das nur zur Hälfte nachgemacht: Es gibt Jülich DATA, aber dient dient in erster Linie dem Nachweis des Jülicher Daten-Outputs (z.B. um darüber Statistiken oder Evaluationen zu machen) und ist in dieser Hinsicht die Schwester von JuSER.

Wir empfehlen daher dringend, da nur Metadaten hochzuladen, die dann auf die Rohdaten zeigen. Das Zeigen kann über eine URL erfolgen, einen Verzeichnispfad auf dem Institutslaufwerk, oder eine textuelle Beschreibung. Es muß also nicht automatisch auflösen!

Technisch kann man allerdings auch Rohdaten hochladen. Die Gesamtkapazität ist bei Jülich DATA mit 10 TB regelrecht winzig.

17

Jülich DATA

18

Vision: Institutsdaten nah am Repositorium

Vorschlag für das Jülicher Repo-Modell:

19

Thank you

Torsten Bronger

Zentralbibliothek, Forschungszentrum Jülich

Use the left and right arrow keys or click the left and right edges of the page to navigate between slides.
(Press 'H' or navigate to hide this message.)