LaZAR

Das Problem der allgemeinen Zugänglichkeit von Forschungsdaten in den regionalwissenschaftlichen Disziplinen ist mit folgenden Aufgaben verbunden:

(a) Retrodigitalisierung alter Forschungsdaten

(b) Konzipierung der Ausgabeformen genuin digitaler Forschungsdaten

Bei der Lösung dieser beiden Aufgaben sind sowohl gemeinsame Probleme als auch Interessenkonflikte anzutreffen. Als erstes ist der Unterschied zwischen dynamischen und abgeschlossenen Datenstrukturen zu nennen. Wenn bei der Retrodigitalisierung eines alten Archivbestandes sowohl quantitative als auch strukturelle Gegebenheiten der Datenbank vorher festgelegt worden sind, ist die Aufgabe der Überarbeitung und Langzeitarchivierung (LZA) genuin digitaler Forschungsdaten mit einem dynamischen und reziproken Prozess zu vergleichen. Die Primärdaten, die der Forschung in der verarbeiteten Form wieder zur Verfügung gestellt werden, tragen nicht nur dazu bei, die Wissenschaft mit notwendigen Forschungsmaterialien zu versorgen, sondern dienen auch der Verfeinerung von Feldforschungsmethoden. Eine entscheidende Rolle in diesem wechselseitigen Entwicklungsprozess spielen die Langzeitarchivierung und die Möglichkeit, die Multimediadaten als zitierfähiges Belegmaterial in wissenschaftliche Arbeiten einzubetten. Die Perspektive, während der Feldforschung erhobene Multimediadaten in der Form der strukturierten Datensammlung der Wissenschaft zur Verfügung zu stellen, optimiert die Anwendung der Methode der Mediendokumentierung des Forschungsobjekts, indem es nicht mehr den privaten Interessen eines Forschers bzw. einer Forscherin dient, sondern den Interessen eines möglichst breiten Kreises von Wissenschaftlern.

Das Projekt LaZAR hat zum Ziel, durch die Entwicklung der entsprechenden Infrastruktur für die Bearbeitung und Langzeitarchivierung der regionalwissenschaftlichen Forschungsdaten die Zugänglichkeit dieser Daten einem breiten Forscherkreis zu gewährleisten.

Der erste Schritt zur Entwicklung dieser Infrastruktur erfordert die Erarbeitung eines Konzeptes, welches nach den Prinzipien der eHumanities nur aufgrund der engen Kooperation zwischen den Vertretern der Geisteswissenschaften und Informatik sowie mit Fachleuten aus dem Bereich des Bibliothekswesens zu erreichen ist. Das Konzept umfasst folgende Problembereiche:

  • Erhebung regionalwissenschaftlicher Forschungsdaten (allgemeine Empfehlungen für die Planung und Durchführung der Feldforschung und der Bearbeitung der Forschungsdaten)
  • Entwicklung des Verwaltungs- und Accessszenario regionalwissenschaftlicher Forschungsdaten
  • Entwicklung eines Metadatenmodells für Dokumentierung und Erschließung regionalwissenschaftlicher Forschungsdaten
  • Entwicklung eines Softwaremoduls für die Bearbeitung regionalwissenschaftlicher Forschungsdaten (Weblaboratorium)
  • Einrichtung eines Repositoriums für die Speicherung und Recherche in den regionalwissenschaftlichen Forschungsdaten
  • Archivierung der regionalwissenschaftlichen Forschungsdaten in einem vorhandenen Langzeitarchivierungssystem
  • Entwicklung von Schnittstellen zwischen Repositorium und LZA-System für den Ingest sowie zur Bereitstellung der Inhalte des Repositoriums (Open Archives Initiative – Protocol for Metadata Harvesting (OAI-PMH), Linked Open Data (LOD))
  • Entwicklung einer Exit-Strategie für das Langzeitarchiv, zur Ausgabe und Weiterverarbeitung der archivierten Daten und Metadaten in anderen Systemen

Methoden und Ansätze der Erhebung von regionalwissenschaftlichen Forschungsdaten orientieren sich stark an den Interessen der einzelnen Disziplinen oder dem Ziel des jeweiligen Forschungsvorhabens. Die Empfehlungen zur Optimierung der Feldforschung sollen sich deshalb hauptsächlich auf die konzeptuellen Fragen beziehen. Zur Konzipierung der Dokumentierungs- und Erschließungsregel der regionalwissenschaftlichen Forschungsdaten werden verschiedene Modelle der Formalerschließung betrachtet. Als Basismodel wird dabei die von der Deutschen Nationalbibliothek erarbeitete Regel für den Schlagwortkatalog (RSWK) verwendet. Vorgesehen wird folgende Definition der für die Erschließung vorgelegten dokumentarischen Einheiten:

  • „Elektronisches Konvolut“ – Sammelband nach dem Thema oder der Erhebungszeit und/oder dem Ort homogener Materialien
  • einzelne Datei als unabhängige dokumentarische Einheit

Der nächste Punkt des Konzeptes richtet sich an die Sacherschließung der zur Langzeitarchivierung vorbereiteten Forschungsdaten. Vorgesehen sind die inhaltliche Indexierung sowohl mit Hilfe des normierten Vokabulars der Gemeinsamen Normdatei (GND) als auch durch freie Stichworteingabe. Deshalb werden bei der Vergabe des normierten Vokabulars entsprechende Hilfsmittel angeboten. Außerdem sollen bei der Erfassung mit einer Verlinkung der Standardzitierliteratur und Referenzwerke begonnen werden.

Als Innovation in der Struktur des geplanten Repositoriums ist das Einordnungsprinzip des Materials nach elektronischen Konvoluten vorgesehen. Nach diesem Prinzip stellt sich ein Bestandteil des Konvoluts nicht unbedingt als einzelne Datei dar, sondern als Einheit von Dateien und damit wiederum als ein untergeordnetes Konvolut. Dieser Struktur zufolge wird das Weblaboratorium für die Bearbeitung der zur Langzeitarchivierung angelegten Multimediadaten wie folgt eingerichtet:

Das Weblaboratorium stellt sich als eine entwicklungsfähige (flexible) Eingabemaske mit verschiedenen Feldern dar. Die Felder stimmen mit den allgemein etablierten Formal- und Sacherschließungselementen überein. Die angelegten Daten werden unter einem Titel angeordnet, der seinerseits unter einem Übertitel geordnet werden kann. Als Vorlage bzw. Konvolut, die/der entsprechend annotiert werden muss, ist die unter dem obersten Titel eingeordnete Einheit. Die annotierte Liste der unter ihm eingeordneten Untertitel und Dateien bestehen aus dem Inhaltsverzeichnis des Konvoluts.

Der Access in das Repositorium zum Zweck der Recherche ist für alle User frei. Bezüglich der Publikation der Daten wird auf folgende Regeln zu achten sein:

  • Wissenschaftler müssen sich einmalig als Beitragende registrieren
  • Die Freischaltung des eingestellten Dokuments kann vom Betreiber abgelehnt werden
  • Nach der Freischaltung kann die Publikation nicht mehr bearbeitet werden. Ergeben sich dann Änderungen, muss gegebenenfalls eine neue Version der Publikation hochgeladen werden

Um die Inhalte des Repositoriums dauerhaft für Forschung- und Wissenschaft bereitstellen zu können, ist geplant, Abbildungen von Schemata für die Forschungsdaten/Metadaten auf Basis von datacite-Schema, Dublin Core, und ggf. vorhandener Ontologien und Erschließungssysteme zu entwickeln, um eine einheitliche und genaue Beschreibung zu ermöglichen. Anhand dieser Datenschemata werden dann entsprechende standardisierte Ex- und Importschnittstellen bereitgestellt, um über mehrere geeignete Formen und Formaten (OAI-PMH, Linked Open Data) eine möglichst umfangreiche Findbarkeit und Nachnutzbarkeit zu gewährleisten.

Die Vereinheitlichung der archivierten Daten und Standardisierung der sie beschreibenden Metadaten, die als wichtigste Voraussetzung für ihre einwandfreie Zugänglichkeit gilt, ist dadurch abzusichern, dass die Rohdaten vor der Veröffentlichung im Weblaboratorium entsprechend konvertiert und erschlossen werden müssen.

Die Forschungsdaten aus Bereichen der Regionalwissenschaften wie der Ethnolinguistik, Dialektologie oder Ethnologie sind nicht zuletzt aufgrund ihres Alters zu schätzen. Dieser Faktor stellt den Betreiber eines Repositoriums vor die Herausforderung, sich um die robuste Entwicklung der Infrastruktur der Langzeitarchivierung zu kümmern. Das Konzept beachtet dabei folgende Kriterien:

  • Implementierung des Datenmodells unter Berücksichtigung nationaler und internationaler Standards
  • Berücksichtigung des kompletten Lebenszyklus der Materialien auf Basis des OAIS-Modells
  • Archivierung im Rahmen eines abgestimmten Prozesses und Sicherstellung einer hohen Qualität und Transparenz durch definierte und dokumentierte Workflows
  • Effizienter und nutzerfreundlicher Ingest und Access
  • Mitarbeit in nationalen und internationalen Netzwerken als Voraussetzung für eine kontinuierliche Weiterentwicklung der Langzeitarchivierung sowie einem aktiven Technology-Watch

Die derzeit eingesetzten LZA-Systeme haben den Ingest der Daten, die damit verbundenen Verarbeitungsprozesse und die anschließende Archivierung im Fokus. Der Fall, dass eine Institution ihre Daten aus einem Langzeitarchiv herausholt, um sie in einem anderen System oder zu einem anderen Zwecke weiter zu nutzen, wird derzeit nur theoretisch diskutiert. Es gibt noch keine praktischen Erfahrungen oder konkrete Umsetzungen zur Ausgabe der Daten an den Dateninhaber. Es ist davon auszugehen, dass dieses Szenario aus unterschiedlichen Gründen für eine Vielzahl von Institutionen zur Anwendung kommen wird. Gründe hierfür können in der Problematik der dauerhaften Finanzierung der LZA, in der Veränderung organisatorischer Rahmenbedingungen oder aber in einer veränderten rechtlichen Situation liegen. Ziel in diesem Projekt ist es deshalb, ein Verfahren zur Ausgabe der Daten inklusive aller relevanten Metadaten zu entwickeln, dass dem Dateninhaber eine möglichst hohe Flexibilität bei der individuellen Weiterverarbeitung seiner Daten ermöglicht. Dabei muss insbesondere berücksichtigt werden, dass die die aufgelieferten Metadaten eine Nutzung außerhalb des unmittelbaren Entstehungskontextes erlaubt.

 

Projektpartner:

Institut für Slawistik und Kaukasusstudien
Friedrich-Schiller-Universität Jena
Ernst-Abbe-Platz 8
07743 Jena

Verbundzentrale des GBV
Platz der Göttinger Sieben 1
37073 Göttingen

Technische Informationsbibliothek (TIB)
Welfengarten 1 B
30167 Hannover