[DHd-blog] CLARIAH-DE: eine gemeinsame Infrastruktur als Verschmelzung zweier Welten

[德语国家数字人文协会DHd-blog网站消息]

Ein Beitrag zum Projektstand aus dem CLARIAH-DE AP2.

Autoren:

Bernhard Fisseni (fisseni@ids-mannheim.de), Leibniz-Institut für Deutsche Sprache, MannheimJonathan D. Geiger (jonathan.geiger@adwmainz.de), Akademie der Wissenschaften und der Literatur | Mainz

 

Die Digitalisierung verändert die Gesellschaft seit den 70er Jahren. Diese Veränderungen werden immer offensichtlicher: So ist der Zugang zu kulturellen Gütern nicht mehr nur durch das reale Objekt oder deren materielle Form wie Bilder oder gedruckte Texte in Buchform möglich, sondern auch in digitaler Form. In vielerlei Hinsicht müssen daher die Konzeptionen der gesellschaftlichen Erinnerungsinstitutionen (GLAM) neu gedacht werden – das schließt Fragen nach neuen Möglichkeiten, aber auch Herausforderungen bei der Aufnahme, Verwahrung, Verwaltung und Erforschung kultureller Güter mit ein. Eine zentrale Rolle spielen dabei auch die digitalen Werkzeuge und Services, virtuelle Forschungsumgebungen und Infrastrukturen: Tools sind einerseits an sich bereits kulturelle Güter und Zeugnisse der Gegenwart für die Zukunft; darüber hinaus sind digitale Artefakte sowie Retrodigitalisate andererseits ohne die hierbei involvierten Werkzeuge nicht denkbar und damit auch nicht vollständig verstehbar. Die klassische Quellenkritik muss um eine digitale Dimension ergänzt werden, da digitale Objekte als solche erst durch Transformationen, Konvertierungen, Formatierungen, Kompression etc. entstehen und bei jedem Schritt digitale Werkzeuge beteiligt sind.

CLARIAH-DE als Infrastrukturprojekt

Für die digitalen Geisteswissenschaften in Deutschland ist es insbesondere das Projekt CLARIAH-DE (https://www.clariah.de/), das für diese Aufgabe einen Beitrag leistet. Vor dem Hintergrund der Formierung der Nationalen Forschungsdateninfrastruktur (NFDI) werden in diesem zwei-Jahres-Projekt (2019–2021) die beiden virtuellen Forschungsumgebungen CLARIN-D und DARIAH-DE in eine einzige Infrastruktur integriert, wobei Ergänzungen und Erweiterungen des Angebots digitaler Tools und Webservices, der Abbau von Interoperabilitätshemmnissen und die Generierung und Ausnutzung von Synergieeffekten im Vordergrund des Vorhabens stehen. Die Auflage dieser neuen virtuellen Forschungsumgebung wird hierbei wesentlich strukturiert anhand von Koordinierungsabsprachen ähnlich gelagerter Verbünde auf europäischer Ebene einerseits, andererseits aber auch von den Bedarfen der Forschenden und den Anforderungen der Fachverbände der Geistes- und Kulturwissenschaften.

Forschungswerkzeuge und virtuelle Forschungsumgebungen

Im Arbeitspaket 2 „Große Werkzeuge und virtuelle Forschungsumgebungen“ arbeiten die Technische Universität Darmstadt, die Eberhard-Karls-Universität Tübingen, das Leibniz-Institut für Deutsche Sprache, die Berlin-Brandenburgische Akademie der Wissenschaften und die Akademie der Wissenschaften und der Literatur Mainz zusammen daran, die Angebote der beiden VREs CLARIN-D und DARIAH-DE zu sichten, zu evaluieren und zusammenführen, sodass eine einzige Forschungsumgebung entsteht. Bei diesen Angeboten handelt es sich um Tools, Webservices, Dienste und Repositorien von und für die digitale Forschung der Geistes- und Kulturwissenschaften, beispielsweise für Optical Character Recognition, Textanalyse, die Verarbeitung von Geodaten oder Formatkonvertierungen. Zur Herstellung von Interoperabilität werden die organisatorische, strukturelle, syntaktische und semantische Ebene in den Blick genommen: Strukturell geht es um die Anschlussfähigkeit der Werkzeuge über stabile Downloadmöglichkeiten der stand-alone Applikationen oder APIs bei Webservices, syntaktisch stehen vor allem gemeinsame Datenaustauschformate wie TEI-p5-basierte Formate (z. B. das DTA-Basisformat) im Rahmen des Projekts im Vordergrund und semantisch werden die Tools und Webservices menschenlesbar über den DARIAH Service Lifecycle beschrieben und dokumentiert, sowie maschinenlesbar über kontrollierte Vokabulare (insbesondere TaDiRAH) ausgezeichnet. Einen besonderen Stellenwert nimmt hierbei das Tool Language Resources Switchboard (https://switchboard.clarin.eu/) ein, dem als Brückentechnologie (MIMEtype-Sniffer und Werkzeugdatenbank) eine zentrale Position zukommt.

AP2 hat viele Aufgaben bereits erfolgreich umgesetzt: Die Werkzeuge und Forschungsumgebungen wurden identifiziert und evaluiert. Basierend auf einer Analyse der Interoperabilitätshemmnisse wurde das LR Switchboard überarbeitet, angepasst und erweitert. Detaillierte Werkzeugbeschreibungen wurden angefertigt, u. a. gemäß dem DARIAH Service Lifecycle, und ein Datenmodell für die technischen Beschreibungen konzipiert, das erlaubt, aus derselben Beschreibung eine menschen- und eine maschinenlesbare Fassung zu erstellen (siehe hierzu https://www.clariah.de/ueber-uns/diensteliste). Im Zuge der semantischen Durchdringung wurde die Taxonomie für die digital-geisteswissenschaftliche Forschung TaDiRAH grundlegend überarbeitet, im SKOS-Format publiziert (siehe hierzu https://dhd-blog.org/?p=13108) und zur Auszeichnung der Werkzeuge verwendet. Noch ist nicht alles erledigt: Das LR Switchboards muss noch weiter angepasst und Schritt-für-Schritt-Anleitungen angefertigt werden. Doch schon jetzt kann die Fachcommunity von den erweiterten Funktionalitäten des LR Switchboards, insbesondere auch vom deutlich angewachsenen Bestand an nutzbaren Tools und Webservices, profitieren, ebenso wie von der Neuauflage von TaDiRAH. Außerdem können die menschenlesbaren Beschreibungen bei der Auswahl und Verkettung von Werkzeugen zur eigenen Forschung helfen, selbst wenn man nicht das LR Switchboard verwendet.

Unterstützung für die Verwaltung des digitalen kulturellen Erbes und der Forschung

Durch die Zusammenführung der beiden virtuellen Forschungsumgebungen CLARIN-D und DARIAH-DE stellt CLARIAH-DE die Verschmelzung zweier ehemals getrennter Welten dar. Die Werkzeuge, die insbesondere im AP2 über die Brückentechnologie LR Switchboard interoperabel nutzbar gemacht werden, sind neben der Forschung auch für die gesellschaftlichen Gedächtniseinrichtungen eine große Unterstützung bei der Kuratierung digitaler und digitalisierter Objekte. Damit werden die Geistes- und Kulturwissenschaften als Theorie und Praxis des Umganges mit kulturellem Erbe ihrer Rolle auch in Bezug auf das Digitale ein Schritt mehr gerecht.