[DHd-blog] Rückblick auf den SSHOC & CLARIAH Workshop in Göttingen

[德语国家数字人文协会DHd-blog网站消息]

von Jonathan Geiger

Unter dem Thema “Linking Services and Data the Easy Way” stand der Lunch-to-Lunch Workshop, der vom 12. bis zum 13. Dezember 2019 in Göttingen in den Räumlichkeiten der Gesellschaft für wissenschaftliche Datenverarbeitung mbH Göttingen (GWDG) stattfand. Initiiert wurde der Workshop von SSHOC und CLARIAH-DE und fasste thematisch insbesondere die Verknüpfung von Webservices, Tools und Datenrepositorien über das Language Resource Switchboard (LRS) als Brückentechnologie ins Auge.

SSHOC (Social Sciences & Humanities Open Cloud) ist ein EU-Projekt im Rahmen des Programms Horizon 2020, welches sich von Januar 2019 bis April 2022 der Aufgabe widmet die digitale Infrastrukturen der Geistes- und Sozialwissenschaften auf EU-Ebene auf eine neue Stufe zu heben. CLARIAH-DE hingegen ist das deutsche zweijährige Projekt mit einer Laufzeit bis März 2021, in dem die beiden virtuellen Forschungsinfrastrukturen CLARIN-D und DARIAH-DE der Geistes-, Sozial- und Kulturwissenschaften in eine einzige Infrastruktur zusammengeführt werden.

Die Verknüpfung von Linked Data und Webservices, insbesondere über das LRS, nimmt sowohl bei SSHOC als auch bei CLARIAH-DE einen zentralen Stellenwert ein. Ziel des Workshops war daher, gemeinsam Möglichkeiten der Interoperabilisierung und der Verschaltung des Switchboards auszuloten sowie Werkzeuge zur priorisierten Integration zu identifizieren. Dem Switchboard kommt deshalb eine zentrale Rolle zu, weil dieser Webservice es als Brückentechnologie erlaubt MIME-Types von zu verarbeitenden Dateien analysieren zu können und aufgrund dessen eine Vorschlagsliste mit solchen Tools an den User zurückgibt, die die entsprechenden Datenstrukturen weiterverarbeiten können. Es handelt sich also um ein sogenanntes Data Broker-Tool. Werden beispielsweise XML-Daten in das Switchboard eingespielt, erkennt das Switchboard die Daten als XML-Daten und die zurückgelieferte Ergebnisliste beinhaltet die Untermenge der insgesamt im Switchboard hinterlegten Tools, die XML prozessieren können, die dann auch direkt ausgewählt und für die weitere Datenverarbeitung angesteuert werden können.

Die ca. 25 Teilnehmer stellten zu Beginn sich und die beiden zugrundeliegenden Projektkontexte (SSHOC und CLARIAH-DE) vor und betonten nochmal die zentrale Position, die das Switchboard in beiden Projekten einnimmt. Für SSHOC stellt das Switchboard eine Schnittstelle dar, über die Webservices in die SSH Cloud integriert werden können, zudem übernimmt es die Funktion eines Gatekeepers, um im SSH Open Marketplace den Zugang zu Services und Daten zu schaffen. Für CLARIAH-DE hingegen geht es primär um eine Struktur, die die Verstetigung der (insbesondere großen) Dienste und Werkzeuge aus CLARIN-D und DARIAH-DE gewährleisten kann. Hierbei spielen auch die Beschreibungen der Dienste (sowohl in einer menschenlesbaren Form, z. B. der DARIAH-DE Service Lifecycle, als auch in einer maschinenlesbaren Form, z. B. im JSON-Format) eine wichtige Rolle.

Die Stärken des Switchboards liegen für den Nutzer insbesondere in der Möglichkeit eines simplen und zentralen Zugangspunktes zu einer Fülle von Tools und Services und in der Daten-basierten Zugangsform. Für Anbieter bietet es eine einfache Möglichkeit verschiedene Infrastrukturen und Werkzeuge zusammenzuschließen, zudem ist es leicht skalierbar und durch die modulare Struktur leicht zu warten und anzupassen. Weiterhin können Tools über diesen Weg auch leichter sichtbar gemacht und getestet werden.

Herausforderungen mit denen sich das Switchboard aktuell noch konfrontiert sieht, liegen einerseits in einem Ausbau des Datenimportmoduls. Es findet keine Validierung von XML-Daten statt und es können noch nicht unterschiedliche XML-Dialekte (z. B. TEI und Derivate) als solche erkannt werden. Zudem können keine Kollektionen eingespielt werden und auch Daten mit mehreren Sprachen werden noch nicht als solche erkannt. Andererseits liegt noch viel Potential in einer Semantisierung der Beschreibungsdaten der einzelnen im Switchboard integrierten Services und Werkzeuge: Eine Auszeichnung mit TaDiRAH steht noch aus, ebenso eine intensivere Annäherung der Werkzeugbeschreibungen an die Semantiken von LOD, z. B. über die Anreicherung mit kontrollierten Vokabularen. Zudem steht noch in Frage, wie Tools integriert werden können, die eine lokale Installation erfordern oder geschützt sind und auch die Frage nach den Privacy- und Security-Aspekten der integrierten Tools ist noch ungeklärt. Des weiteren muss noch eine Antwort gefunden werden auf die Frage, wie die kontinuierliche Erreichbarkeit und Funktionalität der Tools aufrechterhalten oder zumindest deren funktionaler Status im Switchboard aktuell gehalten werden kann, um für maximale Transparenz zur Verbesserung der Usability zu sorgen.

Gemeinsam von SSHOC und CLARIAH-DE geplant ist für das Switchboard, dass es in noch weitere Servicekataloge integriert und die Funktionen, insbesondere was den Datenimport betrifft ausgebaut werden sollen. Zudem soll das Portfolio der integrierten Services und Werkzeuge erweitert und Workflows, z. B. zur niedrigschwelligen Kontribution weiterer Webservices etabliert werden. Die Möglichkeit Services für OCR, Visualisierungen, Bildverarbeitung und Metadatenkonversion zu integrieren, soll geprüft werden. Zu diskutieren ist weiterhin, in welcher Form das LR Switchboard künftig verwaltet werden soll (zentralisiert, hierarchisch oder flach föderalisiert usw.) und wie eng die hier hintergründig verschalteten Infrastrukturen zusammengebracht werden sollen.

Im Anschluss wurden verschiedene konkrete Beispiel präsentiert und diskutiert, wie etwa die DARIAH Datenföderationsarchitektur (DFA), das Cosmotool, der DKPro Wrapper, das Tübingen Archive of Language Resources (TALAR) und viele weitere mehr, die in das Switchboard integriert oder daran angeschlossen werden können. Im CLARIN Virtual Language Observatory (VLO) können Datensets beispielsweise direkt an die API des Switchboards gesendet und dort weiterverarbeitet werden, ähnliches ist auch bereits bei TALAR möglich. Eingehend diskutiert wurden die Möglichkeiten eine derartige Exportfunktion auch im TextGrid-Lab bzw. -Rep einzurichten.

Zum Ende des Workshops hin wurden denkbare Switchboard Extensions vorgestellt und reflektiert. Es stellt sich die Frage, nach welchen Kriterien künftige Erweiterungen und Weiterentwicklungen priorisiert werden sollen – steht dabei die Nützlichkeit für den Nutzer im Vordergrund? Was bedeutet in diesem Fall “Nützlichkeit” und welche Nutzer nimmt man hierbei in den Blick? Welche Rolle spielt die Implementier- und Wartbarkeit der Extensions? Oder auch die Breite der Unterstützung durch angeschlossene Tools und Repositorien? Grundsätzlich sind verschiedene Arten von Extensions für das Switchboard denkbar: Neben Visualisierungsmöglichkeiten (beispielsweise von Content Snippets) und Popups sind Formen des “Data Dowsings” (d. h. eine effizientere Form des Datenzugangs) denkbar. Weiterhin könnten Browser-Extensions entwickelt oder Datenkonvertierungsmöglichkeiten in das Switchboard selbst implementiert werden. Möglich wären überdies Extensions, die die Metadaten der eingespeisten Daten weiterverarbeiten können oder solche, mit denen Batch Processing möglich würde, was den Spielraum der Verwendungsmöglichkeiten massiv vergrößerte.

Zusammenfassend lässt sich festhalten, dass der zwei-Tages-Workshop in Göttingen die beiden auf dem aktuell – nicht zuletzt vor dem Hintergrund der NFDI – stark im Wandel begriffenen Gebiet der technischen Infrastrukturen der Geistes-, Sozial- und Kulturwissenschaften einschlägigen Akteure SSHOC und CLARIAH-DE zusammengebracht hat und gemeinsame Interessen und Entwicklungsmöglichkeiten insbesondere am Kondensationspunkt des Data Broking-Tools LR Switchboard artikuliert und ausgetauscht werden konnten. Gemeinsam wurden die aktuellen Vorzüge und Potenziale dieser Brückentechnologie ausgelotet, sowie Best Practice-Beispiele für die Integration von fachspezifischen Werkzeugen, Services und Datenrepositorien ausgetauscht. Auch wurden die weiteren Entwicklungsplanungen eng abgestimmt.

Die Atmosphäre war durchweg produktiv, insbesondere auch abseits des eng strukturierten Ablaufplans voller Präsentationen, Demonstrationen und Diskussionen. Der Workshop insgesamt spiegelte dabei in seinem Charakter der disziplinübergreifenden aber dennoch gemeinsamen Interessen, des heterogenen Inputs und dem produktiven Ausarbeiten von weiteren Arbeitsmöglichkeiten auf originelle Art und Weise die Rolle und Bedeutung des Switchboards selbst wieder.