[DHd-blog] Wenn Lesen allein nicht mehr ausreicht – Externe Werkzeuge im TextGrid Repository

[德语国家数字人文协会DHd-blog网站消息]

Logo TextGrid Repository

Abstract

Dieser Beitrag gibt eine Einführung in die Nutzung externer Werkzeuge aus dem TextGrid Repository (TextGridRep) heraus. Das TextGridRep ist ein Dienst von DARIAH-DE primär für die Langzeitarchivierung geisteswissenschaftlicher Forschungsdaten, insbesondere textbasierter Sammlungen und Korpora, dessen Betrieb von CLARIAH-DE fortgeführt wurde und den die SUB Göttingen in das NFDI-Konsortium Text+ einbringt. Neben der Archivfunktion stellt das TextGridRep aber eine Reihe von externen Werkzeugen für geisteswissenschaftlich Forschende bereit, beispielsweise einen Annotation Viewer, die weit verbreiteten Voyant Tools sowie das CLARIN Language Resource Switchboard.

Mithilfe dieser externen Werkzeuge können Forschende textbasierte computergestützte Auswertungen und Annotationen durchführen und weitere Analyseansätze für ihre Forschungsdaten gewinnen. Die Hauptzielgruppe sind Forschende aus den Digital Humanities und darüber hinaus alle, die mit textbasierten Forschungsdaten arbeiten.

Die Nutzung dieser Werkzeuge ist im TextGridRep und auf den individuellen Seiten der Werkzeuge so dokumentiert, dass keine Nutzungshürden bestehen. Sollten bei der Nutzung dennoch Fragen auftreten, können diese an den CLARIAH-DE-Helpdesk gestellt werden (support@clariah.de). Der Helpdesk interessiert sich auch für Feedback zur Verbesserung und Weiterentwicklung des Angebots. Je nach Task empfiehlt es sich außerdem, die weiteren Angebote von DARIAH-DE, CLARIAH-DE bzw. Text+ auf den entsprechenden Websites zu prüfen.

Inhaltsverzeichnis

Das TextGrid Repository
  TextGrid als Kontext
  Das TextGrid Repository: ein Langzeitarchiv für Forschungsdaten

Die Einbindung externer Werkzeug in das TextGrid Repository
  Annotate-Funktion
  Voyant Tools
  Language Resource Switchboard

Nutzen & Fazit

Projekthistorie

Referenzen & weiterführende Literatur
  zum Annotation Viewer
  zum Language Resource Switchboard
  zu TextGrid und zum TextGrid Repository
  zu den Voyant Tools
  Sonstige

Das TextGrid RepositoryTextGrid als Kontext

Das TextGrid Repository (TextGridRep) ist Teil des TextGrid-Projekts. [1] TextGrid stellt seit 2011 eine virtuelle Forschungsumgebung für die textbasierten Geisteswissenschaften zur Verfügung, die den gesamten Forschungsprozess von der Datenedition bis hin zur Datenpublikation abdeckt. TextGrid zielt auf mehrere Nutzendengruppen: Einerseits unterstützt es Forschende bei ihrer Arbeit, andererseits können EntwicklerInnen Dienste von TextGrid anpassen und erweitern. Zusätzlich macht es sowohl sämtlichen im Wissenschaftsbetrieb beteiligten Akteuren als auch der breiten Öffentlichkeit Forschungsdaten zugänglich. Ursprünglich auf die germanistische Literaturwissenschaft und Linguistik hin ausgelegt, nutzen heute WissenschaftlerInnen aus vielen geisteswissenschaftlichen Disziplinen das Angebot von TextGrid. Der Hauptanwendungsfall sind digitale Editionen, wie beispielsweise die Edition von Fontanes Notizbüchern. [2] Dabei hat sich TextGrid den Prinzipien von Open Source und Open Access verschrieben, treibt Interoperabilität und Homogenität von Daten voran und basiert auf offenen Standards.

TextGrid setzt auf Nachhaltigkeit: Einerseits ist TextGrid nach seiner neunjährigen Förderung in die digitale Forschungsinfrastruktur DARIAH-DE bzw. seit 2019 in CLARIAH-DE und nun in Text+ übergegangen und wird hierin weiterbetrieben und gewartet. Technische Nachhaltigkeit ist somit gewährleistet und auch der Support über den Helpdesk wird aufrechterhalten. Andererseits sorgen Nutzendentreffen und Veranstaltungen sowie die Umsetzung internationaler Standards für fachwissenschaftliche Nachhaltigkeit. Nicht zuletzt ist Nachhaltigkeit auch deshalb gewährleistet, weil die Services von TextGrid generalisiert und folglich disziplinübergreifend anwendbar sind.

TextGrid Workflow
Abb. 1: Die verschiedenen Services von TextGrid.

TextGrid basiert auf drei Hauptkomponenten: (1) Das TextGrid Laboratory (vgl. Abb. 2) dient als Plattform für die kollaborative Arbeit an textuellen Ressourcen und unterstützt geisteswissenschaftlich Forschende insbesondere bei der Erstellung digitaler Editionen. Es ist anpassbar und erweiterbar und erlaubt die Einbindung weiterer Open-Source-Tools durch einen integrierten Marketplace. (2) Als zweite Säule unterstützt die TextGrid Community sich gegenseitig durch Tutorials und Online-Hilfen, Schulungen und Workshops, der Dokumentation von Fehlern, Mailinglisten sowie Nutzendentreffen. TextGrid LaboratoryEs existieren Tutorials zu einfachen Fragen wie dem Login bis hin zu schwierigeren Themen wie dem Daten(re)import oder auch zu den Veranstaltungen von DARIAH-DE, die sich mit TextGrid-Funktionalitäten beschäftigen. (3) Die dritte Säule ist das TextGridRep, das Repository, welches im Folgenden ausführlicher vorgestellt werden soll.

Abb. 2: Startseite des TextGrid Laboratory nach der Installation.

Für die Nutzung der Basisdienste von TextGrid ist keine Registrierung notwendig. Einige wertvolle Zusatzfunktionen, wie beispielsweise die Archivierung eigener Kollektionen im TextGridRep, und Werkzeuge erfordern jedoch einen kostenfreien DARIAH-Account oder einen in eduGAIN affiliierten Account. [3] Dieser ist empfehlenswert, um die gesamte Angebotspalette von CLARIN, DARIAH und CLARIAH nutzen zu können. Da alle drei genannten, auch europäische agierenden Forschungsinfrastrukturen eng kooperieren, ist die übergreifende Nutzung durch eine sog. gemeinsame AAI-Föderation für die Nutzenden bequem und ohne Zusatzaufwand möglich. Erst diese zusätzlichen Funktionalitäten und Dienste machen TextGrid zu einem wertvollen Angebot für die Forschung

Das TextGrid Repository: ein Langzeitarchiv für Forschungsdaten

Logo TextGrid RepositoryDas TextGridRep als dritte Säule ist der digitale, nachhaltige Speicherort für Forschungsdaten. Es bietet die Möglichkeit, die im TextGrid Laboratory erstellten und bearbeiteten Daten sicher und referenzierbar zu publizieren. Darüber hinaus dient es als Plattform für die Veröffentlichung von Editionen und geisteswissenschaftlichen Forschungsdaten über den Kontext von TextGrid und DARIAH hinaus. Wenn auch primär auf geisteswissenschaftliche Forschungsdaten ausgerichtet, können diese Daten prinzipiell aus unterschiedlichen Quellen stammen und sind weder sprachspezifisch noch an fachwissenschaftliche Hintergründe gebunden.

Das TextGridRep orientiert sich an den FAIR-Datenprinzipien (Findable, Accessible, Interoperable, Reusable) auf folgende Art: Um die Auffindbarkeit der Daten zu erhöhen, bietet das TextGridRep nicht nur die unten beschriebene interne Suchfunktion, es ist außerdem in weitere Datenbanken eingebunden, wie in den Digital Humanities and Cultural Heritage OpenAIRE Community Gateway (DH-CH Gateway). Einfache Zugänglichkeit zu den Daten im TextGridRep ist ebenfalls gewährleistet, da für Anzeigen und Download kein Account nötig ist. Lediglich für Zusatzfunktionen wie die unten beschriebene interne Regalfunktion oder die externen Werkzeuge ist ein DARIAH- oder ein in eduGAIN affiliierter Account nötig. Die Daten im TextGridRep sind interoperabel, da es mit TEI XML das bei der Textkodierung bevorzugte Format verwendet. Auch andere verwendete Formate, wie reines XML oder TXT, bieten sich zur Weiterverarbeitung an. Schließlich sind die Daten auch nachnutzbar, da sie lizensiert und mit eindeutiger Herkunftsangabe versehen sind. Da das TextGridRep diesen Prinzipien folgt, liefert es einen wichtigen Beitrag zum Open Access.

Für die Gemeinschaft der Forschenden ist es durch seine Anlage daher besonders wertvoll, da es ein dauerhaftes und sicheres Archiv und leicht durchsuchbar ist sowie eine zitierfähige und mit Metadaten angereicherte Publikation ermöglicht. Das TextGridRep verfolgt nicht nur die Unterstützung der Forschung, sondern auch der Lehre durch die langfristige Sicherung und Verbreitung seiner Daten. Dabei werden nationale wie internationale Standards eingehalten. 2020 wurde das TextGridRep mit dem CoreTrustSeal zertifiziert, um damit gegenüber den Nutzenden seine Vertrauenswürdigkeit und die Einhaltung etablierter Qualitätskriterien und Standards zu belegen.

Das TextGridRep ist v.a. auf TEI XML-kodierte Textdaten ausgelegt, da dieses Format einige Vorteile bietet. In Kooperation mit Anwendenden aus zahlreichen Fachgebieten entwickelt besticht TEI durch Vielseitigkeit und Praxisnähe. Sein großes Tagset bietet Anwendenden viele Möglichkeiten und gleichzeitig große Freiheit, weshalb es in digitalen Editionen und bei der Textauszeichnung zum Einsatz kommt. Durch seine Struktur einer Markup-Language ist TEI gut maschinenlesbar und bietet eine große Vielfalt an Nachnutzungsmöglichkeiten. [4] Aus diesen Gründen präferiert das TextGridRep Dateien im TEI-Format.

Basis der Daten im TextGridRep ist die Digitale Bibliothek. Diese ist ein – ebenfalls in TEI XML-kodiertes – Korpus deutscher oder ins Deutsche übersetzter belletristischen Texte und Sachliteratur, das sich vom 16. Jahrhundert bis ins 20. Jahrhundert erstreckt. Besonders wertvoll ist dieses Korpus gerade für die germanistische Literaturwissenschaft deshalb, weil in ihm fast alle kanonisierten AutorInnen dieser Zeit mit ihren Werken vertreten sind, sofern diese urheberrechtlich frei zugänglich sind. Außerdem sind die über 94.000 Texte zitierfähig, da sie zu einer überwiegenden Mehrheit aus historisch-kritischen oder Studienausgaben stammen. Sollten sich in diesen Daten dennoch Fehler befinden, wird in der Dokumentation zum TextGridRep auf diese hingewiesen.

Durch die Digitale Bibliothek als Grundlage ist das TextGridRep ursprünglich vor allem auf germanistische LiteraturwissenschaftlerInnen und deren Forschung ausgerichtet, ist aber offen für andere wissenschaftliche Editionen und projektspezifisches Datenmaterial und auch nicht auf die deutsche Sprache beschränkt. Da es – wie erwähnt – durch seine nachhaltige Struktur, komfortable Zugänglichkeit und gute Referenzierbarkeit viele Vorteile bietet, nutzen zahlreiche Projekte die Möglichkeit, ihre Daten im TextGridRep zu publizieren. Dazu zählen auch Projekte unter anderem aus der Religionswissenschaft, Philosophie, Geschichte, Romanistik oder Kunst, die teilweise auch fremdsprachige Texte und Bildmaterial zur Verfügung stellen. Diese wachsende Vielfalt wird durch eine erweiterbare Suche mit verschiedenen Filterkriterien unterstützt, sodass Nutzende trotz wachsender Datenzahl schnell und mit geringem Aufwand zu ihren gesuchten Daten gelangen.

Bevor zu den externen in das TextGridRep eingebundenen Werkzeugen übergegangen wird, seien an dieser Stelle zuvor die TextGridRep-eigenen Werkzeuge vorgestellt. Anhand dieser Vorstellung wird deren unterschiedliche Zielsetzung offenbar: Die internen Werkzeuge unterstützen Nutzende bei Suche, Gruppierung und Speicherung, bleiben also an der Textoberfläche und bieten keine Textbe- bzw. -verarbeitung. Die extern eingebundenen Werkzeuge dagegen verwenden Methoden der Digital Humanities, um die Texte computergestützt zu verarbeiten, zu analysieren und zu visualisieren. Sie ermöglichen folglich die Arbeit im Text selbst.

Die Suche ist eines der TextGridRep-eigenen Werkzeuge. Sie erlaubt in ihrer einfachen Form Einzelwörter, aber auch mehrteilige Phrasen als Suchbegriffe. In der erweiterten Suche kann darüber hinaus direkt in Metadaten gesucht werden. Bekannte Abwandlungen wie Platzhalter, ungenaue Suchen oder Abstände werden dabei ebenso unterstützt wie Boolesche Operatoren.

TextGrid Rep - Erweiterte Suche
Abb. 3: Screenshot der Erweiterten Suchfunktion des TextGrid Rep in Nutzendenansicht.

Ein weiteres komfortables Feature bietet das TextGridRep mit seiner Regalfunktion. Das Regal erlaubt es Nutzenden, sich eigene Kollektionen zusammenzustellen und zu speichern. Diese können dann – ebenso wie einzelne Dateien – in verschiedenen Formaten heruntergeladen werden. Zu diesen Formaten gehören aktuell TEI XML, txt, epub und html.Regalfunktion TextGrid Repository Außerdem besteht die Möglichkeit des Downloads der Metadaten oder einer Zip-Datei, die Metadaten und Hauptressource in TEI XML enthält.

Abb. 4: Die Regalfunktion des TextGridRep.

Weitere Infos wie ein Nutzerhandbuch oder technische Dokumentation zum TextGridRep finden sich auf dessen Websites sowie im öffentlichen Wiki von TextGrid.

Die Einbindung externer Werkzeuge in das TextGrid Repository

Neben internen Funktionen wie der Suche oder dem persönlichen Regal sind in das TextGridRep auch externe Werkzeuge integriert. Diese Verknüpfung ist sinnvoll, da sich das TextGridRep mittlerweile als Infrastrukturkomponente etabliert hat und häufig genutzt wird. [5] Die Nutzung dieser Werkzeuge findet nicht innerhalb des TextGridRep statt, jedoch unterstützt das TextGridRep die Nutzenden, indem es zu untersuchende Texte bereits in die externen Tools lädt, Sprach- und Formatangaben vornimmt und die Analyse daher nur noch angestoßen werden muss. Die externen Werkzeuge gehen in ihrer Funktionalität deutlich über das hinaus, was innerhalb des Repositoriums möglich ist. Sie ermöglichen die kollaborative manuelle Annotation, computergestützte linguistische Annotation, einfache computerphilologische und -linguistische Analysen und Visualisierungen sowie weiteres mehr (siehe unten). Sie unterstützen Forschende über die Funktionalität des TextGrid Laboratory hinaus bei ihrer Editionsarbeit, bei Auswertungen und beim Finden von Forschungsthemen. Werkzeuge TextGrid RepositoryDie externen Werkzeuge und deren Nutzung sind im TextGridRep kleinschrittig und auf dieses Anwendungsszenario hin dokumentiert. Außerdem wird eine Anleitung in deutscher Sprache geliefert, die in vielen externen Tools fehlt. Am Ende der Beschreibung wird auch auf die allgemeiner gehaltenen, meist englischsprachigen Dokumentationen der einzelnen Tools selbst verwiesen.

Abb. 5: Werkzeugbox im TextGridRep, die links neben der Inhaltsseite erscheint.

Annotate-Funktion

Annotation Viewer
Abb. 6: Die Darstellung des Annotation Viewers nach Verlassen des TextGridRep.

Die in das TextGridRep eingebundene Beta-Version des Annotation Viewers [6] ist ein Werkzeug für die manuelle, kollaborative Freitextannotation, basierend auf der Open Source-Software Annotator.js. Der Annotation Viewer besticht durch ein einfach zu bedienendes User Interface. Wird bei der Anzeige eines Textes im TextGridRep die Annotate-Funktion aufgerufen, werden Nutzende direkt auf die Seite des Annotation Viewers geleitet, wo der zuvor angezeigte Text bereits zur Annotation vorbereitet ist. Sollte man noch nicht eingeloggt sein, wird zuvor ein Login in die DARIAH-AAI verlangt. Dieser Schritt ist notwendig, damit Annotationen beim späteren Wiederaufruf des Textes den Nutzenden zugeordnet und (auf von der GWDG betriebenen Servern) gespeichert werden können und Gruppenannotationen möglich sind. Sämtliche Daten werden auf internen Servern sicher gespeichert und sind schnell abrufbar.

Die Annotation eines Textes ist an jeder beliebigen Textstelle möglich – auch in den direkt aus dem TextGridRep geladenen Metadaten, in Fußnoten oder Randbemerkungen. Wird eine Textpassage markiert, erscheinen zwei Eingabefelder: „Comments” und „Tags” (vgl. Abb. 7). Unter „Comments” bietet sich eine Freitextangabe zur betreffenden Textstelle an; „Tags” sollte genutzt werden, um die Annotationen mit verschiedenen Kategorien zu belegen, um sie später gruppieren zu können.Eingabefelder Annotation Viewer Derzeit ist es jedoch nicht möglich, Ontologien zu definieren und aus diesen fixe Kategorien auszuwählen. Daher muss bei der Eingabe auf korrekte Schreibweisen geachtet werden, insbesondere, wenn eine maschinelle Weiterverarbeitung vorgesehen ist. Natürlich sind alle Angaben später noch editier- und löschbar.

Abb. 7: Eingabefelder bei der Annotation im Annotation Viewer.

Der Annotation Viewer bietet mit seinem Annotation Manager die Möglichkeit, alle Annotationen in einer Tabelle anzeigen zu lassen. Diese Tabelle enthält eine Vielzahl an Informationen zu jeder einzelnen Annotation: Annotationsnummer, URL des Dokuments, in dem die Annotation durchgeführt wurde, den eingegebenen Kommentar, die vergebenen Tags, das genaue Zitat der Annotationspassage, Erstellungsdatum, Bearbeitungsdatum und Gruppenzugehörigkeit der Annotation (vgl. Abb. 8). Hier können Annotationen nach den genannten Kriterien geordnet oder in einer CSV-Tabelle zur Weiterverarbeitung extrahiert werden. Besonders nützlich ist es hier – und ebenso in der extrahierten CSV-Tabelle –, die Annotation nach den zuvor vergebenen Tags zu ordnen, um so eine kategorienbasierte Übersicht zu erhalten.

Tabelle Annotation Viewer
Abb. 8: Tabelle der Annotation im Annotation Viewer.

Die Funktion der Gruppenannotation erlaubt die Erstellung von Nutzendengruppen. Eine neue Gruppe kann mit wenigen Klicks erstellt werden; hinzufügen kann ein*e Administrator*in jeden, der über einen DARIAH-Account verfügt. Eine Suchfunktion nach Gruppen bzw. öffentlichen Gruppen gibt es allerdings nicht. Der Gruppe zugehörige Nutzende können für alle Gruppenangehörige sichtbare und editierbare Annotationen erstellen. Dafür müssen getätigte Annotationen im Annotation Manager der jeweiligen Gruppe zugewiesen werden; hierauf wird die Gruppenzugehörigkeit in der Annotationstabelle angezeigt. Durch diese Funktion ist kollaborative Annotationsarbeit möglich.

Voyant Tools

Die Voyant Tools sind eine frei zugängliche Webanwendung, die einen schnellen Zugang zu computergestützten Textanalysen für Forschende und die interessierte Öffentlichkeit bereitstellt. Mit den Analysen der Voyant Tools kann ein Zugang zu computergestütztem Arbeiten erfolgen, der einen quantitativen Blick auf Texte erlaubt. Die Auswertungen können das Textstudium unterstützen, als anschauliche Visualisierungen dienen und zu neuen Forschungsthesen inspirieren. Alle Möglichkeiten der Voyant Tools können hier natürlich nicht beschrieben werden; im Hinblick auf den folgenden Screenshot (Abbildung 9) seien einige genannt: Wortwolken („Cirrus“, links oben) visualisieren die in einem Text häufigsten Wörter, wobei Wörter desto fetter und größer dargestellt werden, je häufiger sie im Text vorkommen. Der „Reader“ (oben Mitte) ermöglicht es, einen Text zu lesen, wobei bei Mouseover die absolute Worthäufigkeit des jeweiligen Wortes angezeigt wird. „Trends“ (rechts oben) zeigen Worthäufigkeiten im Textverlauf an und die „Kontexte“ (rechts unten; besser bekannt unter dem Namen „keywords in context“, kurz KWIC) zeigen ein Wort und den variierenden Text, der das Wort umschließt.

Screenshot Voyant
Abb. 9: Die Voyant Tools mit einem aus dem TextGridRep übernommenen Text.

Bei der Analyse unterstützen die Voyant Tools verschiedene Eingabeformate, URL-Verlinkungen und Freitexteingabe und sowohl Einzeltext- als auch Korpusanalyse. Insgesamt bieten die Voyant Tools über 25 Auswertungsverfahren und Visualisierungsmethoden. Nutzende erhalten so vieldimensionale computergestützte Zugänge zu ihren Texte, wie in der Beispielvisualisierung in Abbildung 9 in Ansätzen zu sehen (Worthäufigkeiten absolut, textbasiert und im Textverlauf, Wörter im Kontext usw.).

Die Voyant-Funktion im TextGridRep bietet die Möglichkeit, Texte direkt in die Voyant Tools zu laden und sie dort einer quantitativen Analyse zu unterziehen. Darüber hinaus ist es möglich, durch die Regal-Funktion im TextGridRep eine eigene Kollektion mithilfe der Voyant Tools zu analysieren. So können Nutzende beispielsweise in einem ganzen Textkorpus Worthäufigkeiten messen, Korrelationen berechnen lassen, Wortverlaufsgraphen visualisieren und weitere stilistische Analysen und Darstellungsformen nutzen sowie Korpora vergleichen. Diese können als Grundlage für weiterführende computergestützte Auswertungen und als Veranschaulichung von Forschungsergebnissen dienen. Die Voyant Tools ermöglichen den Nutzenden eingeschränkte Anpassungen der Variablen und stellen vor allem vielfältige Visualisierungen sowie ausführliche Tabellen und Diagramme zur Verfügung.

Language Resource Switchboard

Im Kontext von Korpuserstellung und -aufbereitung sind Werkzeuge aus dem Bereich des Natural Language Processing und der linguistischen Annotation relevant. Das CLARIN Language Resource Switchboard (LRS) ist ein interaktives Verzeichnis von Diensten zur maschinellen (Text-)Datenverarbeitung. Es bündelt Tools diverser Anbieter und von verschiedenen Websites, hilft dadurch also beim Auffinden von Tools und bei der Anwendung auf die Daten der Nutzenden. Dabei können die Nutzenden – ähnlich wie in Voyant – ihre Daten entweder selbst hochladen, eine URL verwenden oder einen Text eingeben. Daraufhin stellt das LRS abhängig vom übermittelten Dateiformat und der Sprache eine Liste in Frage kommender Werkzeuge zur Verfügung. Aus dieser Liste können Informationen über die Werkzeuge entnommen und direkt mit dem eingegebenen Text gestartet werden. Aktuell stellt das LRS fast 60 verschiedene Werkzeuge bereit, die sich von automatischen syntaktischen Annotationen (z.B. Constituency Parsing und Dependency Parsing) über Eigennamenerkennung, Metadatenverarbeitung, Redeerkennung, Übersetzungen bis hin zur Visualisierung von Raumdaten erstrecken. Fast alle dieser Dienste sind mit einem DARIAH- oder eduGAIN-affiliierten Account direkt nutzbar.

Language Resource Switchboard
Abb. 10: Eine beispielhafte Vorschlagsliste möglicher Tools nach Übergabe eines Textes aus dem TextGridRep.

Durch die Einbindung des LRS in das TextGridRep wird Nutzenden eine komfortable Verbindung zwischen Textdaten und Tools bereitgestellt. Wird ein Text im TextGridRep angezeigt, kann direkt auf das LRS zugegriffen werden, das seinerseits den Text lädt, sein Datenformat und seine Sprache prüft und dann eine Liste in Frage kommender Tools bereitstellt. Durch die Gruppierung der Tools nach Anwendungsfall [7] können die Nutzenden leicht das für sie passende Tool auswählen. Wünschen sie beispielsweise eine automatisierte Textannotation, bieten sich Tools für Lemmatisierung oder Part-of-Speech-Tagging an, werden Visualisierungen nachgefragt, sind Textanalysetools zu bevorzugen. Gleichzeitig erhalten Nutzende Inspiration für weitere Anwendungsszenarien. Die Verarbeitung selbst erfolgt auf den eigenen Servern der externen Werkzeuge. Mit den automatisch annotierten Daten, den Analysen und Visualisierungen können Nutzende weiterführende Studien veranlassen.

Nutzen & Fazit

Die Auswahl der externen Werkzeuge beruht auf einem mehrschrittigen Prozess: FachwissenschaftlerInnen haben eine Auswahl potentiell nützlicher Tools getroffen, gemeinsam mit EntwicklerInnen Integrationsmöglichkeiten diskutiert und die Tools schließlich über das TextGridRep nutzbar gemacht. An die Tools angesetzte Kriterien waren neben ihrer Nachhaltigkeit, sicheren Funktionalität und fachlichen Qualität auch eine gewisse Diversität in ihren Anwendungsgebieten. Daher ermöglichen die externen in das TextGridRep eingebundenen Werkzeuge die manuelle Textbearbeitung bzw. –annotation, computergestützte Auszeichnung und Visualisierungen. Trotz dieser Bandbreite ist das TextGridRep für die Verknüpfung mit weiteren Werkzeugen grundsätzlich offen und für das Feedback aus Community und Entwicklerkreisen dankbar.

Die Einbindung externer Werkzeuge erweitert die nativen Möglichkeiten des TextGridRep daher deutlich. Während sich das TextGridRep v.a. auf die nachhaltige Bereitstellung von Forschungsdaten, auf gute Durchsuchbarkeit, reiche Metadatenauszeichnung und Speicherfunktion konzentriert, bieten die externen Tools die Möglichkeit, diese Daten und deren Metadaten auf vielfältige Art weiterzuverarbeiten und deren Ergebnisse zu speichern (im Falle des Annotation Viewers TextGrid-intern, bei Voyant und dem LRS müssen die Ergebnisse extern abgespeichert werden). Insgesamt profitieren von der Einbindung der externen Werkzeuge (i) die Nutzenden, (ii) die Werkzeuge und deren EntwicklerInnen sowie (iii) das TextGridRep selbst.

(i) Die Nutzenden profitieren von einer Erweiterung des Angebotsspektrums des TextGridRep. Der besondere Vorteil aller ins TextGridRep eingebundenen Werkzeuge für die Nutzenden ist die direkte Verbindung zwischen Tool und Text. Bei der Verwendung der Tools entfällt der Schritt, die Texte aus dem TextGridRep herunterzuladen und wieder in die Tools hochzuladen. Außerdem handelt es sich bei den externen Werkzeugen um Web-Applikationen, was zwei weitere Vorteile mit sich bringt: Einerseits muss die Software der Tools nicht mehr lokal installiert werden, was gerade bei umfangreicheren Tools, die häufig noch Zusatzsoftware benötigen, von großem Aufwand sein kann. Andererseits arbeiten Web-Applikationen auf externen Servern, die Abhängigkeit von lokaler Rechenleistung und -kapazität entfällt daher ebenso. Außerdem können die Tools dadurch bei wechselnden Arbeitsplätzen gleichbleibend verwendet werden. Alle externen Werkzeuge bieten folglich eine große Zeitersparnis und beugen Mehrfacharbeit vor. Hier ist insbesondere das LRS hilfreich, da sowohl die Recherche, welche Tools es überhaupt gibt, als auch die Suche nach diesen Tools auf verschiedenen Websites überflüssig wird. Gleichzeitig gibt das LRS durch seine Kategorisierung der Tools Hilfestellung, für welche Anwendungsfälle sich diese eignen.

Der Annotation Viewer bietet darüber hinaus noch eine weitere Funktionalität: Durch seine Gruppenfunktion bietet er die Möglichkeit, kollaborativ und gleichzeitig am selben Textdokument zu arbeiten. Dadurch können Versionskonflikte vermieden, Arbeiten besser koordiniert und Ergebnisse geteilt werden.

Die Nutzenden erhalten folglich eine Palette neuer Anwendungen und Perspektiven einhergehend mit verbessertem Nutzungskomfort. Aber auch (ii) die in das TextGridRep eingebundenen Werkzeuge sowie deren EntwicklerInnen und BetreiberInnen profitieren. Als Teil von TextGrid erhalten sie nun größere Aufmerksamkeit, für Tools werden neue Anwendungsszenarien aufgezeigt und deren stärkere Nutzung führt zu schnellerer Dokumentation möglicher Fehler sowie zu Ideen für Updates. Außerdem sind sie als ein in TextGrid eingebundener Service in die nachhaltige Struktur von CLARIAH-DE und Text+ integriert, die einer Administration und permanentem Support unterliegt. Hinweise oder Fragen von Nutzenden werden über ein Helpdesk beantwortet oder an entsprechende Stellen weitergeleitet. Text+ kann allerdings keine technische Wartung der externen Tools gewährleisten, was ggf. zu einer Umstrukturierung der Werkzeugauswahl führen kann, sollten einzelne Tools nicht mehr gewartet werden.

Schließlich profitiert (iii) auch das TextGridRep selbst von der Einbindung der externen Werkzeuge. Durch die neuen Optionen bietet das TextGridRep größere Funktionalität und vielfältigere Anwendungsszenarien und dient nicht mehr allein als Archiv, sondern auch als Wegweiser zu Nachnutzung und Analyse. Eine solcherart erhöhte Funktionalität übt auf Nutzende eine größere Attraktivität aus und führt dadurch zu mehr Aufmerksamkeit in der nationalen wie internationalen Forschungslandschaft und Öffentlichkeit.

Projekthistorie von TextGrid

Das TextGrid-Projekt – und folglich auch das TextGridRep – wurde von 2006 bis 2015 im Zuge der D-Grid-Initiative vom Bundesministerium für Bildung und Forschung (BMBF) gefördert (Förderkennzeichen: 01UG1203A). [8] Seit 2015 wird es von den Partnerinstitutionen von DARIAH-DE weiterbetrieben und war Teil der Angebote von CLARIAH-DE. Eine Weiterentwicklung wird als Angebot der SUB Göttingen im NFDI-Konsortium Text+ erfolgen. Die institutionelle Nachhaltigkeit besteht durch den im Mai 2012 durch die TextGrid-Partner gegründeten TextGrid – Verein zum nachhaltigen Betrieb einer Virtuellen Forschungsumgebung in den Geisteswissenschaften e.V.

Referenzen & weiterführende LiteraturZum Annotation Viewer

Becker, Rainer / Bender, Michael / Borek, Luise / Hastik, Canan / Kollatz, Thomas / Mache, Beate / Lordick, Harald / Reiche, Ruth (2016): Digitale Annotationen: Best Practices und Potentiale (R 6.2.1) Teil II. DARIAH-DE, URL: https://docplayer.org/54101482-Digitale-annotationen-best-practices-und-potentiale-r-6-2-1-teil-ii.html.

http://annotatorjs.org/. (zuletzt aufgerufen am 03.02.2021)

https://annotation.de.dariah.eu/. (zuletzt aufgerufen am 28.01.2021)

Zum Language Resource Switchboard

https://switchboard.clarin.eu/. (zuletzt aufgerufen am 12.02.2021)

https://switchboard.clarin.eu/tools. (zuletzt aufgerufen am 28.01.2021)

https://www.clarin-d.net/de/exmaralda-und-weblicht. (zuletzt aufgerufen am 30.03.2021)

Jong, Franciska / Maegaard, Bente / Fišer, Darja / Uytvanck, Dieter van / Witt, Andreas (2020): Interoperability in an Infrastructure Enabling Multidisciplinary Research: The case of CLARIN. Proceedings of the 12th Conference on Language Resources and Evaluation (LREC 2020), S. 3406–3413.

Kollatz, Thomas (2015): epidat – Datenbank zur jüdischen Grabsteinepigraphik. Inventarisierung und Dokumentation historischer jüdischer Friedhöfe. In: Bolenz, Eckhard / Franken, Lina / Hänel, Dagmar (Hg.): Wenn das Erbe in die Wolken kommt. Digitalisierung und kulturelles Erbe. Essen: Klartext, 161–168.

Steiner-Cardell, Andrea (2020): WebLicht als korpuslinguistisches Analyseinstrument für studentische Forschungsarbeiten: am Beispiel von vorwissenschaftlichen Arbeiten. Zisch: Zeitschrift für interdisziplinäre Schreibforschung 3, 28–44.

Zinn, Claus (2018): The Language Resource Switchboard. Computational Linguistics 44(4), S. 631-639.

Zinn, Claus (2018): A Bridge from EUDAT’s B2DROP cloud service to CLARIN’s Language Resource Switchboard. Selected papers from the CLARIN Annual Conference 2017, Linköping University Electronic Press 147, S. 36-45.

Zinn, Claus (2016): D2.5 LR Switchboard (software). Deliverable in the CLARIN-PLUS project.

Zu TextGrid und zum TextGrid Repository

Blümm, Mirjam / Funk, Stefan E. / Söring, Sybille (2015): Die Infrastruktur-Angebote von DARIAH-DE und TextGrid. Information ― Wissenschaft & Praxis 66, S. 5–6.

Funk, Stefan E. (2018): Elektronisches Publizieren von Digitalen Forschungsdaten am Beispiel des TextGrid Repositorys – Umsetzung von Digitalen Publikationsworkflows für die eHumanities, Masterarbeit, Köln.

http://www.textgrid-verein.de/. (zuletzt aufgerufen am 22.01.2021)

https://textgrid.de/. (zuletzt aufgerufen am 12.02.2021)

https://textgrid.de/digitale-bibliothek. (zuletzt aufgerufen am 12.02.2021)

https://textgrid.de/download. (zuletzt aufgerufen am 12.02.2021)

https://textgrid.de/publikationen. (zuletzt aufgerufen am 29.01.2021)

https://textgrid.de/tutorials. (zuletzt aufgerufen am 03.02.2021)

https://textgridrep.org/. (zuletzt aufgerufen am 12.02.2021)

https://textgridrep.org/docs/annotate. (zuletzt aufgerufen am 29.01.2021)

https://textgridrep.org/docs/errata. (zuletzt aufgerufen am 27.01.2021)

https://textgridrep.org/docs/shelf. (zuletzt aufgerufen am 12.02.2021)

https://textgridrep.org/docs/switchboard. (zuletzt aufgerufen am 29.01.2021)

https://textgridrep.org/docs/syntax. (zuletzt aufgerufen am 28.01.2021)

https://textgridrep.org/docs/voyant. (zuletzt aufgerufen am 29.01.2021)

https://wiki.de.dariah.eu/display/TextGrid/. (zuletzt aufgerufen am 27.01.2021)

Neuroth, Heike / Rapp, Andrea / Söring, Sibylle (Hg.) (2015): TextGrid: Von der Community – für die Community. Eine Virtuelle Forschungsumgebung für die Geisteswissenschaften. Glückstadt: Verlag Werner Hülsbusch.

TextGrid Konsortium (2006-2014). TextGrid: Virtuelle Forschungsumgebung für die Geisteswissenschaften. Göttingen: TextGrid Konsortium. textgrid.de.

Zu den Voyant Tools

Kühner, Janina (2017): Fachdidaktisches Essay: Beispielhafte Konzeption einer Literaturunterrichtseinheit mit Voyant. Skriptum 6(1), S. 41–57.

https://voyant-tools.org/docs/#!/guide/tools. (zuletzt aufgerufen am 28.01.2021)

Sinclair, Stéfan / Rockwell, Geoffrey (2016): Text Analysis and Visualization: Making Meaning Count. In: Schreibmann, Susan, Ray Siemens and John Unsworth: A New Companion to Digital Humanities, S. 274–290.

Sinclair, Stéfan / Rockwell, Geoffrey (2016): Voyant Tools. Web. http://voyant-tools.org/.

Sonstige Referenzen

Fischer, Frank / Börner, Ingo / Göbel, Mathias / Hechtl, Angelika / Kittel, Christopher / Milling, Carsten / Trilcke, Peer (2019). Programmable Corpora: Introducing DraCor, an Infrastructure for the Research on European Drama. In Proceedings of DH2019: „Complexities“, Utrecht University, doi:10.5281/zenodo.4284002.

Fontane, Theodor: Notizbücher. Digitale genetisch-kritische und kommentierte Edition. Hrsg. von Gabriele Radecke. https://fontane-nb.dariah.eu/index.html. (zuletzt aufgerufen am 18.03.2021)

http://www.go-fair.org/fair-principles/. (zuletzt aufgerufen am 28.01.2021)

https://dh-ch.openaire.eu/. (zuletzt aufgerufen am 22.03.2021)

https://de.dariah.eu/. (zuletzt aufgerufen am 29.01.2021)

https://de.dariah.eu/aai. (zuletzt aufgerufen am 28.01.2021)

https://dracor.org/. (zuletzt aufgerufen am 19.03.2021)

https://www.bmbf.de/. (zuletzt aufgerufen am 28.01.2021)

https://www.bmbf.de/de/nationale-forschungsdateninfrastruktur-8299.html. (zuletzt aufgerufen am 28.01.2021)

https://www.bmbf.de/foerderungen/bekanntmachung-167.html. (zuletzt aufgerufen am 28.01.2021)

https://www.clariah.de/. (zuletzt aufgerufen am 29.01.2021)

https://www.clariah.de/support. (zuletzt aufgerufen am 12.02.2021)

https://www.clarin.eu/. (zuletzt aufgerufen am 04.02.2021)

https://www.coretrustseal.org/. (zuletzt aufgerufen am 22.01.2021)

https://www.dariah.eu/. (zuletzt aufgerufen am 04.02.2021)

https://www.dfg.de/foerderung/programme/nfdi/. (zuletzt aufgerufen am 28.01.2021)

https://tei-c.org/. (zuletzt aufgerufen am 28.01.2021)

Jannidis, Fotis (1997): Wider das Altern elektronischer Texte. Philologische Textauszeichnung mit TEI. editio 11, S.152-177

TEI Consortium (Hg.) (2021): TEI P5: Guidelines for Electronic Text Encoding and Interchange. [Version 5]. TEI Consortium. http://www.tei-c.org/Guidelines/P5/. (zuletzt aufgerufen am 18.03.2021)


 

Fußnoten[1] TextGrid Konsortium (2006-2014). TextGrid: Virtuelle Forschungsumgebung für die Geisteswissenschaften. Göttingen: TextGrid Konsortium. textgrid.de[2] Fontane, Theodor: Digitale genetisch-kritische und kommentierte Edition. Hrsg. von Gabriele Radecke. https://fontane-nb.dariah.eu/index.html.[3] Ein DARIAH-Account lässt sich beantragen unter https://de.dariah.eu/aai/. Bei Nachweis einer Hochschulzugehörigkeit wird der DARIAH-Account direkt eingerichtet, für „private Accounts“, bspw. von Webmailern muss ein wissenschaftliches Interesse belegt werden.[4] In Bezug auf digitale Editionen vgl. Jannidis, Fotis (1997): Wider das Altern elektronischer Texte. Philologische Textauszeichnung mit TEI. editio 11, S.152-177; für weitere Informationen siehe die TEI-Guidelines, TEI Consortium (Hg.): TEI P5: Guidelines for Electronic Text Encoding and Interchange. [Version 5]. TEI Consortium. http://www.tei-c.org/Guidelines/P5/.[5] So wurde es beispielsweise für das DraCor-Projekt (https://dracor.org/) verwendet, hauptsächlich für den deutschen Teil des Dramenkorpus, vgl. Fischer, Frank, et al. (2019). Programmable Corpora: Introducing DraCor, an Infrastructure for the Research on European Drama. In Proceedings of DH2019: „Complexities“, Utrecht University, doi:10.5281/zenodo.4284002. Außerdem wurde TextGrid schon früh in die universitäre Lehre integriert, wie z.B. im Wintersemester 2007/08 an der Universität Göttingen (https://univz.uni-goettingen.de/qisserver/rds?state=wsearchv&search=2&veranstaltung.veranstid=14863).[6] Die Beta-Version bietet bereits ein Grundinventar für die Annotation nötiger Funktionalitäten. Sollten sich konkrete Anwendungsszenarien ergeben, stehen die Toolentwickler für Kooperationen bereit.[7] Die Tools des LRS werden in verschiedenartigen Anwendungsfällen in der Forschung verwendet, z.B. in Steiner-Cardell, Andrea (2020): WebLicht als korpuslinguistisches Analyseinstrument für studentische Forschungsarbeiten: am Beispiel von vorwissenschaftlichen Arbeiten. Zisch: Zeitschrift für interdisziplinäre Schreibforschung 3, 28–44, oder die automatische Annotation von Transkriptionsdateien mit WebLicht via EXMARaLDA, vgl. https://www.clarin-d.net/de/exmaralda-und-weblicht. Aber auch textferne Auswertungen sind möglich, z.B. die Visualisierung jüdischer Grabsteinepigraphik mit Hilfe des DARIAH-DE Geo-Browsers, vgl. Kollatz, Thomas (2015): epidat – Datenbank zur jüdischen Grabsteinepigraphik. Inventarisierung und Dokumentation historischer jüdischer Friedhöfe. In: Bolenz, Eckhard; Franken, Lina; Hänel, Dagmar (Hg.): Wenn das Erbe in die Wolken kommt. Digitalisierung und kulturelles Erbe. Essen: Klartext, 161–168.[8] Eine Zusammenfassung zu Projektgeschichte und -ergebnissen findet sich bei Neuroth, Heike / Rapp, Andrea / Söring, Sibylle (Hg.): TextGrid: Von der Community – für die Community. Eine Virtuelle Forschungsumgebung für die Geisteswissenschaften. Glückstadt: Verlag Werner Hülsbusch 2015. Zu weiteren Publikationen im Umfeld von TextGrid vgl. https://textgrid.de/publikationen.