[DHd-blog] „Abgeleitete Textformate“ als neuer Ansatz für die Arbeit mit urheberrechtlich geschützten Texten

[德语国家数字人文协会DHd-blog网站消息]

Bericht von der DFG-Experten-Workshopreihe zu „Strategien für die Nutzbarmachung urheberrechtlich geschützter Textbestände für die Forschung durch Dritte“ an der Universität Trier.

In einem zweitägigen von der DFG geförderten Workshop gingen Expertinnen und Experten am 28. November 2019 sowie am 17. Januar 2020 an der Universität Trier der Frage nach, wie nach geltendem Urheberrecht bisher geschützte Textbestände für Forschungszwecke genutzt und publiziert werden können. Der interdisziplinäre Workshop wurde konzipiert und organisiert von Prof. Dr. Benjamin Raue (Institut für Recht und Digitalisierung Trier) und Prof. Dr. Christof Schöch (Trier Center for Digital Humanities). Die an beiden Tagen versammelte Expertise der Teilnehmer*innen umspannte neben den Rechtswissenschaften und Digital Humanities die Informatikwissenschaften, die Computerlinguistik sowie die Gedächtnisinstitutionen.

Damit waren Vertreterinnen und Vertreter verschiedener potentieller Zielgruppen repräsentiert, die eine mit dem Workshop verbundene Publikation erreichen möchte: Es wird eine (mehrteilige) Handreichung entstehen, die Strategien im Umgang mit dem Urheberrecht sowohl für Anwender:innen von Text und Data Mining in den Digital Humanities, der Computerlinguistik und in den Informatikwissenschaften als auch für Texte zur Verfügung stellende Gedächtnis‑/Infrastruktureinrichtungen darlegt. Zugleich soll sie einen rechtswissenschaftlichen Forschungsbeitrag zur Frage der Bewertung verschiedener Umgangsformen mit dem Urheberschutzrecht liefern. Mit der vielfältigen Zusammensetzung der Expert:innengruppe waren die Interessen und Perspektiven fast aller betroffenen Akteure vertreten und die Voraussetzung für intensive Diskussionen gegeben. Dieser produktive Austausch sollte allerdings in einem nächsten Schritt noch um die bisher nicht repräsentierte Position der Verlage erweitert werden.

Als zentral erwies sich bereits am ersten Workshop-Tag die Frage, wie mögliche – aus urheberrechtlich geschützten Texten abgeleitete – Textformate zu bewerten sind. Die grundlegende Idee besteht darin, bisherige Hemmnisse für die Forschung dadurch zu überwinden, dass der urheberrechtlich geschützte Ausgangstext in ein Format transformiert wird, das vom Urheberrechtsschutz nicht mehr betroffen ist. Denn wenngleich durch das neue Urheberrechts-Wissensgesellschafts-Gesetz (UrhWissG) von März 2018 und durch die „Directive on Copyright“ auf EU-Ebene von 2019 im Hinblick auf die Nutzung von Textsammlungen für das Text-und-Data-Mining bereits einige Verbesserungen zu verzeichnen sind, so besteht die folgenreiche Problematik weiterhin darin, dass die Weitergabe und Publikation solcher Textsammlungen starken Beschränkungen unterliegen.

Wenn es also gelänge, Textformate zu finden, die aus rechtswissenschaftlicher Perspektive vor dem Hintergrund des geltenden Urheberrechts (und ggf. Leistungsschutz- und Datenbankherstellerschutzrechts) als unbedenklich eingestuft würden und zugleich die Bearbeitung sinnvoller Fragestellungen ermöglichten, so ließe sich eine der zentralen Restriktionen der Digital Humanities überwinden. Bisher kaum je im Maßstab von Text- und Data-Mining betrachtete Korpora (vor allem nach 1920) wären auf völlig neue Weise zu erschließen: Textsammlungen könnten transparent nachgenutzt werden, Forschungsergebnisse wären reproduzierbar, unnötiger Ressourcenaufwand in der potentiell doppelten (weil bisher aus urheberrechtlichen Gründen nicht durch Dritte nachnutzbaren Daten) Erstellung von Textsammlungen könnte vermieden werden.

Die intensive Diskussion zwischen den verschiedenen Akteuren – mit u. a. Harry Potter als einem ebenso einschlägigen wie herausfordernden Fall- und Textbeispiel – ließ es durchaus möglich, aber keineswegs einfach erscheinen, den virulenten Zielkonflikt auszubalancieren: Denn zum einen ist es fraglich, welchen Erkenntnisgewinn ein Textformat noch verspricht, wenn zu viele Informationen getilgt wurden; und zum anderen stellen oft gerade ‚kreative‘, ‚schutzbegründende‘ Eigenschaften den Kern des geistes-, zumindest literaturwissenschaftlichen Interesses dar. Als sehr gewinnbringend stellte sich die konkrete Diskussion der Möglichkeiten, aber auch der Grenzen der einzelnen Textformate dar.

Neben den naheliegenden und teilweise bereits umrissenen Zielen – dass die Formate nicht als relevante Reproduktion des geschützten Ausgangstextes erkennbar sein dürfen und dass dennoch relevante Forschungsfragen bearbeitet werden können – bestand eine diskutierte Zieldimension darin, die Anzahl der verschiedenen Formate möglichst niedrig zu halten und zugleich eine möglichst hohe Diversität im Hinblick auf die analytischen Zugänge zu gewährleisten. Außerdem wurden denkbare Bereitstellungsszenarien solcher Textformate thematisiert und damit verbundene Aspekte – nicht zuletzt Fragen der Standardisierung – besprochen. Darüber hinaus kristallisierte sich zunehmend heraus, dass es sinnvoll wäre, die Entscheidung für oder gegen bestimmte Textformate im Rahmen von Begleitforschungsprojekten auf eine empirische Basis zu stellen. So könnten beispielsweise Analyseresultate auf Basis der geschützten Ausgangstexte mit den Ergebnissen verglichen werden, die in der Untersuchung abgeleiteter Formate erzielt wurden. Es ergab sich neben solchen Performanz-Tests bestimmter Formate (in Kombination mit den jeweils möglichen Verfahren) eine Vielfalt spannender Anschlussüberlegungen – beispielsweise die Frage, welche Effekte eine Kombination mehrerer abgeleiteter Textformate für die Anwendungsszenarien einerseits, die Rekonstruierbarkeit der Texte andererseits, mit sich bringt.

Während derartige Fragen ein doch verhältnismäßig spezialisiertes interdisziplinäres Forschungsfeld betreffen, so ist aus Sicht der Digital Humanities vor allem der Nutzen „abgeleiteter Textformate“ im Erschließen völlig neuer, bisher nicht (für das Text-und-Data-Mining) berücksichtigten Korpora betont worden. Es hätte definitiv weitreichende Konsequenzen, wenn sich die angedachten Lösungsansätze zur Überwindung derzeitiger Restriktionen standardisiert in die Praxis umsetzen ließen und auf breite Akzeptanz stießen. Angesichts der Einschränkungen im Hinblick auf den Informationsgehalt werden solche Textformate zwar nicht unbedingt etwas zu methodischen Innovationen beitragen können, doch es erschließen sich sprichwörtlich neue ‚Welten‘ von Korpora, über die bisher keine Aussagen im Maßstab des Text-und-Data-Mining getroffen werden können. Die sich eröffnenden Möglichkeitsräume liegen also für die Digital Humanities vor allem in der Anwendung standardisierter Methoden auf bisher unbekannten (oder teilweise treffender: nicht in ihrer Breite wissenschaftlich rezipierten) Textkorpora insbesondere (der zweiten Hälfte) des 20. Jahrhunderts.

Für verschiedene am zweiten Workshop-Tag diskutierte Textformate finden sich Beispiele aus einer kleinen Textsammlung, die unter https://github.com/dh-trier/tmr nachvollzogen werden können. Ideen und Vorschläge für relevante, im weiteren Verlauf zu berücksichtigende Korpora, an denen die Erstellung der abgeleiteten Formate sowie die analytische Performanz getestet werden können, sind willkommen. Eine klar abgesteckte Konzeption der mehrgliedrigen Handreichung konnte als Ergebnis des zweiten Tages gesichert werden und wird derzeit umgesetzt. Zudem sind mehrere Veröffentlichungen entweder in Vorbereitung oder bereits erschienen, die die Themen der Workshopreihe aus verschiedenen Perspektiven beleuchten.

(Dr. Maria Hinzmann ist Mitarbeiterin im MiMoText-Projekt, das am Trier Center for Digital Humanities angesiedelt ist.)

Publikationen im Kontext der Workshopreihe

Schöch, Christof, Frédéric Döhl, Achim Rettinger, Evelyn Gius, Peer Trilcke, Peter Leinen, Fotis Jannidis, Maria Hinzmann, and Jörg Röpke. “Abgeleitete Textformate: Text und Data Mining mit urheberrechtlich geschützten Textbeständen.” Zeitschrift Für digitale Geisteswissenschaften 5, 2020, http://www.zfdg.de/2020_006, DOI: 10.17175/2020_006Schöch, Christof, Frédéric Döhl, Achim Rettinger, Evelyn Gius, Peer Trilcke, Peter Leinen, Fotis Jannidis, Maria Hinzmann, Jörg Röpke: „Abgeleitete Textformate: Prinzip und Beispiele“. In: Recht und Zugang 1.2, 2020, 160–175. DOI: https://doi.org/10.5771/2699-1284-2020-2-160Raue, Benjamin, Christof Schöch: „Zugang zu großen Textkorpora des 20. und 21. Jahrhunderts mit Hilfe abgeleiteter Textformate – Versöhnung von Urheberrecht und textbasierter Forschung“. In: Recht und Zugang, 1.2, 2020, 118–127. DOI: https://doi.org/10.5771/2699-1284-2020-2-118Grisse, Karina: „Nutzbarmachung urheberrechtlich geschützter Textbeständefür die Forschung durch Dritte – Rechtliche Bedingungen und Möglichkeiten“. In: Recht und Zugang, 1.2, 2020, 143–159. DOI: https://doi.org/10.5771/2699-1284-2020-2-143Jotzo, Florian: „Der Schutz großer Textbestände nach dem UrhG – Die Nutzbarmachung fremder Textbestände für die Forschung“. In: Recht und Zugang, 1.2, 2020, 128–142. DOI: https://doi.org/10.5771/2699-1284-2020-2-128Erler, Katharina: „DFG-Expertenworkshop: Strategien für die Nutzbarmachungurheberrechtlich geschützter Textbestände für die Forschungdurch Dritte“ [Tagungsbericht]. In: Recht und Zugang, 1.1, 2020, 108–112. DOI: https://doi.org/10.5771/2699-1284-2020-1-108