[DHd-blog] Virtuelles DH-Kolloquium an der BBAW, 13.11.2020, Annelen Brunner: „Redewiedergabe – Korpusressourcen & Automatische Erkenner“

[德语国家数字人文协会DHd-blog网站消息]

Am 13. November 2020, von 17 Uhr bis ca. 19 Uhr, findet erneut das virtuelle DH-Kolloquium der BBAW statt, bei dem Referentin Dr. Annelen Brunner (Leibniz-Institut für Deutsche Sprache Mannheim) die durch das Projekt „Redewiedergabe“ zur Nachnutzung bereitgestellten Korpusressourcen und automatischen Erkenner für Redewiedergabe vorstellen wird.

Der Vortrag, dessen Ankündigung untenstehend zu finden ist, wird vorab aufgezeichnet und rechtzeitig vor Beginn des Kolloquiums bereitgestellt. Der Link zum Vortrag wird parallel auf Twitter (@DHBBAW) sowie im Channel „berlin_dhberlin“ auf der Plattform discord (⇒ Einladungslink: https://discord.gg/sw4D5NN) gepostet.

Zur Kolloquiumszeit startet auf der Plattform discord die Diskussion, zu der wir hiermit alle Interessierten sehr herzlich einladen möchten. Zuhörerinnen und Zuhörer können ihre Fragen außerdem per Mail an dh-kolloquium@bbaw.de senden. Diese werden von den OrganisatorInnen des Kolloquiums ausgewählt und dann (ggf. verkürzt) über discord an die Referentin weitergegeben.

Redewiedergabe – Korpusressourcen & Automatische Erkenner
Dr. Annelen Brunner (IDS Mannheim)
13.11.2020, 17–19 Uhr (virtuell)
Zum Vortrag: https://vimeo.com/477623161

Das 2020 abgeschlossene DFG-Projekt „Redewiedergabe“ (www.redewiedergabe.de; github.com/redewiedergabe) beschäftigte sich mit der empirischen Erforschung von Formen der Wiedergabe von Rede und Gedanken im Deutschen. Im Fokus standen die Typen direkte (Er sagte: „Ich habe Hunger.“), indirekte (Er sagte, er habe Hunger.), freie indirekte (Er war ratlos. Wo sollte er jetzt nur etwas zu essen finden?) und erzählte Wiedergabe (Sie sprachen über das Mittagessen.). Dieser Vortrag stellt die Ressourcen vor, die während der Projektlaufzeit entstanden sind und der Forschungsgemeinschaft frei zur Verfügung gestellt werden.

Dies sind zum einen aufwendig manuell nach Redewiedergabeformen annotierte Sprachdaten (Zeitraum: 1840-1920; fiktionale und nicht-fiktionale Texte). Das balancierte Kernkorpus umfasst 490.000 Tokens, zusätzlich stehen ca. 3 Mio. Tokens an annotiertem Material mit z.T. vereinfachtem Annotationssystem zur Verfügung.

Zum anderen wurden im Projekt auf DeepLearning basierende automatischer Erkenner für Redewiedergabe entwickelt, die quantitative Studien an großen Textmengen ermöglichen. Im Vortrag wird auch ein Anwendungsszenario dieser Werkzeuge vorgestellt.

Wir hoffen, Interesse an diesen neuartigen Ressourcen zu wecken, die sowohl für linguistische und literaturwissenschaftliche als auch computerlinguistische Projekte nützlich sein können.

Publikationen:

Annelen Brunner, Stefan Engelberg, Fotis Jannidis, Ngoc Duyen Tanja Tu, Lukas Weimer (2020): Corpus REDEWIEDERGABE, Proceedings of the 12th Language Resources and Evaluation Conference, Marseille, S. 796-805.

Annelen Brunner, Ngoc Duyen Tanja Tu, Lukas Weimer, Fotis Jannidis (2020): To BERT or not to BERT – Comparing Contextual Embeddings in a Deep Learning Architecture for the Automatic Recognition of four Types of Speech, Thought and Writing Representation, Proceedings of the 5th Swiss Text Analytics Conference (SwissText) & 16th Conference on Natural Language Processing (KONVENS), Zurich, Switzerland, June 23-25, 2020.