[DHd-blog] Bericht: Workshop „Text Reuse und distributionelle Semantik“

[德语国家数字人文协会DHd-blog网站消息]

Am 16. Und 17. Juli 2018 fand im Kloster Jakobsberg bei Mainz ein Methodenworkshop zum Thema Text Reuse und distributionelle Semantik statt. Am Methodenworkshop nahmen Studierende des Masterstudiengangs „Digitale Methodik in den Geistes- und Kultuwissenschaften“ der Johannes Gutenberg-Universität Mainz, teil, um ihr Wissen im Bereich der NLP zu vertiefen. Der Schwerpunkt des 1,5-tägigen Workshops lag auf dem Ausprobieren und Vergleichen zweier textanalytischen Werkzeuge: TRACER (https://www.etrap.eu/research/tracer/) und DARIAH-DE Topics Explorer (https://dariah-de.github.io/TopicsExplorer/). TRACER ist ein textanalytisches Programm, entwickelt von Marco Büchler innerhalb des eTRAP-Projekts, das es ermöglicht die Verwendung von (auch paraphrasierten) Textpassagen/Sätzen in fremden Texten festzustellen. Das Programm Topics Explorer, das an der Universität Würzburg, Lehrstuhl für Computherphilogie im Rahmen des DARIAH-DE-Projekts entwickelt wurde, ist in der Lage die Themen innerhalb großer Textsammlungen zu bestimmen.

Studierende bereiteten im Voraus eigene Datensätze und dazu passende Fragestellungen vor, mit denen sie an die digitalen Werkzeuge herantraten. Wichtig war dabei, den vollständigen Prozess –angefangen von der Datenvorbereitung bis zur Anwendung der Programme – selbständig in Gruppen durchzuführen und abschließend in Kurzvorträgen vorzustellen.

Die Themen Text Reuse, Zipfisches Gesetz und das Funktionieren des Programms TRACER wurden von Marco Büchler vorgestellt und erläutert . Nach dem Installieren des Programms, der Überprüfung der aktuellen Java–Versions und der Normalisierung der Daten konnten Studierende eigene Analysen durchführen. Die sehr heterogenen Datengrundlagen reichten von modernen Song- bis zu Bibeltexten und so war es wichtig für jede Gruppe zu verstehen welche Einstellungen der Parameter die Textreuse Ergebnisse beeinflussen.

Steffen Pielström, Michael Huber und Stefan Krywinski stellten das Thema Topic Modeling und das dazugehörige Tool DARIAH-DE Topics Explorer vor. Der Topics Explorer ist ein Textmining Programm, das vorgegebene Anzahl der Themen innerhalb eines Textkorpus bestimmen kann. Auch beim Topics Explorer konnten Studierende die Stufen von der Datenvorbereitung hin zur Modellerstellung durchgehen und sich Visualisierungen der Themen in jeweiligen Textkorpora anzeigen lassen. In abschließenden Diskussionen wurde auch das Thema Tool Kritik angesprochen und die Stärken und Schwächen beider Verfahren abgewogen.