[DHd-blog] Tagungsbericht zum <philtag n=″14″/>

[德语国家数字人文协会DHd-blog网站消息]

Vom 16.-17. März 2017 fand in Würzburg der 14. Workshop der DH-Tagungsreihe <philtag/> statt. Die etablierte Würzburger Tagungsreihe zum Einsatz digitaler Methoden in den Geistes- und Kulturwissenschaften bietet den Teilnehmern die Möglichkeit, sich über neue Trends, Projekte und Technologien im Bereich der Digital Humanities zu informieren und auszutauschen. Wie schon im Vorjahr wurde der Workshop auch in diesem Jahr wieder von KALLIMACHOS, dem Zentrum für digitale Edition und quantitative Analyse der Universitätsbibliothek Würzburg, ausgerichtet. Den thematischen Schwerpunkt der diesjährigen Tagung stellten Digitale Editionen im erweiterten Sinne dar. Die insgesamt zwölf Vorträge beschäftigten sich mit Verfahren zur Erschließung digitaler Volltexte, insbesondere durch Optical Character Recognition (OCR), sowie mit der Korrektur, Auszeichnung und schließlich der Präsentation und Visualisierung der Texte und Textkorpora im Netz.

Tag 1
Den Anfang machten Wahed Hemati und Tolga Uslu (Universität Frankfurt), die zwei beim Frankfurter Text Technology Lab entwickelte Projekte vorstellten: Das Projekt Wikidition bietet eine Darstellungsumgebung für digitale Editionen, die auf Semantic MediaWiki basiert und unter Anderem Möglichkeiten zur Lemmatisierung, Annotation und Vergleich der erfassten Texte liefert. Darüber hinaus stellt der Textimager ein mächtiges Tool zur automatischen Textanalyse dar, das eine Vielzahl etablierter Analyseverfahren gemeinsam mit etablierten und neuen interaktiven Visualisierungsmöglichkeiten in einem gemeinsamen Framework zusammenführt.

Ben Kiessling (Uni Leipzig, Digital Humanities) stellte die im Leipziger OpenPhilology-Projekt zum Einsatz kommende OCR-Pipeline Nidaba vor, die eine Kombination zahlreicher freier Softwaremodule zur automatischen Bildvorverarbeitung, Layoutanalyse und Texterkennung erlaubt. Im Anschluss diskutierte Thomas Köntges (Uni Leipzig, Digital Humanities) die Möglichkeiten und Herausforderungen bei der computergestützten Textanalyse von historischen Texten. Während Verfahren etwa zum Topic Modelling auf modernen englischen Texten vergleichsweise leicht anwendbar sind, funktionieren diese bei antiken griechischen Texten aufgrund der höheren morphologischen Komplexität deutlich schlechter. Hier sind umfangreiche morphologische Normalisierungen nötig, die allerdings stets verlustbehaftet sind.

Marcus Liwicki (Uni Freiburg, Informatik) gewährte in seinem Beitrag Einblicke in die Funktionsweise neuronaler Netze, die durch Deep Learning z.B. darauf trainiert werden können, Layoutzonen in historischen Dokumenten zu erkennen oder aus den Texten automatisch bestimmte Schlüsselinformationen zu extrahieren.

Steffan Müller (BaDW) stellte das Akademieprojekt Ptolemaeus Arabus et Latinus vor, bei dem Transkriptionen der astronomischen und astrologischen Werke des Claudius Ptolemaeus (2. Jh. n. Chr.) in einer leserfreundlichen Online-Edition zusammen mit den dazugehörigen Faksimila im Netz dargeboten werden. Der reichhaltig annotierte und mit Metadaten angereicherte Text wird hierbei zusätzlich mit einem Katalog von weiteren Werken vernetzt.

Den Abschluss des ersten Veranstaltungstages stellte der Vortrag der DH-Nachwuchsgruppe CLiGS dar. Präsentiert wurde die CliGS-Textbox, die der Nachwuchsgruppe als Organisationsmodell und Publikationskanal für die untersuchten Texte und Textkorpora (im konkreten Fall einer Sammlung literarischer Text in romanischen Sprachen) dient. Als Publikationsstrategie dient hierbei eine Kombination der kooperativen Entwicklungsumgebung GitHub mit dem Online-Speicherdienst Zenodo, der die persistente Verfügbarkeit der Texte und Forschungsdaten sicherstellt.

Wie schon im Vorjahr war auch diesmal als Ausklang des Ersten Veranstaltungstages ein gemeinsames Abendessen angesetzt, diesmal im Würzburger Traditionslokal Backöfele. Hier konnten die Eindrücke der Vorträge im Gespräch vertieft und neue Kontakte geknüpft werden.

Tag 2
Der zweite Veranstaltungstag begann mit zwei Vorträgen des Würzburger Lehrstuhls für Künstliche Intelligenz und Angewandte Informatik (Informatik VI): Markus Krug präsentierte mit ATHEN ein Werkzeug zur Annotation von Textkorpora. ATHEN ist in der Lage, verschiedene Arten von digitalen Texten zu importieren, um diese mit weiteren Informationen anzureichern. Auf diese Weise können z.B. Eigennamen sowie die sich auf sie beziehenden Personalpronomen erkannt und ausgezeichnet werden. Darüber hinaus kann ATHEN automatisch direkte Rede inklusive der Sprecher und Angesprochenen sowie eine Vielzahl weiterer Merkmale literarischer und nichtliterarischer Texte erkennen. Christian Reul stellte das Tool LAREX vor, das eine vereinfachte Segmentierung und Layout-Analyse von frühen Buchdrucken ermöglicht. Das Tool schlägt hierzu Bildregionen im gescannten Text vor und versucht, diese automatisch z.B. als Fließtexte, Illustrationen, Marginalien oder Kopfzeilen zu klassifizieren. Die Ergebnisse können z.B. zur automatischen OCR-Erfassung oder zur Verknüpfung von digitalem Text und den dazugehörigen Bildregionen genutzt werden.

Günter Mühlberger (Universität Innsbruck, DEA) stellte die Online-Forschungsinfrastruktur Transkribus vor, die verschiedene Tools zur automatischen Dokumentenanalyse vereint. Zu den mit Transkribus analysierbaren Texten gehören insb. auch handschriftliche Texte.

Auch die beiden abschließenden Vorträge des Münchner Centrums für Informations- und Sprachverarbeitung (CIS) beschäftigen sich mit der OCR historischer Texte: Uwe Springmann diskutierte die Herausforderungen bei der OCR von Frühdrucken, insb. hinsichtlich der Vor- und Nachteile von gemischten und von individuell für den jeweiligen Text erstellten OCR-Modellen. Florian Fink stellte schließlich die am CIS verwendete Software PoCoTo vor, die eine vereinfachte interaktive Nachkorrektur von OCR-erzeugten Transkriptionen ermöglicht.

Fazit
Auch in diesem Jahr erfuhr der Philtag mit 70-80 interessierten und motivierten Teilnehmerinnen und Teilnehmern einen hohen Zuspruch. Wir bedanken uns an dieser Stelle sowohl bei unseren Vortragenden als auch beim Publikum für die zahlreiche Anregungen und die engagierte Teilnahme an der Tagung. Wir freuen uns darauf, Sie im nächsten Jahr wieder bei uns begrüßen zu dürfen!