[DHd-blog] Bericht zum DARIAH-DE Expertenseminar „Biographische Daten und ihre Analyse in der historischen Forschung“

[德语国家数字人文协会DHd-blog网站消息]

Am 16 und 17. März 2017 fand im Leibniz-Institut für Europäische Geschichte (IEG) in Mainz ein DARIAH-Expertenseminar statt. Dieses spezielle Format bietet die Möglichkeit, Experten aus den Digital Humanities mit solchen aus den Geistes- und Kulturwissenschaften zusammenzubringen, um DH-Tools und Methoden zu diskutieren. Die vom IEG mit dem Lehrstuhl für Medieninformatik der Universität Bamberg organisierte Veranstaltung sollte zugleich neue Impulse für die Weiterentwicklung der Dienste von DARIAH-DE sammeln.

Das Expertenseminar war auf drei Fragen ausgerichtet: Erstens sollte die Bandbreite historisch-geisteswissenschaftlicher  Fragestellungen exemplarisch umrissen werden, die anhand biographischer Daten beantwortet werden sollen. Zweitens fragte das Expertenseminar danach, mit welchen Werkzeugen digitale personenbezogene Datencorpora untersucht werden können, um die räumliche Mobilität von Personen, Ideen und Praktiken zu analysieren und zu visualisieren.  Drittens sollte diskutiert werden, wie das in DARIAH entwickelte digitale Werkzeug „CosmoTool“ für neue Fragestellungen der historischen Mobilitätsforschung und verschiedene Datencorpora eingesetzt werden kann.

Den Anfang machte Andreas Henrich (Universität Bamberg). In seinem Vortrag „Möglichkeiten der Verarbeitung biographischen Datenlegte er ein informationswissenschaftliches Verständnis biographischer Daten dar und führte die Möglichkeiten und Voraussetzungen für die Verarbeitung solcher Daten am Beispiel der DARIAH-Datenföderationsinfrastruktur aus. Die Datenverarbeitung, so Henrich, verwende einen integrativen Begriff von „Forschungsdaten“, der Sekundärliteratur und Primärquelle gleichermaßen einschließe. Um Daten analysieren zu könnten, müssten sie bereits im Hinblick auf die Fragestellungen technisch aufbereitet sein. In diesem Prozess gelten folgende Grundsätze:

Auffindbarkeit herstellenKontextualisierung erlaubenSichtbarkeit der Unvollständigkeit der Daten ermöglichenabgestufte Zugriffsrechte erlaubenIntegration über Schemata erlaubenNormdaten oder Schnittstellen/Standards unterstützen.

Die Datenföderationsinfrastruktur von DARIAH-DE gewährleiste die Auffindbarkeit und eine gewisse Kontextualisierung von Forschungsdaten, indem die in der Collection Registry aufgenommenen Datenkollektionen mit Schemata, Normdaten und Schnittstellen versehen werden.

Tobias Gradl (Universität Bamberg) stellte „Das CosmoTool und die digitale Forschungsinfrastruktur von DARIAH-DE“ vor. Das CosmoTool ist ein generisches Tool, das biographische Informationen aus strukturierten Daten (Metadaten) und unstrukturierten Daten (Fließtext) in „Quadruples“ zusammenstellt und visualisiert. Es wurde konzipiert, um Momente grenzüberschreitender (räumlicher) Mobilität in Biographien zu identifizieren. Ziel ist es, von der Analyse der Einzelfälle zu weiterreichenden Thesen zu kommen und zu analysieren, welche Faktoren Mobilität beförderten oder hemmten .

Gradl zeigte wie das Erstellen der „Quadruples“ (personale, temporale Entitäten mit dem Ortsbezug) auf der Ebene der Sprachverarbeitung im CosmoTool funktioniert. Nach dem die grammatikalischen Zusammenhänge in einem Text identifiziert sind, werden „biographische claims“ aus dem Text und aus den strukturierten Daten extrahiert und in Beziehung zueinander gesetzt. Dabei orientiert sich der Algorithmus  anhand der Metadaten welche Sektionen aus dem Text für die Analyse relevant sind.

Es wurde diskutiert, wie sich das CosmoTool für andere historische Fragestellungen anpassen lässt. So schlug Christopher Voigt-Goy (IEG Mainz) vor, auch literarische Werke (wenn diese in der Biographie einer Person erwähnt werden) durch das Tool zu erfassen, um es für medienhistorische Fragestellungen anwenden zu können.

Matthias Schlögl (Austrian Centre for Digital Humanities, Wien) berichtete in seinem Vortrag „APIS – Eine Linked Open Data basierte Datamining-Webapplikation für das Auswerten biographischer Daten“ über das Langzeitprojekt „APIS“ (Austrian Prosopographical Information System) der Österreichischen Akademie der Wissenschaften. Ziel des Projekts ist es, biographische Daten für sozialwissenschaftliche Analysen aufzubereiten, sodass die Visualisierungen der Daten und deren Nachnutzung möglich ist.

Nach dem Erstellen der Repositories, basierend auf dem Django- Webframework, wurden Entities extrahiert und mit Normdaten (GND, Institutionen) verknüpft. Die Extraktion der Daten ist auf 5 Entities beschränkt: Names, Places, Institutions, Events und Works, die unter einander verbunden sein können. Diese Entitäten können über SKOS-artige (simple knowledge organisation systems) Wortschätze definiert und typisiert werden. Die Entitäten erhalten alle URIs (unique identifier) und können Freitexte zugewiesen bekommen. Die Webapplikation erlaubt einzelnen ForscherInnen, Objekte oder ganze Kollektionen anzulegen, zu editieren, zu annotieren und zu löschen.

Schlögl schloss seinen Vortrag mit der Demonstration der Space-Time-Cube, das Florian Windhager (Donau- Universität Krems) mit der Software GeoTime auf der Basis der Daten des österreichischen biographischen Lexikons entwickelt hat. Dieses Tool erlaubt es, die Mobilität von Personen dreidimensional darzustellen (Ordinatenachse: Zeit; Abszissenachse(n): geographische Fläche).

Jürgen Gröschl (Franckesche Stiftungen, Halle) stellte „Biographische Daten im Archiv der Franckeschen Stiftungen“ vor. Die Datenbank der Franckeschen Stiftungen wurde im Laufe eines DFG-Projekt aufgebaut, ist seit 2004 im Internet verfügbar und umfasst 370.000 Personen. Sie basiert auf Allegro-C mit einem proprietären Datenformat und verfügt nicht über vorgefertigten Exportformate und –schnittstellen. Weitere bio-bibliographische Daten stehen in den „Digitalen Sammlungen“ zur Verfügung, einer gemeinsamen Präsentationsplattform für gedruckte und ungedruckte Quellen aus Archiv und Bibliothek der Franckeschen Stiftungen. Gröschl diskutierte verschiedene Möglichkeiten, wie die Daten ausgewertet werden können. Denkbar wäre etwa eine statistische Visualisierung der Schriftstücke „von“ und „an“ einer Person ähnlich wie im Projekt „early modern letters online“. Zudem könne die Mobilität einer Person durch Visualisierung oder Auswertung seiner Reisen- und Tätigkeitsorte veranschaulicht werden. Eine dynamische Veranschaulichung des pietistischen Kommunikationsnetzwerks, wie es ansatzweise in Kalliope geschieht, ist ebenfalls  denkbar. Schließlich könnten unterschiedliche Prozesse des Austausches von Informationen, Medikamenten und anderen Gütern in dem Kommunikationswerk der Hallenser veranschaulicht werden.

Daran anschließend, stellte Anna Aschauer (IEG Mainz) die Fragestellungen ihres Forschungsprojekts zu grenzüberschreitenden pietistischen Netzwerken im 18. Jahrhundert vor. Pietistische Netzwerke der Neuzeit waren geographisch sehr weitreichend (Nordamerika, Indien, Russland), dennoch wurden sie von Halle aus erfolgreich koordiniert. Es gab günstige theologische, institutionelle und politische Rahmenbedingungen für die Verbreitung der Mission. Wenngleich Aschauers Forschungsfrage auf den Transfer im Bereich der Bildung zielt, bilden Netzwerke dennoch ein nützliches Konstrukt, um die Aufgaben und Prozesse von Kontrolle und Koordination in einer geographisch zerstreuter Gruppe zu verbildlichen.

Jörg Witzel (Forschungsstelle für Personalschriften, Marburg) gewährte in seinem Vortrag „Biographische Daten der Forschungsstelle für Personalschriften – Migration in Leichenpredigten der Frühen Neuzeit“ Einblicke in die Katalogisierung von Leichenpredigten durch die Forschungsstelle für Personalschriften der Mainzer Akademie der Wissenschaften und der Literatur. Im Gesamtkatalog der deutschsprachigen Leichenpredigten (GESA) werden Funeraldrucke nicht nur aus den Katalogen der Forschungsstelle, sondern auch aus gedruckten und digitalen externen Katalogen erfasst. Bei der Aufnahme wird den Familiennamen, Geburtsnamen, Witwennamen, akademische Titel, Konfession, Beruf, Orte wo dieser Beruf ausgeübt worden, sowie Standesangaben und Lebensdaten erhoben. Die GESA-Datenbank beinhaltet ca. 225 000 Datensätze. Seit 2010 existiert eine Verlinkung mit insgesamt 17 anderen Datenbanken (darunter die Deutsche Biographie und der VD17) durch eine BEACON-Datei. 2013 wurden zehn autobiographische Lebensläufe aus Thüringer Leichenpredigten ediert und als Projekt „AutoThür“ online publiziert.  An den Funeraldrucken, so Witzel, ließen sich unter anderem Ursachen und Anlässe für personenbezogene Mobilität in der Vormoderne herausarbeiten (wie Studium, Krieg oder berufsbedingte Migration).

TAG 2

In einem Kurzvortrag  skizzierten Sina Bock und Raphael Kretz (Studierende der Universität Würzburg) „Biographische Daten als Grundlage für die Personennetzwerkanalyse am Beispiel der Royal Navy im 18. und 19“. Im Rahmen eines „Hackathon“ hatten sie mit Hilfe von Webscraping –Schnittstellen standen nicht zur Verfügung – Daten zu über 100 Offizieren der britischen Royal Navy zusammengestellt. Sie interessierten sich für die Faktoren, die für den Karriereaufstieg der Offiziere ausschlaggebend waren. Als Ergebnis konnten sie statistisch belegen und in Diagrammen verbildlichen, dass auf bestimmten Schiffen Offizieren bessere Chancen für den Aufstieg hatten. Auch der frühzeitige Beginn der Karriere war einem späteren Aufstieg förderlich.

Aline Deicke (Digitale Akademie, Mainz) stellte in ihrem Vortrag „Biographische Daten in Controversia et Confessio digital“ biographischen Daten aus der Datenbank des gleichnamigen, an der Mainzer Akademie der Wissenschaften und der Literatur angesiedelten Forschungsprojekts zu innerprotestantischen theologischen Kontroversen im 16. Jahrhundert vor. Für die 840 darin enthaltenen Personen erstellten die Projektmitarbeiter für 241 individuelle Biographien. Wertvoll ist in der Datenbank die Verknüpfung zwischen Personen und verfassten Werken. Auf Basis dieser Verbindungen lassen sich, so Deicke, die Beziehungen zwischen Autoren, ihren (ebenfalls publizierenden) Gegnern und ihren Werken in einem Netzwerk abbilden. Als Faktoren wurden Wirkungsorte und persönliche Beziehungen berücksichtigt. Perspektivisch will Deicke anhand des Netzwerkes unter anderem nachvollziehen, nach welchen Kriterien die Autoren ihre Kontrahenten auswählten.

Im Anschluss an den Vortrag wurde die Möglichkeit einer Probestudie mit den Texten aus dem Editionsprojekt „Controversia et Confession“ diskutiert. Diese könne unter anderem prüfen, ob sich mit textanalytischen Tools in den Texten der Edition neue Themencluster aufzuspüren lassen, die bei der Konzeption der Edition nicht primär im Blick waren. Die mit quantitativen Methoden „aufgespürten“ Begriffe wären „Indizien“, die mit klassischen historischen Methoden weiter zu erforschen wären.

Fazit

Durch den aktiven interdisziplinären Austausch konnten die Leitfragen des Seminars diskutiert und Wege für die Weiterentwicklung der digitalen Tools eruiert werden. Deutlich wurde, wie Fragestellungen, die sich mit einer Gruppe historischer Akteure beschäftigen, von Visualisierungen in Form von Netzwerken profitieren können. Dadurch lassen sich das Funktionieren und die Koordination des Netzwerks, der Austausch von Gütern und Informationen innerhalb eines Netzwerks oder die Intensivität der Kontakte zwischen den Akteuren veranschaulichen. Besonders sinnvoll ist diese Visualisierung für eine Gruppe räumlich zerstreuter Akteure. Auch von einer statistischen Erfassung bestimmter Charakteristiken einer Gruppe könnten eine Reihe der Fragestellungen profitieren, um Gemeinsamkeiten (gemeinsame Kriterien) in dieser Gruppe festzustellen oder diese Kriterien in Beziehung zur Fragestellung auszuwerten. Als wichtigste Funktionalitäten, die das CosmoTool aufweisen solle,  erwiesen sich die freie Konfiguration der „Kategorien“ im CosmoTool je nach Fragestellung sowie die freie Gestaltung der Korrelation zwischen den Kategorien.