[DHd-blog] Einreichungen zur DHd 2019 – II

[德语国家数字人文协会DHd-blog网站消息] Einleitung

Dieses Jahr gab es 2 unabhängige Analysen der ConfTool Daten bzgl. der DHd Einreichungen. Beide überschneiden sich aber nur marginal, da Katharina Kiefer in ihrem Beitrag vor allem die angenommenen Beiträge betrachtet, während hier die Einreichungen ungeachtet ihres Annahmestatus ausgewertet wurden.

Einreichungstypen

Wie auch bei vorigen Instanzen waren die Beitragstypen Vortrag (84 Einreichungen) und Poster (74) die beliebtesten, während auch einige Workshops (23) und Panels (8) eingereicht wurden.

Beiträge nach Typ. Graphik erzeugt mit R (alle Weiteren Graphiken ebenso, wenn nicht explizit anders genannt) – Paket ggplot2.

Autorenzahlen

Was das kollaborative Arbeiten anging, so zeichneten sich die beiden Hauptbeitragstypen durch eine erwartbare und auch im letzten Jahr attestierbare Vielzahl an Einzelautoreinreichungen aus (24 Poster [=ca. 32% der Poster], 22 Vorträge [= ca. 26% der Vorträge]), die jeweils etwas mehr als andere Autorenkonstellationen (Duo, Trio, Oligarchat) ausmachten. Bei den Workshops aber sieht man, dass hier Kollaboration Trumpf (nicht Trump!) ist, und die Anzahl der Autoren fast schon normalverteilt mit einem Maximum bei 3 aussieht. Hier gibt es nur einen Einzelautor.

AutorInnenzahlen pro eingereichtem Workshop.

Panels werden besonders behandelt, da Panelautoren mehrere Partizipanten bestimmten: neben Autoren des Panels (alle Paneleinreichenden waren Einzelautoren) gab es die Möglichkeit Chairs und Präsentatoren zu benennen. Während in 50% der Fälle 1 Chair seine Meute bändigt und anleitet, wurden 2 Mal 2 und 2 Mal 3 Chairs “aufgestellt“. Diese wiederum sollten 3 bis 8 Präsentierende moderieren, wobei diese Zahlensuppe folgende Elemente hatte: 3, 3, 4, 5, 5, 6, 7, 8 Präsentierende. Somit sind auch Panels trotz der Einzelautoren als Einreichenden ein an sich kollaboratives Format.

Nyhan & Duke-Williams untersuchten 2014 DH Journals bezüglich der Anzahl Autoren und kamen zu dem Schluss, dass Einzelautorenpaper dort dominieren. Erfreulicherweise ist eine so starke Dominanz wie bei den Artikeln der Journals für die Einreichungen der Konferenz nicht auszumachen, allerdings besteht auch hier eine Tendenz hin zum Einzelautorentum, welches immerhin mit 48 (+8 Panels) Einreichungen über der Zahl der Duos (44) liegt, Trios sind mit 39 Einreichungen fast gleichauf. Duos und Trios zusammen sind in jedem Einzelfall (Präsentationen, Poster, Workshops) und dem Gesamtfall aber zusammen stärker als die Einzelautoren. Interessant erscheint, dass 4-10 Autoren-Paper einen fast ebenso erheblichen Teil der Einreichungen ausmachen wie Einzelautoren. Erlaubt man eine solche grobe Gruppierung, erhält man ein einfaches, nicht suggestives Balkendiagramm, das auch zeigt, je mehr Autoren, desto weniger Einreichungen. Kollaboration ist offensichtlich anstrengend.

Einreichungen und Kollaborationstypen. Zahlen markieren Anzahl Autoren im Balkensegment – ggplot2.

Die Gammadistribution erreicht als Erklärungsgrundlage im Distributionfitting für die Einreichungen nach Autorenzahl einen geringfügig besseren Wert als die einfachere exponentielle (R – Paket fitdistr). Mit 2 Parametern lässt sich diese wohl besser erklären, z.B. steigender Kollaborationsaufwand und gemeinsame Stilfindung? Der Unterschied zwischen der Verteilung der Autorenzahlen auf die Präsentationstypen bei Postern und Präsentationen war übrigens nach X² nicht signifikant.

Einreichungen nach Autorenzahlen.

Autoren

Bei den 519 Autorpositionen (im Weiteren auch Autorschaftsprozesse, wobei mehrere dieser durchaus von derselben Person ausgeführt werden können) stellt sich wiederum die Frage danach, um wie viele verschiedene Individuen es sich eigentlich handelt. Dabei wäre das Maximum 519, das absolute Minimum 189, ignoriert man einen Moment lang die tatsächlichen Verhältnisse Autoren/Einreichung und Präsentationstyp, da jeder nur eine Einreichung als Hauptautor und 2 als Coautor machen sollte/durfte + 1 mal Workshop oder Panel; 3 (+1) * 189 > 519. Auf dieser Skala bewegen wir uns de facto bei 429 verschiedenen Personen, womit Autoren generell eher an einer Einreichung als an mehreren beteiligt waren. Die konkreten Daten bestätigen das: 4 AutorInnen arbeiteten an 4, 14 an 3 Einreichungen mit, 50 an 2 und alle anderen (361) an nur einer.

Und jetzt lässt sich die Gretchen-Frage stellen: Wie sehr hielten sich die Autoren dieses Jahr an die Vorgaben?

Ausdem Call dieses Jahres (leicht verändert formuliert [kein Bezug aufProjekte -stattdessen Personen- und damit leicht konkretisiert]gegenüber dem Kölner Vorgänger):

JedePerson kann nur einen einzigen Vorschlag als Vortrag oder Postereinreichen (Rolle „VortragendePerson im ConfTool)und nur einen Vortrag halten. Die Ko-Autorschaft bei maximal zweiweiteren Vorschlägen (Vortrag oder Poster) ohne Beteiligung an derPräsentation ist möglich. Zusätzlich kann jede Person an maximaleiner Panel- oder Workshop-Einreichung beteiligt sein.

Im letztjährigen Blog-Eintrag von Ulrike Henny-Krahmer (Würzburg) und Patrick Sahle (Köln) zeigte sich, dass sich auf der DHd in Köln nicht alle an diese Vorgaben gehalten hatten auch wenn relativ große Interpretationsspielräume aufgezeigt wurden.

Die diesjährige Formulierung ist vielleicht immernoch von notorischen akantschen-Misverstehern dahingehend auslegbar, dass das „Zusätzlich“ sich nur auf einen Wenn-dann Fall bezieht, also nur dann maximal eine Panel- oder Workshopeinreichung möglich ist, wenn man Vorträge und Poster überhaupt eingereicht hat (und ansonsten für die Beteiligung an Workshops und Panels keine Schranke gilt?). Der CfP lässt sich also m.E. noch weiter präzisieren. Es gab 4 Fälle, bei denen die im CfP angegebene Beschränkung nicht beachtet und um eine Submission überschritten wurde, sowie 2 weitere schwarze Schafe, die ungeachtet des Calls mehrfach als Erstautoren (Poster, Vortrag) auftraten.

Überraschend aus meiner Sicht war weiterhin, dass 248 und damit knapp 58% der verschiedenen Individuen nicht Erstautoren waren, d.h. in keinem der Paper als Erstautor auftraten. Diese Coautorengruppe arbeitete pro Kopf nur an ca. 1,08 Einreichungen (ein Exklusiv-Coautor an 3, 19 an 2 Einreichungen). Demgegenüber waren Individuen die auch als Erstautoren auftraten deutlich produktiver und arbeiteten pro Kopf an ca. 1,38 Einreichungen (unter Mithilfe der schwarzen Schafe).

Hier ist des Weiteren zu beachten, dass besonders in mehr geisteswissenschaftlich geprägten Publikationen die AutorInnen oft in alphabetischer Reihenfolge auftauchen und so ein wirklicher „Erstautor“ nicht auszumachen wäre. Da die alphabetische Reihenfolge auch zufällig eintreten kann, betrachten wir zuerst die Fälle, wo ein solches zufälliges Eintreten sehr unwahrscheinlich wäre, nämlich bei 5 oder mehr AutorInnen (hier 1/5! Reihenfolgen ergibt also 1/120 oder ca. 0,008 Wahrscheinlichkeit des zufälligen Eintretens; analog 1/6!, 1/7! etc.). Hier ist das Bild relativ eindeutig, nur 2 von 26 Einreichungen hatten AutorInnen in alphabetischer Reihenfolge und das bei nicht rein oder hauptsächlich geisteswissenschaftlicher Thematik. Auch bei geringeren Autorzahlen (selbstverständlich nicht Einzelautorschaften) sind die nicht-alphabetischen Sequenzen klar häufiger (ungefähr doppelt so häufig) als die alphabetisch geordneten. Das untermauert (macht man sich die hohe Wahrscheinlichkeit der zufälligen alphabetischen Reihenfolge bei Autorenduos – 1/2 – nochmal bewusst) die Validität der o.g. Produktivität nach Autorenrang.

Geographie

Was die Einreichungen aus einzelnen Ländern angeht, so werden gemeinsame Paper mit Autoren aus mehreren Orten generell nur einem Hauptort (Erstautor) zugewiesen. Die Statsitik, die daraus entstünde würde nicht unbedingt das Gesamt-Bild projizieren (159, Deutschland; 18 Österreich; 5 Schweiz; 4 Frankreich und jeweils 1 aus UK, Russland und Brasilien).

Anders verhält es sich mit den Ländern der Institute an denen die einreichenden Autoren im Einzelnen beschäftigt sind. Diese wurden wo nötig manuell auf Staaten abgebildet, sofern sie nicht schon Stadt oder Staat im Namen enthielten. Manche Institute waren Kooperationen oder beinhalteten mehrere Städte (z.B. Duisbug-Essen), welche jeweils einzeln bepunktet wurden (lieber kantsch zuviel als zu wenig). Bei insgesamt 519 Autorschaftsprozessen von denen 4 unabhängige ForscherInnen und tw. keinem exakten Ort zugeordnet waren, ergibt sich eine etwas interessantere Verteilung:

LandAutorschaftsprozesseDeutschland438Österreich45Schweiz15Frankreich7Italien4Russland3Luxemburg1Norwegen1UK1Spanien1Canada1USA1Brasilien1

Auffällig ist, dass Österreich im Gegensatz zur Schweiz pro Kopf deutlich mehr mitarbeitet (ca. 1 Autorenschaft pro 200.000 Einwohner, was in etwa auch der deutschen Rate entspricht gegenüber 1 pro 560.000 – also fast 3 mal so viel oder besser dreimal so wenig; der Fairness halber müsste man vielleicht noch die nicht Deutsch-Schweizer abziehen, aber an einer Unterrepräsentation würde das nichts ändern). Die Österreichischen Zahlen erscheinen noch bemerkenswerter, wenn man in Betracht zieht, dass die österreichische DHa Konferenz einmal jährlich stattfindet, während Unterrepräsentation der Schweiz sich auf dem Weg zu einer Tradition befindet, siehe Tello, Henny-Krahmer/Sahle. Ebenso findet eine DH BeNeLux Konferenz statt und diese konzentriert scheinbar sehr erfolgreich die dortigen DH Beiträge neben der weltweiten DH (die dieses Jahr in Utrecht stattfindet) und bedingt mit, dass bei der DHd nur ein einziger Beitrag mit Autor aus Luxemburg trotz geographischer und linguistischer Nähe die gesamte BeNeLux Region repräsentiert. Im europäischen Ausland (teilweise mit, teilweise ohne nennenswerte deutsche Minderheiten) sind einige wenige Beteiligungen angesiedelt, dieses Jahr Frankreich (7), Italien (4), Russland (3), sowie Luxemburg, Norwegen und dem Vereinigte Königreich trotz Brexits, der nun doch nicht zeitlich mit dem Ende der DHd2019, dem 29.3.2019 zusammenfiel. Es gab auch 3 AutorInnen aus Übersee (nicht der kleine Ort am Chiemsee, sondern), aus den USA [New York], Canada [Victoria] und Brasilien [Rio de Janeiro]. Über die Nationalität der AutorInnen erlauben unsere Daten übrigens keinen Aufschluss.

Insgesamt sind 19 institutionell transnationale Einreichungen auszumachen. Deutsch-Österreichische Einreichungen führen diese kleine Liste vielleicht erwartbar an, dicht gefolgt von Deutschland-Schweiz und Deutschland-Österreich-Russland Kooperationen. Zusammenarbeit von Schweizern und Österreichern gab es dieses Mal nicht, aber dazu ist die Grenze eventuell einfach zu kurz oder Liechtenstein hat damit etwas zu tun oder aber der scheinbare schweizer DH-Pessimismus verträgt sich zu schlecht mit der österreichischen DH-Euphorie :). Die anderen transnationalen Einreichungen schließen bis auf eine Spanisch-Österreichische immer Deutschland mit ein. Insgesamt sind es also um die 10% transnationale Einreichungen und wenn man die Einzelautoreinreichungen (im Nenner) weglässt, da hier Kooperation schwerlich möglich scheint, sind es immerhin ca. 14%, was wie ich finde nicht sehr wenig ist, bedenkt man die räumlichen Schwierigkeiten solcher Zusammenarbeit.

Absolute Anzahl der Autorschaftsprozesse pro Staat, Deutschland ist hier „Jupiter“, Diagram mit https://bl.ocks.org/ , javascript D3, Labels geprunt, GNU GPL 3.

Obdie erste EADH einen Einfluss auf die Anzahl Einreichungen hatte, istaus unseren Zahlen freilich nicht festzustellen. Die AnzahlEinreichungen bewegte sich sehr genau auf dem Niveau von Köln (Köln187, Mainz-Frankfurt 189). Die Deadlines beider Konferenzen (EADH &DHd) lagen zudem so weit auseinander, dass kein Einfluss angenommenwerden sollte.

Städte

Was einen Unterschied zwischen Ost- und Westdeutschland angeht, so sind die Einreichungen fast genauso verteilt wie es die deutsche Bevölkerung ist (teilt man Berlin zu gleichen Teilen in Ost und West auf) und damit scheint es zumindest in Bezug auf die Aktivität in den digitalen Geisteswissenschaften (und nicht in der lieben Politik) keinen Unterschied zu geben!

DieStädteliste führt eindeutig die deutsche Hauptstadt mit 48Autorschaftsprozessen an. Zählt man jedoch die Einreichungen ausRhein-Main (Frankfurt, Mainz, [Darmstadt, 1 Einreichung]), derdiesjährigen Veranstalterregion zusammen, so kann Berlin mit 70:47deutlich auf den zweiten Platz verwiesen werden. Bereits in Kölnwaren die Kölner selbst stärkste Kraft – der Heimvorteil eben. Dasssich zusammen mit Würzburg, Hamburg, Wien, Köln, Potsdam, Göttingenund Stuttgart die Top 10 konstituiert zeigt aber, dass die Entfernungzum Veranstaltungsort weiter keinen signifikanten Einfluss auf dieEinreichungszahlen haben sollte (und haben sollte).Zusammen sind diese Top 10 DH Orte für 301 Autorschaftsprozesseverantwortlich und damit für etwa 58% dieser.

Gründe könnten die traditionell starke Ausrichtung auf Digitale Geisteswissenschaften dieser Standorte (die auch in den letztjährigen DHds stark vertreten waren) und ggf. tw. auf das Konferenzthema sein. Hier die traditionelle Darstellung der produktivsten Städte als Wordcloud.

Die produktivsten Städte (Autorschaftsprozesse) im Vergleich zum Vorjahr (Blogbeitrag):

Rang. Stadt DHd 2019 DHd 2018
(Rang 2018) Diff. 1. Berlin4839 (2↑)+92. Würzburg3737 (3↑)+-0 3. Mainz 3619 (9↑)+174. Hamburg3424 (6↑)+10 5. Frankfurt 3313 (12↑)+206. Wien3133 (4↓)-2 7. Köln 2858 (1↓)-308. Potsdam2117 (10↑)+49. Göttingen1723 (7↓)-610. Stuttgart1632 (5↓)-1611. Leipzig1517 (10↓)-212. München14?↑?12. Bonn14?↑?13. Wolfenbüttel12?↑? 14. Paderborn 1120 (8↓)-915. Mannheim10?↑?15. Halle10?↑?16. Passau915 (11↓)-616. Karlsruhe9?↑?17. Graz712 (13↓)-5…

19. Dresden513 (12↓)-8Tübingen*(nur Panelpräsentatoren)013 (12↓)-1316. Nürnberg (Erlangen-Nürnberg)812 (13↓)-423. Moskau112 (13↓)-11Inhaltliches

Nachdem nun numerisch Metadaten zu den Einreichungen analysiert wurden, begeben wir uns endlich in die Domäne des Inhaltlichen und betrachten Titel, Keywords und Topics, die die Autoren bei Einreichung angeben mussten. Hierbei werden wir uns immer wieder nach dem Einfluss des Tagungsmottos „multimedial & multimodal“ fragen und versuchen ohne Analyse der eigentlichen Texte nur anhand dieser Tags und Labels etwas über Themenkomplexe herauszufinden, die die DH Community auf dieser Konferenz besonders umtrieben hat.

Titel

Was die Titel angeht, wird jedes Wort einzeln gezählt und (manuell kontrolliert) lemmatisiert bevor dann die Häufigkeiten ausgezählt werden. Englische Titel werden dabei übersetzt. Zunächst aber Allgemeines. Der durchschnittliche Titel war recht „wordy“ mit 10 Token. Das Minimum lag bei 1, das Maximum gar bei 28 Token, die Standardabweichung maß 4,3.

kürzester Titel: OpenAtlas

längster Titel: Eigen / fremd, süß / scharf – die gesellschaftliche Konstruktion von Dichotomien bei sozialen Kategorien und versprachlichten
Sinnesmodalitäten als Herausforderung bei der ´mixed methods´-Untersuchung kultureller Transfers in Kochbüchern

Akronymekommen mir manchmal wie Statussymbole von Einreichungen vor, auchwenn ich sie selber und nicht ungern benutze. Generell kommt es mirvor als wird versucht zu klotzen: je eingängiger, witziger,aussprechbarer, ikonischer oder gar anti-Akronymestablishment einAkronym ist, desto hipper wirkt es und damit der Titel und mit diesemgleich die ganze Einreichung; am besten hängt noch ein Tool mit demAkronym zusammen und der Siegeszug in die (auch profane nichtwissenschaftliche) Welt steht ihm offen. Ob sie sich in 20 Jahrennoch vermehrt haben werden oder als die VoKuHiLas der DH Titel derfrühen 2000er belächelt werden werden, ist noch nicht abzusehen,beides würde mich aber nicht sonderlich wundern.

Zählen wir der Einfachheit halber Titel mit Token, die mehr als einen Großbuchstaben haben und trennen wir vorher Bindestrichkomposita und streichen wir nachher allgemeine Akronyme wie DH, XML usw., ergeben sich handkontrolliert immerhin 36 Einreichungen mit ureigenem Status-Akronym. Lassen wir die allgemeinen zu, die immerhin mehr Information in kurze Titel hineinkondensieren, so sind es 48, also letztlich jeder Vierte Titel. Kostprobe gefällig?

UPB-Annotate: Ein maßgeschneidertes Toolkit für historische TexteSocial Media, YouTube und Co: Multimediale, multimodale und multicodierte Dissemination von Forschungsmethoden in forTEXTMaschinelles Lernen lernen: Ein CRETA-Hackatorial zur reflektierten automatischen TextanalyseFörderung von Open-Access-Publikationen in den Geisteswissenschaften: Das BMBF-Projekt OGeSoMoVon IIIF zu IPIF? Ein Vorschlag für den Datenaustausch über Personen

Zum Vergleich dasselbe für die Papertitel der letzten LREC: der Einfachheit halber sind auch allgemeine Akronyme gezählt und man kommt auf 36% Einreichungen mit Akronym im Titel. Ob da also ein gewisser Trend aus der Informatik herüberschwappt? Die durchschnittliche Titellänge war bei einer Standardabweichung von 3,39 dort 9,56 und damit fast identisch mit den DHd Titeln, Überraschung Nummer 2 für mich – one line is not enough. Trotz der hohen Anzahl an Publikationen (728) lag das Tokenminimum der LREC-Titel bei 3, das Maximum bei 25. Die DH Titel sind eben doch eine Idee kreativer ?!

Nun aber zu den häufigsten Wörtern bei den Titeln, die selbstverständlich keine Exklusiv-Akronyme enthalten, sondern am anderen Ende der Frequenzskalen zu finden sind. Zunächst filtern wir Stopwords heraus (hauptsächlich Funktionswörter, auch Satzzeichen), dann nutzen wir den simplen Space-Tokenizer. Die rohen Frequenzen der ersten 5 Ränge sind:

TokenAnzahlBeispiel14digitale12Text9Analyse9digitalen8Geisteswissenschaften7Digitale7Digital7

DasBeispiel ist in Titeln wohl beliebt, genauer „am Beispiel …“,ansonsten ist das Datenobjekt Text vorhanden und lokalisiert somitdie DHd primär in einem der 4 von Jannidis et al. (2017, S. 13)vermuteten Digial Humanities Bereichen.

Wie man an den Einträgen zu digital aber sieht, ist hier dringend eine Lemmatisierung vonnöten. Diese wurde manuell vorgenommen, da das Material es erlaubte und eine Kontrolle automatisierter Ergebnisse ohnehin die Sichtung des gesamten Materials erfordert hätte. Die ersten 10 Ränge:

LemmaAnzahldigital49multimodal20Text15Beispiel14
Analyse13historisch10Korpus9Geisteswissenschaft9Annotation9multimedial8automatisch8Edition7virtuell6semantisch6Perspektive6Open6Methode6Humanities6Herausforderung6

Nunzeichnen sich schon besser Themenbereiche und Stichworte ab. DasKonferenzthema ist mit multimodal bereits sehr gut vertreten,die digitalen Geisteswissenschaften, aber auch andere Fügungen mit„digital“ (digitale Forschungsobjekte, Präsentationen, 3-DModelle usw.) tragen zur höchsten Frequenz eines Einzelwortes imTitel der DHd Einreichungen bei.

Im Zuge der Lemmatisierung wurden schließlich die häufigen an mehreren Komposita beteiligten Lexeme vermerkt und in einem nächsten Schritt deren Auftreten gezählt. Die 10 häufigsten an Komposita beteiligten oder einzeln vorkommenden Lexeme waren:

LexemAnzahlText38Forschung24Wissenschaft23Analyse21Daten19Annotat15Bild15Edition14Suche13Modell12

Insgesamtsprechen diese allgemeineren Titelelemente eine Sprache, die von vieldigitalen Objekten und Vorgängen um sie herum kündet. Ansonstensind aber selbstverständlich Titel auch dazu gedacht sich von derallgemeinen Forschung abzugrenzen und aufzuzeigen, welchenindividuellen Beitrag der Beitrag leistet.

Trotz der sehr spärlichen Textdaten versuchen wir die word2vec Transformation in einen Vektorraum, den wir visualisieren und clustern. Dabei werden Wortformen, die mindestens in 2 verschiedenen auf ein gemeinsames Lemma zurückzuführenden Formen auftreten im Text aus dem der Vektorraum erzeugt wird als dieses Lemma repräsentiert. Stopwords tauchen nicht auf. Die folgende Graphik ist eine tsne-Reduktion auf 2 Dimensionen und zeigt den Vektorraum mit den Nachbarn zum Begriff „DH“.

Vektorraum der Inhaltswörter der Titel der Einreichungen, Perspektive „DH“, erzeugt mit R-tsne.

Beim Clustern der Vektoren mit kmeans erscheint das Ergebnis bei k=5 Cluster am konsistentesten:

Annotation, automatisch, Perspektive, virtuell, Wort, semantisch, RaumBeispiel, Analyse, Daten, Open, Corpus, computergestützt, Bilddigital, multimodal, Text, Modell, Geisteswissenschaft, Humanities, Visualisierunghistorisch, Methode, neu, lernenHerausforderung, multimedial, Edition, Suche, MuseumKeywords

Keywords werden selbst vergeben und sind somit frei. Wie sich im letztjährigen Blog gezeigt hat, führte dies dazu, dass es verhältnismäßig wenige gleich gewählte Keywords gab, was wiederum eine Verschlagwortung nach dem Auswahlprinzip (Stichwort Themenontologie) sinnvoll erscheinen lässt. Die Häufigkeiten der Keywords (lower-cased) verhielten sich ähnlich wie die Kölner Präzedenzen (man bedenke, dass die Anzahl Einreichungen fast identisch war). 777 Keywords wurden vergeben (Köln 763), davon 622 verschiedene (Köln 578).

KeywordHäufigkeitVisualisierung11Annotation9Digitale Edition8Digital Humanities7Forschungsdatenmanagement6

In Köln war das häufigste Keyword (Annotation) mit 12 Nennungen fast gleich häufig. Auch die Digitale Edition war dort unter den Top 5 Rängen, ebenso wie Visualisierung. Die anderen Top-Kandidaten unterscheiden sich. Das durch die NFDI Initiative mehr in den Fokus gerückte Thema Forschungsdatenmanagement platziert sich dieses Jahr weit oben. Schaut man etwas weiter nach unten findet man z.B. „Virtual Reality“, sowie „Augmented Reality“ mit jeweils 4 Verschlagwortungen und mag hier eine Verbindung zum Konferenzthema attestieren, was mit dem höheren Abschneiden des Schlagwortes „Kritik“ in Köln (Motto: Kritik der digitalen Vernunft) korrelieren könnte. Für weitergehende Interpretationen sind aber die Zahlen einfach zu klein.

Themen/Topics

Das kontrollierte Vokabular, das im ConfTool zur Auswahl von zum Beitrag passenden Themenbereichen zur Verfügung stand, leitet sich aus der Taxonomy of Digital Research Activities in the Humanities (TaDiRAH) ab und ist letztes Jahr im Blogeintrag gut beschrieben worden, hat sich außerdem m.W. seitdem nicht geändert, weswegen ich hier gerne den letztjährigen Blogbeitrag zitieren möchte:

TaDiRAH unterscheidet zunächst die drei Bereiche “Research Activities”, “Research Objects” und “Research Techniques”. Für die ersten beiden Bereiche liegen mit “Aktivitäten” und “Objekte” Übersetzungen ins Deutsche vor, welche in das Conftool eingegangen sind. Allerdings kommt es dabei zu einer gewissen Verschiebung der Hierarchien. In TaDiRAH gibt es bei den Aktivitäten Untergruppen, die dann wiederum die Begriffe für die einzelnen Aktivitäten enthalten. Bei den Objekten ist dies nicht so, es werden direkt die einzelnen Objekte genannt. Auf das Conftool übertragen standen die einzelnen Objekte in einer Gruppe “Objekte” direkt neben den Aktivitäten, die zu Aktivitätengruppen (“Erfassen”, “Analysieren”, usw.) zusammengefasst waren. Es standen sich also nicht die Bereiche “Objekte” vs. “Aktivitäten” direkt gegenüber, sondern die Bereiche “Objekte”, “Erfassen”, “Analysieren”, usw. Man wählt deshalb zwischen den Begriffen in den Aktivitäten-Bereichen “Erfassen”, “Erzeugung”, “Anreichern”, “Analysieren”, “Interpretation”, “Aufbewahren”, “Veröffentlichen” und “Rahmenaktivitäten” und dann aus den Objekt-Begriffen aus. Wir können nicht abschätzen, ob den Einreichenden die grundlegende Zweiteilung in Aktivitäten und Objekte bewusst gewesen ist, möglicherweise spielt das für die Analyse aber auch keine große Rolle. Wir haben dennoch versucht, diese Unterscheidung bei der Auswertung zu berücksichtigen. Insgesamt standen 75 Begriffe zur Auswahl. 35 in Objekten und 40 in den acht Aktivitäten-Gruppen. Der Begriff “Visualisierung” kommt in beiden Bereichen und damit doppelt vor, was für die Auswertung problematisch ist: Im Ergebnis ist nicht zu unterscheiden, ob dieses Schlagwort als Objekt oder Aktivität ausgewählt wurde.

Hier die diesjährigen 10 nach Rang häufigsten Topics:

TopicHäufigkeit (Rang) 2019Vgl. 2018Annotieren55 (1↑)+7Text54 (2=)+4Visualisierung46 (3↑)+9Inhaltsanalyse41 (4=)-3Modellierung35 (5↓)-25Daten30 (6↑)?Programmierung26 (7↑)+-0Metadaten25 (8↑)?Methoden24 (9↓)-9Kontextsetzung23 (10↑)?Literatur23 (10↑)?

Einige aus den Titeln und Keywords bereits bekannte Token tauchen hier wieder auf: Annotieren, Text, Visualisierung, Modellierung, Daten. Sie weisen auf ein Kerngeschäft hin und zeigen ferner, dass zwischen Titeln, Keywords und Topics doch einige thematische Kohärenz herrscht. Interessant ist, dass Modellierung in Köln das häufigste Topic war. Könnte hier eine Verbindung zum Thema Kritik bestehen? Insofern als eine Kritik eine strukturierte klare Darstellung als Modell voraussetzt oder damit korelliert oder sind derartige Fluktuationen eher Zufallsschuld. Ist die Kontextsetzung ebenso mit der Multimodalität zu begründen? Diese Interpretationsansätze sind sicherlich ein wenig spekulativ, könnten aber zu genaueren Untersuchungen anregen. Wir möchten noch kurz auf die Kookkurrenzen der Topics eingehen. Wie häufig werden welche Topics mit welchen anderen zusammen genannt. Wir benutzen hier den Dice-Koeffizienten, erstellen eine paarweise Distanzmatrix und stellen dazu eine Visualisierung vor. Beschränkt man zunächst die Berechnung auf Fälle an Topics, die beide mindestens 10 Mal vorkommen (um u.a. hohe triviale Werte, die zu Stande kommen weil zwei „Hapax Topics“ eben zusammen auftreten) und beschränkt man dann, um den „Hairball-Effekt“ abzumildern auf die 66 signifikantesten Kookkurrenzen (alle mit Dice >=0.2) erhält man die Basis der folgenden, mit Gephi erstellten Graphik.

Der geneigte Leser möge, gemäß dem Motto „ein Bild sagt mehr als 1000 Worte“ interpretative Aspekte explorativ in der Graphik aufspüren. Dass Community-Bildung ohne Kommunikation recht schwer ist und Text und Inhaltsanalyse zusammengehören fällt dabei sofort auf.

Sonstiges

Die DHd bleibt eine hauptsächlich akademische Konferenz. 4 freie Forscher reichten ein, daneben ließen sich die Institute nach Keywords (Universität, Akademie der Wissenschaften etc.) zählen, wobei jeder Autorenschaftsprozess einzeln gezählt wurde (also bestimmte Personen mehrmals auftauchen). Die übrigen Institute konnten meist auf die gezählten Klassen manuell abgebildet werden.

TypAnzahl AutorschaftsprozesseUniversitäten324Akademien der Wissenschaften65Forschungsinstitute42(Fach)Hochschulen23Bibliotheken17Stiftungen10Forschungsverbünde5sonstige Staatliche Institutionen4unabhängige4Eingetragene Vereine1nicht zuzuordnen9

Damit wäre selbst bei Zuordnung aller nicht zuordnbaren Organisationen der Anteil an Teilnehmern aus der freien Wirtschaft verschwindend gering. Es zeigt sich aber, dass die außeruniversitäre Forschung durchaus stark vertreten ist.

Fazit

Auch dieses Mal wieder gab es eine Menge spannender Einreichungen. Einige Trends scheinen sich im Hinblick auf die letzten Jahre zu Traditionen auszuwachsen oder waren es insgeheim immer (Heimvorteil, die Schweizer Zurückhaltung, die Österreicher Produktivität, akademischer Konferenzcharakter, starkes Einzelautorentum, wenige regelresistente Einreichende, tw. Orientierung am Konferenzthema usw.). Andere Merkmale, wie die Ausrichtung in zwei Städten mögen Alleinstellungsmerkmal bleiben. Wir haben auch dieses Jahr wieder eine spannende, anregende und aufschlußreiche Konferenz erleben dürfen deren Myriaden Aspekte sich nicht in den wenigen Metadaten auf denen diese grobe tentative Analyse beruhte widerspiegeln können und die wie im echten Leben (den digitalen Geisteswissenschaften also) das Salz in der Zahlensuppe ausmachen, das wir alle so gern schmecken.

Literatur

Jannidis,Fotis, Hubertus Kohle, und Malte Rehbein, eds. Digital Humanities:eine Einführung. Springer, 2017.