[DHd-blog] Eine Karte der Digital Humanities

[德语国家数字人文协会DHd-blog网站消息]

Klicken, um zur interaktiven Version zu kommen!

Was ist das?

Eine Karte der Digital Humanities anhand aktueller Journalartikel. Jeder Punkt entspricht einem Zeitschriftenaufsatz, ähnliche Artikel sind zusammen gruppiert. Artikel von Personen, die auf der DHD2020 in Paderborn vortragen, sind blau hervorgehoben. Die Karte hat eine rudimentäre Suchfunktion, die auch eine Suche nach Personennamen erlaubt. Hier geht’s zur interaktiven Version!

Wo kommen die Daten her?

Die Daten sind nach Reuters Web of Science-Datenbank gesampelt worden. Die Abfrage beinhaltet alle in Zeitschriften erschienenen Artikel aus dem Bereich Arts & Humanities welche im Titel, Abstract oder den Schlagwörtern die Zeichenfolgen ‘digit’ oder ‘comput’ enthielten, sowie die Artikel aus einer Liste von Zeitschriften die von Tang, Cheng, and Chen (2017) als Journals im Bereich der Digital Humanities identifiziert wurden:

Digital Humanities QuarterlyDigital Scholarship in the HumanitiesLiterary and Linguistic ComputingDebates in the Digital HumanitiesJournal of Digital HumanitiesInternational Journal of Humanities and Arts ComputingDigital MedievalistDigital StudiesDhsDigital Literary StudiesJournal of Cultural AnalyticsJournal of Interactive Technology and PedagogyJournal of the Text Encoding InitiativeDhcommonsKairosJournal of Digital and Media Literacy

Diese Anfrage resultierte Anfang Februar 2020 in 5,759 Treffern, deren bibliographische Daten ich heruntergeladen habe.

Diese Strategie der Stichprobenerstellung ist relativ breit angelegt. Das ist durchaus beabsichtigt, da für diese Karte keine scharfe Grenzziehung um die Digital Humanities (insofern eine solche überhaupt möglich oder wünschenswert ist) erfolgen sollte. Eventuelle Ausreißer verteilen sich entweder als Hintergrundgeräusch über die Karte, oder werden, wenn es mehrere von ihnen gibt, als kleine Cluster an den Rand gedrängt.

Anschließend habe ich die Namen aller auf der Website der DHd2020 als vortragend verzeichneten TeilnehmerInnen im Web-of-Science gesucht, die Ergebnisse authentifiziert und heruntergeladen. Insgesamt habe ich so 570 Artikel von 101 der Vortragenden ausfindig machen können. Dabei wurden für alle AutorInnen maximal dreißig Artikel heruntergeladen. Wenn Artikel ausgewählt werden mussten, wurde aktuellen, häufig zitierten und ‚DH-nahen‘ Artikeln der Vorzug gegeben.

Wie wurden die Daten bearbeitet?

Die Karte wurde mit uniform manifold approximation and projection (UMAP, McInnes, Healy, and Melville (2018)) aus einer gewichteten Kombination von bibliographischen Kopplungs-Daten und Text-Daten erstellt. Die Distanz zwischen zwei Artikeln ergibt sich einerseits aus der Cosinus-Ähnlichkeit zwischen den von ihnen zitierten Quellen, und andererseits aus der Cosinus-Ähnlichkeit der Text-Einbettungen, die ich mit dem Universal-Sentence-Encoder (Cer et al. (2018)) aus dem Text der Titel und Abstracts erstellt habe. Dabei, so ist zumindest die Idee, wird die Makro-Struktur hauptsächlich von den Zitationsdaten abgebildet, die Mikrostruktur hingegen von den Text-Daten aufgefangen. Die resultierende Karte wurde anschließend mit hDBSCAN (McInnes, Healy, and Astels (2017)) geclustert. Für jedes Cluster wurden die häufigsten Schlüsselwörter mit YAKE (Campos et al. (2020)) extrahiert, und die Ergebnisse mit FAERUN interaktiv dargestellt. Ich habe die Methode ein wenig detaillierter in (Noichl (2019)) dargelegt, wer mehr Details erfahren möchte, kann sich gerne das assoziierte Jupyter-Notebook auf GitHub anschauen, mich auf der Konferenz ansprechen oder mir eine Nachricht schreiben.

Warum kann ich meine eigenen Arbeiten auf der Karte nicht finden?

Das kann einige Gründe haben. Erstens kann es sein, das irgendwo ein Fehler passiert ist: Vielleicht habe ich einen Namen falsch übertragen, vielleicht wurde ein Name im Web of Science falsch archiviert (das ist mir mehr als einmal aufgefallen), und wurde deshalb entweder von mir nicht gefunden, oder ist über die Suchfunktion der Karte schwer zu finden (Deshalb am besten immer mehrere Schreibweisen ausprobieren!). Aber der Umfang der Karte ist unabhängig davon beschränkt. Entsprechend der Ausrichtung des Web of Science hat sie einen offensichtlichen anglophonen bias, weswegen viele für die DH zentralen, in deutschen Fachzeitschriften erschienen Artikel leider nicht vorkommen. Weiterhin konnten in diesem Projekt nur in Zeitschriften publizierte Artikel berücksichtigt werden, was in einigen Fällen dazu geführt hat, dass wichtige DH-Online-Projekte von TeilnehmerInnen der DHd-Tagung nicht vorkamen, was ich sehr schade finde.

Was kann uns die Karte also sagen?

Die Karte, wie ich sie momentan veröffentlicht habe, ist eine von vielen möglichen Darstellungen von Publikationen der Digital Humanities. Ich hoffe, dass sie sich auf der Konferenz als anregend erweisen wird. Allgemein scheinen sich die Digital Humanities durchaus als zusammenhängendes Feld darzustellen – zum Vergleich mag es hilfreich sein, sich mit ähnlichen Methoden produzierte Karten von Philosophie und Ökonomie anzusehen. Sie trennen sich (zumindest auf Grundlage der verwendeten Daten) nicht klar von den Medien-Studien, von denen vieles ihren Weg in das Sample gefunden haben, und die den oberen Teil der Karte dominieren. Allgemein stehen aus meiner Sicht die Trennungen innerhalb des Samples, weniger an Fachgrenzen. Stattdessen strukturieren eher methodische Paradigmen das Feld. Abgesehen von dem Bereich der Medien-Studien scheinen sich die Beiträge der Konferenzvortragenden über den größten Teil der Karte zu verteilen, was ich als Zeichen für die Breite und Vielfalt der Konferenz werten würde.

Wer hats gemacht?

Die Karte wurde von Maximilian Noichl, von der Universität Wien, erstellt. Wer mehr von meinen Projekten sehen will, kann sich gerne meine Website anschauen.

Ich möchte mich sehr herzlich bei CLARIAH und dem DHd-Verband bedanken, welche mich bei dem Projekt mit einem Reise-Stipendium unterstützt haben.

Weiterhin bedanke ich mich bei Mareike König, die mich bei der Erstellung der Karte von Seiten der DHd2020 geholfen hat, Dario Rodighiero, dem ich die Idee zu einer Konferenz-Karte verdanke, und Daniel Probst und Leland McInnes, die mir beide sehr bei der Verwendung der von ihnen geschriebenen Software geholfen haben.

Verwendete Literatur

Campos, Ricardo, Vítor Mangaravite, Arian Pasquali, Alípio Jorge, Célia Nunes, and Adam Jatowt. 2020. “YAKE! Keyword Extraction from Single Documents Using Multiple Local Features.” Information Sciences 509 (January): 257–89. https://doi.org/10.1016/j.ins.2019.09.013.

Cer, Daniel, Yinfei Yang, Sheng-yi Kong, Nan Hua, Nicole Limtiaco, Rhomni St John, Noah Constant, et al. 2018. “Universal Sentence Encoder.” arXiv:1803.11175 [Cs], April. http://arxiv.org/abs/1803.11175.

McInnes, Leland, John Healy, and Steve Astels. 2017. “Hdbscan: Hierarchical Density Based Clustering.” The Journal of Open Source Software 2 (11): 205. https://doi.org/10.21105/joss.00205.

McInnes, Leland, John Healy, and James Melville. 2018. “UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction.” arXiv:1802.03426 [Cs, Stat], February. http://arxiv.org/abs/1802.03426.

Noichl, Maximilian. 2019. “Modeling the Structure of Recent Philosophy.” Synthese, October. https://doi.org/10.1007/s11229-019-02390-8.

Tang, Muh-Chyun, Yun Jen Cheng, and Kuang Hua Chen. 2017. “A Longitudinal Study of Intellectual Cohesion in Digital Humanities Using Bibliometric Analyses.” Scientometrics 113 (2): 985–1008. https://doi.org/10.1007/s11192-017-2496-6.