[DHd-blog] 3. NFDI4Culture Expert:innen-Forum „Nachhaltige Softwareentwicklung“: Beurteilung von Forschungssoftware

[德语国家数字人文协会DHd-blog网站消息]

verfasst von: Aleksander Marcic, Daniel Jettka (ORCID), Lisa Dieckmann (ORCID), Daniel Röwenstrunk (ORCID), Anne Ferger (ORCID) und Franziska Fritzsche (ORCID)

Das NFDI4Culture Expert:innenforum zum Thema Nachhaltige Softwareentwicklung kam am 27. April 2022 zu seinem dritten virtuellen Treffen zusammen. Das Treffen wird in halbjährlichem Rhythmus organisiert vom Arbeitsbereich „Research Tools and Data Services“ des NFDI4Culture-Konsortiums. Die eingeladenen Expert:innen und NFDI4Culture-Mitarbeiter:innen diskutieren im Rahmen des Forums, wie das Thema der Nachhaltigkeit von Forschungssoftware vorangebracht und weiter etabliert werden kann.

Im Fokus des dritten Treffens stand die Beurteilung von Forschungssoftware, speziell ging es einerseits um die Diskussion von Kriterien für Einreichungen im CKIT Rezensionsjournal und zum anderen um die Frage, ob und in welcher Form die Nachhaltigkeit von Forschungssoftware im Rahmen von und durch NFDI4Culture zertifiziert werden soll.

Kriterien für das CKIT Rezensionsjournal

Zu Beginn gab Anne Klammt mit Ergänzungen von Lisa Dieckmann und Daniel Röwenstrunk (als Initiator:innen und Herausgeber:innen, zusammen mit Maria Effinger und Fabian Offert) eine kurze Einführung zum CKIT Rezensionsjournal und dessen Motivation. Rahmen für die folgenden Diskussionen war die Kontextualisierung des Journals (inkl. der Kriterien für Einreichungen) im Umfeld weiterer NFDI4Culture Initiativen, wie der sich im Aufbau befindenden domänenspezifischen Registry für Forschungssoftware und Datendienste, der Beratungsangebote und der Guidelines zu nachhaltiger Entwicklung von Software.

Dass gerade die Verknüpfung und gegenseitige Ergänzung der verschiedenen Maßnahmen wichtig ist, wurde im Gespräch mehrfach hervorgehoben und vor diesem Hintergrund erörtert, wie sich die verschiedenen Formate konkret unterstützen können. Beispielsweise könnte im Zuge der intensiven Auseinandersetzung mit einer Software im Reviewprozess des CKIT Journals das Anlegen eines Eintrags in die NFDI4Culture Registry (sofern noch nicht vorhanden) vorgeschlagen, empfohlen oder sogar obligatorisch gemacht werden. In der Registry wiederum könnten Reviews in CKIT verlinkt werden. Ein anderer Vorschlag zur Integration zielte darauf ab, Informationen zu einer bestimmten Software aus der Registry in einer Info-Box bei dem entsprechenden Review anzuzeigen. Eine solche wechselseitige Einbindung von Informationen könnte dabei helfen, veraltete Angaben als solche erkennbar werden zu lassen (was in verschiedenen Beiträgen als eine zentrale Herausforderung bestimmt wurde).

Eine Frage nach den Domänen vom CKIT Journal und der Software Registry verdeutlichte, dass der Gegenstandsbereich des Journals im Allgemeinen weiter gefasst ist als der der Registry, insofern darin auch Forschungssoftware, die in die Domäne anderer NFDI-Konsortien (die mitunter jeweils eine eigene Software Registry planen) fällt, besprochen und rezensiert werden soll. Eine Koordination hinsichtlich der verschiedenen domänenspezifischen Registrys zwischen den NFDI-Konsortien ist bereits geplant und wird von der Arbeitsgruppe Research Software der NFDI Sektion Common Infrastructures diskutiert, in welcher Daniel Jettka und Daniel Röwenstrunk Mitglieder sind. Die Integration der Services und Angebote sollte zum einen innerhalb von NFDI4Culture erfolgen, zum anderen aber auch NFDI-weit. Dabei gilt es, das richtige Maß zwischen dem Abbilden bestimmter Eigenheiten einer Domäne und dem Vermeiden von Parallelentwicklungen zu finden.

Nach diesen Überlegungen zur Position und zur Einbindung des CKIT Journals im Kontext von NFDI4Culture und der NFDI allgemein, wurde der Reviewprozess selbst diskutiert, der auch ein Peer-Review des Gutachtens vorsieht. Für weitere Regulierungen des Prozesses will man sich an den Erfahrungen mit den ersten Reviews orientieren. Ausführlich wurde die Frage eruiert, wie mit möglichen Befangenheiten bei der Beurteilung von Forschungssoftware umzugehen sei bzw. wie solche Befangenheiten zu bestimmen und zu bewerten sind. Denkbar ist z. B. eine Regelung, wer unter welchen Bedingungen Reviews für eine Software schreiben darf; damit soll verhindert werden, dass fehlende Distanz zum Projekt (und mögliche Voreingenommenheit) zu weniger kritischen Reviews führt. Als problematisch wurde herausgestellt, bei einer relativ kleinen Community (und großer Vielfalt verwendeter Technologien und Methoden) Befangenheitskriterien festzulegen, ohne die Menge der Kandidat:innen so weit einzuschränken, dass Reviews hierdurch verhindert werden. Es wurde darauf hingewiesen, dass sich die Befangenheitsfrage auch bei der Beurteilung von Artikeln/Büchern stellt, die Problematik sich aber insofern unterscheidet, als bei der (iterativen) Entwicklung von Software über viele Jahre, Versionen und Komponenten hinweg, eine sehr große Anzahl von Personen direkt beteiligt sein kann. Außerdem besteht das Dilemma, dass den besten Einblick in die Implementation einer Software diejenigen Personen haben, die in die Entwicklung involviert waren und dass der Aufwand technische Details nachzuvollziehen für jemanden, der in keiner Weise beteiligt gewesen ist, unverhältnismäßig größer sein muss.

Die Beurteilung von Forschungssoftware stellt auch insofern besondere Anforderungen, da sowohl fachlich als auch technologisch hochspezifische Kompetenzen erforderlich sind. Mit Rücksicht auf diesen Sachverhalt ist bereits vorgesehen, dass im CKIT Journal „Tandem“-Reviews ermöglicht werden sollen, bei denen sowohl Fachwissenschaftler:innen als auch Research Software Engineers zu einem Review beitragen. Durch den Hinweis, dass Rezensionen von Forschungssoftware noch nicht sehr verbreitet und außerdem noch nicht in das Anreizsystem der Wissenschaften integriert sind, ging die Diskussion dazu über Möglichkeiten auszuloten, mit denen CKIT einen Beitrag zu einem allgemeineren Kulturwandel leisten kann. Wenn man auch nicht direkt Einfluss darauf nehmen kann, ob Betreuer:innen von Dissertationen Reviews als relevante Veröffentlichung werten, so stellt das Journal als Publikationsplattform doch den dafür notwendigen Rahmen bereit. Daraus ergibt sich, dass man zum aktuellen Zeitpunkt die Anerkennung solcher Rezensionen als wissenschaftliche Publikation vor allem dadurch fördern kann, dass man für ein hohes Niveau sorgt; zum einen durch die Kriterien für Einreichungen, des Weiteren aber auch durch DOI-Vergabe, Peer-to-Peer-Verfahren und Zitation von Reviews.

Bei der anschließenden Abstimmung wurden die vorgeschlagenen Kriterien für Einreichungen im CKIT Rezensionsjournal ohne Gegenstimmen bestätigt.

Zertifizierung von Forschungssoftware

Im weiteren Verlauf des Treffens ging es um Möglichkeiten der Zertifizierung von Forschungssoftware und deren Nachhaltigkeit, also konkret um die Frage, ob und in welcher Form NFDI4Culture wissenschaftliche Software evaluieren und zertifizieren sollte.

Zunächst stellten Aleksander Marcic und Daniel Jettka in einem kurzen Vortrag (Jettka/Marcic, 2022) verschiedene existierende Ansätze für Softwarezertifikate und weitergehende Überlegungen zu Softwarezertifizierung vor. Die hierbei berücksichtigten Aspekte umfassten u.a. Nutzer:innenperspektiven (Stakeholder), Kriterien zur Beurteilung, Verantwortlichkeiten für die Durchführung und Organisation von Zertifizierungsprozessen sowie weitere zeitliche und organisatorische Zusammenhänge, wie die institutionelle Verankerung (Einzelpersonen, Projekte, Communities) einer Zertifizierung. Auch eine generelle Bewusstmachung, was Zertifikate überhaupt sind und zu welchem Zweck sie eingesetzt werden, wurde forciert. In diesem Zusammenhang wurde auf eine generelle Definition für Zertifizierung nach ISO/IEC 17000:2020 verwiesen:

„Maßnahme durch einen unparteiischen Dritten, die aufzeigt, dass ein angemessenes Vertrauen besteht, dass ein ordnungsgemäß bezeichnetes Erzeugnis, Verfahren oder eine ordnungsgemäß bezeichnete Dienstleistung in Übereinstimmung mit einer bestimmten Norm oder einem bestimmten anderen normativen Dokument ist.“ 

Naheliegende Bezüge zu bereits in der Umsetzung befindlichen Maßnahmen wie dem CKIT Journal, den NFDI4Culture Guidelines zu nachhaltiger Softwareentwicklung und der NFDI4Culture Registry fanden ebenfalls Beachtung, da es dort durchaus Überschneidungen hinsichtlich der verfolgten Ziele und zugrundeliegenden Überlegungen gibt. So beinhalten sie bspw. jeweils für sich bestimmte Grundannahmen, unter welchen Bedingungen Forschungssoftware als mehr oder weniger nachhaltig beurteilt werden kann.

Durch die Verortung verschiedener Zertifizierungsansätze und konkreter Zertifikate auf einer Skala zwischen den zwei Polen „implizite Beurteilung“ und „normierte Zertifizierung“ wurde gezeigt, dass verschiedene Möglichkeiten der Explizierung von Beurteilung bzw. Zertifizierung denkbar sind und in der Praxis angewendet werden. So können Beurteilungen, die durch die Angabe obligatorischer Metadaten vorgenommen werden, bspw. als sehr implizit angesehen werden, während Zertifizierungen z. B. nach Vorgaben von DIN- oder ISO-Normen (etwa DIN, 2014 oder Normenreihe 250xx) oder des Blauen Engels als sehr explizit gewertet werden können. Als vielversprechender modularer Ansatz wurde das Konzept von Badges, deren Verwendung z. B. in GitHub und GitLab gängige Praxis ist, näher betrachtet. Exemplarisch wurde das OpenSSF Best Practices Badge Program aufgeführt, das es Free/Libre and Open Source Software (FLOSS) ermöglicht zu demonstrieren, dass sie Best Practices verfolgt und anwendet.

Die anschließende Diskussion zielte darauf ab, zu einer gemeinsamen Einschätzung zu finden, wie Zertifizierungsprozesse und -mechanismen in NFDI4Culture ausgestaltet werden können und sollten. Hierbei wurde deutlich, dass umfassende Zertifizierungsprozesse (in Anlehnung an DIN und ISO) als zu aufwendig und nicht praktikabel angesehen werden. Die NFDI und viele der einzelnen Bausteine der Konsortien (wie die NFDI4Culture Registry und Guidelines, aber z. B. auch das CKIT Rezensionsjournal) befinden sich derzeit noch im Aufbau und es ist aktuell nicht absehbar, von welcher Institution ein eventueller Zertifizierungsprozess langfristig gepflegt und betreut werden könnte. Zudem bedeutet das Durchlaufen eines ausführlichen formalen Zertifizierungsprozesses selbst erheblichen Ressourcenaufwand, der unter den aktuellen Förder- und Finanzierungsbedingungen für die Entwicklung von Forschungssoftware noch nicht gerechtfertigt werden kann.

Vor diesem Hintergrund kam das Expert:innenforum zu der Empfehlung, aktuell keinen formalen Zertifizierungsprozess – im Sinne umfassender, normierter, Review-gestützter Zertifizierung – für Forschungssoftware in NFDI4Culture umzusetzen. Stattdessen sollte der Fokus auf die Umsetzung der bereits geplanten und in der Umsetzung befindlichen Komponenten gelegt werden (z. B. Registry, Guidelines, Beratung). Diese ermöglichen und unterstützen die Beurteilung von Forschungssoftware bereits auf unterschiedliche Weise.  Als Kandidat für ein geeignetes, flexibles Mittel zur übergreifenden Darstellung von Beurteilungen einerseits und modular aufgebauten Umsetzung andererseits wurde das bereits erwähnte Konzept von Badges festgehalten.

Damit ergeben sich eine Reihe von Fragen, denen im Anschluss an das Treffen nachgegangen werden soll:

Welche existierenden Badges sind von Interesse und wie stehen sie zu den Informationsquellen und Nachhaltigkeitskriterien in NFDI4Culture?Gibt es Kooperations- oder Beteiligungsperspektiven mit Blick auf bereits existierende Initiativen?In welcher Form können und sollen existierende Badges einbezogen werden? Gibt es Entwicklungsbedarf für eigene Badges?Wie können Badges über Systeme/Komponenten hinweg genutzt werden bzw. wie erfolgt die Verbindung von Systemen/Komponenten mit Hilfe von Badges?Welche Granularität sollten Badges abbilden – Low-level (Badges für einzelne Kriterien), High-level (Badge für Gesamtnachhaltigkeit) oder beides?Referenzen

DIN (2014). ISO/IEC 25000 System und Software-Engineering – Qualitätskriterien und Bewertung von System- und Softwareprodukten (SQuaRE) – Leitfaden für SQuaRE. Online: https://www.din.de/de/mitwirken/normenausschuesse/nia/veroeffentlichungen/wdc-beuth:din21:204260933

Jettka, Daniel & Marcic, Aleksander (2022). Beurteilung von Forschungssoftware in NFDI4Culture. Zenodo. https://doi.org/10.5281/zenodo.6536372